Agent skill
gemini-image-skill
Install this agent skill to your Project
npx add-skill https://github.com/jykim/claude-obsidian-skills/tree/main/gemini-image-skill
SKILL.md
Gemini Image Generation Skill
Google Gemini API를 사용한 이미지 생성 스킬. 슬라이드 및 문서용 이미지를 생성합니다.
Purpose
Gemini 2.0 Flash 또는 Imagen 3 모델을 사용하여 문서/슬라이드에 필요한 이미지를 생성합니다. 해상도와 종횡비 선택을 지원하며, 사용자 승인 워크플로우를 포함합니다.
When to Use This Skill
- "Gemini로 이미지 생성해줘"
- "슬라이드용 그림을 Gemini API로 만들어줘"
- "프레젠테이션에 넣을 일러스트 생성"
- 무료 티어 이미지 생성이 필요할 때 (Gemini 2.0 Flash)
- 특정 종횡비가 필요할 때 (16:9, 9:16 등)
Environment Setup
# 1. API 키 설정
export GEMINI_API_KEY="your-api-key"
# 2. 의존성 설치
pip install google-genai Pillow
Workflow
Phase 1: Analysis
- 대상 문서/슬라이드 읽기
- 이미지가 필요한 섹션/슬라이드 식별
- 각 섹션의 핵심 컨셉 추출
Phase 2: Style & Configuration Selection
스타일 옵션:
| # | 스타일 | 설명 | 적합한 용도 |
|---|---|---|---|
| 1 | Infographic (기본) | 레이블/텍스트 포함, dense | 문서, 발표 |
| 2 | Technical Diagram | 깔끔한 선, 플로우차트 | 기술 문서 |
| 3 | Vibrant Modern Cartoon | 밝은 그라데이션, 플랫 | 비즈니스, 교육 |
| 4 | Professional Minimalist | 절제된 색상, 기하학 | 공식 발표 |
| 5 | Bold Graphic | 고대비, 팝아트 | 마케팅 |
| 6 | Custom | 사용자 지정 | 자유 |
기본값: Infographic 스타일 (텍스트/레이블 포함)
모델 선택:
| 모델 | 비용 | 특징 |
|---|---|---|
| gemini-3-pro-image-preview | $0.06/장 | 기본값, 한글 완벽, 최고 품질 |
| gemini-2.5-flash-image | $0.039/장 | 종횡비 지원, 빠름 |
| gemini-2.0-flash-exp | 무료 | 빠름, 반복용 (한글 깨짐) |
| imagen-4.0-generate-001 | $0.03/장 | Imagen 4.0, 고품질 |
종횡비 옵션: 1:1, 9:16, 16:9, 3:4, 4:3, 3:2, 2:3, 21:9
슬라이드용:
--aspect-ratio 16:9(기본 모델이 gemini-3-pro-image-preview)
Phase 3: Image Generation
python3 "generate_gemini_image.py" \
"[상세 설명]" \
--output-path "[경로]" \
--style "[스타일]" \
--model "[모델]" \
--aspect-ratio "[종횡비]" \
--auto-approve
Phase 4: Integration
슬라이드:

문서:

Style Descriptions for Script
| 스타일 | --style 값 |
|---|---|
| Infographic (기본) | "clean infographic with labeled sections, icons, and visual hierarchy" |
| Technical Diagram | "technical diagram with flowchart elements, arrows, and labeled components" |
| Vibrant Modern Cartoon | "vibrant modern minimalist cartoon illustration" |
| Professional Minimalist | "professional minimalist illustration with muted colors and clean geometric shapes" |
| Bold Graphic | "bold graphic illustration with high contrast colors and strong geometric shapes" |
프롬프트 작성 팁:
- ✅ "4단계 프로세스를 보여주는 인포그래픽, 각 단계에 아이콘과 레이블"
- ✅ "비교 차트: A vs B, 장단점 표시"
- ❌ "두 사람이 연결된 추상적 일러스트" (의미 전달 어려움)
File Naming Convention
슬라이드: [slide-topic-slug].png
- 예:
ai-changes-game.png,team-collaboration.png - 위치: 슬라이드와 같은
_files_/디렉토리
문서: [section-number]-[topic-slug].png
- 예:
01-introduction.png,03-methodology.png
Cost Estimation
생성 전 비용 안내:
- Gemini 2.0 Flash: 무료
- Imagen 3: $0.03/장
- 예: "10장 생성 시 $0.30 (Imagen 3 기준)"
Error Handling
| 에러 | 해결 방법 |
|---|---|
| API 키 없음 | GEMINI_API_KEY 환경변수 설정 |
| 안전 필터 차단 | 프롬프트 수정 후 재시도 |
| 모델 미지원 | 사용 가능한 모델로 변경 |
| 네트워크 오류 | 재시도 |
Example Invocation
기본 사용
python3 generate_gemini_image.py "AI 지식 노동자가 책상에서 작업하는 모습" \
--output-path "_files_/knowledge-worker.png"
16:9 슬라이드용 (권장)
python3 generate_gemini_image.py "팀 협업 미팅" \
--output-path "_files_/team-meeting.png" \
--model "gemini-2.5-flash-image" \
--aspect-ratio "16:9" \
--style "professional minimalist illustration"
고품질 이미지 (Imagen 4.0)
python3 generate_gemini_image.py "제품 쇼케이스" \
--output-path "_files_/product.png" \
--model "imagen-4.0-generate-001"
배치 처리 (자동 승인)
python3 generate_gemini_image.py "혁신 컨셉" \
--output-path "_files_/innovation.png" \
--auto-approve
Best Practices
- 인포그래픽 스타일 선호: 텍스트/레이블 포함된 dense한 정보 시각화
- 스타일 일관성: 같은 문서/슬라이드 내에서 동일 스타일 유지
- 상세한 프롬프트: 구체적인 시각적 메타포와 컨셉 포함
- 배치 생성: 모든 이미지 먼저 생성 후 일괄 삽입
- 비용 확인: 생성 전 예상 비용 확인
⚠️ 피해야 할 것: 추상적인 일러스트 (예: 사람들이 연결된 모호한 그림) ✅ 선호: 다이어그램, 플로우차트, 레이블이 있는 인포그래픽
Comparison with DALL-E Skill
| 기능 | DALL-E | Gemini |
|---|---|---|
| 무료 티어 | X | O (Flash) |
| 종횡비 | 정사각형만 | 5가지 옵션 |
| 출력 포맷 | JPEG | PNG/JPEG |
| 비용 | $0.04 | $0~$0.03 |
선택 기준:
- DALL-E: 검증된 품질, 기존 워크플로우
- Gemini: 무료 옵션 필요, 다양한 종횡비 필요
Recommended Agent Skills
Expand your agent's capabilities with these related and highly-rated skills.
obsidian-cli
Interact with Obsidian using the official CLI to read, search, create, and manage notes, daily notes, tasks, properties, and more. Use when the user wants to query or manipulate vault content via the obsidian command.
obsidian-mermaid
Create Obsidian-compatible Mermaid diagrams. Prefer square layouts (TB + subgraph LR), avoid markdown in labels. Use when creating flowcharts, sequence diagrams, or any Mermaid diagrams in markdown files.
obsidian-yaml-frontmatter
Manage YAML frontmatter properties with consistent formatting, property names, and value types. Use when creating or updating frontmatter in markdown files.
markdown-slides
Create presentation slides in Markdown format (Deckset/Marp compatible). Use when user requests to create slides, presentations, or convert documents to slide format. Handles image positioning, speaker notes, and proper formatting.
markdown-video
Convert Deckset-format markdown slides with speaker notes to presentation video with TTS narration. Use when user requests to create video from slides, generate presentation video, or convert slides to MP4 format.
youtube-transcript-summarizer
Extract YouTube video transcripts and generate AI-powered summaries in any language. Converts videos to structured markdown documents with summaries, key points, and timelines.
Didn't find tool you were looking for?