Agent skill

multimodal-gen

多模态内容生成（图片、视频）。当用户需要生成图片、生成图像、生成视频、AI绘画、AI作图、画一张图、做个视频、文生图、文生视频时使用此技能。自动调用 multimodal-agent 进行生成。

View SKILL.md on GitHub Repository

Stars 27

Forks 4

Install this agent skill to your Project

npx add-skill https://github.com/aAAaqwq/AGI-Super-Team/tree/master/skills/multimodal-gen

SKILL.md

多模态内容生成

当用户需要生成图片或视频时，自动调用 multimodal-agent 进行处理。

触发场景

图片生成

"生成一张图片"
"画一张..."
"AI 作图"
"文生图"
"帮我生成图像"
"用 flux/imagen/dalle 生成"

视频生成

"生成一个视频"
"做个视频"
"文生视频"
"用 veo/sora/kling 生成视频"

使用方式

自动调用 multimodal-agent

python

sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: {用户描述}, 使用 {模型} 模型"
)

可用模型

图片生成

别名	模型	特点
`flux`	flux-pro-max	高质量，推荐
`imagen`	google/imagen-4-ultra	Google 最强
`dalle`	gpt-image-1	DALL-E 3
`doubao`	doubao-seedream-4-5	中式美学
`klingimg`	kling-image	可灵生图

视频生成

别名	模型	特点
`veopro`	veo3.1-pro	Google 专业版
`veo4k`	veo3.1-pro-4k	4K 高清
`sora`	sora-2-pro-all	OpenAI Sora
`kling`	kling-video	可灵视频

执行流程

用户请求 "生成一张猫咪图片"
    │
    ▼
┌─────────────────────────────────────┐
│ 1. 识别为图片生成请求              │
│ 2. 提取描述: "猫咪"                │
│ 3. 选择默认模型: flux-pro-max      │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ sessions_spawn(                     │
│   agentId="multimodal-agent",       │
│   task="生成图片: 一只可爱的猫咪,   │
│         使用 flux 模型"             │
│ )                                   │
└─────────────────────────────────────┘
    │
    ▼
multimodal-agent 执行生成并返回结果

示例

生成图片

用户: 帮我生成一张日落海滩的图片

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 日落时分的海滩，金色阳光洒在海面上，使用 flux 模型"
)

生成视频

用户: 用 sora 生成一个猫咪玩耍的视频

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成视频: 一只可爱的猫咪在草地上玩耍，使用 sora 模型"
)

指定模型

用户: 用 doubao 画一张中国风山水画

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 中国风山水画，云雾缭绕的山峰，使用 doubao 模型"
)

模型选择建议

场景	推荐模型
通用高质量	`flux`
中式风格	`doubao`
写实照片	`imagen`
创意艺术	`dalle`
高清视频	`veo4k`
电影级视频	`sora`
快速视频	`kling`

注意事项

提示词优化: multimodal-agent 会自动优化用户的描述
模型选择: 如果用户没指定，默认使用 flux (图片) 或 veopro (视频)
异步执行: 视频生成可能需要较长时间，会在后台执行
结果返回: 生成完成后会自动发送结果给用户

Maintainer

aAAaqwq Core maintainer

Source details

Full Name: aAAaqwq/AGI-Super-Team
Branch: master
Path in repo: skills/multimodal-gen

Featured Tools

Join Our Newsletter

Stay updated with the latest AI tools, news, and offers by subscribing to our weekly newsletter.

Recommended Agent Skills

Expand your agent's capabilities with these related and highly-rated skills.

aAAaqwq/AGI-Super-Team

model-fallback

模型自动降级与故障切换。当主模型请求失败、超时、达到速率限制或配额耗尽时，自动切换到备用模型，确保服务连续性。支持多供应商、多优先级的智能模型选择，提供健康监控、自动重试和错误恢复机制。

27 4

Explore

aAAaqwq/AGI-Super-Team

auth-manager

网页登录态管理。使用 fast-browser-use (fbu) 管理各平台登录状态，定期检查可用性，新平台授权时自动保存 profile。

27 4

Explore

aAAaqwq/AGI-Super-Team

github-automation

自动化 GitHub 操作。当用户需要推送代码到 GitHub、管理仓库、创建 PR、处理 Issue、git push 失败时使用此技能。优先使用 mcporter call github.push_files 而不是 git push。

27 4

Explore

aAAaqwq/AGI-Super-Team

geo-agent

Automated GEO (Generative Engine Optimization) agent for boosting brand visibility in AI search engines. Manages keywords, researches real competitors, generates comparison articles with target brand prominence, auto-publishes to Chinese content platforms (Zhihu/Baijiahao/Sohu/Toutiao), monitors AI search engine indexing, and reports results. Use when: user wants GEO automation, AI search optimization, multi-platform article publishing, or brand visibility in AI answers.

27 4

Explore

aAAaqwq/AGI-Super-Team

token-reporter

每日自动统计 OpenClaw 实例 Token 消耗和工作产出，上报到飞书多维表格。扫描 JSONL 日志按模型聚合 token，收集各 agent 当日工作摘要，写入飞书 Bitable。触发：'token报告'、'token report'、'日报'、'每日汇报'、'飞书上报'。

27 4

Explore

aAAaqwq/AGI-Super-Team

feishu-doc-optimizer

飞书云文档内容优化与格式美化。当用户需要优化飞书文档的排版、结构、格式、美观度时使用此技能。支持：(1) 读取飞书文档内容 (2) 优化文档结构和层次 (3) 清空并替换文档内容 (4) 通过浏览器自动化编辑文档。触发词：优化飞书文档、美化文档、整理文档格式、文档排版。

27 4

Explore

Didn't find tool you were looking for?

Search AI Tools

Install this agent skill to your Project

SKILL.md

多模态内容生成

触发场景

图片生成

视频生成

使用方式

自动调用 multimodal-agent

可用模型

图片生成

视频生成

执行流程

示例

生成图片

生成视频

指定模型

模型选择建议

注意事项

Recommended Agent Skills

model-fallback

auth-manager

github-automation

geo-agent

token-reporter

feishu-doc-optimizer