Agent skill
multimodal-gen
多模态内容生成(图片、视频)。当用户需要生成图片、生成图像、生成视频、AI绘画、AI作图、画一张图、做个视频、文生图、文生视频时使用此技能。自动调用 multimodal-agent 进行生成。
Install this agent skill to your Project
npx add-skill https://github.com/aAAaqwq/AGI-Super-Team/tree/master/skills/multimodal-gen
SKILL.md
多模态内容生成
当用户需要生成图片或视频时,自动调用 multimodal-agent 进行处理。
触发场景
图片生成
- "生成一张图片"
- "画一张..."
- "AI 作图"
- "文生图"
- "帮我生成图像"
- "用 flux/imagen/dalle 生成"
视频生成
- "生成一个视频"
- "做个视频"
- "文生视频"
- "用 veo/sora/kling 生成视频"
使用方式
自动调用 multimodal-agent
sessions_spawn(
agentId="multimodal-agent",
task="生成图片: {用户描述}, 使用 {模型} 模型"
)
可用模型
图片生成
| 别名 | 模型 | 特点 |
|---|---|---|
flux |
flux-pro-max | 高质量,推荐 |
imagen |
google/imagen-4-ultra | Google 最强 |
dalle |
gpt-image-1 | DALL-E 3 |
doubao |
doubao-seedream-4-5 | 中式美学 |
klingimg |
kling-image | 可灵生图 |
视频生成
| 别名 | 模型 | 特点 |
|---|---|---|
veopro |
veo3.1-pro | Google 专业版 |
veo4k |
veo3.1-pro-4k | 4K 高清 |
sora |
sora-2-pro-all | OpenAI Sora |
kling |
kling-video | 可灵视频 |
执行流程
用户请求 "生成一张猫咪图片"
│
▼
┌─────────────────────────────────────┐
│ 1. 识别为图片生成请求 │
│ 2. 提取描述: "猫咪" │
│ 3. 选择默认模型: flux-pro-max │
└─────────────────────────────────────┘
│
▼
┌─────────────────────────────────────┐
│ sessions_spawn( │
│ agentId="multimodal-agent", │
│ task="生成图片: 一只可爱的猫咪, │
│ 使用 flux 模型" │
│ ) │
└─────────────────────────────────────┘
│
▼
multimodal-agent 执行生成并返回结果
示例
生成图片
用户: 帮我生成一张日落海滩的图片
执行:
sessions_spawn(
agentId="multimodal-agent",
task="生成图片: 日落时分的海滩,金色阳光洒在海面上,使用 flux 模型"
)
生成视频
用户: 用 sora 生成一个猫咪玩耍的视频
执行:
sessions_spawn(
agentId="multimodal-agent",
task="生成视频: 一只可爱的猫咪在草地上玩耍,使用 sora 模型"
)
指定模型
用户: 用 doubao 画一张中国风山水画
执行:
sessions_spawn(
agentId="multimodal-agent",
task="生成图片: 中国风山水画,云雾缭绕的山峰,使用 doubao 模型"
)
模型选择建议
| 场景 | 推荐模型 |
|---|---|
| 通用高质量 | flux |
| 中式风格 | doubao |
| 写实照片 | imagen |
| 创意艺术 | dalle |
| 高清视频 | veo4k |
| 电影级视频 | sora |
| 快速视频 | kling |
注意事项
- 提示词优化: multimodal-agent 会自动优化用户的描述
- 模型选择: 如果用户没指定,默认使用 flux (图片) 或 veopro (视频)
- 异步执行: 视频生成可能需要较长时间,会在后台执行
- 结果返回: 生成完成后会自动发送结果给用户
Recommended Agent Skills
Expand your agent's capabilities with these related and highly-rated skills.
model-fallback
模型自动降级与故障切换。当主模型请求失败、超时、达到速率限制或配额耗尽时,自动切换到备用模型,确保服务连续性。支持多供应商、多优先级的智能模型选择,提供健康监控、自动重试和错误恢复机制。
auth-manager
网页登录态管理。使用 fast-browser-use (fbu) 管理各平台登录状态,定期检查可用性,新平台授权时自动保存 profile。
github-automation
自动化 GitHub 操作。当用户需要推送代码到 GitHub、管理仓库、创建 PR、处理 Issue、git push 失败时使用此技能。优先使用 mcporter call github.push_files 而不是 git push。
geo-agent
Automated GEO (Generative Engine Optimization) agent for boosting brand visibility in AI search engines. Manages keywords, researches real competitors, generates comparison articles with target brand prominence, auto-publishes to Chinese content platforms (Zhihu/Baijiahao/Sohu/Toutiao), monitors AI search engine indexing, and reports results. Use when: user wants GEO automation, AI search optimization, multi-platform article publishing, or brand visibility in AI answers.
token-reporter
每日自动统计 OpenClaw 实例 Token 消耗和工作产出,上报到飞书多维表格。扫描 JSONL 日志按模型聚合 token,收集各 agent 当日工作摘要,写入飞书 Bitable。触发:'token报告'、'token report'、'日报'、'每日汇报'、'飞书上报'。
feishu-doc-optimizer
飞书云文档内容优化与格式美化。当用户需要优化飞书文档的排版、结构、格式、美观度时使用此技能。支持:(1) 读取飞书文档内容 (2) 优化文档结构和层次 (3) 清空并替换文档内容 (4) 通过浏览器自动化编辑文档。触发词:优化飞书文档、美化文档、整理文档格式、文档排版。
Didn't find tool you were looking for?