Document Illustrator Skill

基于 AI 智能分析的文档配图生成工具。无需依赖特定格式，自动理解内容并生成专业配图。

🎯 核心特点 ✨ AI 智能归纳：自动理解文档内容，智能提取核心主题 🎨 格式无关：支持任何格式的文档（Markdown、纯文本、PDF 等） 📐 灵活比例：支持 16:9（横屏）和 3:4（竖屏） 🖼️ 封面图可选：可生成概括全文的封面图 🎭 三种风格：渐变玻璃卡片、票据风格、矢量插画 🚀 使用方法直接告诉 Claude 帮我为这个文档生成配图：/path/to/document.md

或者：

我想为这篇文章生成一些配图

📝 完整工作流程第 1 步：Claude 读取和理解文档

当你请求生成配图时，Claude 会：

使用 Read 工具读取完整文档 AI 分析理解文档内容和结构识别核心主题和要点

无需担心文档格式：

✅ 标准 Markdown（##、###） ✅ 分隔线格式（======、------） ✅ 纯文本段落 ✅ 任何其他格式第 2 步：配置选项（3 个问题）

Claude 会询问你的偏好：

问题 1：图片比例请选择图片比例： 1. 16:9 (横屏) - 适合演示文稿、幻灯片、横屏展示 2. 3:4 (竖屏) - 适合社交媒体、手机查看、海报

请选择 (1/2):

问题 2：封面图是否生成封面图？封面图将概括文档的所有核心信息，作为系列配图的引导。

是 - 生成封面图 + 内容配图
否 - 仅生成内容配图

请选择 (1/2):

问题 3：内容配图数量期望生成多少张内容配图？建议范围：3-10 张根据文档内容，推荐生成 6 张

请输入数字：

第 3 步：Claude 归纳内容并展示

根据你指定的数量，Claude 会智能归纳文档，然后展示给你确认：

📋 内容归纳完成

📄 封面图内容：（如果选择生成） "AI 编程工具概念演化：从 Rules 到 Skills" - 核心概念：静态上下文 vs 动态上下文 - 演化路径：Rules → Commands → MCP → Modes → Skills - 最佳实践：简化为两个核心工具

📚 内容配图（共 6 张）：

Rules 的诞生与演化包含：早期模型幻觉问题、rules 文件的作用、静态上下文概念
Commands 和工作流打包包含：固定工作流的出现、slash command、团队分享
MCP Servers 带来动态能力包含：第三方工具集成、OAuth 认证、上下文膨胀问题
Modes 和 Subagents 的登场包含：人设提示词、系统提示词修改、可靠性设计、Hooks 确定性
Skills 统一动态上下文包含：Skills 概念、动态加载、编程工具优化
最佳实践与未来展望包含：Rules 使用建议、Skills 探索、核心理念总结

✓ 所有内容已覆盖，无遗漏

确认开始生成配图吗？(Y/N)

关键保证：

✅ 内容完整：所有重要信息都会被归入某张图片 ✅ 逻辑清晰：按照内容的自然逻辑分段 ✅ 用户可控：展示归纳结果，等待用户确认第 4 步：生成配图

确认后，Claude 调用 Python 脚本生成图片：

🖼️ 开始生成配图...

正在生成封面图... ✓ 已保存: /path/to/document/images/cover.png

正在生成第 1/6 张... 标题: Rules 的诞生与演化 ✓ 已保存: /path/to/document/images/illustration-01.png

正在生成第 2/6 张... 标题: Commands 和工作流打包 ✓ 已保存: /path/to/document/images/illustration-02.png

...

✨ 完成！共生成 7 张配图（1 张封面 + 6 张内容）

第 5 步：输出结果

输出位置：文档所在目录下的 images/ 文件夹

/path/to/your/document/ └── images/ ├── cover.png # 封面图（如果选择生成） ├── illustration-01.png # 第 1 张内容配图 ├── illustration-02.png # 第 2 张内容配图 ├── illustration-03.png ├── illustration-04.png ├── illustration-05.png └── illustration-06.png

🎨 三种风格说明 1. 渐变玻璃卡片风格 (gradient-glass)

特点：

Apple Keynote 风格的极简主义玻璃拟态（Glassmorphism）设计深邃虚空黑或纯净陶瓷白基底流动的极光渐变色 3D 玻璃物体和发光效果

适用场景：

科技产品介绍数据分析报告未来趋势展望产品功能演示 2. 票据风格 (ticket)

特点：

数字极简票券设计高度对比的黑白配色类似登机牌、门票的结构精确的几何分区中英混排，多向文字布局

适用场景：

信息图表统计数据展示时间线和流程图要点总结 3. 矢量插画风格 (vector-illustration)

特点：

扁平化矢量插画统一粗细的黑色轮廓线复古柔和的配色几何化处理横向全景式构图

适用场景：

故事叙述概念解释教育内容品牌宣传 💡 使用示例示例 1：完整流程用户: 帮我为 ~/blog/ai-tools.md 生成配图，用票据风格

Claude: 好的，让我先读取这个文档... [读取文档，分析内容]

    检测到文档长度约 3000 字，内容涉及 AI 工具演化。

    请选择图片比例：
    1. 16:9 (横屏)
    2. 3:4 (竖屏)

用户: 1

Claude: 是否生成封面图？ 1. 是 2. 否

用户: 是

Claude: 期望生成多少张内容配图？建议范围：3-10 张根据文档内容，推荐生成 5 张

用户: 5

Claude: [展示归纳的 5 个主题] 确认开始生成配图吗？

用户: Y

Claude: [调用 Python 脚本生成 6 张图片] ✨ 完成！配图已保存到 ~/blog/images/

示例 2：纯文本文档用户: 为这个纯文本笔记生成配图

Claude: [读取笔记，即使没有任何标题也能理解内容] [智能识别 3 个核心主题] [询问配置、展示归纳、生成配图]

示例 3：自定义数量用户: 我想要 8 张图，竖屏的，不要封面

Claude: 好的，16:9 竖屏，不生成封面，8 张内容配图。 [将文档归纳为 8 个主题] [展示归纳结果，用户确认后生成]

🔧 技术细节图片规格比例分辨率适用场景 16:9 2560x1440 (2K) 演示文稿、横屏展示 3:4 1920x2560 社交媒体、竖屏查看

可选 4K 分辨率：

16:9 → 3840x2160 3:4 → 2880x3840 API 调用模型：Gemini 2.0 Flash Image Preview (Nano Banana Pro) 成本：每张图片 = 1 次 API 调用速度：平均 10-20 秒/张环境要求

必需：

pip install google-genai pillow python-dotenv

API 密钥：

在 ~/.claude/skills/document-illustrator/.env 中配置或设置环境变量 GEMINI_API_KEY 📊 内容归纳原则

Claude 归纳内容时遵循以下原则：

完整性优先 ✅ 所有重要信息都会被包含 ✅ 不会遗漏关键概念 ✅ 保留原文的核心观点
逻辑清晰按照内容的自然逻辑分段相关内容归为一组保持叙事的连贯性
平衡分配每张图片包含相似的信息量避免某张过于拥挤或空洞根据内容重要性调整
用户可控展示归纳结果给用户确认用户可以要求调整确认后才开始生成 🐛 故障排除问题 1：API 密钥错误

错误信息：

Error: Invalid API key

解决方案：

检查 .env 文件中的 GEMINI_API_KEY 确保 API 密钥有效且未过期获取新密钥：https://makersuite.google.com/app/apikey 问题 2：内容归纳不理想

问题：归纳的主题不符合预期

解决方案：

在归纳展示阶段，告诉 Claude 你的期望 Claude 会重新归纳并调整确认满意后再开始生成问题 3：图片生成失败

可能原因：

网络连接问题 API 配额用尽内容过长超过限制

解决方案：

检查网络连接检查 API 配额尝试增加图片数量（分散内容） 💰 成本估算图片数量 API 调用次数预估成本无封面 + 3 张 3 次低有封面 + 5 张 6 次中有封面 + 10 张 11 次较高

建议：

短文档（<1000字）：3-5 张中等文档（1000-3000字）：5-7 张长文档（>3000字）：8-10 张 📚 最佳实践 1. 合理选择图片数量

太少：

每张图片信息量过大不容易理解和记忆

太多：

内容分散增加成本和生成时间

安装