PDF Vision Reader 図表が多い PDF を画像化して、Claude の vision 機能で内容を解析・Markdown 化するスキルです。 クイックスタート 基本的な使い方
1. PDF を画像に変換
wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/file.pdf"
2. 各画像を Read ツールで読み込んで解析
3. Markdown 形式でまとめる
前提条件 必要なパッケージ:
Python パッケージ
wsl pip3 install pdf2image Pillow
システムパッケージ (poppler)
wsl sudo apt-get update wsl sudo apt-get install -y poppler-utils ワークフロー ステップ1: PDF を画像に変換 wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/document.pdf" これにより document_pages/ ディレクトリが作成され、各ページが画像として保存されます: page_001.png page_002.png page_003.png ... ステップ2: 各画像を解析 Read ツールで各画像を順番に読み込み、内容を解析します。 解析時の指示例: この画像の内容を詳しく説明してください: - タイトルや見出し - 本文テキスト - 図表の説明 - グラフやチャートのデータ - 重要なポイント ステップ3: Markdown に統合 各ページの解析結果を統合して、一つの Markdown ファイルを作成します。 使用例 例1: プレゼンテーション資料を Markdown 化 User: "presentation.pdf を vision で解析して Markdown 化して" Assistant: 1. scripts/pdf_to_images.py で PDF を画像に変換 2. 各画像を Read ツールで読み込み 3. 各ページの内容を解析(タイトル、図表、テキスト) 4. 全ページの解析結果を統合 5. Write ツールで Markdown ファイルに保存 例2: 特定のページのみ解析 User: "document.pdf の 5-10 ページだけ解析して" Assistant: 1. PDF を画像に変換(全ページ) 2. page_005.png から page_010.png のみ Read で読み込み 3. 該当ページの内容を Markdown 化 解析の観点 自動的に抽出する情報 各ページの画像から以下を抽出: テキスト情報 タイトル・見出し 本文テキスト 箇条書きリスト 注釈・キャプション 図表 図の種類(フローチャート、組織図、etc.) 図の説明・要約 主要な要素と関係性 グラフ・チャート グラフの種類(棒グラフ、円グラフ、etc.) 軸ラベル 主要なデータポイント トレンドや傾向 テーブル テーブルの構造 ヘッダー行 データの内容 Markdown テーブル形式に変換 レイアウト・構造 ページ全体のレイアウト セクション分け 強調されている情報 Markdown 出力フォーマット
[PDFタイトル] ** 解析日時: ** YYYY-MM-DD ** 総ページ数: ** N
Page 1: [ページタイトル]
概要 [ページの概要説明]
主要な内容
[ポイント1]
[ポイント2]
図表 ** 図1: [図のタイトル] ** [図の説明]
テキスト内容 [ページ内のテキスト]
Page 2: [ページタイトル] ... スクリプト詳細 pdf_to_images.py 機能: PDF の各ページを PNG 画像に変換 解像度指定可能(デフォルト: 200 DPI) 出力ディレクトリの自動作成 使い方: python scripts/pdf_to_images.py < pdf_path
[ output_dir ] [ dpi ]
例
- python scripts/pdf_to_images.py document.pdf ./images
- 300
- 出力:
- [pdf_name]_pages/page_001.png
- [pdf_name]_pages/page_002.png
- ...
- 対応可能なコンテンツ
- ✅ テキスト(日本語・英語)
- ✅ 図表・ダイアグラム
- ✅ グラフ・チャート
- ✅ テーブル
- ✅ スクリーンショット
- ✅ インフォグラフィック
- ✅ 複雑なレイアウト
- ⚠️ 手書きメモ(精度は状況による)
- ⚠️ 低解像度画像(精度低下の可能性)
- テキスト抽出との違い
- pdf-reader (テキスト抽出)
- ✅ テキストのみの PDF で高速
- ✅ 純粋なテキスト抽出
- ❌ 図表は抽出不可
- ❌ レイアウトは簡略化
- pdf-vision-reader (画像解析)
- ✅ 図表・グラフを理解
- ✅ 複雑なレイアウトを保持
- ✅ ビジュアル要素の説明
- ⚠️ 処理時間が長い
- ⚠️ API コスト(画像解析)
- 推奨される使い分け
- PDF の種類
- 推奨スキル
- テキスト中心の文書
- pdf-reader
- プレゼンテーション資料
- pdf-vision-reader
- 図表・グラフが多い資料
- pdf-vision-reader
- 技術図面・設計書
- pdf-vision-reader
- 論文(図表含む)
- pdf-vision-reader
- 単純なテキストPDF
- pdf-reader
- トラブルシューティング
- pdf2image が見つからない
- wsl pip3
- install
- pdf2image
- poppler-utils が見つからない
- wsl
- sudo
- apt-get
- update
- wsl
- sudo
- apt-get
- install
- -y
- poppler-utils
- 画像変換が失敗する
- PDF が破損していないか確認
- ディスク容量を確認
- メモリ不足の可能性(大きな PDF は分割処理)
- 解析精度が低い
- DPI を上げる(300 推奨)
- python scripts/pdf_to_images.py document.pdf ./images
- 300
- 元の PDF の画質を確認
- パフォーマンス
- 処理時間の目安
- ページ数
- 画像変換
- 解析(Claude vision)
- 合計
- 10ページ
- 5秒
- 30-60秒
- ~1分
- 30ページ
- 15秒
- 90-180秒
- ~3分
- 100ページ
- 50秒
- 300-600秒
- ~10分
- 最適化のヒント
- 必要なページのみ処理
- 全ページ変換後、重要なページのみ解析
- DPI の調整
- 図表が多い: 300 DPI
- テキスト中心: 150-200 DPI
- バッチ処理
- 複数 PDF を並行処理しない(順次処理)
- パス変換
- Windows パスから WSL パスへの変換:
- C:\Users...
- →
- /mnt/c/Users/...
- D:\Projects...
- →
- /mnt/d/Projects/...
- 関連ツール
- pdf-reader
-
- テキスト中心の PDF 用
- docx-reader
-
- Word 文書用
- OCR ツール
- pytesseract(テキスト特化) バージョン履歴 v1.0.0 (2026-01-06): 初期リリース PDF → 画像変換機能 Vision ベースの解析ワークフロー 図表・グラフの理解対応 Markdown 出力フォーマット