pdf-vision-reader

安装量: 141
排名: #6101

安装

npx skills add https://github.com/childbamboo/claude-code-marketplace-sample --skill pdf-vision-reader

PDF Vision Reader 図表が多い PDF を画像化して、Claude の vision 機能で内容を解析・Markdown 化するスキルです。 クイックスタート 基本的な使い方

1. PDF を画像に変換

wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/file.pdf"

2. 各画像を Read ツールで読み込んで解析

3. Markdown 形式でまとめる

前提条件 必要なパッケージ:

Python パッケージ

wsl pip3 install pdf2image Pillow

システムパッケージ (poppler)

wsl sudo apt-get update wsl sudo apt-get install -y poppler-utils ワークフロー ステップ1: PDF を画像に変換 wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/document.pdf" これにより document_pages/ ディレクトリが作成され、各ページが画像として保存されます: page_001.png page_002.png page_003.png ... ステップ2: 各画像を解析 Read ツールで各画像を順番に読み込み、内容を解析します。 解析時の指示例: この画像の内容を詳しく説明してください: - タイトルや見出し - 本文テキスト - 図表の説明 - グラフやチャートのデータ - 重要なポイント ステップ3: Markdown に統合 各ページの解析結果を統合して、一つの Markdown ファイルを作成します。 使用例 例1: プレゼンテーション資料を Markdown 化 User: "presentation.pdf を vision で解析して Markdown 化して" Assistant: 1. scripts/pdf_to_images.py で PDF を画像に変換 2. 各画像を Read ツールで読み込み 3. 各ページの内容を解析(タイトル、図表、テキスト) 4. 全ページの解析結果を統合 5. Write ツールで Markdown ファイルに保存 例2: 特定のページのみ解析 User: "document.pdf の 5-10 ページだけ解析して" Assistant: 1. PDF を画像に変換(全ページ) 2. page_005.png から page_010.png のみ Read で読み込み 3. 該当ページの内容を Markdown 化 解析の観点 自動的に抽出する情報 各ページの画像から以下を抽出: テキスト情報 タイトル・見出し 本文テキスト 箇条書きリスト 注釈・キャプション 図表 図の種類(フローチャート、組織図、etc.) 図の説明・要約 主要な要素と関係性 グラフ・チャート グラフの種類(棒グラフ、円グラフ、etc.) 軸ラベル 主要なデータポイント トレンドや傾向 テーブル テーブルの構造 ヘッダー行 データの内容 Markdown テーブル形式に変換 レイアウト・構造 ページ全体のレイアウト セクション分け 強調されている情報 Markdown 出力フォーマット

[PDFタイトル] ** 解析日時: ** YYYY-MM-DD ** 総ページ数: ** N


Page 1: [ページタイトル]

概要 [ページの概要説明]

主要な内容

[ポイント1]

[ポイント2]

図表 ** 図1: [図のタイトル] ** [図の説明]

テキスト内容 [ページ内のテキスト]


Page 2: [ページタイトル] ... スクリプト詳細 pdf_to_images.py 機能: PDF の各ページを PNG 画像に変換 解像度指定可能(デフォルト: 200 DPI) 出力ディレクトリの自動作成 使い方: python scripts/pdf_to_images.py < pdf_path

[ output_dir ] [ dpi ]

python scripts/pdf_to_images.py document.pdf ./images
300
出力:
[pdf_name]_pages/page_001.png
[pdf_name]_pages/page_002.png
...
対応可能なコンテンツ
✅ テキスト(日本語・英語)
✅ 図表・ダイアグラム
✅ グラフ・チャート
✅ テーブル
✅ スクリーンショット
✅ インフォグラフィック
✅ 複雑なレイアウト
⚠️ 手書きメモ(精度は状況による)
⚠️ 低解像度画像(精度低下の可能性)
テキスト抽出との違い
pdf-reader (テキスト抽出)
✅ テキストのみの PDF で高速
✅ 純粋なテキスト抽出
❌ 図表は抽出不可
❌ レイアウトは簡略化
pdf-vision-reader (画像解析)
✅ 図表・グラフを理解
✅ 複雑なレイアウトを保持
✅ ビジュアル要素の説明
⚠️ 処理時間が長い
⚠️ API コスト(画像解析)
推奨される使い分け
PDF の種類
推奨スキル
テキスト中心の文書
pdf-reader
プレゼンテーション資料
pdf-vision-reader
図表・グラフが多い資料
pdf-vision-reader
技術図面・設計書
pdf-vision-reader
論文(図表含む)
pdf-vision-reader
単純なテキストPDF
pdf-reader
トラブルシューティング
pdf2image が見つからない
wsl pip3
install
pdf2image
poppler-utils が見つからない
wsl
sudo
apt-get
update
wsl
sudo
apt-get
install
-y
poppler-utils
画像変換が失敗する
PDF が破損していないか確認
ディスク容量を確認
メモリ不足の可能性(大きな PDF は分割処理)
解析精度が低い
DPI を上げる(300 推奨)
python scripts/pdf_to_images.py document.pdf ./images
300
元の PDF の画質を確認
パフォーマンス
処理時間の目安
ページ数
画像変換
解析(Claude vision)
合計
10ページ
5秒
30-60秒
~1分
30ページ
15秒
90-180秒
~3分
100ページ
50秒
300-600秒
~10分
最適化のヒント
必要なページのみ処理
全ページ変換後、重要なページのみ解析
DPI の調整
図表が多い: 300 DPI
テキスト中心: 150-200 DPI
バッチ処理
複数 PDF を並行処理しない(順次処理)
パス変換
Windows パスから WSL パスへの変換:
C:\Users...
/mnt/c/Users/...
D:\Projects...
/mnt/d/Projects/...
関連ツール
pdf-reader
テキスト中心の PDF 用
docx-reader
Word 文書用
OCR ツール
pytesseract(テキスト特化) バージョン履歴 v1.0.0 (2026-01-06): 初期リリース PDF → 画像変換機能 Vision ベースの解析ワークフロー 図表・グラフの理解対応 Markdown 出力フォーマット
返回排行榜