字幕转录 → 纠错 → 审核 → 匹配 → 烧录流程 1. 转录视频（Whisper） ↓ 2. 词典纠错 + 分句 ↓ 3. 输出字幕稿（纯文本，一句一行） ↓ 【用户审核修改】 ↓ 4. 用户给回修改后的文本 ↓ 5. 我匹配时间戳 → 生成 SRT ↓ 6. 烧录字幕（FFmpeg）转录使用 OpenAI Whisper 模型进行语音转文字： whisper video.mp4 --model medium --language zh --output_format json 模型用途 medium 默认，平衡速度与准确率 large-v3 高精度，较慢输出 JSON 包含逐词时间戳，用于后续 SRT 生成。字幕规范规则说明一屏一行不换行，不堆叠 ≤15字/行超过15字必须拆分（4:3竖屏）句尾无标点你好不是你好。句中保留标点先点这里，再点那里词典纠错读取词典.txt ，每行一个正确写法： skills Claude iPhone 我自动识别变体： claude → Claude 字幕稿格式我给用户的（纯文本，≤15字/行）：今天给大家分享一个技巧很多人可能不知道其实这个功能藏在设置里面你只要点击这里就能看到了用户修改后给回我，我再匹配时间戳生成 SRT。样式默认：24号白字、黑色描边、底部居中可选样式：样式说明默认白字黑边黄字黄字黑边（醒目）用户可说： "字大一点" → 32号 "放顶部" → 顶部居中 "黄色字幕" → 黄字黑边输出 01-xxx_字幕稿.txt # 纯文本，用户编辑 01-xxx.srt # 字幕文件 01-xxx-字幕.mp4 # 带字幕视频

videocut-subtitle

安装