「Videocut Skills」开源口播剪辑 Agent：用 Claude Code Skills 识别口误、重复和静音段

Videocut Skills 是一个用 Claude Code Skills 搭出来的口播视频剪辑 Agent。它瞄准的是一个很具体的痛点：剪映这类“智能剪口播”通常能识别静音，却不太懂语义，所以遇到重复说、说错后立刻纠正、专业术语识别错误时，仍然需要人反复返工。

这个项目把口播剪辑拆成几步：先提取音频并通过火山引擎转录，拿到字级别时间戳；再让 Claude Code 做语义审核，标记静音、口误、重复句、句内重复和语气词；最后生成一个审核网页，让人单击跳转、双击选择、确认后交给 FFmpeg 执行剪辑。

适合高频口播作者的半自动剪辑链路

README 里给出的演示数据很直观：19 分钟口播原片里，Agent 自动识别了 608 处问题，其中包括 114 段静音和 494 处口误或重复。它不是完全跳过人工，而是把人工从“逐句找问题”变成“确认 AI 标注是否要删”，这个差别对长口播尤其明显。

项目还带了字幕和高清化相关 skill：字幕流程可以用 Whisper large-v3 生成，再通过自定义词典修正 Claude Code、MCP、API 这类专业词；高清化则走 2-pass 编码和锐化，尽量匹配原片参数。另一个有意思的点是“自更新”：你可以告诉它偏好，比如静音阈值调到 1 秒，或保留少量“嗯”作为过渡，它会把规则记下来。

部署门槛不算轻，需要 Claude Code、Node.js、FFmpeg、Python，以及火山引擎 API；FunASR 和 Whisper 模型也有几 GB 体积。好处是它足够贴近真实剪辑流程，特别适合做技术教程、产品讲解、播客切片和中文口播内容的人。仓库 README 标注 MIT，当前约 1.8k stars。