
Videocut Skills 是一个用 Claude Code Skills 搭出来的口播视频剪辑 Agent。它瞄准的是一个很具体的痛点:剪映这类“智能剪口播”通常能识别静音,却不太懂语义,所以遇到重复说、说错后立刻纠正、专业术语识别错误时,仍然需要人反复返工。
这个项目把口播剪辑拆成几步:先提取音频并通过火山引擎转录,拿到字级别时间戳;再让 Claude Code 做语义审核,标记静音、口误、重复句、句内重复和语气词;最后生成一个审核网页,让人单击跳转、双击选择、确认后交给 FFmpeg 执行剪辑。
适合高频口播作者的半自动剪辑链路
README 里给出的演示数据很直观:19 分钟口播原片里,Agent 自动识别了 608 处问题,其中包括 114 段静音和 494 处口误或重复。它不是完全跳过人工,而是把人工从“逐句找问题”变成“确认 AI 标注是否要删”,这个差别对长口播尤其明显。
项目还带了字幕和高清化相关 skill:字幕流程可以用 Whisper large-v3 生成,再通过自定义词典修正 Claude Code、MCP、API 这类专业词;高清化则走 2-pass 编码和锐化,尽量匹配原片参数。另一个有意思的点是“自更新”:你可以告诉它偏好,比如静音阈值调到 1 秒,或保留少量“嗯”作为过渡,它会把规则记下来。
部署门槛不算轻,需要 Claude Code、Node.js、FFmpeg、Python,以及火山引擎 API;FunASR 和 Whisper 模型也有几 GB 体积。好处是它足够贴近真实剪辑流程,特别适合做技术教程、产品讲解、播客切片和中文口播内容的人。仓库 README 标注 MIT,当前约 1.8k stars。
传送门
https://github.com/Ceeon/videocut-skills
原创文章,如若转载,请注明出处:https://wefound.cc/p/4642.html