动画字幕转录应用推荐 Pyvideotrans

续之前的 几个动画字幕转录应用使用体验

模型选择

经过个人简单体验,模型综合效果最佳的似乎是 whisper-large-v3-turbo,这里也有一篇比较结果可以参考 kotoba-whisperの比較,根据这篇材料,似乎 whisper-large-v3-turbo 在目前在综合性能是碾压性质的,不基于此的模型好像都不用看。

奇怪的是基于 faster-whisper 的 deepdml/faster-whisper-large-v3-turbo-ct2 在同样的软件调用下效果要要差不少,少数语音没有转换,断句问题也更多。

而号称针对日语专门训练优化的 kotoba 在 Pyvideotrans 里调用直接报 没有人声可以识别,有帖子推荐的 zh-plus/faster-whisper-large-v2-japanese-5k-steps 在 win-videotrans 中调用异常,没继续测试。

软件选择

虽然都是基于 whipser 和 faster-whisper 的,但表现都各有差异,除了前面帖子提到的几个应用以外,目前使用 Pyvideotrans 效果最佳,该软件支持 whisper 和 faster-whipser 的各种模型,也有降噪处理和重新断句功能(未具体测试关闭效果),可以直接填入 huggingface.co 的模型名称来自动下载使用。

另外,CheshireCC/faster-whisper-GUI 杀软报毒,很多商业字幕转写软件号称本地模型免费,实际无法使用 whisper-large 等级模型。