10分钟提取100分钟的日语视频音频为字幕 用colab 不需要好显卡 拒绝复读机

日语小姐姐特供版

这是一个免费的日语音声转录工具,可以把日语音频(MP3、WAV 等)自动转换成文字和字幕。

核心特点:

  • 超快速 - 比普通版本快 5 倍
  • 纯净对话 - 只保留有意义的台词,自动过滤噪音
  • 多格式输出 - 同时生成 SRT、ASS、TXT 三种格式
  • 完全免费 - 使用 Google Colab 的免费 GPU
  • 小白 希望大佬们改进

折腾了好几天
主要是解决了大量语气词拟声词环境下的语音转录复读机bug 主要是调整vad来解决
目前过于严格 会漏掉某些正常对话

觉得有用的可以点个赞
大家需要的话 再发点类似内容
日语字幕转中文 这个大家有好的方法吗?

笔记本代码和指南在附件

whisper-colab-tpu-transcriber.zip (10.0 KB)

48 个赞

这是可以用来做我想的那个字幕的嘛 :distorted_face:

1 个赞

本意就是用于想的那个字幕 :distorted_face:

1 个赞

如果能从视频转成字幕会更有吸引力,嘿嘿

主要是解决了大量语气词拟声词环境下的语音转录复读机bug :grin:

那个不用想 动作就是字幕

1 个赞

用的whisper模型?

手动分离一下音频就行了也不是很麻烦 :face_savoring_food:

1 个赞

对 大家有好方案可以讨论 造福人民~

Large-V3-Turbo模型的幻觉太强了,感觉还不如V2的好。我现在在用Nvidia的Parakeet语音识别大模型,能支持日文,而且基本上没有幻觉

佬你简直是一流产品经理 :hot_face:

有说v2比v3好的 不过这个我测试基本没问题了 佬说的有可用的代码吗

我看了下你的文档,说的用的deepdml 社区版V3,可能专门优化过这个问题。我试试

大佬,有英文版的吗?

英文应该更简单吧

英文虽然简单,可我还是听不懂。。。

电脑能运行吗? 我谷歌运行进去是代码界面

没看懂怎么用呢,notebook里面加载不了这个文件,直接浏览器打开就变成内容预览了

  1. 打开 Google Colab:https://colab.research.google.com

  2. 用你的 Google 账号登录

  3. 点击"文件" → “上传笔记本”

  4. 选择 纯净版 带缓存_Large-V3-Turbo极速版.ipynb 文件上传

  5. 上传后点击右上角"连接"按钮,选择 T4 GPU

5 个赞