【Scribe2SRT】 白嫖elevenlabs网页端stt,音视频一键转录生成srt字幕

前言:
初来L站,各自资源,奇技淫巧,能人异士,真的超喜欢这里。

AI发展起来之后,“AI翻译+语音转文字”让俺觉得业余个人翻译字幕很有搞头,特别哪些不需要翻译质量很高的只需要能流畅自然地理解剧情就行的影视作品(比如JAV) ,刚开始那会儿用的cupcut(剪映国际版)+kimi、deepseek(开思考模式,能一定规避审查,等到它发现时撤销时,就F12提取已生成的部分,就这样一点一点翻)。后面就是发现了grok,它审查不严格(特别是适合翻译这类东西),但是缺点是上下文窗口小又有次数限制,也是只能一点一点翻译,后来升级到grok3就好多了。接着,就发现了gemini上下文是真的长,超级适合翻译字幕。

对于转录模型,cupcut免费又快,缺点是没有标点断句严重。后面试过本地运行whisper,因为whisper生成的句子更完整,也有标点,但是受限于我的A卡性能,还不如在线的方便。也试过找在线免费的whisper服务,现成的支持2小时左右的是没有。利用colab部署的有是有,但colab t4用一会就不给用了,而且不是很懂设置,幻觉严重,遂作罢。

直到我来到L站,一搜就发现了好东西:不花钱也能畅享转录!用Python脚本解锁ElevenLabs的隐藏用法~[可导出带时间戳的SRT字幕] 已经有有佬友搞出了高质量免费解决方案(感谢佬友分享 :+1:)。 本来想直接用佬友的完美解决方案(利用大模型分析生成字幕),但是要配置大模型api, 我用站里的免费api资源试过,但生成的字幕不是很完整。于是就想弄个简单点的直接用脚本生成字幕的工具来用。

正文:
于是,说干就干,在roo code和gemini的帮助下(感谢站里提供公益 Gemini API的佬友, doi9和x666真的超好用)搞出来了这么个东西:

它能直接转录音视频并生成srt字幕,中日韩英四种常见语言都优化测试过,刚好对应日韩、欧美、国产,目前2小时以下的音视频基本都能成功,2小时以上的容易失败,我试过几十分钟的、一个多小时的。

70 个赞

我剛剛才看了客大哥的文章 :joy:
先前還看到了另一個大哥的思路
https://linux.do/t/topic/636844?u=metaterminator

大哥的項目有api可以直接步署後調用嗎 :star_struck:

3 个赞

不是有IP调用次数限制么 如何突破呢

1 个赞

感谢大佬

3 个赞

cloudflare代理啊,它ip久不久变一下的根本不用担心,我都是cloudflare科学上网。

2 个赞

有点厉害

1 个赞

没有api部署,就是桌面应用。我也看了那个大哥的文章,之前我也踩过让Gemini优化字幕的坑,他提出的gemini谋划(军师)+脚本执行(工人)的思路很不错,果然分工提高效率。

1 个赞

这软件和剪映比,质量怎么样?设置中单条字幕保持原设置,还是短一点好,因为有时候人说话完,下句没说,字幕都一同显示了

了解 :saluting_face: 對呀,早前自己也識過用whisper出時間軸再掉去模言模型做上下文修正,可是都搞得不好。
一直在找有沒有可以 api 直接調用整個流程,語言模型+腳本看似是最好的做法。還在研究明花大佬的腳本如何運行。 :face_with_crossed_out_eyes:

感谢分享。

简单,好用,谢谢了!

个人之前感觉剪映还可以的(没发现scribe前都是用的它),准确、幻觉低,就是转录文本没有标点符号,句子截断较短。拿去给ai翻译的话,肯定是比scribe、whisper这种有标点句子完整一些的翻译质量差些。当然了,剪映的转录文本可以让ai适当添加标点符号、然后根据语义给它分割字幕,只是这样太复杂,目前来说,ai比较难做到(Gemini不行,这样做时间轴会出错),特别是2小时左右的长视频。

1 个赞

他在帖子中提到了,Gemini降智之后他的方法暂时失效了,在等看Gemini恢复正常。大模型智商发挥不稳定,那么依赖大模型进行语义分割字幕的方法自然也不稳定。

1 个赞

谢谢解答

對的,什麼方法都試試 :rofl:

感谢up主,今天我用上了,很好用。

我个人目前用的是potplayer的生成字幕+chatgpt翻译插件(github),这个插件比直接调用ai翻译好点可以连贯上下文。但是翻译jav的话效果是在不行啊,光是识别准确的字幕就很难了而且还很多口语

401 Client Error: Unauthorized for url: https://api.elevenlabs.io/v1/speech-to-text?allow_unauthenticated=1这是崩了吗?

没蹦,正常现象, ip被限制或者网络出错了,多试几次或换代理节点就得了


srt文件错了