🔥【十倍速写作系列2】:4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测,250716更新gemini和elevenlabs-scribe

gpt-4o-transcribe vs whisper vs 搜狗 vs 讯飞的识别率测试

网上语音模型评测很少,而且主要是英文语音识别评测,
嗯,那就自己动手,丰衣足食

4o-transcribe和4o-mini-transcribe是OpenAI在2025年新发布的语音听写闭源API

Whisper是OpenAI在2022年发布的开源API,2023年出到v3就停更了,按照OpenAI的Close特点,估计以后也不太可能更新了

识别原文见下图,红色是识别错的部分

我朗读相同一段内容,几个模型同时识别

评测标准

我是以录音者作为一个大学生,办公室职员,或文字工作者,在学习工作中,正常的文字规范(老师或老板不挑刺),正常的口头禅,正常的低度噪音环境作为标准
这个标准比官方自己评的标准严格得多,或者说官方标准太低了,场景太完美了
官方自己评,老王卖瓜,都说自己是9x%识别率,这些都是营销话术,看看就好,别太当真。你也不能说他撒谎,只是测试场景不同,场景单一例如只有中文,或者中英文分段说,不混杂,没有噪音,播音员朗读,然后识别,当然识别率高了,但这不是实际的工作生活环境,刷这种理想环境下的识别率没意义
根据前后文,在理解整句话意思的前提下,推断同音词:人类就是这么推测同音字/词的,这是4o等大模型语音识别的优势,这一块搜狗讯飞等非大模型语音识别很弱
用一段落中英混讲正确识别:能迅速区分出段落里的混杂的中英文。而不需要是整段中文或整段英文,
因为很多次中英文发音相近,例如"Yes"和"噎死",需要结合上下文进行推理,这一块搜狗讯飞等非大模型语音识别很弱
能去除中英文口头禅:例如:嗯,啊,这个,那个,是吧,然后,you know
这个事非常重要,我们自己都意识不到,我们一句话里,可能10~20%是各种口头禅
标点符号合理:中英文标点符号不能混用(例如,和,),该用句号的地方,不能用逗号
英文拼写正确:句子专有名词首字母大写,缩写全大写(例如API)
专有名词正确:例如CleverType,VoiceNotes是品牌商标,中间不能有空格
不能识别噪音:例如咳嗽,哼曲子
连续重复的话删除

评测结论

CleverType(4o-transcribe):错误率在10%以下,即红色字占总字数比例,包年不限量$54,api价格¥2.7/小时
VoiceNotes(whisper):错误率在25%以下,包年不限量$90,api价格¥0.7/小时
讯飞高精转录:¥2/小时左右,错误率35%左右,好于免费的讯飞输入法,但远不如同价位的4o-transcribe,甚至远不如1/3价格的whisper
讯飞,搜狗语音输入法:免费,错误率在50%左右

VoiceNotes或AI其他语音笔记,为什么多数还是用性能第二梯队的Whisper?

现在搞清楚了,VoiceNotes用的还是whisper,没有升级到4o-transcribe,CleverType用的是4o-transcribe

VoiceNotes不升级模型的原因是,whisper便宜,23年的whisper的openai官网价格与25年的4o-transcribe一样,都是¥2.7/h,但whisper是开源模型,很多第三方云服务商(例如fireworks,groq,fal.ai)也在卖,价格只有openai的1/10,即¥0.24/h,

VoiceNotes如果换模型,成本要提高10倍,哪怕换到4o-mini-transcribe,都要提升2倍。识别率提升则肯定提升不了10倍,能提升10%都不错

这意味着VoiceNotes的收费模式要只能选择:Ⓐ大幅涨价,Ⓑ提供whisper和4o两档价格,Ⓒ取消不限量政策

4o虽然识别率比whisper好一点,但有限,完全不值10倍的差价
这也是为什么openai不open的原因,做一次大善人,弄出个开源whisper,第三方云服务上拿去运行,卖价格只有官网1/10,自己跟自己抢生意

甚至新一代语音识别模型4o-transcribe出来,都竞争不过便宜的老whisper 模型

CleverType语音输入法,为什么用4o-transcribe?

因为他是输入法,人一天手机上打字,打不了多少字,我搜狗后台统计,电脑上一天平均才能打3600字,手机上算7折,能打2400字,也就相当于15分钟语音,4o-transcribe成本$0.09,CleverType收每月$6=每天$0.2,还有一半毛利
注意CleverType只有安卓版是完全版,ios版因为的ios的权限限制,是阉割版功能行,CleverType也没有win或mac版
ios可以用wisprflow试试,但wisprflow用的什么模型我不确定,很可能是whisper模型

区分某个语音服务app是使用4o-transcribe还是whisper的方法

①看官方的介绍,一搬用4o的肯定会吹一下,因为4o的成本是Whisper的10倍,性能更强,模型更新,没有理由多花了10倍成本,不拿出来显摆一下。反之,如果只宣传OpenAI模型,但不宣传是4o的,大概率是Whisper
②看是否支持说话人识别功能,4o和2.5pro是没有说话人识别的,只有whisper等纯听写模型才有
③看是否有时会有幻觉,例如Whisper,如果你不说话,他经常生成"明镜与点点"等幻觉,看到这句话就是whisper没跑,4o-transcribe貌似没有这个现象

近期我发的其他文章可以参考

语音模型1:🔥【原创长文】深度分析AI语音输入法CleverType,如何降维打击讯飞搜狗语音,成为你的效率利器【长期更新】
深度研究5:分享个提升Gemini/ChatGPT Deep research最大输出,以及查看ChatGPT Deep research剩余次数的方法
深度研究4:🔥【原创长文】O3 Deep research vs 2.5-pro Deep research
深度研究3:🔥【原创长文】让AI为你写有声书:基于Deep research+音频朗读的学习方法


大模型11:🔥【大模型系列11】关于Grok4,你想知道的一切。250716更新:LMArena评分,网页版支持语音,加入类似3d waifu
大模型10:🔥【原创长文】关于O3-pro,你想知道的一切,更新LiveBench评分【长期更新】
大模型9:🔥【原创长文】关于Deepseek R1-0528,你想知道的一切【250530更新LiveBench评分】
大模型8:🔥【原创长文】关于Claude4,你想知道的一切,250529更新Lmarena前端编程评分【长期更新】
大模型7:🔥【原创长文】关于Gemini 2.5 Flash,你想知道的一切。2.5-flash-0520Lmarena和长上下文评分【250525更新见底楼】
大模型6:🔥【原创长文】关于GPT-O3,O4-mini和4.1,你想知道的一切:250425:Lmarena评分出来了【长期更新】
大模型5:【原创长文】关于Gemini 2.5 Pro,你想知道的一切。2.5-pro-0605 Aider编程分数超过o3【更新见底楼】


其他:🔥【原创长文】顶级会员科普:ChatGPT Pro vs Gemini Ultra vs Claude Max vs SuperGrok Heavy
其他:🔥【原创长文】全网最全,中美AI相关社区汇总【长期更新】
其他:【原创长文】不要被官方参数骗了,各大模型实际长文输出能力测试研究【长期更新】
其他:【原创长文】Gemini-2.5-flash做沉浸式翻译的研究
其他:❓【ChatGPT】Sora画图 vs 4o画图,有什么区别,你知道吗?
其他:🔥【原创长文】关于免费和包月限量,你想知道的一切:ChatGPT Deep research限量翻倍【250518底楼更新】
其他:AI梗图大全,总有一张让你大笑☺,250410更新Llama梗图在底部【长期更新】
其他:《Deepseek时刻》原创长文,深度分析Deepseek这几天在全球到底发生了什么(1月28日17点40更新)

37 个赞

正在更新中

感谢大佬!

真的很需要一个支持iOS的4o Transcribe,最好不用切换输入法

3 个赞

谢谢分享,先收藏了,需要投入时间弄懂

1 个赞

好文~~

增加了收费的讯飞高精转录(下图第三组),¥2/小时左右,识别率35%左右,好于免费的讯飞输入法,但远不如同价位的4o-transcribe,甚至不如¥0.7/小时的whisper

大佬给力

加入gemini2.5pro,flash,flash-lite,elevenlabs-scribe评测 250716 15:15更新

结论

第一梯队:错误率10%以内

4o-transcribe,¥2.7/小时,少量错字,口头禅删除最好

第二梯队:错误率20%

elevenlabs-scribe:¥3/小时,几乎没有错字,但完全不处理口头禅,排除口头禅因素识别率第一
whisper:第三方¥0.24/小时
2.5pro:折合¥2/小时,AIStudio可白嫖

第三梯队:错误30%

2.5flash:折合¥0.5/小时
2.5flash-lite:折合¥0.2/小时

第四梯队,错误率40%

讯飞高精转写:约¥2/小时

第五梯队,错误率50%

搜狗,讯飞语音输入法:免费

1 个赞

Artificial analysis的听写模型评测 250716 15:39更新

来源:Speech to Text (ASR) Providers Leaderboard & Comparison | Artificial Analysis


这不对吧。

1 个赞

有人试过Mistral AI的Voxtral模型吗

好帖 支持!

我看了微信语音转文字,测试有点问题把,以及没有手机微信输入法的测试。



有windows好用的语音输入法吗

就知道讯飞 有一个语音+自动翻译的 别的不知道还有啥

新增阿里听悟 vs 豆包大模型听写 vs 4o-transcribe 识别率对比 250906 11:21更新

阿里听悟(¥0.6/小时),测试地址:https://tingwu.aliyun.com/
识别率不行,还不如2022年的whisper,价格也比第三方whisper的¥0.3/小时贵

豆包大模型(原价¥2.3,新用户¥1.8/小时),测试地址:语音识别-火山引擎
豆包缺点就是价格贵,质量估计是国内最好的,接近国外第一梯队。

除了听写,豆包的实时语音和朗读也是国内最像真人的

但是默认不去除口头禅,有可能可以通过听写模型提交提示词去除口头禅(不确定),或者在润色环节用大模型去除口头禅

豆包没有专门的输入法,豆包pc版带一个语音录入功能,不确定是否调用这个模型。
也没有看到第三方输入法调用豆包听写的API(估计太贵用不起)

1 个赞

我最近开始再折腾elevenlabs-scribe还有SONIOX 的API,感觉可选空间又大了很多

1 个赞

dwqxq1好厉害啊

大佬,实时转写+说话人识别有什么好的方案吗?我现在用听悟的api能完成任务,但是延迟很高,这一句说完上一句的结果才展示出来。我也用过WhisperLiveKit开源工具,但感觉识别的准确率不够。

【十倍速写作系列2.5】实时字幕,可以用Spokenly + soniox-realtime
soniox中文识别率相当不错,属于第一梯队,主观感觉略差于elevenlabs-scribe,和4o-transcribe差不多,但没有4o-transcribe那么多小毛病
Spokenly的$8包月包含soniox,不太划算
Spokenly免费版,可以到soniox官网注册送$200,无需绑卡,获取apikey填到Spokenly里

长录音直接在soniox的网页/安卓app/iOS app里使用实时听写也行,
短录音还是Spokenly + soniox-realtime key方便,可以直接写到笔记/微信/邮件里

1 个赞