gpt-4o-transcribe vs whisper vs 搜狗 vs 讯飞的识别率测试
网上语音模型评测很少,而且主要是英文语音识别评测,
嗯,那就自己动手,丰衣足食
4o-transcribe和4o-mini-transcribe是OpenAI在2025年新发布的语音听写闭源API
Whisper是OpenAI在2022年发布的开源API,2023年出到v3就停更了,按照OpenAI的Close特点,估计以后也不太可能更新了
识别原文见下图,红色是识别错的部分
我朗读相同一段内容,几个模型同时识别
评测标准
我是以录音者作为一个大学生,办公室职员,或文字工作者,在学习工作中,正常的文字规范(老师或老板不挑刺),正常的口头禅,正常的低度噪音环境作为标准
这个标准比官方自己评的标准严格得多,或者说官方标准太低了,场景太完美了
官方自己评,老王卖瓜,都说自己是9x%识别率,这些都是营销话术,看看就好,别太当真。你也不能说他撒谎,只是测试场景不同,场景单一例如只有中文,或者中英文分段说,不混杂,没有噪音,播音员朗读,然后识别,当然识别率高了,但这不是实际的工作生活环境,刷这种理想环境下的识别率没意义
根据前后文,在理解整句话意思的前提下,推断同音词:人类就是这么推测同音字/词的,这是4o等大模型语音识别的优势,这一块搜狗讯飞等非大模型语音识别很弱
用一段落中英混讲正确识别:能迅速区分出段落里的混杂的中英文。而不需要是整段中文或整段英文,
因为很多次中英文发音相近,例如"Yes"和"噎死",需要结合上下文进行推理,这一块搜狗讯飞等非大模型语音识别很弱
能去除中英文口头禅:例如:嗯,啊,这个,那个,是吧,然后,you know
这个事非常重要,我们自己都意识不到,我们一句话里,可能10~20%是各种口头禅
标点符号合理:中英文标点符号不能混用(例如,和,),该用句号的地方,不能用逗号
英文拼写正确:句子专有名词首字母大写,缩写全大写(例如API)
专有名词正确:例如CleverType,VoiceNotes是品牌商标,中间不能有空格
不能识别噪音:例如咳嗽,哼曲子
连续重复的话删除
评测结论
CleverType(4o-transcribe):错误率在10%以下,即红色字占总字数比例,包年不限量$54,api价格¥2.7/小时
VoiceNotes(whisper):错误率在25%以下,包年不限量$90,api价格¥0.7/小时
讯飞高精转录:¥2/小时左右,错误率35%左右,好于免费的讯飞输入法,但远不如同价位的4o-transcribe,甚至远不如1/3价格的whisper
讯飞,搜狗语音输入法:免费,错误率在50%左右
VoiceNotes或AI其他语音笔记,为什么多数还是用性能第二梯队的Whisper?
现在搞清楚了,VoiceNotes用的还是whisper,没有升级到4o-transcribe,CleverType用的是4o-transcribe
VoiceNotes不升级模型的原因是,whisper便宜,23年的whisper的openai官网价格与25年的4o-transcribe一样,都是¥2.7/h,但whisper是开源模型,很多第三方云服务商(例如fireworks,groq,fal.ai)也在卖,价格只有openai的1/10,即¥0.24/h,
VoiceNotes如果换模型,成本要提高10倍,哪怕换到4o-mini-transcribe,都要提升2倍。识别率提升则肯定提升不了10倍,能提升10%都不错
这意味着VoiceNotes的收费模式要只能选择:Ⓐ大幅涨价,Ⓑ提供whisper和4o两档价格,Ⓒ取消不限量政策
4o虽然识别率比whisper好一点,但有限,完全不值10倍的差价
这也是为什么openai不open的原因,做一次大善人,弄出个开源whisper,第三方云服务上拿去运行,卖价格只有官网1/10,自己跟自己抢生意
甚至新一代语音识别模型4o-transcribe出来,都竞争不过便宜的老whisper 模型
CleverType语音输入法,为什么用4o-transcribe?
因为他是输入法,人一天手机上打字,打不了多少字,我搜狗后台统计,电脑上一天平均才能打3600字,手机上算7折,能打2400字,也就相当于15分钟语音,4o-transcribe成本$0.09,CleverType收每月$6=每天$0.2,还有一半毛利
注意CleverType只有安卓版是完全版,ios版因为的ios的权限限制,是阉割版功能行,CleverType也没有win或mac版
ios可以用wisprflow试试,但wisprflow用的什么模型我不确定,很可能是whisper模型
区分某个语音服务app是使用4o-transcribe还是whisper的方法
①看官方的介绍,一搬用4o的肯定会吹一下,因为4o的成本是Whisper的10倍,性能更强,模型更新,没有理由多花了10倍成本,不拿出来显摆一下。反之,如果只宣传OpenAI模型,但不宣传是4o的,大概率是Whisper
②看是否支持说话人识别功能,4o和2.5pro是没有说话人识别的,只有whisper等纯听写模型才有
③看是否有时会有幻觉,例如Whisper,如果你不说话,他经常生成"明镜与点点"等幻觉,看到这句话就是whisper没跑,4o-transcribe貌似没有这个现象
近期我发的其他文章可以参考
语音模型1:🔥【原创长文】深度分析AI语音输入法CleverType,如何降维打击讯飞搜狗语音,成为你的效率利器【长期更新】
深度研究5:分享个提升Gemini/ChatGPT Deep research最大输出,以及查看ChatGPT Deep research剩余次数的方法
深度研究4:🔥【原创长文】O3 Deep research vs 2.5-pro Deep research
深度研究3:🔥【原创长文】让AI为你写有声书:基于Deep research+音频朗读的学习方法
大模型11:🔥【大模型系列11】关于Grok4,你想知道的一切。250716更新:LMArena评分,网页版支持语音,加入类似3d waifu
大模型10:🔥【原创长文】关于O3-pro,你想知道的一切,更新LiveBench评分【长期更新】
大模型9:🔥【原创长文】关于Deepseek R1-0528,你想知道的一切【250530更新LiveBench评分】
大模型8:🔥【原创长文】关于Claude4,你想知道的一切,250529更新Lmarena前端编程评分【长期更新】
大模型7:🔥【原创长文】关于Gemini 2.5 Flash,你想知道的一切。2.5-flash-0520Lmarena和长上下文评分【250525更新见底楼】
大模型6:🔥【原创长文】关于GPT-O3,O4-mini和4.1,你想知道的一切:250425:Lmarena评分出来了【长期更新】
大模型5:【原创长文】关于Gemini 2.5 Pro,你想知道的一切。2.5-pro-0605 Aider编程分数超过o3【更新见底楼】
其他:🔥【原创长文】顶级会员科普:ChatGPT Pro vs Gemini Ultra vs Claude Max vs SuperGrok Heavy
其他:🔥【原创长文】全网最全,中美AI相关社区汇总【长期更新】
其他:【原创长文】不要被官方参数骗了,各大模型实际长文输出能力测试研究【长期更新】
其他:【原创长文】Gemini-2.5-flash做沉浸式翻译的研究
其他:❓【ChatGPT】Sora画图 vs 4o画图,有什么区别,你知道吗?
其他:🔥【原创长文】关于免费和包月限量,你想知道的一切:ChatGPT Deep research限量翻倍【250518底楼更新】
其他:AI梗图大全,总有一张让你大笑☺,250410更新Llama梗图在底部【长期更新】
其他:《Deepseek时刻》原创长文,深度分析Deepseek这几天在全球到底发生了什么(1月28日17点40更新)







