🔥【十倍速写作系列2】：4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测，250716更新gemini和elevenlabs-scribe

dwqxq1 · 2025 年7 月 14 日 00:24

gpt-4o-transcribe vs whisper vs 搜狗 vs 讯飞的识别率测试

网上语音模型评测很少，而且主要是英文语音识别评测，
嗯，那就自己动手，丰衣足食

4o-transcribe和4o-mini-transcribe是OpenAI在2025年新发布的语音听写闭源API

Whisper是OpenAI在2022年发布的开源API，2023年出到v3就停更了，按照OpenAI的Close特点，估计以后也不太可能更新了

识别原文见下图，红色是识别错的部分

我朗读相同一段内容，几个模型同时识别

评测标准

我是以录音者作为一个大学生，办公室职员，或文字工作者，在学习工作中，正常的文字规范（老师或老板不挑刺），正常的口头禅，正常的低度噪音环境作为标准
这个标准比官方自己评的标准严格得多，或者说官方标准太低了，场景太完美了
官方自己评，老王卖瓜，都说自己是9x%识别率，这些都是营销话术，看看就好，别太当真。你也不能说他撒谎，只是测试场景不同，场景单一例如只有中文，或者中英文分段说，不混杂，没有噪音，播音员朗读，然后识别，当然识别率高了，但这不是实际的工作生活环境，刷这种理想环境下的识别率没意义
根据前后文，在理解整句话意思的前提下，推断同音词：人类就是这么推测同音字/词的，这是4o等大模型语音识别的优势，这一块搜狗讯飞等非大模型语音识别很弱
用一段落中英混讲正确识别：能迅速区分出段落里的混杂的中英文。而不需要是整段中文或整段英文，
因为很多次中英文发音相近，例如"Yes"和"噎死"，需要结合上下文进行推理，这一块搜狗讯飞等非大模型语音识别很弱
能去除中英文口头禅：例如：嗯，啊，这个，那个，是吧，然后，you know
这个事非常重要，我们自己都意识不到，我们一句话里，可能10~20%是各种口头禅
标点符号合理：中英文标点符号不能混用（例如，和,），该用句号的地方，不能用逗号
英文拼写正确：句子专有名词首字母大写，缩写全大写（例如API）
专有名词正确：例如CleverType，VoiceNotes是品牌商标，中间不能有空格
不能识别噪音：例如咳嗽，哼曲子
连续重复的话删除

评测结论

CleverType(4o-transcribe)：错误率在10%以下，即红色字占总字数比例，包年不限量$54，api价格¥2.7/小时
VoiceNotes(whisper)：错误率在25%以下，包年不限量$90，api价格¥0.7/小时
讯飞高精转录：¥2/小时左右，错误率35%左右，好于免费的讯飞输入法，但远不如同价位的4o-transcribe，甚至远不如1/3价格的whisper
讯飞，搜狗语音输入法：免费，错误率在50%左右

VoiceNotes或AI其他语音笔记，为什么多数还是用性能第二梯队的Whisper？

现在搞清楚了，VoiceNotes用的还是whisper，没有升级到4o-transcribe，CleverType用的是4o-transcribe

VoiceNotes不升级模型的原因是，whisper便宜，23年的whisper的openai官网价格与25年的4o-transcribe一样，都是¥2.7/h，但whisper是开源模型，很多第三方云服务商（例如fireworks，groq，fal.ai）也在卖，价格只有openai的1/10，即¥0.24/h，

VoiceNotes如果换模型，成本要提高10倍，哪怕换到4o-mini-transcribe，都要提升2倍。识别率提升则肯定提升不了10倍，能提升10%都不错

这意味着VoiceNotes的收费模式要只能选择：Ⓐ大幅涨价，Ⓑ提供whisper和4o两档价格，Ⓒ取消不限量政策

4o虽然识别率比whisper好一点，但有限，完全不值10倍的差价
这也是为什么openai不open的原因，做一次大善人，弄出个开源whisper，第三方云服务上拿去运行，卖价格只有官网1/10，自己跟自己抢生意

甚至新一代语音识别模型4o-transcribe出来，都竞争不过便宜的老whisper 模型

CleverType语音输入法，为什么用4o-transcribe？

因为他是输入法，人一天手机上打字，打不了多少字，我搜狗后台统计，电脑上一天平均才能打3600字，手机上算7折，能打2400字，也就相当于15分钟语音，4o-transcribe成本$0.09，CleverType收每月$6=每天$0.2，还有一半毛利
注意CleverType只有安卓版是完全版，ios版因为的ios的权限限制，是阉割版功能行，CleverType也没有win或mac版
ios可以用wisprflow试试，但wisprflow用的什么模型我不确定，很可能是whisper模型

区分某个语音服务app是使用4o-transcribe还是whisper的方法

①看官方的介绍，一搬用4o的肯定会吹一下，因为4o的成本是Whisper的10倍，性能更强，模型更新，没有理由多花了10倍成本，不拿出来显摆一下。反之，如果只宣传OpenAI模型，但不宣传是4o的，大概率是Whisper
②看是否支持说话人识别功能，4o和2.5pro是没有说话人识别的，只有whisper等纯听写模型才有
③看是否有时会有幻觉，例如Whisper，如果你不说话，他经常生成"明镜与点点"等幻觉，看到这句话就是whisper没跑，4o-transcribe貌似没有这个现象

近期我发的其他文章可以参考

语音模型1：🔥【原创长文】深度分析AI语音输入法CleverType，如何降维打击讯飞搜狗语音，成为你的效率利器【长期更新】
深度研究5：分享个提升Gemini/ChatGPT Deep research最大输出，以及查看ChatGPT Deep research剩余次数的方法
深度研究4：🔥【原创长文】O3 Deep research vs 2.5-pro Deep research
深度研究3：🔥【原创长文】让AI为你写有声书：基于Deep research+音频朗读的学习方法

大模型11：🔥【大模型系列11】关于Grok4，你想知道的一切。250716更新：LMArena评分，网页版支持语音，加入类似3d waifu
大模型10：🔥【原创长文】关于O3-pro，你想知道的一切，更新LiveBench评分【长期更新】
大模型9：🔥【原创长文】关于Deepseek R1-0528，你想知道的一切【250530更新LiveBench评分】
大模型8：🔥【原创长文】关于Claude4，你想知道的一切，250529更新Lmarena前端编程评分【长期更新】
大模型7：🔥【原创长文】关于Gemini 2.5 Flash，你想知道的一切。2.5-flash-0520Lmarena和长上下文评分【250525更新见底楼】
大模型6：🔥【原创长文】关于GPT-O3，O4-mini和4.1，你想知道的一切：250425：Lmarena评分出来了【长期更新】
大模型5：【原创长文】关于Gemini 2.5 Pro，你想知道的一切。2.5-pro-0605 Aider编程分数超过o3【更新见底楼】

其他：🔥【原创长文】顶级会员科普：ChatGPT Pro vs Gemini Ultra vs Claude Max vs SuperGrok Heavy
其他：🔥【原创长文】全网最全，中美AI相关社区汇总【长期更新】
其他：【原创长文】不要被官方参数骗了，各大模型实际长文输出能力测试研究【长期更新】
其他：【原创长文】Gemini-2.5-flash做沉浸式翻译的研究
其他：❓【ChatGPT】Sora画图 vs 4o画图，有什么区别，你知道吗？
其他：🔥【原创长文】关于免费和包月限量，你想知道的一切：ChatGPT Deep research限量翻倍【250518底楼更新】
其他：AI梗图大全，总有一张让你大笑☺，250410更新Llama梗图在底部【长期更新】
其他：《Deepseek时刻》原创长文，深度分析Deepseek这几天在全球到底发生了什么（1月28日17点40更新）

dwqxq1 · 2025 年7 月 14 日 00:26

正在更新中

handsome · 2025 年7 月 14 日 00:33

感谢大佬！

lueluelue · 2025 年7 月 14 日 00:44

真的很需要一个支持iOS的4o Transcribe，最好不用切换输入法

wandererhh · 2025 年7 月 14 日 00:52

谢谢分享，先收藏了，需要投入时间弄懂

capgrey · 2025 年7 月 14 日 00:52

好文～～

dwqxq1 · 2025 年7 月 14 日 06:04

增加了收费的讯飞高精转录（下图第三组），¥2/小时左右，识别率35%左右，好于免费的讯飞输入法，但远不如同价位的4o-transcribe，甚至不如¥0.7/小时的whisper

tonyyn · 2025 年7 月 14 日 14:54

大佬给力

dwqxq1 · 2025 年7 月 16 日 07:15

加入gemini2.5pro，flash，flash-lite，elevenlabs-scribe评测 250716 15:15更新

结论

第一梯队：错误率10%以内

4o-transcribe，¥2.7/小时，少量错字，口头禅删除最好

第二梯队：错误率20%

elevenlabs-scribe：¥3/小时，几乎没有错字，但完全不处理口头禅，排除口头禅因素识别率第一
whisper：第三方¥0.24/小时
2.5pro：折合¥2/小时，AIStudio可白嫖

第三梯队：错误30%

2.5flash：折合¥0.5/小时
2.5flash-lite：折合¥0.2/小时

第四梯队，错误率40%

讯飞高精转写：约¥2/小时

第五梯队，错误率50%

搜狗，讯飞语音输入法：免费

dwqxq1 · 2025 年7 月 16 日 07:39

Artificial analysis的听写模型评测 250716 15:39更新

来源：Speech to Text (ASR) Providers Leaderboard & Comparison | Artificial Analysis

xico · 2025 年7 月 16 日 10:04

这不对吧。

Lixinyuan · 2025 年7 月 23 日 03:33

有人试过Mistral AI的Voxtral模型吗

Judy_Zhu · 2025 年7 月 23 日 12:35

好帖支持！

lianwusuoai · 2025 年7 月 31 日 03:14

我看了微信语音转文字，测试有点问题把，以及没有手机微信输入法的测试。

有windows好用的语音输入法吗

Cyril2007 · 2025 年7 月 31 日 03:18

就知道讯飞有一个语音+自动翻译的别的不知道还有啥

dwqxq1 · 2025 年9 月 6 日 05:00

新增阿里听悟 vs 豆包大模型听写 vs 4o-transcribe 识别率对比 250906 11:21更新

阿里听悟（¥0.6/小时），测试地址：https://tingwu.aliyun.com/
识别率不行，还不如2022年的whisper，价格也比第三方whisper的¥0.3/小时贵

豆包大模型(原价¥2.3，新用户¥1.8/小时），测试地址：语音识别-火山引擎
豆包缺点就是价格贵，质量估计是国内最好的，接近国外第一梯队。

除了听写，豆包的实时语音和朗读也是国内最像真人的

但是默认不去除口头禅，有可能可以通过听写模型提交提示词去除口头禅（不确定），或者在润色环节用大模型去除口头禅

豆包没有专门的输入法，豆包pc版带一个语音录入功能，不确定是否调用这个模型。
也没有看到第三方输入法调用豆包听写的API（估计太贵用不起）

kuraudowelle · 2025 年9 月 6 日 07:07

我最近开始再折腾elevenlabs-scribe还有SONIOX 的API，感觉可选空间又大了很多

linhaixin · 2025 年9 月 6 日 07:44

dwqxq1佬好厉害啊

weather · 2025 年9 月 10 日 06:14

大佬，实时转写+说话人识别有什么好的方案吗？我现在用听悟的api能完成任务，但是延迟很高，这一句说完上一句的结果才展示出来。我也用过WhisperLiveKit开源工具，但感觉识别的准确率不够。

dwqxq1 · 2025 年9 月 10 日 07:01

【十倍速写作系列2.5】实时字幕，可以用Spokenly + soniox-realtime
soniox中文识别率相当不错，属于第一梯队，主观感觉略差于elevenlabs-scribe，和4o-transcribe差不多，但没有4o-transcribe那么多小毛病
Spokenly的$8包月包含soniox，不太划算
Spokenly免费版，可以到soniox官网注册送$200，无需绑卡，获取apikey填到Spokenly里

长录音直接在soniox的网页/安卓app/iOS app里使用实时听写也行，
短录音还是Spokenly + soniox-realtime key方便，可以直接写到笔记/微信/邮件里

话题		回复	浏览量
:fire:【原创长文】深度分析AI语音输入法CleverType，如何降维打击讯飞搜狗语音，成为你的效率利器【长期更新】文档共建 ChatGPT , OpenAI , 人工智能 , 纯水 , 原创	29	1939	2025 年9 月 15 日
自从用了语音输入法后…… 搞七捻三纯水	56	1325	2025 年12 月 28 日
:fire:【十倍速写作系列3】关于AI语音输入法，你想知道的一切，附全平台排名【250820底楼更新最强听写+最强润色方案】文档共建 ChatGPT , OpenAI , 人工智能 , 纯水	67	3104	2025 年10 月 29 日
一个AI 语音输入法——代体资源荟萃人工智能	54	2191	2025 年12 月 14 日
智谱开源GLM-ASR系列模型前沿快讯人工智能	27	1304	2026 年2 月 4 日