本系列其他文章可参考
.🔥【十倍速写作系列7】AI语音输入法能完全抛弃键盘?配合Mac语音控制功能就可以
.🔥【十倍速写作系列6】我设计的AI语音输入法专用键盘触控板套装【长期更新】
.🔥【十倍速写作系列5】挑战AI语音输入法识别率的极限【长期更新】
.🔥【十倍速写作系列4】我原创的最强桌面级生产力+AI语音眼镜组合【长期更新】
.🔥【十倍速写作系列3】关于AI语音输入法,你想知道的一切,附全平台排名【250820底楼更新最强听写+最强润色方案】
.🔥【十倍速写作系列2】:4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测,250716更新gemini和elevenlabs-scribe
.🔥【原创长文】深度分析AI语音输入法CleverType,如何降维打击讯飞搜狗语音,成为你的效率利器【长期更新】
.🔥【大模型系列14】关于grok-4-fast(代号Sonoma Sky Alpha),你想知道的一切【底楼250921更新价格和LMArena评分】
.:Fire:【大模型系列12】关于 GPT-5,你想知道的一切【250904底楼更新Aider评分),狼人杀测试(撒谎与伪装)排第一】
这几天Spokenly的iOS和Mac版都更新了,
Spokenly iOS版,iPhone或iPad都可以用
其实iOS版从8月就上线了,但一直是阉割版,没有自定义API Key,没有润色功能,属于从全平台第三梯队
这几天更新后,加入了自定义Key和润色功能,直接跃升第一梯队了,主要功能已经无限接近Mac版了,甚至iOS都有了推理强度设置功能,貌似主流语音输入法里,他是第一个做这个功能的
Spokenly现在绝对是手机上最好的AI语音输入法,没有之一,而竞争对手SuperWhisper还停留在第三梯队
Spokenly作者也是很勤快,iOS上线一个月,就更新了很多版本,直接就冲到功能第一了
下载方法:我在美区appstore下载的,国区貌似也有。
不过国区随时可能被下架,因为国区里的app是不能使用美国大模型的
Spokenly Mac版
Mac上语音输入法,我原来的个人排名是Spokenly与VoiceInk并列第一,这次更新后,我觉得Spokenly略微超出VoiceInk了,原因是
①新版加入了自定义推理强度和温度功能,貌似还没有其他输入法有这个功能
②开放了系统提示词修改权限,就是可以替换掉Spokenly默认的系统提示词。
这个功能大部分语音输入法也没有
如果你认为自己系统提示词更好,或者更适合中文,可以替掉作者写的提示词
也可以把系统提示词改成比如句号占位,然后就可以当chat使用,语音提问,回答直接上屏到笔记/微信等
Mac版面市好像也就三个月时间,就冲到功能第一了,其他同类语音输入法都开发2,3年了
会有安卓版和Win版吗?
可惜作者明确表示,近期内不会有安卓版和Win版,他就一个人在战斗,做不过来
现在iOS除Spokenly以外的所有语音输入法,安卓上所有语音输入法,Win上所有语音输入法,最强的也就能达到全平台第三梯队的水平
全平台第一梯队的只有Spokenly mac版,Spokenly iOS版,VoiceInk mac版,SuperWhisper mac版,这四款
而SuperWhisper的iOS版和Win版现在都是严重缩水版,与mac版没法比
VoiceInk的iOS版也是严重缩水,没有Win版
最省钱的方法是
Spokenly就用免费会员,买包月虽然省事,但比自备API贵很多
免费也有少量的试用额度,每月恢复额度,可以先体验下
免费除了没有包月模型外,其他功能现在貌似都不限制,以后会不会限制就不知道了
下面ⒶⒷⒸ三个听写模型三选一,只有这仨是中文识别率第一梯队的听写模型,其他Whisper什么的识别率都不太行,也有些模型根本就不支持中文,我都折腾过了
听写Ⓐelevenlabs-scribe API
自己注册送20小时,用光了再换个邮箱重新注册,
如果用量大,嫌注册麻烦,可以咸鱼买三个月试用号,¥50=送$66=共188小时,平均每天2小时足够用了
可以买成品号,用完就扔,下次再买新号
也可以自备号,跟卖家要兑换码,但自备号只能兑换一次
elevenlabs是全球最强的专业AI语音厂商,除了听写最强,朗读等也是最强的,API的积分通用的,其他功能也可以去玩玩
听写Ⓑ或者自己去Soniox注册,无需绑卡,送$200÷$0.1/小时=2000小时,够用很久很久
模型填stt-rt-preview-v2
优点:赠金免费,还要啥自行车
有两个模型,soniox-async无字幕,soniox-realtime可以实时显示字幕,这个功能大多数在线模型没有,一般只有本地听写模型才有,但字幕是润色前的,不是最终稿。对于一些经常忘记自己在说啥的人,或者需要及时发现识别错误,当场更正的情况,有用的。
soniox-realtime比sioniox-async价格贵50%(反正有赠金无所谓),暂时不确定识别率是否完全相同
缺点:质量略微低于elevenlabs-scribe,跟4o-transcribe差不多
有两个模型,soniox-async模型识别率高点但速度慢,soniox-realtime模型速度快但识别率可能低于async(不确定),建议使用soniox-realtime
听写Ⓒ4o-transcribe:不太推荐
优点:识别率不错,但略不如elevenlabs-scribe
自带提示词推理功能,但实际多数前端并不支持,与润色模型功能重叠
缺点:小毛病多,经常没有标点符号,中英文标点混用,出繁体,有时结尾有幻觉,但这些一般都可以通过润色修复
模型上限25分钟或2000字(但Spokenly iOS版突破了限制)
没有说话人识别
最大缺点是官价贵¥0.36/小时,按照官价算每天一小时,一个月$10,比买Spokenly包月还贵
部分中转站渠道有这个模型,但要么贵,要么限量。
搞Azure100什么的如果网络不行,容易封号,不太适合不愿折腾的人
润色,去AIStudio注册个号,免费
获得API key,每天有100次2.5pro,250次2.5flash,1000次flash-lite
我一般聊天,修改,一句一句写笔记,用2.5-flash,一次连续录几十分钟用2.5-pro+推理
这些限额一般都够的,很少会超限
另外AIStudio 网页版聊天,有单独的限额,以前并不消耗API限额,现在不清楚
另外L站也有公益号池也可以
以上合计
elevenlabs-scribe自己注册试用 + AIStudio方案 = $0/月
elevenlabs-scribe买$66试用号 + AIStudio方案 = $3/月
soniox-async + AIStudio方案 = $0/月
Spokenly包月方案 = $8/月
而且Spokenly包月的润色模型貌似是2.5-flash或2.5-flash-lite一类的低价模型,并不会给你推理模型,性能跟2.5-pro没法比


