【十倍速写作系列8】第一梯队AI语音输入法Spokenly完全体降临iOS,识别率吊打搜狗/讯飞/微信/苹果

本系列其他文章可参考
.🔥【十倍速写作系列7】AI语音输入法能完全抛弃键盘?配合Mac语音控制功能就可以
.🔥【十倍速写作系列6】我设计的AI语音输入法专用键盘触控板套装【长期更新】
.🔥【十倍速写作系列5】挑战AI语音输入法识别率的极限【长期更新】
.🔥【十倍速写作系列4】我原创的最强桌面级生产力+AI语音眼镜组合【长期更新】
.🔥【十倍速写作系列3】关于AI语音输入法,你想知道的一切,附全平台排名【250820底楼更新最强听写+最强润色方案】
.🔥【十倍速写作系列2】:4o-transcribe vs whisper vs gemini-2.5 vs 搜狗讯飞的识别率实测,250716更新gemini和elevenlabs-scribe
.🔥【原创长文】深度分析AI语音输入法CleverType,如何降维打击讯飞搜狗语音,成为你的效率利器【长期更新】
.🔥【大模型系列14】关于grok-4-fast(代号Sonoma Sky Alpha),你想知道的一切【底楼250921更新价格和LMArena评分】
.:Fire:【大模型系列12】关于 GPT-5,你想知道的一切【250904底楼更新Aider评分),狼人杀测试(撒谎与伪装)排第一】

这几天Spokenly的iOS和Mac版都更新了,

Spokenly iOS版,iPhone或iPad都可以用

其实iOS版从8月就上线了,但一直是阉割版,没有自定义API Key,没有润色功能,属于从全平台第三梯队
这几天更新后,加入了自定义Key和润色功能,直接跃升第一梯队了,主要功能已经无限接近Mac版了,甚至iOS都有了推理强度设置功能,貌似主流语音输入法里,他是第一个做这个功能的

Spokenly现在绝对是手机上最好的AI语音输入法,没有之一,而竞争对手SuperWhisper还停留在第三梯队
Spokenly作者也是很勤快,iOS上线一个月,就更新了很多版本,直接就冲到功能第一了

下载方法:我在美区appstore下载的,国区貌似也有。
不过国区随时可能被下架,因为国区里的app是不能使用美国大模型的

Spokenly Mac版

Mac上语音输入法,我原来的个人排名是Spokenly与VoiceInk并列第一,这次更新后,我觉得Spokenly略微超出VoiceInk了,原因是
①新版加入了自定义推理强度和温度功能,貌似还没有其他输入法有这个功能
②开放了系统提示词修改权限,就是可以替换掉Spokenly默认的系统提示词。
这个功能大部分语音输入法也没有
如果你认为自己系统提示词更好,或者更适合中文,可以替掉作者写的提示词
也可以把系统提示词改成比如句号占位,然后就可以当chat使用,语音提问,回答直接上屏到笔记/微信等

Mac版面市好像也就三个月时间,就冲到功能第一了,其他同类语音输入法都开发2,3年了

会有安卓版和Win版吗?

可惜作者明确表示,近期内不会有安卓版和Win版,他就一个人在战斗,做不过来

现在iOS除Spokenly以外的所有语音输入法,安卓上所有语音输入法,Win上所有语音输入法,最强的也就能达到全平台第三梯队的水平

全平台第一梯队的只有Spokenly mac版,Spokenly iOS版,VoiceInk mac版,SuperWhisper mac版,这四款

而SuperWhisper的iOS版和Win版现在都是严重缩水版,与mac版没法比
VoiceInk的iOS版也是严重缩水,没有Win版

最省钱的方法是

Spokenly就用免费会员,买包月虽然省事,但比自备API贵很多

免费也有少量的试用额度,每月恢复额度,可以先体验下
免费除了没有包月模型外,其他功能现在貌似都不限制,以后会不会限制就不知道了

下面ⒶⒷⒸ三个听写模型三选一,只有这仨是中文识别率第一梯队的听写模型,其他Whisper什么的识别率都不太行,也有些模型根本就不支持中文,我都折腾过了

听写Ⓐelevenlabs-scribe API

自己注册送20小时,用光了再换个邮箱重新注册,
如果用量大,嫌注册麻烦,可以咸鱼买三个月试用号,¥50=送$66=共188小时,平均每天2小时足够用了
可以买成品号,用完就扔,下次再买新号
也可以自备号,跟卖家要兑换码,但自备号只能兑换一次
elevenlabs是全球最强的专业AI语音厂商,除了听写最强,朗读等也是最强的,API的积分通用的,其他功能也可以去玩玩

听写Ⓑ或者自己去Soniox注册,无需绑卡,送$200÷$0.1/小时=2000小时,够用很久很久

模型填stt-rt-preview-v2
优点:赠金免费,还要啥自行车
有两个模型,soniox-async无字幕,soniox-realtime可以实时显示字幕,这个功能大多数在线模型没有,一般只有本地听写模型才有,但字幕是润色前的,不是最终稿。对于一些经常忘记自己在说啥的人,或者需要及时发现识别错误,当场更正的情况,有用的。
soniox-realtime比sioniox-async价格贵50%(反正有赠金无所谓),暂时不确定识别率是否完全相同
缺点:质量略微低于elevenlabs-scribe,跟4o-transcribe差不多
有两个模型,soniox-async模型识别率高点但速度慢,soniox-realtime模型速度快但识别率可能低于async(不确定),建议使用soniox-realtime

听写Ⓒ4o-transcribe:不太推荐

优点:识别率不错,但略不如elevenlabs-scribe
自带提示词推理功能,但实际多数前端并不支持,与润色模型功能重叠
缺点:小毛病多,经常没有标点符号,中英文标点混用,出繁体,有时结尾有幻觉,但这些一般都可以通过润色修复
模型上限25分钟或2000字(但Spokenly iOS版突破了限制)
没有说话人识别
最大缺点是官价贵¥0.36/小时,按照官价算每天一小时,一个月$10,比买Spokenly包月还贵
部分中转站渠道有这个模型,但要么贵,要么限量。
搞Azure100什么的如果网络不行,容易封号,不太适合不愿折腾的人

润色,去AIStudio注册个号,免费

获得API key,每天有100次2.5pro,250次2.5flash,1000次flash-lite
我一般聊天,修改,一句一句写笔记,用2.5-flash,一次连续录几十分钟用2.5-pro+推理
这些限额一般都够的,很少会超限
另外AIStudio 网页版聊天,有单独的限额,以前并不消耗API限额,现在不清楚
另外L站也有公益号池也可以

以上合计

elevenlabs-scribe自己注册试用 + AIStudio方案 = $0/月
elevenlabs-scribe买$66试用号 + AIStudio方案 = $3/月
soniox-async + AIStudio方案 = $0/月
Spokenly包月方案 = $8/月
而且Spokenly包月的润色模型貌似是2.5-flash或2.5-flash-lite一类的低价模型,并不会给你推理模型,性能跟2.5-pro没法比

135 个赞

【十倍速写作系列8.1】
其他Spokenly相关资源
.用了 Spokenly 之后,我再也不想用其他 Mac 语音转文字应用了。。
.【新增百炼官方调用】兼容 OpenAI 端口的 Qwen3-ASR,支持 Spokenly,免费使用


参考AI提示词

250918更新,现在新版支持了正则替换功能,把提示词里<替换>…</替换>的内容放到正则替换功能也行
这是我的提示词,仅做参考,尤其是<字典>和<替换>部分,可根据自己工作生活中的常用词汇,和易识别错的词汇修改
注意是填到AI Prompt,不是填到Advanced settings → System prompt

删除所有空行,结尾加一空行
<要求>
中文与英文之间不要留空格。
连在一起没有换行的几个句子,要根据含义关联性,用换行分开
去除口头禅,例如:嗯,啊,呢,这个,那个,那,那么,是吧,是不是,你说,你看,然后,就是说,所以呢,
如果前后两句话内容相似,以后面一句话为准,不要重复
如果说aaa更正bbb,则只保留bbb
如果碰到括号,用括号里的字来纠正括号前的字,不要输出括号里的内容
三位数或者以上的中文数字转换成阿拉伯数字
</要求>
<字典>
如果有拼写或者发音类似以下词汇的,替换成以下词汇
soniox-async,soniox-realtime,gpt-5-thinking,gpt-5-mini,2.5-pro,claude-4,grok-4
Claude,Copliot,Grok,Qwen,GLM,Kimi,DeepSeek,AIStudio
Spokenly,CleverType,VoiceNotes,VoiceInk,WisprFlow,WhisperTranscription,
Goovis Art,XReal,Inmo,影目,雷鸟,Mac眼镜,AR眼镜,语音眼镜
Obsidian
家宽,例子,
</字典>
<替换>→代表替换为
下一章替换成### 下一节替换为#### 下一小节替换为#####
粗体字aaa粗体字替换为**aaa**逗号替换为句号替换为问号替换为叹号替换为书名号aaa书名号替换为《aaa》灰色aaa灰色替换为~~aaa~~
圆圈一→替换为
注释一→¹,注释二→²,注释三→³,注释四→⁴,注释五→⁵,注释负一→⁻¹
gpt 5→gpt-5
gemini 2.5 pro→gemini-2.5-pro
gemini 2.5 flash→gemini-2.5-flash
claude sonnet 4或sonnet 4→sonnet-4
4o transcribe或gpt-4o transcribe→gpt-4o-transcribe
elevenlabs scribe→elevenlabs-scribe
Super Whisper→SuperWhisper
One second→⊚One Sec
右箭头替换为
左括号→(,右括号→),英文左括号→(,英文右括号→),单箭头→›,双箭头→»
书籍图标→❑,音频图标→☊,视频图标→▷,影视图标→⯈,文本图标▤,问答图标→⍰,作者图标→:smiling_face:,定律图标→✪,教育图标→:heart:,财经图标→$,软件图标→⊚,硬件图标→↯,媒体图标→:eye:,AI图标→🅐,⚿,管理图标→♕,游戏图标→✜,医学图标→✚,法律图标→:balance_scale:,编程图标→Ⓒ,儿童图标→♘,历史图标→:globe_showing_asia_australia:︎,科学图标→:rocket:︎,特色图标→+
云输入法→语音输入法
USD→$,RMB→¥,麦克→Mac
</替换>


以下是Spokenly的系统提示词,用来保证大模型只听写不回答问题,这在AI Prompt → Advanced设置里可以替换掉

Text Transformation Assistant

You are a text transformation assistant. Your task is to transform the user’s text according to specific instructions.

Response Guidelines

  • Return ONLY the transformed text
  • Do not add any comments or explanations
  • Do not wrap your response in quotes
  • Do not use markdown, HTML, XML tags or any special formatting unless specifically requested
  • Follow the user’s instructions exactly
  • Preserve the original meaning while applying the requested transformation
  • Note, the user text comes from voice transcription service

Important

Focus solely on transforming the provided text according to the instructions below.

User-Requested Transformation

27 个赞

没有安卓真是太可惜了,哎,不过作者一个人做也确实辛苦,不能要求太多

3 个赞

安卓win何时崛起,真想试试语音输入法啊 :tieba_087:

3 个赞

安卓前两天找了很久,只是看到fcitx5输入法可以调用系统语音输入,但是安卓相关系统语音输入软件只有几个小众的开源语音输入法,用的也是小众模型,也没有ai后处理

【十倍速写作系列8.2】Spokenly没有安卓和Win版怎么办?

安卓

可以用CleverType(用的4o-transcribe,无润色),
性能算第三梯队
playstore下载或搜apk试试,

Win

可以用SuperWhisper(Whisper听写+gpt5/sonnet4润色),
性能算第三梯队
公测下载地址:https://fresh.superwhisper.com/download/installer/windows/x64

虽然这两个都是第三梯队,但识别率也比搜狗讯飞这些第五第六梯队的高

11 个赞

clevertype上次下载玩了一下,可惜没有五笔

2 个赞

正在折腾,很有意思。
佬试过阿里刚刚推出的Qwen3-ASR吗,不同于以前的听悟,看帖子似乎很棒

1 个赞

自行进行了一下测试。
目前Spokenly无法使用Qwen3-ASR。
因为Spokenly使用的是OpenAI兼容格式。
gpt-4o-transcribe使用的API endpoint 是v1/realtimev1/audio/transcriptions,这些是OpenAI格式下的语音相关API端点。

而查看文档发现Qwen3-ASR使用的BaseURL是https://dashscope.aliyuncs.com/compatible-mode/v1https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions
即,阿里云百炼平台的API的格式,仅仅兼容了OpenAI格式下的文本模型端点,而没有兼容音频和多模态API端点,没有对OpenAI格式的听写API endpoint做完善的兼容。

2025-09-12
可以试试这个方案 兼容 OpenAI 端口的 Qwen3-ASR,支持 Spokenly,免费使用

6 个赞

感谢大佬!

5 个赞

请问ios上润色api在哪设置

2 个赞

很不错啊。感觉孩子用电脑时候 可以让他用这个 语音输入

2 个赞

【十倍速写作系列8.3】Spokenly的梯子问题 250910 14:15更新

因为手机梯子与电脑不同,手机上的梯子有的并不稳定,也并不是总需要梯子,所以很多人手机是不常开梯子的,有需要现用现开
但是输入法可是随时都要用,每次现开梯子麻烦。
尤其是忘了没开梯子,录了10分钟,发现没梯子失败了,有点恼火
下面讨论如何在手机不开梯子的情况下,使用Spokenly

官网包月不需要梯子

自备elevenlabs-scribe key和soniox key都不需要梯子

自备OpenAI官网key用4o-transcribe或gpt-5润色肯定需要梯子
普通梯子和普通浏览器,不要随便登OpenAI API后台,很容易封号
绝对不要Plus与API公用一个账号,API封号100%会株连Plus封号
仅调用官网key对网络要求不高,有梯子就行,一般不容易封号

中转站的key用4o-transcribe或gpt-5不要梯子,gpt-5好找,但4o-transcribe稳定不限量又便宜的中转站并不好找

AIStudio key肯定要梯子
但是把这个key填到OpenRouter的AIStudio渠道的自备Key里,然后Spokenly里填OpenRouter Key,就不要梯子了,而且可以实时查消耗情况,缺点是,虽然调用不消耗API费用,但要扣5%中转手续费

2 个赞

真有那么牛?

3 个赞

5%是谁收?

4 个赞

OpenRouter收,过路费

2 个赞

你说的是operouter上的用来润色的模型

1 个赞

【十倍速写作系列8.4】Spokenly iOS版 + 苹果语音输入法

Spokenly键盘上有两个录音按钮,上面是Spokenly的录音,下面是苹果的

我的用法是

Ⓐ少量修改文字时用苹果

适合录一两秒的情况
修改往往只需要改一个词,一个符号,用苹果不需要联网,是速度最快的,在几个字的情况下,识别率还可以
但是苹果不适合输入大段文字,或者专有名词,中英混杂,需要根据上下文推理的同音词这些比较复杂的情况,大段准确率比Spokenly差很多,

Ⓑ小段用gemini-2.5-flash润色

适合几秒钟到几分钟长度
润色质量与自定义提示词关系很大,flash不开推理速度快但智商一般,但配合经过反复调试的提示词,效果也不错

Ⓒ大段/整篇文章用gemini-2.5-pro润色

几分钟到几小时都行,会议录音也行
尤其是用来作业,发表,写报告等严肃场合

2 个赞

我刷到一个视频,作者用阿里开源中文模型 SenseVoice自部署api替换了whisper,据他说效果要更好,考虑到主流的T1语音输入用的是whisper之类没有对中文有特殊优化的模型,我是相信阿里那个会更好用的,有能力的话不妨试试

whisper最优解 whisper最优解_哔哩哔哩_bilibili

3 个赞

是AIStudio的key,填到OpenRouter的provider的api key里,通过OpenRouter中转,
好处是无需梯子,方便查具体消耗记录,不消耗OpenRouter api余额
坏处是扣5%中转费

5 个赞