测试发现豆包输入法同时使用流式和文件语音识别

对比豆包输入法和Typeless输入法语音识别效果
继续讨论

文件识别效果,对网络热词处理比较好


流式识别效果

豆包输入法流式显示文字的时候,用的是流式识别
点击结束后的最终文字,就对应文件识别的效果

所以调用豆包API的时候,如果要达到豆包输入法的效果,就需要用到文件语音识别API

26 个赞

墨子佬最近很执着豆包啊 :joy:

2 个赞

意思是可以用豆包API复刻出豆包输入法的语音转文字效果吗?

是的,只要你选对API就能复刻,要选录音文件识别API

2 个赞

试下开源的qwen asr3

1 个赞

我记得这个模型以前是闭源的时候,我就用了很多次了。如果这个模型很强的话,我就不会改用豆包语音了

豆包是真的又快又好

1 个赞

我试了一下用 API 调用千问和豆包的这两种模型,效果还是差别很大

豆包好是好,这个价格也比千问贵好多,佬有试过elevenlabs的语音识别吗

我查了一下,好像是豆包更便宜吧

1 个赞

而且免费送20小时,如果你只是用来语音输入,这完全够用了

通过几个app上自带的英语模式学习,发现豆包的识别是最高的,我们发音很不标准,但他能识别修改,

最近怎么发现佬友一直研究豆包输入法,是和它杠上了吗:rofl:

1 个赞

因为这个最好用,我要在我的别的项目上调用API复刻出这样的效果

3 个赞

豆包输入法的语音识别很强吗,我没有使用过
平时用搜狗感觉正常的输入没问题,有同音字或者网络热词容易识别不出来

感觉搜狗、百度、讯飞的输入法识别率都差不多,和现在的AI输入法差距都挺大的

老一套的输入法都是可以用离线识别的,现在的AI输入法都是在线
应该是离线跟在线识别实际的模型是一样的

豆包输入法也有离线版本,要150兆

那就有意思了,我下载试试

好奇怪,抓包抓不到语音识别的相关请求,但是其他的请求就能抓到
比如上报输入内容,设备信息等的包都能看到

1 个赞