【开源】按住说话-Windows平台语音输入转文本小工具(5MB)(qwen-asr-flash/doubao驱动,支持自定义润色)

源码地址

yyyzl/push-2-talk: 按住说话

欢迎大家试用反馈,觉得有用的话,欢迎点个:sparkles:

简介

按住按键说话,会将你所说的内容,自动粘贴到当前光标位置。

  • 支持qwen/doubao ASR,响应速度极快,基本上0.4-0.8s内准确率高
  • 支持自定义后置模型润色

ASR KEY申请

https://ncn18msloi7t.feishu.cn/wiki/ZnBZwSNjpisUdYkKks1cbes8nGb?from=from_copylink

润色模型推荐

https://ncn18msloi7t.feishu.cn/wiki/UJiWwpGmUio1jYkxJPHc4xu2n8c

功能介绍

  • 支持实时流式转录/HTTP转录 - 支持 WebSocket 边录边传,极低延迟,松手即出字。
  • LLM 智能后处理 - 内置 “文本润色”、“邮件整理”、“中译英” 等预设,支持自定义 Prompt
  • 支持智能指令模式 - 按住向AI提问/选中内容提问
  • 支持松手模式 - 按下后持续录音,无需久按
  • 全局自定义快捷键 - 支持配置自己想要的录音快捷键
  • 音频反馈 - 录音开始/结束时的清脆提示音,盲操也放心
  • 弹窗反馈 - 录音开始/结束时界面上清晰的弹窗展示
  • 双模引擎 & 自动备选 - 默认主ASR,并支持 SiliconFlow (SenseVoice) 作为备用渠道。

界面展示


更新日志

v0.0.15

  • 支持松手模式
  • 支持智能指令模式&优化前端界面&优化自动更新功能

v0.0.12
feat:支持自定义按键&支持豆包使用硅基流动兜底

v0.0.12
feat:支持自定义按键&支持豆包使用硅基流动兜底

v0.0.9
chroe:优化开启自启动和更新界面展示

v0.0.8
update:优化热键检测能力,引入看门狗机制

v0.0.6
feat:支持自动更新&优化提示音

v0.0.4
feat:支持开机自启动

v0.0.3
feat:重构API填写界面&支持豆包ASR
feat:支持语音状态弹窗

v0.0.2
feat:新增最小化到托盘功能

v0.0.1
feat:mvp版本

78 个赞

感谢分享

2 个赞

发的时间有些阴间了,可以明天上午发

1 个赞

明早再更新一次哈哈哈哈:zany_face:

1 个赞

插个书签,早上睡醒了来看一下,早就看win11的语音输入不爽了 :grinning_face_with_smiling_eyes:

2 个赞

谢谢佬的支持

1 个赞

佬反馈个问题,在关闭服务的情况下在输入框按住Ctrl加win键 会自动变为开启服务状态并提示没有录制到音频数据,而且无法关闭服务状态,点击停止服务会提示服务未运行,只能关掉程序重新打开

1 个赞

不错,晚点就试试。是Qwen3 ASR吗?
考虑支持下豆包的语音识别2.0吗

1 个赞

感谢大佬

1 个赞

支持 @yeahhe 佬的Qwen3 ASR API吗?

1 个赞

可以考虑,这个出了的时候对比了一下,没看到有明显的优势,所以没新增,今天考虑支持上去

2 个赞

这个可以考虑,等我研究下佬的

1 个赞

收到!这个情况我下班回去复现一下,修复了踢你一下

2 个赞

豆包的asR直是第一梯队的,尤其是前几天刚发布了语音识别模型的2.0版本,跟Qwen3-asr应该是不相上下。

1 个赞


测试了一下效果不错但是它好像没法自动添加标点符号。
另外建议复制过程中增加一个桌面的动效。
还有就是能不能关闭后能最小化到系统托盘,保持在后台激活状态

2 个赞

是的,前几天发布的时候我就了解了一下,当时用Grok比较了一下,Grok告诉我推荐继续qwen哈哈哈哈,我回去加一下吧,加好了踢你

4 个赞

这个应该是千问ASR的问题,你可以让后置的优化模型帮你智能区分,推荐智谱的glm4 flash速度特别快,还免费

3 个赞

感谢分享,研究一下

2 个赞

感谢大佬~~好项目

2 个赞

用上啦,感谢

2 个赞