gemini的实时语音和视频已经上线

试用了一段时间,发现他还是有一些问题的

  1. 他的语音类似于OpenAI的实时语音,只不过可能有点延迟,或者有点卡
  2. 他的语音识别挺准的,并且相应速度很快,得益于Gemini采用全过程语音输入输出,不需要像传统语音助手那样中间再给你转个文字
  3. 目前不支持中文输出,无论我怎么跟他说,打死他也不跟我说中文。目前他跟我说过英文和日文,而且在你跟他强调要用中文沟通之后很大概率用日文回你。难道说谷歌团队觉得东亚这块离日本近,所以就都听得懂日语吗?
  4. 你不想听他说日语或者英语,可以切换成文字输出。这回就能输出中文了
  5. 支持视频功能,包括你的摄像头还有共享屏幕。我试了试,还是挺准的,可能是调用了2.0 flash的图像识别
  6. 目前完全免费,用了二十来分钟也不带停的,不清楚额度怎么算的,没准无限。想到当初用OpenAI的实时语音,说了十来分钟好几刀就没了,那可真肉疼啊
  7. 支持联网,调用的是谷歌搜索(如何联网?右边往下滑,有个选项叫Grounding,默认关闭,把它打开)

总的来说,gemini的语音功能还是挺适合普通人用的。比如你有个啥问题,懒得打字,可以直接语音告诉他。毕竟免费用嘛,把它当谷歌也行

使用也很简单,Google Ai Studio就有,在左边选项那里,有个Stream Realtime。或者从下面这个链接里点进去也行

关于其他gemini-2.0-flash-exp的内容,参考我之前的帖子

34 个赞

总结得好 另外怎么实现 7. 支持联网,调用的是谷歌搜索 求帮助

2 个赞

右边有个选项,写着grounding,把它打开

2 个赞

但其實沒用 可能是因為重速度所以聯網形同虛設

2 个赞

为什么让它使用中文回复我,它一会变成日语,一会是韩语…

2 个赞

哥们你这头像…涉黄了吧!?:rofl:

1 个赞

手机 app 对话体验还行,速度非常快

3 个赞

演员在荧幕前是演员 在荧幕下谁知道呢:grin:

1 个赞

它语音还不支持中文,你如果让它用中文它只会说日文或其他语言

1 个赞

得跟他强调,他下意识是不去联网的

2 个赞

我可是美亚酱铁粉啊,发没发现我所有的测试照片都是她

1 个赞

試試看問周杰倫場次吧 如果可以的話那我沒話說

1 个赞

这么厉害?
请别忘了,语音对话聊天的终局就是机器人。

好技术要是不用来做机器人就太可惜了。

3 个赞

这么强能免费用,好好感谢吧,要是奥特曼不得要你200刀

6 个赞

感谢佬的分享

2 个赞

很實用的使用分享,希望快點支援中文。

2 个赞


你没把grounding打开?或者是你没跟他强调,比如“联网搜搜”“直到现在为止最新的”

1 个赞

马克备用,谢谢

3 个赞

這確實 我也有開 grounding
那不錯

2 个赞

手机app 怎么用 安装什么app

1 个赞