今天查看模型列表的时候发现 gemini live api 上线了

Live API 支持与 Gemini 建立低延迟的双向语音和视频互动。借助 Live API,您可以为最终用户提供自然的、类似人类的语音对话体验,并能够使用语音指令中断模型的回答。该模型可以处理文本、音频和视频输入,并提供文本和音频输出。
最近发布的模型真是应接不暇,多模态 AI 也越来越近了
今天查看模型列表的时候发现 gemini live api 上线了

Live API 支持与 Gemini 建立低延迟的双向语音和视频互动。借助 Live API,您可以为最终用户提供自然的、类似人类的语音对话体验,并能够使用语音指令中断模型的回答。该模型可以处理文本、音频和视频输入,并提供文本和音频输出。
最近发布的模型真是应接不暇,多模态 AI 也越来越近了
啊?我要去试试,正常来说tts需要额外训练中文的啊,要不然发声一股大佐味道。
是的,中文支持应该不会太好,之前 aistudio 就是能听懂中文但是死活不讲中文
AI Studio 现在可以选择语言,支持中文了,我去尝试一下
在哪里能用?
既有grok3 又有Gemini,今天是个好日子
可以可以,中文语调也挺好得
太好了,听说 2.5 flash 马上也要安排上了
中文听起来有点生疏,不太流畅的感觉
目前好像只能选中语言才能对话,如果在英文模式下就基本说不出中文了
反复强调,让他用中文来回复,可以动态切换的。
grok3有什么大新闻
grok3 api呀,150刀赠金可以用了
求大佬,有哪个ui能兼容这个api吗?边语音边文字!他这个速度好快,感觉是实时的语音对语音,尽管官方ui显示发送的文字再转语音。
好像有时间限制,用了不到15分钟,就用不了了
Google最近一天一个新东西啊
谷歌后来居上的感觉
别家都要买GPU,老黄还不一定愿意卖。
他家是NPU自产自销,有钱有人才,感觉很有前途。
希望开源社区有应用可以调用它。
为了用 Gemini Live,我都想买一个安卓手机了。最好能用原生安卓的