gemini-2.0-flash-live-001 上线了

zhong_little · 2025 年4 月 10 日 03:47

今天查看模型列表的时候发现 gemini live api 上线了

Live API 支持与 Gemini 建立低延迟的双向语音和视频互动。借助 Live API，您可以为最终用户提供自然的、类似人类的语音对话体验，并能够使用语音指令中断模型的回答。该模型可以处理文本、音频和视频输入，并提供文本和音频输出。

最近发布的模型真是应接不暇，多模态 AI 也越来越近了

freebsdfx · 2025 年4 月 10 日 03:49

啊？我要去试试，正常来说tts需要额外训练中文的啊，要不然发声一股大佐味道。

zhong_little · 2025 年4 月 10 日 03:49

是的，中文支持应该不会太好，之前 aistudio 就是能听懂中文但是死活不讲中文

KXG · 2025 年4 月 10 日 03:50

有普通话可用了

KXG · 2025 年4 月 10 日 03:51

AI Studio 现在可以选择语言，支持中文了，我去尝试一下

jakma · 2025 年4 月 10 日 03:51

在哪里能用？

KXG · 2025 年4 月 10 日 03:51

qinanmail · 2025 年4 月 10 日 03:52

既有grok3 又有Gemini，今天是个好日子

jakma · 2025 年4 月 10 日 03:53

可以可以，中文语调也挺好得

zhong_little · 2025 年4 月 10 日 03:54

太好了，听说 2.5 flash 马上也要安排上了

KXG · 2025 年4 月 10 日 03:55

中文听起来有点生疏，不太流畅的感觉

KXG · 2025 年4 月 10 日 03:58

目前好像只能选中语言才能对话，如果在英文模式下就基本说不出中文了

freebsdfx · 2025 年4 月 10 日 04:00

反复强调，让他用中文来回复，可以动态切换的。

jakma · 2025 年4 月 10 日 04:07

grok3有什么大新闻

qinanmail · 2025 年4 月 10 日 04:07

grok3 api呀，150刀赠金可以用了

jdzw · 2025 年4 月 10 日 04:20

求大佬，有哪个ui能兼容这个api吗？边语音边文字！他这个速度好快，感觉是实时的语音对语音，尽管官方ui显示发送的文字再转语音。

好像有时间限制，用了不到15分钟，就用不了了

Azarasi · 2025 年4 月 10 日 04:48

Google最近一天一个新东西啊

jakma · 2025 年4 月 10 日 04:54

谷歌后来居上的感觉

freebsdfx · 2025 年4 月 10 日 04:55

别家都要买GPU，老黄还不一定愿意卖。

他家是NPU自产自销，有钱有人才，感觉很有前途。

capgrey · 2025 年4 月 10 日 04:57

希望开源社区有应用可以调用它。

为了用 Gemini Live，我都想买一个安卓手机了。最好能用原生安卓的

话题		回复	浏览量
Gemini (AI studio)实在是太香了！资源荟萃纯水	81	7081	2025 年1 月 25 日
各位巨佬，现在支持实时语音对话的客户端有吗开发调优快问快答	22	318	2025 年11 月 12 日
gemini的实时语音和视频已经上线资源荟萃	33	1590	2025 年1 月 14 日
Gemini 开放 Live Chat 和 Video Live Chat 支持屏幕共享, 免费搞七捻三人工智能	13	799	2025 年1 月 12 日
发现用Gemini 的共享屏幕可以做很多事前沿快讯 Gemini , 人工智能	24	1652	2025 年4 月 3 日