250425 三花 AI 日报：唇形同步模型 Hummingbird-0；支持多角色的视频一致性生成模型；阿里开源模块化数字人对话系统；OpenAI 推出 Deep Research 轻量版；开源 LiveCC：实时视频解说大模型

ke_jun · 2025 年4 月 25 日 01:30

Tavus 发布 SOTA 唇形同步模型 Hummingbird-0

Tavus 公司最新发布的 Hummingbird-0 是一款 SOTA 唇形同步模型，目前仅在 FAL 上提供 API 作为研究预览使用。

从官推的演示效果来看效果不错，期待开源~

Phantom 是字节跳动开源的一款视频角色一致性生成模型，能够根据参考图像生成保持角色一致性的视频内容，并支持多角色保持。

目前官方已适配 Wan 2.1 模型，有需要的佬们不要错过。

阿里开源了OpenAvatarChat完整数字人系统可在单台PC上流畅运行，平均响应时间仅2.2秒，支持文本、音频、视频等多模态交互。

最近有想做实时数字人的可以看看了，用了非常多的开源项目，不过效果还有提升空间，表情略显呆滞，口型同步也需要进一步优化。

OpenAI 的 Deep Research 现已推出轻量版，由 O4-mini 提供支持，向所有免费用户开放。

LiveCC 是基于 Qwen2-VL-7B 开发的实时视频理解大模型，能够像专业解说员一样快速分析视频内容，并同步生成自然流畅的语音或文字解说。

特别适合需要即时反馈的场景，比如体育赛事直播时自动生成战术分析，或是游戏直播中实时解说。

LiveCC 的代码和相关资源已在 GitHub 和 Hugging Face 上公开，需要的不要错过。

1263403710 · 2025 年4 月 25 日 01:30

前排看报

krismile · 2025 年4 月 25 日 01:31

每日看报

XiaoHuang · 2025 年4 月 25 日 01:32

第三！我来了！

yqyan · 2025 年4 月 25 日 01:32

每日看报

abelwang · 2025 年4 月 25 日 01:34

每日看报

jcjrobert · 2025 年4 月 25 日 01:39

OpenAvatarChat目前还是不能定制形象吧
之前数字人试了latentsync和livetalking，实时性可能还是livetalking舒服点
latentsync效果挺好但是太慢了

livecc有没有佬友试一下，不知道能不能在本地跑起来

YANLT-lab · 2025 年4 月 25 日 01:40

前排看报

sansan048 · 2025 年4 月 25 日 01:42

每日看报~

linuxlove · 2025 年4 月 25 日 01:46

qwen还是强，3个新闻都有它的功劳

wwow · 2025 年4 月 25 日 01:46

我来看看

handsome · 2025 年4 月 25 日 01:56

每日看报

vvc · 2025 年4 月 25 日 01:58

每日看报

Lin_Xiao · 2025 年4 月 25 日 01:59

看报+1

Dr.Mike · 2025 年4 月 25 日 01:59

每日看报

dharma · 2025 年4 月 25 日 02:03

每日看报，感谢分享

runbrick · 2025 年4 月 25 日 02:11

LiveCC 只能生成文字，看起来还得配合别的才能生成实时的语音

cohctcuhs · 2025 年4 月 25 日 02:12

每日看报

Mizukii · 2025 年4 月 25 日 02:15

看报+1～

iberxilong · 2025 年4 月 25 日 02:30

每日看报

话题		回复	浏览量
250409 三花AI日报：ElevenLabs 发布 MCP 服务器；TTT AI 生成猫和老鼠长视频；MiniMax 发布 Speech-02；HiDream-I1 比肩 Flux dev 生图模型；Gemini Live：AI 视频交互前沿快讯人工智能	33	988	2025 年5 月 10 日
250227 三花AI日报：腾讯预告混元 AI 视频模型，自带音效生成功能； DeepSeek 推出夜间 API 调用优惠；LLaDA 大语言扩散模型正式发布； OpenAI 向 Plus 及以上用户开放 Deep research 功能前沿快讯人工智能	12	397	2025 年3 月 29 日
250313 三花AI日报：Gemma 3: 甩开同参数模型一条街；VACE：All-in-One 视频生成与编辑模型；Gemini 2.0 Flash 原生图像生成功能正式开放；8 款 Wan2.1 特效 LoRA；Open R1 第三弹更新；前沿快讯人工智能	27	1060	2025 年4 月 12 日
250508三花 AI 日报：Insert Anything：开源图片无缝插入编辑框架；腾讯 FlexiAct 视频动作克隆；HeyGen 发布 Avatar IV 数字人前沿快讯人工智能	19	602	2025 年6 月 7 日
25421 三花AI日报：Midjourney 更新图片编辑器；小视频宝发布AI语法讲解视频模板；阿里开源 Wan2.1 首尾帧视频模型；字节开源 UI-TARS-1.5 GUI 自动化前沿快讯人工智能	25	706	2025 年5 月 21 日