250425 三花 AI 日报:唇形同步模型 Hummingbird-0;支持多角色的视频一致性生成模型;阿里开源模块化数字人对话系统;OpenAI 推出 Deep Research 轻量版;开源 LiveCC:实时视频解说大模型

Tavus 发布 SOTA 唇形同步模型 Hummingbird-0

Tavus 公司最新发布的 Hummingbird-0 是一款 SOTA 唇形同步模型,目前仅在 FAL 上提供 API 作为研究预览使用。

从官推的演示效果来看效果不错,期待开源~

字节跳动开源 Phantom:支持多角色的视频一致性生成模型

Phantom 是字节跳动开源的一款视频角色一致性生成模型,能够根据参考图像生成保持角色一致性的视频内容,并支持多角色保持。

目前官方已适配 Wan 2.1 模型,有需要的佬们不要错过。

阿里开源模块化数字人对话系统

阿里开源了OpenAvatarChat完整数字人系统可在单台PC上流畅运行,平均响应时间仅2.2秒,支持文本、音频、视频等多模态交互。

最近有想做实时数字人的可以看看了,用了非常多的开源项目,不过效果还有提升空间,表情略显呆滞,口型同步也需要进一步优化。

OpenAI 推出 Deep Research 轻量版,免费用户也能用

OpenAI 的 Deep Research 现已推出轻量版,由 O4-mini 提供支持,向所有免费用户开放。

开源 LiveCC:实时视频解说大模型

LiveCC 是基于 Qwen2-VL-7B 开发的实时视频理解大模型,能够像专业解说员一样快速分析视频内容,并同步生成自然流畅的语音或文字解说。

特别适合需要即时反馈的场景,比如体育赛事直播时自动生成战术分析,或是游戏直播中实时解说。

LiveCC 的代码和相关资源已在 GitHub 和 Hugging Face 上公开,需要的不要错过。

41 个赞

前排看报

2 个赞

每日看报

2 个赞

第三!我来了!

2 个赞

每日看报

1 个赞

每日看报

OpenAvatarChat目前还是不能定制形象吧
之前数字人试了latentsync和livetalking,实时性可能还是livetalking舒服点
latentsync效果挺好但是太慢了

livecc有没有佬友试一下,不知道能不能在本地跑起来

1 个赞

前排看报

每日看报~

qwen还是强,3个新闻都有它的功劳

我来看看

每日看报

每日看报

看报+1

每日看报

每日看报,感谢分享

LiveCC 只能生成文字,看起来还得配合别的才能生成实时的语音

1 个赞

每日看报

看报+1~

每日看报