24829 三花 AI 日报;更好的风格迁移技术;开源首尾帧图生视频;真 AI 游戏“渲染”引擎;交互式文生图 3D 布局控制;谷歌 Gems:类似 GPTs 的功能

板块更新了,我以后发这里呢还是发人工智能呢?


三花 AI 一觉醒来发生了什么?欢迎阅读:backhand_index_pointing_down:

:artist_palette: 谷歌 RB-Modulation:更好的风格迁移技术

:clapper_board: 谷歌 Generative Inbetweening:开源首尾帧图生视频

:video_game: 谷歌 GameNGen:真 AI 游戏“渲染”引擎

:joystick: Build-A-Scene:交互式文生图 3D 布局控制

:sparkles: 谷歌 Gems:类似 GPTs 的功能

今天谷歌专场,欢迎大家交流


谷歌 RB-Modulation:更好的风格迁移技术

Google DeepMind 团队开源了 RB-Modulation,一个新的风格迁移技术,就像我们熟知的 IP-Adapters 的一样,只需提供一张参考图,就能帮你轻松生成风格一致的艺术作品。

该技术适用于 StableCascade,并且可以适配 SDXL 和 Flux,不过目前官方还没有提供演示和 ComfyUI 插件,我会持续跟进社区的发展,可以先点个关注。

谷歌 Generative Inbetweening:开源首尾帧图生视频

就像可灵或者 Luma 的首尾帧生成视频,谷歌开源了 Generative Inbetweening,输入首尾帧就能生成非常丝滑的视频。暂时没有提供 ComfyUI 插件和 Space 演示。

不过从官网的演示来看,比传统的帧插值技术确实要好很多,但是比闭源的 Luma 之类的还是要差点。

谷歌 GameNGen:真 AI 游戏“渲染”引擎

GameNGen 第一个完全由神经模型驱动的游戏引擎,通过预测经典单机射击游戏《DOOM》的下一帧,就能以 20fps 实时游玩,而无需任何底层的游戏引擎,这意味着游戏中的每一个像素都是“生成”的而非“渲染”的,虽然有一些生成错误,但画面整体还是相当稳定的。

昨晚讨论的热度非常的高,马斯克表示“特斯拉也有能力使用现实世界的视频数据,来做类似的事情”,还有很多人表示,虽然很酷,但显然比直接用游戏引擎渲染需要的资源多得多,不知你怎么看。

Build-A-Scene:交互式文生图 3D 布局控制

Build-A-Scene 是一种基于文生图的技术,它利用 depth(深度)控制,用 3D boxes 替代了 2D boxes,非常适合室内设计和复杂场景生成。

目前还是期货开源,不过从演示视频来看或许对装修场景有奇效,期待开源

谷歌 Gems:类似 GPTs 的功能

谷歌昨天正式发布了Gems功能,目前只有 Gemini Advanced/ Gemini for Workspace 才能用,能自定义指令并且还能上传文件作为知识库。

总的来说就是对标 GPTs 来着,此外 Gemini Apps 还将引入 Imagen 3,俺还是 Imagen 3 的早期测试人员哩,其实生成效果非常的不错,但是就是没啥热度

10 个赞

求解一下这个!然后再感谢一下大家的关注,我日更的动力!

2 个赞

每日看报时间来了!

论坛里卖鲍的

看日报~~~

感谢分享大佬,厉害啊