24829 三花 AI 日报；更好的风格迁移技术；开源首尾帧图生视频；真 AI 游戏“渲染”引擎；交互式文生图 3D 布局控制；谷歌 Gems：类似 GPTs 的功能

ke_jun · 2024 年8 月 29 日 00:48

板块更新了，我以后发这里呢还是发人工智能呢？

三花 AI 一觉醒来发生了什么？欢迎阅读

谷歌 RB-Modulation：更好的风格迁移技术

谷歌 Generative Inbetweening：开源首尾帧图生视频

谷歌 GameNGen：真 AI 游戏“渲染”引擎

Build-A-Scene：交互式文生图 3D 布局控制

谷歌 Gems：类似 GPTs 的功能

今天谷歌专场，欢迎大家交流

Google DeepMind 团队开源了 RB-Modulation，一个新的风格迁移技术，就像我们熟知的 IP-Adapters 的一样，只需提供一张参考图，就能帮你轻松生成风格一致的艺术作品。

该技术适用于 StableCascade，并且可以适配 SDXL 和 Flux，不过目前官方还没有提供演示和 ComfyUI 插件，我会持续跟进社区的发展，可以先点个关注。

就像可灵或者 Luma 的首尾帧生成视频，谷歌开源了 Generative Inbetweening，输入首尾帧就能生成非常丝滑的视频。暂时没有提供 ComfyUI 插件和 Space 演示。

不过从官网的演示来看，比传统的帧插值技术确实要好很多，但是比闭源的 Luma 之类的还是要差点。

GameNGen 第一个完全由神经模型驱动的游戏引擎，通过预测经典单机射击游戏《DOOM》的下一帧，就能以 20fps 实时游玩，而无需任何底层的游戏引擎，这意味着游戏中的每一个像素都是“生成”的而非“渲染”的，虽然有一些生成错误，但画面整体还是相当稳定的。

昨晚讨论的热度非常的高，马斯克表示“特斯拉也有能力使用现实世界的视频数据，来做类似的事情”，还有很多人表示，虽然很酷，但显然比直接用游戏引擎渲染需要的资源多得多，不知你怎么看。

Build-A-Scene 是一种基于文生图的技术，它利用 depth（深度）控制，用 3D boxes 替代了 2D boxes，非常适合室内设计和复杂场景生成。

目前还是期货开源，不过从演示视频来看或许对装修场景有奇效，期待开源

谷歌昨天正式发布了Gems功能，目前只有 Gemini Advanced/ Gemini for Workspace 才能用，能自定义指令并且还能上传文件作为知识库。

总的来说就是对标 GPTs 来着，此外 Gemini Apps 还将引入 Imagen 3，俺还是 Imagen 3 的早期测试人员哩，其实生成效果非常的不错，但是就是没啥热度

ke_jun · 2024 年8 月 29 日 00:49

求解一下这个！然后再感谢一下大家的关注，我日更的动力！

handsome · 2024 年8 月 29 日 01:07

每日看报时间来了！

anran · 2024 年8 月 29 日 06:34

论坛里卖鲍的

Amashiro · 2024 年8 月 29 日 06:37

看日报～～～

Ambition · 2024 年8 月 29 日 07:35

感谢分享大佬，厉害啊

话题		回复	浏览量
250313 三花AI日报：Gemma 3: 甩开同参数模型一条街；VACE：All-in-One 视频生成与编辑模型；Gemini 2.0 Flash 原生图像生成功能正式开放；8 款 Wan2.1 特效 LoRA；Open R1 第三弹更新；前沿快讯人工智能	27	1060	2025 年4 月 12 日
241217 三花 AI 日报：最强开源虚拟试穿模型；OpenAI 增强 ChatGPT 搜索功能；Midjourney 推出 Moodboards 功能；开源对象运动控制技术前沿快讯人工智能	6	493	2025 年1 月 17 日
241127 三花 AI 日报：SAI 官方ControlNets； Kaze AI：最强在线水印去除工具；谷歌 Labs 推出 Imagen 3 驱动的棋子生成器； ComfyUI 桌面测试版发布； LumaAI 全新 DreamMachine 前沿快讯人工智能	10	467	2024 年11 月 27 日
250507三花AI日报：谷歌发布 Gemini 2.5 Pro I/O 特别版；LTX-Video 13B 开源视频模型；ACE-Step 开源音乐模型；ComfyUI 新增多款付费模型 API 节点支持前沿快讯人工智能	21	987	2025 年6 月 6 日
250306 三花 AI 日报：谛韵: 开源音乐生成模型；谷歌搜索推出 AI Mode 测试版；阿里开源 QwQ-32B；AI 驱动的数学与科学教学动画；LTX-Video 0.9.5：开源可商用视频生成模型；ComfyUI-Pruna：无损加速 SD 和 Flux 模型推理；前沿快讯人工智能	28	880	2025 年4 月 5 日