24814 三花AI日报

ke_jun · 2024 年8 月 14 日 00:23

三花 AI 一觉醒来发生了什么？省流阅读

FLUX inpainting: 局部重绘来了

Sakana AI：推出 AI 科学家

ControlNeXt：现已正式开源

UniPortrait：又一个人物身份一致性框架

Stable Audio ControlNet：音乐也能用的 ControlNet

谷歌 Gemini Live：安卓手机副驾驶

欢迎大家交流

FLUX inpainting: 局部重绘来了

早在 5 天前，diffusers就有大佬开了个 PR 来支持局部重绘，但没有合并。

不过已经有人基于这个 PR 做了一个 Space，可以在 SkalskiP/FLUX.1-inpaint 试用了！

此外，还有一个无需手动绘制遮罩，可以直接通过文本语义引导的 Space：Gradio-Community/Text-guided-Flux-Inpainting

Sakana AI：推出 AI 科学家

The AI Scientist 是世界上首个自动化科学研究和开放式发现的 AI 系统。

能实现从构思、写代码、运行实验、总结结果、撰写整篇论文再到同行评审，目前官方的 GitHub 仓库提供了 10 篇完全由 AI 科学家撰写的论文。

ControlNeXt：现已正式开源

之前介绍的ControlNeXt现在已经正式开源，这是一种效率更高的 ControlNet 实现，包括：

SVD + Pose：结合姿势生成视频，轻松实现类 AnimateAnyone 效果
SDXL + Canny：结合边缘图控制生图，支持各种风格化
SD1.5 + (Canny|Pose)：结合边缘图或姿势控制生图，支持同时应用并配合 LoRA
SD3 + SR：对原图进行超分辨高清修复

ControlNeXt 的官网上还提供了上述很多示例，可以一看。

UniPortrait：又一个人物身份一致性框架

UniPortrait 是一个新的人物一致性框架，支持单 ID 或多 ID，能用提示词对面部特征进行编辑，图的姿势不会像 PulID 那么固定。

从官方提供的对比来看，比 InstantID 更遵循提示词，比 PhotoMaker 生成的质量更好一些，总的来说就是又多一种不错的选择！

这里有一个演示，Junjie96/UniPortrait，用起来比较复杂，可以等一个 ComfyUI 节点。

Stable Audio ControlNet：音乐也能用的 ControlNet

stable-audio-controlnet，顾名思义，使用 ControlNet 技术来提高音频生成的可控性，不过受限于 SA 的能力，任重而道远啊。

很多人可能一下理解不了音频怎么应用 ControlNet？，这个 Music ControlNet 项目解释的非常好，可以一看。总的来说就是可以参考音乐的旋律、动态范围、节奏等特征来生成新音乐，或许日后我们还能看到输入有损音乐，输出无损音乐，就像图像领域的 SR 技术

谷歌 Gemini Live：安卓手机副驾驶

谷歌推出了 Gemini Live，安卓手机副驾驶，拥有 Gemini Advanced 订阅的用户将灰度该功能，目前仅支持英语。

对标 ChatGPT 的语音模式，支持支持打断、深入讨论和暂停后继续对话，提供了 10 种不同的声音，未来会支持 IOS 设备和其他语言。顺带 Pixel9 也亮相了，使用 𝗚𝗼𝗼𝗴𝗹𝗲 𝗧𝗲𝗻𝘀𝗼𝗿 𝗚𝟰 芯片，内置 Gemini Nano，并且 Gemini Live 会作为默认助手，死去的 Ok Google 回来了！

直播演示时两次都失败了，肉眼可见主持人的尴尬，直到换了个手机重弄，笑死。

EFL · 2024 年8 月 14 日 00:34

唯独没有 OpenAI 半毛钱事昨天新模型炒作得可得劲了

ke_jun · 2024 年8 月 14 日 00:39

那些看着就不想发，蹭热度没意义，只想整理点有用的…

EFL · 2024 年8 月 14 日 00:40

我就是嘲讽openai 只会搞营销，拿不出真东西哈哈哈

handsome · 2024 年8 月 14 日 01:14

出什么事了昨天？

neo · 2024 年8 月 29 日 05:59

From #develop:ai to 资源荟萃

话题		回复	浏览量
241212 三花AI日报：谷歌推出 Gemini 2.0 Flash Experimental；谷歌发布多款 AI Agent 项目；开源的跳舞视频生成技术；OneDiffusion 正式开源；前沿快讯人工智能	17	760	2025 年1 月 12 日
250401 三花AI日报：OpenAI 即将开源具备推理能力的新模型；OpenAI 向免费用户开放 GPT-4o 图像生成功能；Higgsfield AI 推出超 50 种 motion controls； MURAKA 发布 V1/V6 双版本 AI 音乐生成模型；智谱 AI 推出 AutoGLM 自主智能体系统前沿快讯人工智能	31	1000	2025 年5 月 12 日
OpenAI？不行！Google？行！资源荟萃	14	773	2025 年2 月 5 日
250718 三花AI日报：Veo 3 API 开放付费预览；OpenAI 发布 ChatGPT Agent；Kiro：文档先行的 AI IDE；Suno AI 4.5+ 更新；v0 平台 API 公开测试版上线前沿快讯人工智能 , Cursor	28	1057	2025 年7 月 21 日
24812 三花 AI 日报资源荟萃人工智能	12	469	2024 年12 月 9 日

24814 三花AI日报

FLUX inpainting: 局部重绘来了

Sakana AI：推出 AI 科学家

ControlNeXt：现已正式开源

UniPortrait：又一个人物身份一致性框架

Stable Audio ControlNet：音乐也能用的 ControlNet

谷歌 Gemini Live：安卓手机副驾驶

相关话题