24814 三花AI日报

三花 AI 一觉醒来发生了什么?省流阅读 :backhand_index_pointing_down:

:framed_picture: FLUX inpainting: 局部重绘来了

:light_bulb: Sakana AI:推出 AI 科学家

:framed_picture: ControlNeXt:现已正式开源

:grinning_face: UniPortrait:又一个人物身份一致性框架

:musical_note: Stable Audio ControlNet:音乐也能用的 ControlNet

:light_bulb: 谷歌 Gemini Live:安卓手机副驾驶

欢迎大家交流


FLUX inpainting: 局部重绘来了

早在 5 天前,diffusers就有大佬开了个 PR 来支持局部重绘,但没有合并。

不过已经有人基于这个 PR 做了一个 Space,可以在 SkalskiP/FLUX.1-inpaint 试用了!

此外,还有一个无需手动绘制遮罩,可以直接通过文本语义引导的 Space:Gradio-Community/Text-guided-Flux-Inpainting

Sakana AI:推出 AI 科学家

The AI Scientist 是世界上首个自动化科学研究和开放式发现的 AI 系统。

能实现从构思、写代码、运行实验、总结结果、撰写整篇论文再到同行评审,目前官方的 GitHub 仓库提供了 10 篇完全由 AI 科学家撰写的论文。

ControlNeXt:现已正式开源

之前介绍的ControlNeXt现在已经正式开源,这是一种效率更高的 ControlNet 实现,包括:

  • SVD + Pose:结合姿势生成视频,轻松实现类 AnimateAnyone 效果

  • SDXL + Canny:结合边缘图控制生图,支持各种风格化

  • SD1.5 + (Canny|Pose):结合边缘图或姿势控制生图,支持同时应用并配合 LoRA

  • SD3 + SR:对原图进行超分辨高清修复

ControlNeXt 的官网上还提供了上述很多示例,可以一看。

UniPortrait:又一个人物身份一致性框架

UniPortrait 是一个新的人物一致性框架,支持单 ID 或多 ID,能用提示词对面部特征进行编辑,图的姿势不会像 PulID 那么固定。

从官方提供的对比来看,比 InstantID 更遵循提示词,比 PhotoMaker 生成的质量更好一些,总的来说就是又多一种不错的选择!

这里有一个演示,Junjie96/UniPortrait,用起来比较复杂,可以等一个 ComfyUI 节点。

Stable Audio ControlNet:音乐也能用的 ControlNet

stable-audio-controlnet,顾名思义,使用 ControlNet 技术来提高音频生成的可控性,不过受限于 SA 的能力,任重而道远啊。

很多人可能一下理解不了音频怎么应用 ControlNet?,这个 Music ControlNet 项目解释的非常好,可以一看。总的来说就是可以参考音乐的旋律、动态范围、节奏等特征来生成新音乐,或许日后我们还能看到输入有损音乐,输出无损音乐,就像图像领域的 SR 技术

谷歌 Gemini Live:安卓手机副驾驶

谷歌推出了 Gemini Live,安卓手机副驾驶,拥有 Gemini Advanced 订阅的用户将灰度该功能,目前仅支持英语。

对标 ChatGPT 的语音模式,支持支持打断、深入讨论和暂停后继续对话,提供了 10 种不同的声音,未来会支持 IOS 设备和其他语言。顺带 Pixel9 也亮相了,使用 𝗚𝗼𝗼𝗴𝗹𝗲 𝗧𝗲𝗻𝘀𝗼𝗿 𝗚𝟰 芯片,内置 Gemini Nano, 并且 Gemini Live 会作为默认助手,死去的 Ok Google 回来了!

直播演示时两次都失败了,肉眼可见主持人的尴尬,直到换了个手机重弄,笑死。

4 个赞

唯独没有 OpenAI 半毛钱事 :rofl: 昨天新模型炒作得可得劲了

那些看着就不想发,蹭热度没意义,只想整理点有用的…

我就是嘲讽openai 只会搞营销,拿不出真东西哈哈哈

1 个赞

出什么事了昨天?

From #develop:ai to 资源荟萃

1 个赞