概览
NVIDIA Cosmos™ 是一个整合前沿生成式世界基础模型 (WFM) 先进分词器、护栏以及用于加速数据处理和管理的高效工作流的集成平台。开发者使用 Cosmos 加速智能汽车、机器人和视频分析 AI 智能体的物理 AI 开发。
开放模型
一系列预训练多模态模型,开发者可以开箱即用,用于世界生成和推理,或进行后训练以开发专用的物理 AI 模型。
先进的世界状态预测模型,可通过多模态输入生成长达 30 秒的连续视频,并具有出色的速度、保真度和提示依从性。通过预测动态环境的未来状态,为机器人和 AI 智能体实现高级预测和场景规划。
Multicontrol 模型可跨各种环境和照明条件快速扩展单个仿真或空间视频。加速物理 AI 仿真框架 (如 CARLA 或 NVIDIA Isaac Sim™) 的 3D 输入,实现完全可控的数据增强和合成数据生成流程。
面向物理 AI 的开放、可定制、推理视觉语言模型 (VLM) 可让机器人和视觉 AI 智能体像人类一样进行推理。它可以利用先前知识、物理理解和常识来理解现实世界以及如何与之交互。
NVIDIA Cosmos Curator 是一个框架,开发者可利用该框架快速对开发物理 AI 所需的大量传感器数据进行过滤、标注和去重处理,从而创建定制的数据集来满足模型需求。借助 NVIDIA Cosmos Dataset Search,开发者可以立即查询这些数据集并检索场景,以进行有针对性的后期训练。
加速高效的数据集处理和生成过程。
用例
使用 Cosmos 世界基础模型为机器人技术、自动驾驶汽车和工业视觉系统的下游流程进行模拟、推理和生成数据”。
机器人需要大量不同的训练数据,才能有效感知环境并与之交互。借助 Cosmos WFM,开发者可以生成可控的高保真合成数据,以训练机器人感知和策略模型。
多样且高保真的传感器数据对于智能汽车的安全训练、测试与验证至关重要。借助经车辆数据后训练的 Cosmos WFM,开发者既能通过新增天气、光照和地理位置数据丰富现有数据的多样性,或扩展至多传感器视角,从而大幅节省时间和成本。
这些 AI 智能体可以分析、总结实时或录制的视频流,并与之进行交互,以提高工业和城市环境的自动化水平、安全性和运营效率。Cosmos Reason 提供实时问答、快速警报和丰富的情境洞察,为边缘端和云端的部署中提供更智能、响应更灵敏的系统支持。
可信 AI
Cosmos 模型、护栏和分词器可在 Hugging Face 和 GitHub 上获取,同时提供相关资源解决训练物理 AI 模型时的数据稀缺问题。
生态系统
来自机器人、智能汽车和视觉 AI 行业的模型开发者正在使用 Cosmos 来加速物理 AI 的开发。
从文档开始。Cosmos WFM 在 Hugging Face 上公开可用,并在 GitHub 上提供推理和后训练脚本。
Cosmos 基础世界模型遵循 NVIDIA 开放模型许可协议,对所有人开放。
PyTorch 脚本可供所有 Cosmos 模型用于后训练。请参阅新的 Cosmos Cookbook,其中包含分步方法和后训练脚本,可快速构建、定制和部署适用于机器人和自主系统的 NVIDIA Cosmos 世界基础模型。
可以,您可以利用 Cosmos 使用您首选的基础模型或模型架构从头开始构建。您可以首先使用 NeMo Curator 进行视频数据预处理。然后使用 Cosmos tokenizer 对数据进行压缩和解码。处理完数据后,您可以使用 NVIDIA NeMo 训练或微调模型。
借助 NVIDIA NIM™ 微服务,您可以轻松将物理 AI 模型集成到云、数据中心和工作站的应用中。
您还可以使用 NVIDIA DGX Cloud 训练 AI 模型,并将其大规模部署到任何地方。
这三个模型都是具有不同角色的世界基础模型:
Cosmos Reason 还可以基于一个起始视频,为 Cosmos Predict 生成全新且多样的文本提示,或对 Predict 和 Transfer 生成的合成数据进行评估和批判。
Omniverse 使用不同的生成式 API、SDK 和 NVIDIA RTX 渲染技术,创建了现实世界任务的逼真 3D 仿真。
开发者可以将 Omniverse 仿真作为指令视频输入到 Cosmos Transfer 模型,以生成可控的逼真合成数据。
Omniverse 共同提供训练前后仿真环境,而 Cosmos 提供基础模型来生成视频数据并训练物理 AI 模型。
详细了解 NVIDIA Omniverse。