Cohere 今年已经发布/更新的系列大模型

Command R7B Arabic 模型

2025年2月28日,Cohere 发布轻量级 Command R7B 模型的新版本 Command R7B Arabic。该模型具备先进的阿拉伯语能力,旨在支持中东和北非地区的企业。

Command R7B Arabic 在其同类产品中,在依赖于先进阿拉伯语和文化理解的关键企业任务方面,优于其他领先模型。虽然 Command R7B 已经是一个强大的多语言模型,但 R7B Arabic 在所有阿拉伯语维度上都进行了改进。在不影响 Command R7B 已支持的核心语言的情况下,实现了增强的阿拉伯语性能。

对与企业任务相关的能力进行评估。阿拉伯语和文化理解 (AlGhafa-Native + Arabic MMLU)、指令遵循 (IFEval Arabic) 和 RAG (TyDI QA Arabic + FaithEval Arabic - 著名 RAG 基准 FaithEval 的独立翻译版本)。

对企业可用性因素进行评估。LMSYS Arena “Hard” 人类偏好任务的阿拉伯语版本的自动胜率。

模型仓库:

Aya Vision 模型

2025年3月4日,Cohere 宣布推出 Aya Vision 模型,一款在多种语言和模态方面表现卓越的先进视觉模型。该模型是在多语言文本生成和图像理解方面优于领先的开放权重模型。

Aya Vision 模型,在其参数类别中,Aya Vision 8B 在综合多语言多模态任务中取得了最佳性能,在 AyaVisionBench 上的胜率比 Qwen2.5-VL 7B、Gemini Flash 1.5 8B、Llama-3.2 11B Vision 和 Pangea 7B 高出 70%,在 m-WildVision 上的胜率高出 79%。Aya Vision 32B 在多语言视觉开放权重模型中开创了新领域,在 AyaVisionBench 上的胜率比 Llama-3.2 90B Vision、Molmo 72B 和 Qwen2-VL 72B 高出 64%,在 m-WildVision 上的胜率高出 72%。

Aya Vision模型 的性能优于远大于其规模的模型。Aya Vision 8B 的性能优于规模是其 10 倍的模型,例如 Llama-3.2 90B Vision,胜率为 63%。Aya Vision 32B 的性能优于规模是其 2 倍以上的模型,例如 Llama-3.2 90B Vision、Molmo 72B 和 Qwen2.5-VL 72B,在 AyaVisionBench 上的胜率范围为 50% 至 64%,在 23 种语言的 mWildVision 平均胜率范围为 52% 至 72%。

模型仓库:

C4AI Command A 模型

2025年3月13日,Cohere 宣布推出 C4AI Command A 模型,一款针对需要快速、安全和高质量人工智能的高要求企业而优化的新型先进生成模型。对于私有部署,Command A 模型在业务关键的代理型和多语言任务中表现出色,同时仅需两块 GPU 即可部署。

在业务、STEM 和编码任务的直接人工评估中,Command A 模型与其更大、更慢的竞争对手相当或超越,同时提供卓越的吞吐量和更高的效率。人工评估至关重要,因为它们测试的是真实世界的企业数据和情境。

企业任务的直接人工评估胜率。所有示例均由经过专门培训的人工标注员进行盲注标注,评估企业重点的准确性、指令遵循和风格。吞吐量比较基于 Artificial Analysis 报告的 Cohere 平台上的 Command A、GPT-4o 和 DeepSeek-V3 (TogetherAI)。

在一系列标准基准测试中,Command A 模型在指令遵循、SQL、代理型和工具任务方面表现出色。

在学术基准测试(MMLU、MATH、IFEval)、代理基准测试(BFCL 和 Taubench)以及编码基准测试(MBPPPlus、SQL 和 RepoQA)中评估性能。方法和更多细节在脚注 [1] 中提供。

可扩展的效率

Command A 模型可方便的部署于生产环境,同时使其在生产环境中尽可能高效地提供服务。仅需两块 A100 或 H100 即可进行服务,它所需的计算量远低于市场上其他同类模型。这对于私有部署尤其重要。

不切实际的大型模型会导致延迟低下。当用户只想快速获得正确答案时,Command A 模型是最佳选择。事实上,Command A 模型可以高达 156 个 tokens/秒的速度交付 tokens,比 GPT-4o 高 1.75 倍,比 DeepSeek-V3 高 2.4 倍。Command A 模型的私有部署比基于 API 的访问便宜高达 50%。

对于长上下文和短上下文请求,Command A 的 tokens/秒和首个 token 的时间均优于 GPT-4o 和 DeepSeek-V3。

企业就绪的功能

Command A 模型拥有 256k 的上下文长度,可以处理更长的企业文档。其他关键功能包括 Cohere 的高级检索增强生成 (RAG) 与可验证的引文、代理型工具使用、企业级安全性和强大的多语言性能。

在企业 RAG 用例中,Command A 和 GPT-4o 的直接人工评估胜率。所有示例均由经过专门培训的人工标注员进行至少 3 向盲注标注,评估流畅性、忠实性和响应实用性。

Command A 模型为全球大部分人口使用的 23 种语言提供了扩展的企业级支持。

8 种语言的企业任务的直接人工评估胜率。所有示例均由经过专门培训的人工标注员进行盲注标注,评估企业重点的准确性、指令遵循和风格。

特别是,Command A 模型在以请求语言一致回答内容方面,远优于 GPT-4o 或 DeepSeek-V3,例如以用户相关的阿拉伯语方言回答。

来自 Marchisio et al., 2024 的提示的阿拉伯语跨语言行级通过率 (LPR) 以及来自 Robinson et al., 2024 的 4 种阿拉伯语方言(埃及、沙特、叙利亚、摩洛哥)的单语提示的平均 ADI2 分数。

模型仓库:

参考资料:

21 个赞

很久没用cohere

2 个赞

其实他家模型还是不错的,水平在线,尤其对多语言的支持,早期以 Llama 为代表的开源模型对多语言支持太烂:joy:

1 个赞

更新太慢了都

2 个赞

他家定位主要目标群体是企业用户,这样的升级频率也是可以接受的

2 个赞

我怎么记得他家的视觉模型,对中文理解很弱啊

2 个赞

今年3月4日才发布视觉模型,已经一直在用 Qwen-VL 了,就没尝试 Aya Vision​:downcast_face_with_sweat:

1 个赞

简单试了一下,感觉 Aya Vision 对图片中的多语言识别确实还是很弱的,看来宣传中的多语言支持依然指的是文本模型:downcast_face_with_sweat:

1 个赞

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。