Gemma 3已上线Ollama,27B版本超越DeepSeek V3!


Gemma是来自Google的一个轻量级模型系列,基于 Gemini 技术构建。Gemma 3模型是多模态的——可以处理文本和图像——并具有 128K的上下文窗口,支持超过140种语言。它们有1B、4B、12B 和27B参数大小的版本,在问答、摘要和推理等任务中表现出色,同时其紧凑的设计允许部署在资源有限的设备上。

模型

文本

  • 1B参数模型 (32k上下文窗口)

    ollama run gemma3:1b
    

多模态 (视觉)

  • 4B参数模型 (128k上下文窗口)

    ollama run gemma3:4b
    
  • 12B参数模型 (128k上下文窗口)

    ollama run gemma3:12b
    
  • 27B参数模型 (128k上下文窗口)

    ollama run gemma3:27b
    

评估


Gemma 3预训练 (PT) 模型基准测试结果

该模型在一系列不同的数据集和指标上进行了评估,以涵盖文本生成的不同方面:

1. 推理、逻辑和代码能力

基准测试 (Benchmark) 评测指标 (Metric) Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
HellaSwag 10-shot 62.3 77.2 84.2 85.6
BoolQ 0-shot 63.2 72.3 78.8 82.4
PIQA 0-shot 73.8 79.6 81.8 83.3
SocialIQA 0-shot 48.9 51.9 53.4 54.9
TriviaQA 5-shot 39.8 65.8 78.2 85.5
Natural Questions 5-shot 9.48 20.0 31.4 36.1
ARC-c 25-shot 38.4 56.2 68.9 70.6
ARC-e 0-shot 73.0 82.4 88.3 89.0
WinoGrande 5-shot 58.2 64.7 74.3 78.8
BIG-Bench Hard - 28.4 50.9 72.6 77.7
DROP 3-shot, F1 42.4 60.1 72.2 77.2
AGIEval 3-5-shot 22.2 42.1 57.4 66.2
MMLU 5-shot, top-1 26.5 59.6 74.5 78.6
MATH 4-shot 24.2 43.3 50.0
GSM8K 5-shot, maj@1 1.36 38.4 71.0 82.6
GPQA - 9.38 15.0 25.4 24.3
MMLU (Pro) 5-shot 11.2 23.7 40.8 43.9
MBPP 3-shot 9.80 46.0 60.4 65.6
HumanEval pass@1 6.10 36.0 45.7 48.8
MMLU (Pro COT) 5-shot 9.7 NaN NaN NaN

2. 多语言能力

基准测试 (Benchmark) Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MGSM 2.04 34.7 64.3 74.3
Global-MMLU-Lite 24.9 57.0 69.4 75.7
Belebele 26.6 59.4 78.0
WMT24++ (ChrF) 36.7 48.4 53.9 55.7
FloRes 29.5 39.2 46.0 48.8
XL-Sum 4.82 8.55 12.2 14.9
XQuAD (all) 43.9 68.0 74.5 76.8

3. 多模态能力

基准测试 (Benchmark) Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
COCOcap 102 111 116
DocVQA (val) 72.8 82.3 85.6
InfoVQA (val) 44.1 54.8 59.4
MMMU (pt) 39.2 50.3 56.1
TextVQA (val) 58.9 66.5 68.6
RealWorldQA 45.5 52.2 53.9
ReMI 27.3 38.5 44.8
AI2D 63.2 75.2 79.0
ChartQA 45.4 60.9 63.8
ChartQA (augmented) 81.8 88.5 88.7
VQAv2
BLINK 38.0 35.9 39.6
OKVQA 51.0 58.7 60.2
TallyQA 42.5 51.8 54.3
SpatialSense VQA 50.9 60.0 59.4
CountBenchQA 26.1 17.8 68.0
56 个赞

你好快啊,每天盯着 Ollama 模型库啊:joy:

7 个赞

又超deepseek

4 个赞

人家号称是当前能运行在单个GPU上的最强模型。

5 个赞

F佬快试试

3 个赞

在启动了在启动了

3 个赞

V3:V3.5在哪里

4 个赞

也就17GB,显存不够还可以用内存凑,当然满血的需要55GB

2 个赞

有fp16版本,ollama run gemma3:27b-it-fp16

5 个赞

chatarena超越是吧 :rofl:
不出所料了属于是

5 个赞

这个输出反倒是比Gemini 2.0系列要慢得多了,不知道为啥

2 个赞

我也感觉到了

4 个赞

坐等大佬测评。。怎么感觉我只能跑个4b。。。12b。。我8G会爆吧?

2 个赞

你是8G显存?

1 个赞

嗯。。笔记本4060

1 个赞

内存有多大?

1 个赞

好好好w

1 个赞

32G。

爆显存用CPU跑会很慢吧?

1 个赞

Ollama不是有个内存加载吗?

1 个赞

速度为啥这么慢啊,太怪了

1 个赞