Gemma 3已上线Ollama，27B版本超越DeepSeek V3！

F-droid · 2025 年3 月 12 日 08:40

Gemma是来自Google的一个轻量级模型系列，基于 Gemini 技术构建。Gemma 3模型是多模态的——可以处理文本和图像——并具有 128K的上下文窗口，支持超过140种语言。它们有1B、4B、12B 和27B参数大小的版本，在问答、摘要和推理等任务中表现出色，同时其紧凑的设计允许部署在资源有限的设备上。

模型

文本

1B参数模型 (32k上下文窗口)
```
ollama run gemma3:1b
```

多模态 (视觉)

4B参数模型 (128k上下文窗口)
```
ollama run gemma3:4b
```
12B参数模型 (128k上下文窗口)
```
ollama run gemma3:12b
```
27B参数模型 (128k上下文窗口)
```
ollama run gemma3:27b
```

评估

Gemma 3预训练 (PT) 模型基准测试结果

该模型在一系列不同的数据集和指标上进行了评估，以涵盖文本生成的不同方面：

1. 推理、逻辑和代码能力

基准测试 (Benchmark)	评测指标 (Metric)	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10-shot	62.3	77.2	84.2	85.6
BoolQ	0-shot	63.2	72.3	78.8	82.4
PIQA	0-shot	73.8	79.6	81.8	83.3
SocialIQA	0-shot	48.9	51.9	53.4	54.9
TriviaQA	5-shot	39.8	65.8	78.2	85.5
Natural Questions	5-shot	9.48	20.0	31.4	36.1
ARC-c	25-shot	38.4	56.2	68.9	70.6
ARC-e	0-shot	73.0	82.4	88.3	89.0
WinoGrande	5-shot	58.2	64.7	74.3	78.8
BIG-Bench Hard	-	28.4	50.9	72.6	77.7
DROP	3-shot, F1	42.4	60.1	72.2	77.2
AGIEval	3-5-shot	22.2	42.1	57.4	66.2
MMLU	5-shot, top-1	26.5	59.6	74.5	78.6
MATH	4-shot	–	24.2	43.3	50.0
GSM8K	5-shot, maj@1	1.36	38.4	71.0	82.6
GPQA	-	9.38	15.0	25.4	24.3
MMLU (Pro)	5-shot	11.2	23.7	40.8	43.9
MBPP	3-shot	9.80	46.0	60.4	65.6
HumanEval	pass@1	6.10	36.0	45.7	48.8
MMLU (Pro COT)	5-shot	9.7	NaN	NaN	NaN

2. 多语言能力

基准测试 (Benchmark)	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MGSM	2.04	34.7	64.3	74.3
Global-MMLU-Lite	24.9	57.0	69.4	75.7
Belebele	26.6	59.4	78.0	–
WMT24++ (ChrF)	36.7	48.4	53.9	55.7
FloRes	29.5	39.2	46.0	48.8
XL-Sum	4.82	8.55	12.2	14.9
XQuAD (all)	43.9	68.0	74.5	76.8

3. 多模态能力

基准测试 (Benchmark)	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72.8	82.3	85.6
InfoVQA (val)	44.1	54.8	59.4
MMMU (pt)	39.2	50.3	56.1
TextVQA (val)	58.9	66.5	68.6
RealWorldQA	45.5	52.2	53.9
ReMI	27.3	38.5	44.8
AI2D	63.2	75.2	79.0
ChartQA	45.4	60.9	63.8
ChartQA (augmented)	81.8	88.5	88.7
VQAv2	–	–	–
BLINK	38.0	35.9	39.6
OKVQA	51.0	58.7	60.2
TallyQA	42.5	51.8	54.3
SpatialSense VQA	50.9	60.0	59.4
CountBenchQA	26.1	17.8	68.0

yqyan · 2025 年3 月 12 日 08:42

你好快啊，每天盯着 Ollama 模型库啊

handsome · 2025 年3 月 12 日 08:52

又超deepseek

F-droid · 2025 年3 月 12 日 08:54

人家号称是当前能运行在单个GPU上的最强模型。

handsome · 2025 年3 月 12 日 08:54

F佬快试试

baiyidujiang · 2025 年3 月 12 日 08:54

在启动了在启动了

stevessr · 2025 年3 月 12 日 08:55

V3：V3.5在哪里

F-droid · 2025 年3 月 12 日 08:55

也就17GB，显存不够还可以用内存凑，当然满血的需要55GB

F-droid · 2025 年3 月 12 日 09:00

有fp16版本，ollama run gemma3:27b-it-fp16

homeworkkun · 2025 年3 月 12 日 09:01

chatarena超越是吧
不出所料了属于是

bingobus · 2025 年3 月 12 日 09:13

这个输出反倒是比Gemini 2.0系列要慢得多了，不知道为啥

F-droid · 2025 年3 月 12 日 09:14

我也感觉到了

kiki · 2025 年3 月 12 日 09:17

坐等大佬测评。。怎么感觉我只能跑个4b。。。12b。。我8G会爆吧？

F-droid · 2025 年3 月 12 日 09:17

你是8G显存？

kiki · 2025 年3 月 12 日 09:17

嗯。。笔记本4060

F-droid · 2025 年3 月 12 日 09:18

内存有多大？

6512345 · 2025 年3 月 12 日 09:18

好好好w

kiki · 2025 年3 月 12 日 09:18

32G。

爆显存用CPU跑会很慢吧？

F-droid · 2025 年3 月 12 日 09:21

Ollama不是有个内存加载吗？

kokonomiya · 2025 年3 月 12 日 09:22

速度为啥这么慢啊，太怪了

话题		回复	浏览量
部署了gemma4:26B，在12G 显存 32 内存的机器上，跑的很流畅开发调优人工智能 , 软件开发	187	3382	2026 年4 月 14 日
大家不要下 MHKetbi/Mistral-Small3.1-24B-Instruct-2503 这个模型了，太差了开发调优人工智能	25	765	2025 年5 月 9 日
Mac mini m4 部署无限制gamma4 搞七捻三纯水	24	443	2026 年4 月 13 日
谷歌最新发布Gemma2 2B，据说是同等参数下最强模型资源荟萃人工智能	70	1281	2024 年12 月 9 日
关于本地部署AI大模型开发调优人工智能 , 快问快答	24	571	2025 年7 月 11 日

Gemma 3已上线Ollama，27B版本超越DeepSeek V3！

模型

评估

相关话题