推理小钢炮理论值汇总：决战性价比（Gemini-2.5-Flash，o4-mini，Grok-3-mini，o3-mini，QwQ-32B）

PSP · 2025 年4 月 18 日 12:24

参赛选手有六个
Gemini-2.5-Flash-Preview-0417
o4-mini
Grok-3-mini
o3-mini
QwQ-32B
Gemini-2.0-Flash-Thinking-0121

MMLU-Pro（暂缺Gemini-2.5-Flash）：推理能力+知识面综合

GPQA Diamond：STEM多学科科学推理能力测试，钻石级推理难题

Humanity’s Last Exam：人类最后的考试，极限推理应用测试

LiveCodeBench (Coding)：竞技代码

AIME 2024 (Competition Math)：数学竞赛

Aider polyglo：代码理论能力

API价格（排名越前价格越低，从最便宜到最贵）
输入/输出
0.10美元/0.40美元：Gemini-2.0-Flash-Thinking-Exp-0121
0.30美元/0.50美元：Grok-3-mini
0.13美元/0.54美元：QWQ-32B（阿里云）
1.20美元/1.20美元：QWQ-32B（第三方）
0.15美元/3.50美元：Gemini-2.5-Flash-Preview-0417
1.10美元/4.44美元：o4-mini
1.10美元/4.44美元：o3-mini

linjinpeng · 2025 年4 月 18 日 12:28

出一个旗舰模型比武

PSP · 2025 年4 月 18 日 12:29

API价格（排名越前越便宜，从最便宜到最贵）
输入/输出
0.10美元/0.40美元：Gemini-2.0-Flash-Thinking-Exp-0121
0.30美元/0.50美元：Grok-3-mini
0.13美元/0.54美元：QWQ-32B（阿里云）
1.20美元/1.20美元：QWQ-32B（第三方）
0.15美元/3.50美元：Gemini-2.5-Flash-Preview-0417（Thinking）
1.10美元/4.44美元：o4-mini
1.10美元/4.44美元：o3-mini

@dwqxq1
@handsome
@fengchris
@yeahhe
@baipiaodang
@homeworkkun
@user924

SeeSea · 2025 年4 月 18 日 12:31

再来个价格对比

handsome · 2025 年4 月 18 日 12:33

太酷了

barrylongface · 2025 年4 月 18 日 12:34

加一个，个人测的写刘备的水平
grok 3 mini
flash 2.5 thinking
qwq

qwq文字输出不太稳定，前两个写东西跟拉裤子一样，停不住啊。一句话提纲就够了。

baipiaodang · 2025 年4 月 18 日 12:39

开炮开炮

fengchris · 2025 年4 月 18 日 12:39

佬NB

把旗舰模型也比了吧

PSP · 2025 年4 月 18 日 12:46

补上了，可以看看

Lush · 2025 年4 月 18 日 12:49

grok3mini这么香的么

gebaini · 2025 年4 月 18 日 12:52

佬，这个价格是中转的么？

PSP · 2025 年4 月 18 日 12:53

都是官方API价格，号商中转一般都打1-4折

PSP · 2025 年4 月 18 日 12:54

大模型综合性能天梯定位表，个人主观看法（已更新o4mini、Gemini-2.5-Flash、o3、Grok-3-mini、GPT-4.1、御三家经典模型、Gemma、商汤、混元、豆包） - 文档共建 - LINUX DO

大致看这个定位表，数据收集不少了

homeworkkun · 2025 年4 月 18 日 13:18

哥我知道了，别艾特了……

PSP · 2025 年4 月 19 日 00:50

确实香啊，不过目前Gemini 2.5 Flash也可以（虽然能力大幅提升，但是推理付费API涨了7倍差评，免费次数也减配到500次）

Grok 3 mini，擅长推理和数学，其他方面都不行。不知道半代加强后Grok-3.5-mini，会不会也学Gemini涨价（希望DeepSeek R2给他们上点强度）

iBean · 2025 年4 月 19 日 01:28

哇，这么详细的对比，不知道用用沉浸式翻译哪一个最理想

PSP · 2025 年4 月 19 日 02:51

沉浸式翻译，不建议使用任何推理模型（因为需要深度思考，输出太慢了）

我自己一般用的是GLM-4-32B-0414，Qwen-2.5-32B，DeepSeek V3这三个

硅基，火山搞一些，V3成本高使用看一下有深度的内容，文章，出版物，其他两个用来看普通的资讯

zqingdut · 2025 年4 月 19 日 03:00

这么看老马的模型确实很有性价比了

PSP · 2025 年4 月 19 日 03:07

希望Grok 3.5 mini 不要涨价

希望DeepSeek R2 给他们上点强度

iBean · 2025 年4 月 19 日 03:51

好的，感谢解答

话题		回复	浏览量
【思考】混合推理模型的缺陷？Gemini 2.5Flash 的推理效率竟然远远低于其他思考模型！搞七捻三人工智能 , 快问快答	23	621	2025 年5 月 19 日
【汇总贴】Gemini2.0系模型三连发+能力对比前沿快讯 Gemini , 人工智能	57	2175	2025 年3 月 8 日
R1蒸馏的模型大多比原模型能力要差（六个型号）搞七捻三人工智能	35	1946	2025 年4 月 2 日
硅基流动或将开始与国外模型划清界限前沿快讯人工智能	52	1897	2025 年3 月 29 日
【搬运评测】Grok-3 Mini强得过分：在知乎大佬推理测试中接近满分，超过了Claude 3.7 Sonnet-Thinking 开发调优人工智能 , 转载	70	2496	2025 年5 月 16 日

推理小钢炮理论值汇总：决战性价比（Gemini-2.5-Flash，o4-mini，Grok-3-mini，o3-mini，QwQ-32B）

相关话题