推理小钢炮理论值汇总:决战性价比(Gemini-2.5-Flash,o4-mini,Grok-3-mini,o3-mini,QwQ-32B)

参赛选手有六个
Gemini-2.5-Flash-Preview-0417
o4-mini
Grok-3-mini
o3-mini
QwQ-32B
Gemini-2.0-Flash-Thinking-0121

MMLU-Pro(暂缺Gemini-2.5-Flash):推理能力+知识面综合

GPQA Diamond:STEM多学科科学推理能力测试,钻石级推理难题

Humanity’s Last Exam:人类最后的考试,极限推理应用测试

LiveCodeBench (Coding):竞技代码

AIME 2024 (Competition Math):数学竞赛

Aider polyglo:代码理论能力

API价格(排名越前价格越低,从最便宜到最贵)
输入/输出
0.10美元/0.40美元:Gemini-2.0-Flash-Thinking-Exp-0121
0.30美元/0.50美元:Grok-3-mini
0.13美元/0.54美元:QWQ-32B(阿里云)
1.20美元/1.20美元:QWQ-32B(第三方)
0.15美元/3.50美元:Gemini-2.5-Flash-Preview-0417
1.10美元/4.44美元:o4-mini
1.10美元/4.44美元:o3-mini

23 个赞

出一个旗舰模型比武 :face_with_monocle:

1 个赞

API价格(排名越前越便宜,从最便宜到最贵)
输入/输出
0.10美元/0.40美元:Gemini-2.0-Flash-Thinking-Exp-0121
0.30美元/0.50美元:Grok-3-mini
0.13美元/0.54美元:QWQ-32B(阿里云)
1.20美元/1.20美元:QWQ-32B(第三方)
0.15美元/3.50美元:Gemini-2.5-Flash-Preview-0417(Thinking)
1.10美元/4.44美元:o4-mini
1.10美元/4.44美元:o3-mini

@dwqxq1
@handsome
@fengchris
@yeahhe
@baipiaodang
@homeworkkun
@user924

3 个赞

再来个价格对比 :smiling_face:

1 个赞

:tieba_087: 太酷了

1 个赞

加一个,个人测的写刘备的水平
grok 3 mini
flash 2.5 thinking
qwq

qwq文字输出不太稳定,前两个写东西跟拉裤子一样,停不住啊。一句话提纲就够了。

2 个赞

开炮开炮

佬NB

把旗舰模型也比了吧

补上了,可以看看

grok3mini这么香的么 :tieba_087:

佬,这个价格是中转的么?

都是官方API价格,号商中转一般都打1-4折

大模型综合性能天梯定位表,个人主观看法(已更新o4mini、Gemini-2.5-Flash、o3、Grok-3-mini、GPT-4.1、御三家经典模型、Gemma、商汤、混元、豆包) - 文档共建 - LINUX DO

大致看这个定位表,数据收集不少了

:innocent:哥我知道了,别艾特了……

确实香啊,不过目前Gemini 2.5 Flash也可以(虽然能力大幅提升,但是推理付费API涨了7倍差评,免费次数也减配到500次)

Grok 3 mini,擅长推理和数学,其他方面都不行。不知道半代加强后Grok-3.5-mini,会不会也学Gemini涨价(希望DeepSeek R2给他们上点强度) :smirking_face:

1 个赞

哇,这么详细的对比,不知道用用沉浸式翻译哪一个最理想 :smiley:

沉浸式翻译,不建议使用任何推理模型(因为需要深度思考,输出太慢了)

我自己一般用的是GLM-4-32B-0414,Qwen-2.5-32B,DeepSeek V3这三个

硅基,火山搞一些,V3成本高使用看一下有深度的内容,文章,出版物,其他两个用来看普通的资讯

这么看老马的模型确实很有性价比了

希望Grok 3.5 mini 不要涨价

希望DeepSeek R2 给他们上点强度 :+1:

好的,感谢解答