Claude 3.7 thinking ＆ gpt 4.5 简评以及中转弱化推理问题

pwtramp123 · 2025 年3 月 1 日 11:29

泛化推理

gpt4.5(? )<R1(70%)<=Claude 3.7 thinking 16k(80%) <Claude 3.7 thinking 32k(?)<o1 preivew<o1 (95%)≈grok3 R =o3 mini high(100%)

速度
Claude 3.7 thinking 77TOKEN/S <grok3 R<o1<O3 MH

先说 c3.7 thinking 推理长度对性能至关重要

7500(几乎无用) 答不对 3人帽子题也就是推理模型及格问题（常备测降智，也能验证Claude 推理长度，见我之前帖）

16k 应该稍强于R1 答对了两道R1答错的一道O1答错的

32k 使用竞技场，仍然提升不明显(5人帽子题不行)，每个问题都要等接近10分钟，输出本就慢，再加上思维链又比较长，导致32K几乎不实用.

至于 GPT 4.5（官KEY测试），作推理题就比较鸡肋，一方面，虽说它不是推理模型，但是答题格式却十分相似，导致它的回答总是比较长，而且吐字很慢，这样一去一来实际上比 O3 MH快不了多少，甚至更慢，再加上高昂的价格，很快就失去兴趣了

这是一个临时想到的低智题目考Gpt 4.5

平台有个规定，一个商品款式，有不同单位的一次购买的类型，如提供一次 10单位 20单位 30单位，等不同购买选项，越多的相对来说划算，但是又规定了不能设置价格，使得最便宜的【选项】低于所有选项的平均价，简单来说
我该怎么办?

pwtramp123 · 2025 年3 月 1 日 11:37

如果不能手动设置 claude 3.7的推理长度，或者中转平台设置很低的值（效果很差），但是仍然当作推理模型，就有误导和欺诈的嫌疑，这点值得注意.

chunkBurst · 2025 年3 月 1 日 11:38

能力对比我觉得有点问题（或许可以改成智力相关?）。
每个模型都有擅长的领域
Claude写代码我是不知道谁能和它打
Grok3的速度比closeAI还快。
R1对推理题和中文语境的理解能力很强。
o3的场景就是难的推理题（普通推理题表现可能还不如R1）

handsome · 2025 年3 月 1 日 12:32

所以gpt4.5就拉跨

slashkkk · 2025 年3 月 1 日 12:46

怎么理解呢，我觉得这两个不是一类模型，所以放在一起pk 有点点不合适。
但坦白说，我还没用 gpt4.5，只能粗浅说说 claude 的情况。总体感觉还是很满意的，指令跟随很好，但价格有点贵，上下文也短了点。
另外，基本放弃 r1 了，哎，幻觉大师，一本正经地胡说八道。

system · 2025 年3 月 31 日 12:47

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。

话题		回复	浏览量
还有人在用ChatGPT吗能用问题例子告诉理由吗？搞七捻三人工智能 , 快问快答	42	859	2025 年3 月 24 日
ChatGPT5真是垃圾，thinking模型又慢又弱智，问答像挤牙膏一样，永远get不到我的意思，远远不如ChatGPT4o 搞七捻三人工智能	16	857	2025 年8 月 27 日
大模型综合性能天梯定位表，个人主观看法（已更新Gemini-2.5-Pro-0506、Qwen-3、国产模型）文档共建人工智能	135	6930	2025 年6 月 24 日
【水】自己的gpt就是毫无隔阂安慰舒坦安心快乐【皇曰:稳定压倒一切】搞七捻三 ChatGPT , 人工智能 , 纯水	33	403	2025 年7 月 13 日
【汇总】关于Grok 3、Claude 3.7、GPT-4.5模型，你应该了解什么？搞七捻三人工智能	14	913	2025 年4 月 2 日

Claude 3.7 thinking ＆ gpt 4.5 简评 以及中转弱化推理问题