Claude 3.7 thinking & gpt 4.5 简评 以及中转弱化推理问题

泛化推理

gpt4.5(? :sweat_smile:)<R1(70%)<=Claude 3.7 thinking 16k(80%) <Claude 3.7 thinking 32k(?)<o1 preivew<o1 (95%)≈grok3 R =o3 mini high(100%)

速度
Claude 3.7 thinking 77TOKEN/S <grok3 R<o1<O3 MH

先说 c3.7 thinking 推理长度对性能至关重要

7500(几乎无用) 答不对 3人帽子题 也就是 推理模型及格问题(常备测降智,也能验证Claude 推理长度,见我之前帖)

16k 应该稍强于R1 答对了两道R1答错的 一道O1答错的

Poe - 快捷实用的AI聊天 低智题失败
Claude-3.7-Sonnet-Reasoning: *Thinking...* > Let me understand this game on an n×n board: > > 1. Tom and Andre take turns placing their pieces. > 2. A core rule: if all four adjacent squares (up, do - Poe 这个应该能证明强于R1

32k 使用竞技场,仍然提升不明显(5人帽子题不行), 每个问题都要等接近10分钟,输出本就慢,再加上思维链又比较长,导致32K几乎不实用.

至于 GPT 4.5(官KEY测试),作推理题就比较鸡肋,一方面,虽说它不是推理模型,但是答题格式却十分相似,导致它的回答总是比较长,而且吐字很慢,这样一去一来实际上比 O3 MH快不了多少,甚至更慢,再加上高昂的价格,很快就失去兴趣了

这是一个临时想到的低智题目考Gpt 4.5


平台有个规定,一个商品款式,有不同单位的一次购买的类型, 如 提供 一次 10单位 20单位 30单位,等不同购买选项,越多的相对来说划算,但是又规定了 不能设置价格,使得最便宜的【选项】低于 所有选项的平均价,简单来说
我该怎么办?


如果不能手动设置 claude 3.7的推理长度,或者中转平台设置很低的值(效果很差),但是仍然当作推理模型,就有误导和欺诈的嫌疑,这点值得注意.

能力对比我觉得有点问题(或许可以改成智力相关?)。
每个模型都有擅长的领域
Claude写代码我是不知道谁能和它打
Grok3的速度比closeAI还快。
R1对推理题和中文语境的理解能力很强。
o3的场景就是难的推理题(普通推理题表现可能还不如R1)

所以gpt4.5就拉跨

怎么理解呢,我觉得这两个不是一类模型,所以放在一起pk 有点点不合适。
但坦白说,我还没用 gpt4.5,只能粗浅说说 claude 的情况。总体感觉还是很满意的,指令跟随很好,但价格有点贵,上下文也短了点。
另外,基本放弃 r1 了,哎,幻觉大师,一本正经地胡说八道。

1 个赞

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。