泛化推理
gpt4.5(?
)<R1(70%)<=Claude 3.7 thinking 16k(80%) <Claude 3.7 thinking 32k(?)<o1 preivew<o1 (95%)≈grok3 R =o3 mini high(100%)
速度
Claude 3.7 thinking 77TOKEN/S <grok3 R<o1<O3 MH
先说 c3.7 thinking 推理长度对性能至关重要
7500(几乎无用) 答不对 3人帽子题 也就是 推理模型及格问题(常备测降智,也能验证Claude 推理长度,见我之前帖)
16k 应该稍强于R1 答对了两道R1答错的 一道O1答错的
Poe - 快捷实用的AI聊天 低智题失败
Claude-3.7-Sonnet-Reasoning: *Thinking...* > Let me understand this game on an n×n board: > > 1. Tom and Andre take turns placing their pieces. > 2. A core rule: if all four adjacent squares (up, do - Poe 这个应该能证明强于R1
32k 使用竞技场,仍然提升不明显(5人帽子题不行), 每个问题都要等接近10分钟,输出本就慢,再加上思维链又比较长,导致32K几乎不实用.
至于 GPT 4.5(官KEY测试),作推理题就比较鸡肋,一方面,虽说它不是推理模型,但是答题格式却十分相似,导致它的回答总是比较长,而且吐字很慢,这样一去一来实际上比 O3 MH快不了多少,甚至更慢,再加上高昂的价格,很快就失去兴趣了
这是一个临时想到的低智题目考Gpt 4.5
平台有个规定,一个商品款式,有不同单位的一次购买的类型, 如 提供 一次 10单位 20单位 30单位,等不同购买选项,越多的相对来说划算,但是又规定了 不能设置价格,使得最便宜的【选项】低于 所有选项的平均价,简单来说
我该怎么办?