分享一道可以检测 o3-mini 是否降智的题目(不止,还可以测试模型能力!)

已知函数

$$f(x) = e^x + ax^2 - x.$$

(1) 当$a = 1$时,讨论$f(x)$的单调性;

(2) 当$x \geq 0$时,$f(x) \geq \frac{1}{2}x^3 + 1$,求$a$的取值范围。

未降智的普号 o3-mini 可以做出

降智的 o3-minio3-mini-high做不出

题目来源:2020 全国Ⅰ卷

52 个赞

感谢分享!mark

3 个赞

看来不止,这题还可以检验模型能力

Gemini-2.0-Flash-Thinking pass@2 全错:cross_mark:

Grok3 Thinking pass@1 正确:white_check_mark:

3 个赞

乐了,某家的官转api做不出来~



3 个赞

感谢分享 做出来了

他强任他强,豆包题库大力破锋芒:rofl:

7 个赞

k1.5 可以做出来,但思考了整整 12 分钟,从思考过程来看,是穷举接近极值点的,而不会使用数学方法

1 个赞

各模型情况汇总:

  1. o3-mini 与 o3-mini-high:均正确:white_check_mark:,用时 1 分钟以内
  2. Grok3 Thinking:正确:white_check_mark:,用时 156s
  3. Gemini-2.0-Flashing-Thinking:错误:x:,英文提示词可以稳定做出:white_check_mark:
  4. k1.5:正确:white_check_mark:,用时 12 分钟(穷举法)
  5. 豆包:正确:white_check_mark:(题海战术)感谢 @zhubaiwan-oozzxx
  6. DeepSeek-R1:正确:white_check_mark:,用时 3 分钟,感谢 @Pomelo_neko

o3-mini API 表现异常!正在调查

4 个赞

哪家啊?论坛的吗?

4 个赞

自己部署的32B的r1也能做对,o3-mini做不对应该不是降智,是模型api掺假?

:warning:o3-mini 的 API 似乎确实做不对,论坛机器人的真官转也做不对

非常奇怪

佬友,这是什么客户端

1 个赞

Cherry Studio

3 个赞

Cherry Studio

2 个赞

孤噩,拼音就是那家

1 个赞

用的o3-mini, 是不是说明还是逆向的GPT 更聪明呢?

1 个赞

我 o3-mini-high 就是用你家测试的,完全没降智,非常棒,o3-mini 没测试

3 个赞

这么看来似乎现在 Web 给的算力配额更多啊,o3-mini 的 API 反而更少

4 个赞

也可能是系统提示和参数的问题,毕竟OpenAI 没有公布这些

5 个赞


R1思考三分钟做对了

4 个赞