分享一道可以检测 o3-mini 是否降智的题目（不止，还可以测试模型能力！）

VrianCao · 2025 年2 月 22 日 09:35

已知函数

$$f(x) = e^x + ax^2 - x.$$

(1) 当$a = 1$时，讨论$f(x)$的单调性；

(2) 当$x \geq 0$时，$f(x) \geq \frac{1}{2}x^3 + 1$，求$a$的取值范围。

未降智的普号 o3-mini 可以做出

降智的 o3-mini 和 o3-mini-high 均做不出

题目来源：2020 全国Ⅰ卷

steven1 · 2025 年2 月 22 日 09:36

感谢分享！mark

VrianCao · 2025 年2 月 22 日 09:46

看来不止，这题还可以检验模型能力

Gemini-2.0-Flash-Thinking pass@2 全错

Grok3 Thinking pass@1 正确

Elaina · 2025 年2 月 22 日 09:50

乐了，某家的官转api做不出来~

desire0119 · 2025 年2 月 22 日 09:50

感谢分享做出来了

zhubaiwan-oozzxx · 2025 年2 月 22 日 10:00

他强任他强，豆包题库大力破锋芒

VrianCao · 2025 年2 月 22 日 10:11

k1.5 可以做出来，但思考了整整 12 分钟，从思考过程来看，是穷举接近极值点的，而不会使用数学方法

VrianCao · 2025 年2 月 22 日 10:14

各模型情况汇总：

o3-mini API 表现异常！正在调查

handsome · 2025 年2 月 22 日 10:16

哪家啊？论坛的吗？

gliese581 · 2025 年2 月 22 日 10:18

自己部署的32B的r1也能做对，o3-mini做不对应该不是降智，是模型api掺假？

VrianCao · 2025 年2 月 22 日 10:20

o3-mini 的 API 似乎确实做不对，论坛机器人的真官转也做不对

非常奇怪

Kuailiaojie1 · 2025 年2 月 22 日 10:22

佬友，这是什么客户端

Elaina · 2025 年2 月 22 日 10:23

Cherry Studio

VrianCao · 2025 年2 月 22 日 10:23

Cherry Studio

Elaina · 2025 年2 月 22 日 10:24

孤噩，拼音就是那家

bandaot · 2025 年2 月 22 日 10:24

用的o3-mini, 是不是说明还是逆向的GPT 更聪明呢？

VrianCao · 2025 年2 月 22 日 10:25

我 o3-mini-high 就是用你家测试的，完全没降智，非常棒，o3-mini 没测试

VrianCao · 2025 年2 月 22 日 10:26

这么看来似乎现在 Web 给的算力配额更多啊，o3-mini 的 API 反而更少

bandaot · 2025 年2 月 22 日 10:27

也可能是系统提示和参数的问题，毕竟OpenAI 没有公布这些

Pomelo_neko · 2025 年2 月 22 日 10:29

R1思考三分钟做对了

话题		回复	浏览量
2025年4月20日丘成桐数学水平考试题目与参考答案，来测AI啦搞七捻三人工智能	98	1347	2025 年5 月 30 日
一道小五奥数题，o1，Kimi数学版，豆包全军覆没，我懵了开发调优人工智能	68	2602	2025 年3 月 8 日
这道题只有DeepSeek R1会做！搞七捻三 DeepSeek , 人工智能	82	2107	2025 年4 月 15 日
发现一道能区分o3 mini和o3 mini high的题目，欢迎佬们验证！开发调优人工智能	67	845	2025 年4 月 8 日
牛逼大了，o3-mini-high做2025张宇八套卷数一第二套选填得了满分！搞七捻三人工智能	162	3263	2025 年3 月 27 日