AI模型区分题库需要题目区分o1 pro，o1，o1 mini，Gemini 2.0 thinking 的模型，佬们有没有题目能分享出来

yeahhe · 2025 年1 月 12 日 04:27

zzhzzh · 2025 年1 月 12 日 04:34

o1和o1 pro区别真不大（都是满血版的话）就思考详细程度不同而已。出这样的题很难吧

yeahhe · 2025 年1 月 12 日 04:37

主要是需要区分Gemini 思考模型和o1，o1mini的题目。以前有一道题可以区分的，但是佬反馈说题目有错误所以删除了，现在一直缺少这种题

zzhzzh · 2025 年1 月 12 日 04:38

让我试试吧，看看能不能找到…

zzhzzh · 2025 年1 月 12 日 04:38

gemini 和mini应该也差不了多少

yeahhe · 2025 年1 月 12 日 04:39

我测试Gemini thinking模型的经验是，Gemini thinking的数学题能力有时能比o1还强

pwtramp123 · 2025 年1 月 12 日 05:06

区分Gemini？那太简单了，Gemini 推理在livebench 才64，O1 91 O1 PRO 我估计在110左右（livebench没有测）
测O1 和O1 PRO 的题要仔细斟酌，刚好在O1 PRO大概率对，而O1永远错的位置，
但是测Gemini 太容易了，你要的话我随便编一堆题.

yeahhe · 2025 年1 月 12 日 05:18

欢迎提供题目。我要的是能区分模型的题目，不是所有模型都没有做不对的题目

pwtramp123 · 2025 年1 月 12 日 05:18

Gemini thinking 基本上就对不了几个，只要不是套公式的题.

难度
汤姆和安德烈在一个9个小正方形构成的大正方形上玩游戏，也就是9宫格，他们可以轮流把代表自己的小人放置在上面，核心规则：一个小人它的上下左右紧邻的四个方向（不包括斜对角）的方格【全部】被其它小人占据，（哪怕是被自己的占据）它就死亡并被移除，所以如果要放置小人，必须保证它至少有一个开口，以免立即死亡，立即死亡的放置是规则禁止的，但是放置会杀死其余的自己的小人是允许的
作个测试，允许安德烈首先连续放置小人，希望达成一目标：剩余的空间都是禁入的，但是他希望花费最少的小人达成这一目标，在3X3的9宫格上，他如何放置，？为了方便交流，我们可以把第一行编号为1号格子
2号格 3号格第二行 4/5/6 第三行 7/8/9
难度接上述问题：对任意正整数的nxn呢最优策略，以及最少放置？

pwtramp123 · 2025 年1 月 12 日 05:21

难度（O1类及格线，如果答不对就放弃治疗了）
三位智者坐在一条长凳上。他们面朝同一个方向，，每人头上戴着一顶帽子。每位智者只能看到坐在自己前面的人的帽子，看不到自己和身后人的帽子。他们知道总共有5顶帽子，其中3顶是红色的，2顶是白色的。从中随机选择3项帽子给三位智者戴上.

第一个人（坐在最前面，看不到任何人）："你能确定自己帽子的颜色吗？"他说不能。
然后问第二个人（能看到最前面那个人的帽子）同样的问题，他也说不能。
最后问第三个人（能看到前两个人的帽子），他说能确定。

请问：三个人戴的是什么颜色的帽子？

lueluelue · 2025 年1 月 12 日 09:14

能区分o1 和 o1 mini

披发左衽的意思是什么

Morax · 2025 年1 月 12 日 09:16

所以答案是啥

yeahhe · 2025 年1 月 12 日 10:45

这个我几天前收录了

lueluelue · 2025 年1 月 12 日 10:47

这个还挺好使的感觉

yeahhe · 2025 年1 月 12 日 10:48

你的题目文字太多，会破坏我的表格的可读性。我不如出几道难度高点的矩阵题目，o1模型做矩阵题都比较费力

yeahhe · 2025 年1 月 12 日 10:50

几天前一位佬就给我推荐了，用来区分4o mini和4o。缺点就是这个是考验知识广度的，不考逻辑能力。

lueluelue · 2025 年1 月 12 日 10:53

唯一的用处就是看看o1或者o1 pro 有没有严重降智成o1 mini了哈哈哈哈

KXG · 2025 年1 月 12 日 11:10

其实 OpenAI 官网上那道解密题 Gemini 就做不出来：

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

yeahhe · 2025 年1 月 12 日 11:11

用openai挑选的题目不太好

KXG · 2025 年1 月 12 日 11:12

但是可以区分 Gemini 和 o1，而且我测试了挺多其他推理模型，基本都全军覆没

话题		回复	浏览量
2025年4月20日丘成桐数学水平考试题目与参考答案，来测AI啦搞七捻三人工智能	98	1347	2025 年5 月 30 日
【此帖已转移】语言模型区分题库：测试逻辑能力，区分语言模型。测试模型是否降智或阉割文档共建 ChatGPT , kimi , Google , Claude , DeepSeek , Gemini , 人工智能 , Linux-Do-Wiki	123	3011	2025 年2 月 5 日
这道题有没有模型能作对。有没有佬试一下o1 pro 开发调优人工智能	77	993	2025 年2 月 19 日
o3做数学题的能力比我想得强好多搞七捻三人工智能	26	781	2025 年5 月 31 日
牛逼大了，o3-mini-high做2025张宇八套卷数一第二套选填得了满分！搞七捻三人工智能	162	3264	2025 年3 月 27 日

AI模型区分题库需要题目区分o1 pro，o1，o1 mini，Gemini 2.0 thinking 的模型，佬们有没有题目能分享出来

相关话题