o1和o1 pro区别真不大(都是满血版的话)就思考详细程度不同而已。出这样的题很难吧
主要是需要区分Gemini 思考模型和o1,o1mini的题目。以前有一道题可以区分的,但是佬反馈说题目有错误所以删除了,现在一直缺少这种题
让我试试吧,看看能不能找到…
gemini 和mini应该也差不了多少
我测试Gemini thinking模型的经验是,Gemini thinking的数学题能力有时能比o1还强
区分Gemini? 那太简单了,Gemini 推理在livebench 才64,O1 91 O1 PRO 我估计在110左右(livebench没有测)
测O1 和O1 PRO 的题 要仔细斟酌,刚好在O1 PRO大概率对,而O1永远错的位置,
但是测Gemini 太容易了,你要的话我随便编一堆题.
欢迎提供题目。我要的是能区分模型的题目,不是所有模型都没有做不对的题目
Gemini thinking 基本上就对不了几个,只要不是套公式的题.
难度 ![]()
汤姆和安德烈在一个9个小正方形构成的大正方形上玩游戏,也就是9宫格,他们可以轮流把代表自己的小人放置在上面,核心规则:一个小人它的上 下 左 右 紧邻 的四个方向(不包括斜对角)的方格【全部】被其它小人占据,(哪怕是被自己的占据)它就死亡并被移除,所以如果要放置小人,必须保证它至少有一个开口,以免立即死亡,立即死亡的放置是规则禁止的,但是放置会杀死其余的自己的小人是允许的
作个测试,允许安德烈首先连续放置小人,希望达成一目标:剩余的空间都是禁入的,但是他希望花费最少的小人达成这一目标,在3X3的9宫格上,他如何放置,?为了方便交流,我们可以把第一行 编号为1号格子
2号格 3号格 第二行 4/5/6 第三行 7/8/9
难度
接上述问题:对任意正整数的nxn呢 最优策略,以及最少放置?
难度
(O1类 及格线,如果答不对就放弃治疗了)
三位智者 坐在一条长凳上。他们面朝同一个方向,,每人头上戴着一顶帽子。每位智者只能看到坐在自己前面的人的帽子,看不到自己和身后人的帽子。他们知道总共有5顶帽子,其中3顶是红色的,2顶是白色的。从中随机选择3项帽子给三位智者戴上.
第一个人(坐在最前面,看不到任何人):"你能确定自己帽子的颜色吗?"他说不能。
然后问第二个人(能看到最前面那个人的帽子)同样的问题,他也说不能。
最后问第三个人(能看到前两个人的帽子),他说能确定。
请问:三个人戴的是什么颜色的帽子?
能区分o1 和 o1 mini
披发左衽的意思是什么
所以答案是啥
这个还挺好使的感觉
你的题目文字太多,会破坏我的表格的可读性。我不如出几道难度高点的矩阵题目,o1模型做矩阵题都比较费力
几天前一位佬就给我推荐了,用来区分4o mini和4o。缺点就是这个是考验知识广度的,不考逻辑能力。
唯一的用处就是看看o1或者o1 pro 有没有严重降智成o1 mini了哈哈哈哈
其实 OpenAI 官网上那道解密题 Gemini 就做不出来:
oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step
Use the example above to decode:
oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz
用openai挑选的题目不太好
但是可以区分 Gemini 和 o1,而且我测试了挺多其他推理模型,基本都全军覆没

