AI模型区分题库需要题目区分o1 pro,o1,o1 mini,Gemini 2.0 thinking 的模型,佬们有没有题目能分享出来

11 个赞

o1和o1 pro区别真不大(都是满血版的话)就思考详细程度不同而已。出这样的题很难吧

3 个赞

主要是需要区分Gemini 思考模型和o1,o1mini的题目。以前有一道题可以区分的,但是佬反馈说题目有错误所以删除了,现在一直缺少这种题

3 个赞

让我试试吧,看看能不能找到…

1 个赞

gemini 和mini应该也差不了多少

1 个赞

我测试Gemini thinking模型的经验是,Gemini thinking的数学题能力有时能比o1还强

1 个赞

区分Gemini? 那太简单了,Gemini 推理在livebench 才64,O1 91 O1 PRO 我估计在110左右(livebench没有测)
测O1 和O1 PRO 的题 要仔细斟酌,刚好在O1 PRO大概率对,而O1永远错的位置,
但是测Gemini 太容易了,你要的话我随便编一堆题.

1 个赞

欢迎提供题目。我要的是能区分模型的题目,不是所有模型都没有做不对的题目

Gemini thinking 基本上就对不了几个,只要不是套公式的题.

难度 :star:
汤姆和安德烈在一个9个小正方形构成的大正方形上玩游戏,也就是9宫格,他们可以轮流把代表自己的小人放置在上面,核心规则:一个小人它的上 下 左 右 紧邻 的四个方向(不包括斜对角)的方格【全部】被其它小人占据,(哪怕是被自己的占据)它就死亡并被移除,所以如果要放置小人,必须保证它至少有一个开口,以免立即死亡,立即死亡的放置是规则禁止的,但是放置会杀死其余的自己的小人是允许的
作个测试,允许安德烈首先连续放置小人,希望达成一目标:剩余的空间都是禁入的,但是他希望花费最少的小人达成这一目标,在3X3的9宫格上,他如何放置,?为了方便交流,我们可以把第一行 编号为1号格子
2号格 3号格 第二行 4/5/6 第三行 7/8/9
难度 :star: 接上述问题:对任意正整数的nxn呢 最优策略,以及最少放置?

2 个赞

难度 :star: (O1类 及格线,如果答不对就放弃治疗了)
三位智者 坐在一条长凳上。他们面朝同一个方向,,每人头上戴着一顶帽子。每位智者只能看到坐在自己前面的人的帽子,看不到自己和身后人的帽子。他们知道总共有5顶帽子,其中3顶是红色的,2顶是白色的。从中随机选择3项帽子给三位智者戴上.

第一个人(坐在最前面,看不到任何人):"你能确定自己帽子的颜色吗?"他说不能。
然后问第二个人(能看到最前面那个人的帽子)同样的问题,他也说不能。
最后问第三个人(能看到前两个人的帽子),他说能确定。

请问:三个人戴的是什么颜色的帽子?

1 个赞

能区分o1 和 o1 mini

披发左衽的意思是什么
3 个赞

所以答案是啥

这个我几天前收录了

这个还挺好使的感觉

1 个赞

你的题目文字太多,会破坏我的表格的可读性。我不如出几道难度高点的矩阵题目,o1模型做矩阵题都比较费力

1 个赞

几天前一位佬就给我推荐了,用来区分4o mini和4o。缺点就是这个是考验知识广度的,不考逻辑能力。

3 个赞

唯一的用处就是看看o1或者o1 pro 有没有严重降智成o1 mini了哈哈哈哈

2 个赞

其实 OpenAI 官网上那道解密题 Gemini 就做不出来:

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz
3 个赞

用openai挑选的题目不太好

1 个赞

但是可以区分 Gemini 和 o1,而且我测试了挺多其他推理模型,基本都全军覆没

1 个赞