对于一个临时创造的数学结构,已知其中一些规律,几乎不可能在互联网检索,对这个结构询问一些问题,发现竞技场最新gpt4o,显著低于 3.5, 3.5在一次错误后,得到正确答案,并且在衍生的更一般化的问题,思路正确,但是结论错误,gpt对于基础问题反复错误,并且在提示它后不断重复同样的错误,而我发现许多api sonnet 智力也显著低,在这个问题上表现得和4o非常相似,(疑似掺假) gcp sonnet和 fuclaude 表现都非常好,而且fuclaude轻微高于gcp? 有一些网站类似fuclaude,一样的UI,但是我怀疑掺假,因为能力显著低
谢谢分享,但你这排版我看了半天。。。
是一个棋盘游戏规则改编
补齐其余几家测试结果:
第一问 示例中的最优解?
第二问 第二个示例的最优解?
第三问 描述一般化的解法?
第四问 数学严谨的证明?
claude 3.5 :第一问错一次 第二问 命中 第三问 思路正确,提到关键词,公式有错 第四问,看得我迷惑,但是反应过来,是胡说八道.
gemini exp 0801 :第一问错一遍 第二问开始发昏
deepseek v2 chat : 类似gemini exp 0801
4o 0806 :第一问 直接对 第二问对 但总结错误,追问
开始胡言乱语并且否定自己第一问的答案
4o last :糟糕 省略
sus-column-r:类似4o last
mistral-large2407:荒谬
llama 405b英文提示(中文支持不好): 刚开始好像理解了规则,随后是悲惨的推理
qwen2 math demo 英文提示: 令人震惊奇特的 “匹配”感,第一问直接命中,跳过第二问,直接匹配出第三问的正确公式,然而… 重复问有随机性… 时灵时不灵的 它似乎自带思维链?会中途自我反思。 总之不稳定,在硅基流动上的API不清楚是不是同一个,表现平庸得多了
结论:claude 3.5>=qwen2 math demo=4o 0806>gemini exp 0801=deepseekv2 chat>4o last=sus-column-r=llama 405b>mistral-large2407
claude 3.5 因为思路正确,低级错误最少,陷入完全胡说的程度最低.重复提问答案基本一致 推理感相对强 ”匹配感"相对低 当之无愧排第一
哈哈 你这是ai总结的吧
哥们你这描述我看了半天
谁更妙?求赞~~
难度依此为
1 对基础规则(结构)的理解
2 提出最优方案
3 泛化最优方案
4 严谨的数学证明,
我自己是可以做到4,但是要花费不少时间. 一般人对数学比较迟钝可能短时间想不到2,3,(或者要想一会,)情有可原,但是如果一个人做不到1,就属于人类当中弱智一类了,很不幸除了sonnet 几乎全掉在1里面
我对gpt4o 的感觉,就好像它自顾自的作自己的,没听到我的提醒它犯的错误.
我觉得是因为4o降智的原因。。你试试0806的版本看?
sonnet 在 要求2 的表现中,只错误1次,即得到正确答案
要求3 中,思路完全正确,需要提示他的计算错误后,给出正确公式
要求4 ,看的我有点晕?不过再仔细一看还是胡说八道.如果这再能对,那已经达到竞赛级别推理能力
你这个 最后来个总结 还有表述各种可能, 太明显AI了 哈哈哈
api的试着加上网页版的提示词看看,论坛有人分享过提示词的
太真实了, 我之前改代码就是这样,气死我了。 最后我给claude 它虽然没给对,但好歹说出我想干什么
一句话,gpt是偏执型ai,claude是理解型ai
sus-column-r:类似GPT-4O
claude官方的系统提示词有些加成,会略好一点
佬试一下 Gemini 1.5 Pro Exp 0801,他给我的数学能力映像特别好,在无过程直接写出答案的情况下做对了高中三角恒等变换的题
~~~我是来看排版的
AI检测师
![]()
