也说一下claude 3.5和gpt4o的真实智力也附带其余几家

pwtramp123 · 2024 年8 月 15 日 05:18

对于一个临时创造的数学结构,已知其中一些规律,几乎不可能在互联网检索,对这个结构询问一些问题,发现竞技场最新gpt4o,显著低于 3.5, 3.5在一次错误后,得到正确答案,并且在衍生的更一般化的问题,思路正确,但是结论错误,gpt对于基础问题反复错误,并且在提示它后不断重复同样的错误,而我发现许多api sonnet 智力也显著低,在这个问题上表现得和4o非常相似,(疑似掺假) gcp sonnet和 fuclaude 表现都非常好,而且fuclaude轻微高于gcp? 有一些网站类似fuclaude,一样的UI,但是我怀疑掺假,因为能力显著低

Myqwn2729 · 2024 年8 月 15 日 05:20

谢谢分享，但你这排版我看了半天。。。

gyxzhao · 2024 年8 月 15 日 05:21

从高阶秘辛到人工智能

pwtramp123 · 2024 年8 月 15 日 05:22

是一个棋盘游戏规则改编

补齐其余几家测试结果：

第一问示例中的最优解？
第二问第二个示例的最优解？
第三问描述一般化的解法？
第四问数学严谨的证明？

claude 3.5 ：第一问错一次第二问命中第三问思路正确，提到关键词，公式有错第四问，看得我迷惑，但是反应过来，是胡说八道.

gemini exp 0801 ：第一问错一遍第二问开始发昏

deepseek v2 chat : 类似gemini exp 0801

4o 0806 ：第一问直接对第二问对但总结错误，追问
开始胡言乱语并且否定自己第一问的答案

4o last ：糟糕省略

sus-column-r:类似4o last

mistral-large2407：荒谬

llama 405b英文提示(中文支持不好): 刚开始好像理解了规则，随后是悲惨的推理

qwen2 math demo 英文提示: 令人震惊奇特的 “匹配”感，第一问直接命中，跳过第二问，直接匹配出第三问的正确公式，然而… 重复问有随机性… 时灵时不灵的它似乎自带思维链？会中途自我反思。总之不稳定，在硅基流动上的API不清楚是不是同一个，表现平庸得多了

结论：claude 3.5>=qwen2 math demo=4o 0806>gemini exp 0801=deepseekv2 chat>4o last=sus-column-r=llama 405b>mistral-large2407
claude 3.5 因为思路正确，低级错误最少，陷入完全胡说的程度最低.重复提问答案基本一致推理感相对强 ”匹配感"相对低当之无愧排第一

StellaFortuna · 2024 年8 月 15 日 05:23

我没太读懂不过进行了一下排版

Chris1990 · 2024 年8 月 15 日 05:27

哈哈你这是ai总结的吧

Rainforest · 2024 年8 月 15 日 05:27

哥们你这描述我看了半天

wang · 2024 年8 月 15 日 05:28

谁更妙？求赞~~

pwtramp123 · 2024 年8 月 15 日 05:29

难度依此为
1 对基础规则(结构)的理解
2 提出最优方案
3 泛化最优方案
4 严谨的数学证明,
我自己是可以做到4,但是要花费不少时间. 一般人对数学比较迟钝可能短时间想不到2,3,(或者要想一会,)情有可原,但是如果一个人做不到1,就属于人类当中弱智一类了,很不幸除了sonnet 几乎全掉在1里面

pwtramp123 · 2024 年8 月 15 日 05:31

我对gpt4o 的感觉,就好像它自顾自的作自己的,没听到我的提醒它犯的错误.

handsome · 2024 年8 月 15 日 05:33

我觉得是因为4o降智的原因。。你试试0806的版本看？

pwtramp123 · 2024 年8 月 15 日 05:35

sonnet 在要求2 的表现中,只错误1次,即得到正确答案
要求3 中,思路完全正确,需要提示他的计算错误后,给出正确公式
要求4 ,看的我有点晕?不过再仔细一看还是胡说八道.如果这再能对,那已经达到竞赛级别推理能力

Myqwn2729 · 2024 年8 月 15 日 05:35

你这个最后来个总结还有表述各种可能，太明显AI了哈哈哈

kill · 2024 年8 月 15 日 05:36

api的试着加上网页版的提示词看看，论坛有人分享过提示词的

Myqwn2729 · 2024 年8 月 15 日 05:36

太真实了，我之前改代码就是这样，气死我了。最后我给claude 它虽然没给对，但好歹说出我想干什么

quin181a · 2024 年8 月 15 日 06:28

一句话，gpt是偏执型ai，claude是理解型ai

pwtramp123 · 2024 年8 月 15 日 06:46

sus-column-r:类似GPT-4O

EFL · 2024 年8 月 15 日 07:09

claude官方的系统提示词有些加成，会略好一点
佬试一下 Gemini 1.5 Pro Exp 0801，他给我的数学能力映像特别好，在无过程直接写出答案的情况下做对了高中三角恒等变换的题

bahuzh · 2024 年8 月 15 日 08:15

～～～我是来看排版的

WenboWong · 2024 年8 月 15 日 08:38

AI检测师

话题		回复	浏览量
实测 Claude 3.5 Sonnet VS GPT-4o，最强大模型的宝座可能要易主了资源荟萃 ChatGPT , 人工智能	30	4200	2024 年12 月 9 日
claude pro 就这？搞七捻三纯水	21	701	2025 年1 月 31 日
试了下chatgpt o4 数学能力蛮强的资源荟萃 ChatGPT , 人工智能	30	778	2025 年5 月 18 日
一个题目直接把claude底裤都拔下来了，你们也可以测试下你们的claude是不是变傻子了搞七捻三 Claude , 人工智能	44	1315	2025 年9 月 30 日
【𝓼𝓾𝓭𝓪】Claude Opus 4.5终于来了？（似疑，x贴已下）开发调优人工智能 , 软件开发	45	1062	2025 年11 月 29 日

也说一下claude 3.5和gpt4o的真实智力 也附带其余几家

相关话题

也说一下claude 3.5和gpt4o的真实智力也附带其余几家