ChatGPT4.5和其他几个主流模型的简单对比

我早上发了个帖子问佬们有什么想问GPT4.5的我代问,然后在知乎和其他平台也同步发了帖子。目前收到一些问题,我测了4.5、3.7、Grok3、o1四个模型,附上测试结果和对应的提问链接。

结论就是,Sam Altman拉了坨大的,GPT4.5 没有明显的优势。

评测文档:

参与编辑:

知乎:
https://www.zhihu.com/question/13599522694/answer/112406582896

30 个赞

我们CloseAI是这样的,只有价格在创新(高)
(不过怎么是发的WIKI)

1 个赞

1.左右结构的汉字

一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?只需回答这个字即可。




Notion我还没玩明白,不是这么发的吗

帖子不应该发成正常帖子嘛?
这好像发成WIKI了(文档共建)

选错了,改过来了

1 个赞

4.5真有人用啊。。

2.保险柜

问题:Sroan 有一个私人的保险箱,密码是 7 个 不同的数字。

Guess #1: 9062437

Guess #2: 8593624

Guess #3: 4286915

Guess #4: 3450982

Sroan 说: 你们 4 个人每人都猜对了位置不相邻的两个数字。 (只有 “位置及其对应的数字” 都对才算对) 问:密码是什么?

Claude3.5 错误

Claude

Grok3 错误

Sroan的保险箱密码逻辑谜题 | Shared Grok Conversation

GPT4.5 错误

ChatGPT - 密码推理解析

GPT o1 正确

ChatGPT - 密码推理分析

3.数列整数项问题

Grok3 错误×

实数列整数项最小个数 | Shared Grok Conversation

GPT o1 错误×

ChatGPT - 最少整数项分析

GPT 4.5 错误×

ChatGPT - 最少整数项分析

Claude3.7 错误×

Claude

4.竹竿

一根5.5米长的竹竿,能否通过高4米宽3米的门?

Claude3.7 正确

Claude

GPT o1 正确

ChatGPT - 竹竿过门问题

GPT4.5 正确

ChatGPT - 竹竿能否通过门

Grok3 错误

竹竿通过门限计算 | Shared Grok Conversation

5.量筒问题

现在有一个300mL和500mL的量筒,怎么操作才能接150mL的水在500mL的量筒里

Grok3 错误

量筒操作获得150mL水方法 | Shared Grok Conversation

GPT4.5 错误

ChatGPT - 量筒取水方法

GPT o1 正确

ChatGPT - 量水问题解析

Claude 3.7错误

Claude

6.不提供截图的知乎仿站

做一个知乎网页版的前端界面,包含所有组件。

Grok3

New conversation | Shared Grok Conversation

ChatGPT o1

Zhihu Web Mock

ChatGPT 4.5

Zhihu Web Ui Preview

Claude 3.7 神!!!!!

Claude

7.SVG画小猪

用SVG画一只可爱的小猪

Grok3


SVG 可爱小猪代码绘制 | Shared Grok Conversation

ChatGPT 4.5


ChatGPT - SVG 可爱小猪

Claude 3.7


Claude

ChatGPT o1


ChatGPT - SVG 小猪绘制教程

8.SVG画人工智能产业架构

用SVG代码创建一个人工智能产业生态结构图,展示各层级技术节点与应用领域间的复杂关联网络,包含基础层、模型层、应用层及参与者的多维交互关系,呈现技术演进路径、资源流动方向与价值链枢纽点

ChatGPT o1

ChatGPT - AI产业生态图示例

Grok3

AI产业生态结构图SVG创建 | Shared Grok Conversation

Claude3.7

Claude

ChatGPT4.5

ChatGPT - AI产业生态图设计

1 个赞

都说了不是推理模型,非拿一堆STEM来测,何必呢

2 个赞

前几个问题是评论区提的,也是为了全面一点,创意创作的测试还没来得及写上去,这两天有时间就写

Gemini 2.0 pro依然是唯一能答对杚那个问题的外国模型,它的中国知识在外国模型里属于断层领先

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。