我早上发了个帖子问佬们有什么想问GPT4.5的我代问,然后在知乎和其他平台也同步发了帖子。目前收到一些问题,我测了4.5、3.7、Grok3、o1四个模型,附上测试结果和对应的提问链接。
结论就是,Sam Altman拉了坨大的,GPT4.5 没有明显的优势。
评测文档:
参与编辑:
我早上发了个帖子问佬们有什么想问GPT4.5的我代问,然后在知乎和其他平台也同步发了帖子。目前收到一些问题,我测了4.5、3.7、Grok3、o1四个模型,附上测试结果和对应的提问链接。
结论就是,Sam Altman拉了坨大的,GPT4.5 没有明显的优势。
评测文档:
参与编辑:
我们CloseAI是这样的,只有价格在创新(高)
(不过怎么是发的WIKI)
Notion我还没玩明白,不是这么发的吗
帖子不应该发成正常帖子嘛?
这好像发成WIKI了(文档共建)
选错了,改过来了
4.5真有人用啊。。
问题:Sroan 有一个私人的保险箱,密码是 7 个 不同的数字。
Guess #1: 9062437
Guess #2: 8593624
Guess #3: 4286915
Guess #4: 3450982
Sroan 说: 你们 4 个人每人都猜对了位置不相邻的两个数字。 (只有 “位置及其对应的数字” 都对才算对) 问:密码是什么?
Claude3.5 错误
Grok3 错误
Sroan的保险箱密码逻辑谜题 | Shared Grok Conversation
GPT4.5 错误
GPT o1 正确
现在有一个300mL和500mL的量筒,怎么操作才能接150mL的水在500mL的量筒里
Grok3 错误
量筒操作获得150mL水方法 | Shared Grok Conversation
GPT4.5 错误
GPT o1 正确
Claude 3.7错误
做一个知乎网页版的前端界面,包含所有组件。
New conversation | Shared Grok Conversation
用SVG画一只可爱的小猪
用SVG代码创建一个人工智能产业生态结构图,展示各层级技术节点与应用领域间的复杂关联网络,包含基础层、模型层、应用层及参与者的多维交互关系,呈现技术演进路径、资源流动方向与价值链枢纽点
AI产业生态结构图SVG创建 | Shared Grok Conversation
都说了不是推理模型,非拿一堆STEM来测,何必呢
前几个问题是评论区提的,也是为了全面一点,创意创作的测试还没来得及写上去,这两天有时间就写
Gemini 2.0 pro依然是唯一能答对杚那个问题的外国模型,它的中国知识在外国模型里属于断层领先
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。