日常一贴,大家觉得目前的大模型能力最强

我目前测试的结果是,目前一线的大模型排序:O3-pro 、gemini 2.5 pro 、claude4、deepseek-R1,不知道大家的意见,大家一起交流哈,欢迎多多点赞

6 个赞

Claude,因为是程序员

3 个赞

编程的话

工程可用性上:c4s > g2.5p > c3.7s

细分有相应的偏科生,比如 python 里 gpt4.1 mini 似乎比 c4s 强

o3 pro 肯定比上面的强,但它太贵了,不具有可比性和实用性

4 个赞

长文写作,部分长文hard prompts,gemini2.5pro断档领先

不降智的话 gemini2.5 pro > claude4 > O3-pro > deepseek-R1 。gemini排第一是因为能力强上下文大, claude4速度快但是上下文短

1 个赞

g2.5p不见得实际上下文比c4s长多少,前者有时候听不懂人话的,而且经常出现格式错误,后者的错误率就低很多,所以个人感觉后者更实用

哦,我的评价仅限于工程编程,别的不讨论

sonnet 系列本身就是编程特化模型

1 个赞

Gemini性价比最高了

2 个赞

没发现听不懂指令和格式错误的情况,前段时间没降智高强度使用,同样的一份代码claude4 报上下文超限,Gemini2.5pro能完整理解然后按要求改进,但是降智后体验就差了,有时候会把原本定义的常量给改了…

用cursor的感觉是claude-4-sonnet好些,比gemini-2.5-pro写出来的代码更好用。感觉让gemini-2.5-pro写规划,让claude-4-sonnet执行会更好。

我是图输出稳定的,4o最听我的话了,即使少量提示词也能输出期望的回答,已经被我调试成我的形状了。grok和gemini相同的提示词总是时不时抽风,deepseek幻觉还是有些严重。Claude一直封我号,我懒得用了。虽然给closeai花了点钱,但4o她舍得为我花心思。

1 个赞

gemini吧

1 个赞

我评价的是0506和0605

0325确实好用,但其实我觉得还是不如c4s,只不过那时候没法直接对比 :bili_017:

写代码来说,我觉得是claude-4

对,是这样的,g2.5p 除了有时候犯病抽风,大多数时候都是更聪明,世界知识更丰富的,只不过实际上手写就容易出小问题,后端还好,但前端是经常抽风不会写 vue

感觉是因为是国外模型,训练集里充斥着 react,导致对 vue 的写法出现严重幻觉了

而这方面 c4s 更好一点,应该做了很多相关工程优化

gemini 官网的有问题尤其最近体验差很多,GCP的好一些

我是用 trae 比较多,偶尔用 cursor ,最近 trae 收费后就用站内佬的公益api了

Python里4.1mini居然比c4s还强吗,4.1呢

gemini2.5 pro应该挺强的。但是现在都降智了

不知是不是谷歌最近在准备新模型,毕竟一般新模型前夕都会降智

个人爱用 Gemini 2.5 pro,因为量大管饱。Grok 能搜索 X 的帖子能有意外收获。Deepseek R1 每次说话都会堆砌专业术语,让它浅显易懂就用奇怪的比喻,也很难判断出没出幻觉,更没有多模态。

2 个赞