【gpt-4o-0326】250329更新:免费会员上线原生画图了!Aider编程评分

gpt-4o-250326除了增加了原生图像功能,基础性能也增加了

老话说得好:新三年,旧三年,缝缝补补又三年

正统接班人4.5败家子,不争气啊,付不起来的阿斗,老爸4o没法退休,修修补补再抗几个月,直接等孙子5.0(o3)接班吧

lmarena评分

来源:https://lmarena.ai/

Livebench评分

来源:https://livebench.ai/

Artificial Analysis评分

来源https://artificialanalysis.ai/

Aider编程评分 250329 19:00更新

来源:Aider LLM Leaderboards | aider

4o原生图像的谷歌搜索热度 240328更新

46 个赞

这么强?

7 个赞

这个榜单参考价值没那么高.参考这个:

7 个赞

太假了,claude甚至排那么后面

6 个赞

OpenAI 的运行逻辑被我扒出来了! :bili_038:

void OpenAI() {
    while (true) {
        int rank = check_openai_model_rank_in_lmarena();
        if (rank != 1) {
            publish_model(new_model);
        }
        sleep(random(3, 7) * day);
    }
}
30 个赞

连续3天,3家出模型

7 个赞

可以酒馆吗

3 个赞

4.5是大模型基模,4o属于蒸馏的那种,所以等一波4.5o

6 个赞

azure上了嘛,我看还是2024-10啥的

3 个赞

想知道目前
claude3.7(thinking)
gemini2.5
gpt4o
之间该如何抉择?

2 个赞

早就做好了一直不发呢吧

2 个赞

估计原生图像和新版4o,早做好就等给google捣乱呢

claude只是编程和写作强,其他多模态/语音/深度研究/画图/视频/联网/c端占有率都弱,也看不出来有全面发展的野心,程序员在所有人群中占比不足1%,对openai构不成威胁。google市值是openai的十几倍,gemini会是chatgpt"一生的敌人",google有足够资源和动机死缠烂打到底,所以openai专门与google对着干,抢风头,也是有心可原

google几乎每次发新品,都被openai精准狙击,卡时间,抢头条

其实2.5pro的用途,远比4o原生图像用途广泛。但耐何openai会作秀,图像的传播性也好,这几天普通用户大部分注意力都被吸引到原生图像上去了

比如youtube上介绍原生图像的视频,就远比2.5pro多

15 个赞

感觉 4.5 是多回训练
4o是由旧“结构”蒸馏到”新“结构 ?

1 个赞

这个榜刷来刷去 都还不如claude sonnet实战稳

2 个赞

gpt-4o和chatgpt-4o啥区别

1 个赞

卷起来,越卷越好

1 个赞

最好都去用gpt,别抢我gemini算力

1 个赞

⁣͏͏⁣͏͏͏͏⁣͏͏͏⁣⁣⁣⁣⁣͏͏⁣⁣͏⁣͏⁣͏͏⁣͏͏͏⁣⁣͏͏⁣⁣⁣⁣͏⁣͏͏⁣͏⁣⁣͏⁣͏⁣͏͏͏͏͏⁣͏͏⁣⁣͏⁣͏⁣⁣͏͏⁣͏͏͏⁣⁣͏͏⁣⁣⁣⁣⁣͏͏⁣⁣⁣͏⁣⁣⁣͏͏⁣⁣⁣͏⁣͏͏⁣⁣͏⁣͏⁣⁣͏͏⁣͏⁣͏⁣͏͏⁣⁣͏⁣⁣⁢chatgpt-4o-latest 和 claude 3.7 混着用,体验都挺好的

2 个赞

没有区别呢 每次模型的更新后,在竞技场上重新评分,就会带上时间编号来进行区分啦 :face_blowing_a_kiss:

1 个赞

????! :tieba_087: