从GPT-4o mini揣测现在(2024/07)大模型行业进展

从这次GPT-4o mini的产品的角度来聊一聊可能现在大模型遇到的问题。

这次发布的是蒸馏模型而不是SOTA模型。
说明:

  1. 可能随着模型规模和复杂度的增加,进一步性能的提升带来的回报,不足以来弥补现在的投入,不管是计算资源上和人力投入上的成本。
  2. 第二个是实际难度上面的。实际难度上就是说,其实我们现在发布的不管是GPT的模型还是Claude的模型,其实可能都是蒸馏模型,它并不一定是最终的模型。 什么意思呢?就是在模型的训练上来说,他们可能一开始aim的是一个GPT-5 level,或者说是Claude 4 level的模型,但实际上train出来可能就没有那么好,那到最后的结果可能就只有去发布一个新train的模型的蒸馏版本。 这样既抢占了市场,又更新了模型,还能够对现有的模型进行新的产品化。

所以在新模型未能显著提升性能的情况下,公司会选择通过优化蒸馏新模型的策略来占领市场。即使提升是边际的,也需要不断优化以维持竞争力。

再一个说就是现在很多场景里,速度和并发之间带来的困难并不比性能提升带来的困难少, 所以现阶段的桃子还是速度和并发,所以解决这个问题其实也是能够带来市场占有率的提高,能提高整个市场的竞争性。

然后现在市场竞争也很复杂,所以从这个角度入手做产品是没有任何问题的。

最后殊途同归,openai 发布4o and 4omini,claude 发布3.5。剩下的大部分人都还在追赶性能方向的差距。

mark

不管mini怎么拉跨,还是头部那部分的

深有感触。

From #develop:ai to #share

1 个赞