deepseek能重演一次“deepseek时刻”吗?

一年前,差不多还是这个时候吧,开源大模型的发展似乎仍卡在“推理”这一关。
如果不是DeepSeek率先摸到了御三家的“门道”,如今的开源生态恐怕仍会是Meta一家独大的局面。
但最近在体验了 Qwen、DeepSeek、GLM 等国产模型之后,我发现开源界与头部闭源模型之间,还存在着一个相对隐蔽、却丝毫不亚于“思考-非思考”这一能力鸿沟的差距——那就是对长上下文的注意力机制处理能力。
那么,这个“长上下文难题”的根源究竟在哪里?
工程实现、硬件限制,还是闭源团队手握的某种“黑科技”级算法?

17 个赞

期待deepseek的大招 :distorted_face:

估计可能性不大,大模型目前来看主要拼算力,Deepseek显然不占优势,其次是算法这个都大差不差

deepseek主要是出圈了 火起来的时机也“刚好”

期待年底大招!!!

1 个赞

钱啊。成本会很高。deepseek 走的是创新如何省钱。如果不能研究出一个降本的方法训练出一个长上下文堪比主流模型的也就没意义。拿别人的 api 套壳就行。毕竟训练和部署的成本价格远超近期利润。

很期待啊

钱 与 算力 :distorted_face:

御三家都在自研芯片的路上

我最近也在想这个问题,马上就要过年了 开始出动了

grok在openrouter上线第一个1m上下文模型的时候,我用了也很差,当时不少用户都在喷。
Gemini3pro目前在MRCR v2里排名第二,但我用的是以后总感觉他的上下文有遗忘(容易把关键的内容漏掉,需要你强调,或者反复提示)
闭源里面长上下文较好的就是GPT。Claude虽然纸面参数不及Gemini,但用起来是另外一回事儿

还是对ds比较乐观的

有种后继乏力的感觉

不禁令人感叹,原来才过了一年啊! :tieba_013:
大模型的发展真的是日新月异啊,DeepSeek 今年虽然后半年沉寂了很久,但 Qwen 的表现也挺亮眼的,通义团队也拿到了 NeurIPS 最佳论文。尽管开源大模型和现有的闭源模型还有一些差距,但他们着实造福了不少的企业、研究机构和开发者,DeepSeek 当时提出的要让 AI 普惠化的理念真的伟大。

相信开源模型总有一天会不逊色于闭源模型,也希望国产模型的研发能继续加油。

2 个赞

暂时不太期待了,哈哈哈哈,百家争鸣才是王道,推动技术完全向前,DEEPSEEK大概率最大贡献这波可能是把价格打下来,哈哈哈,咱们也能用上便宜模型了 :grin:

好像还没到一年,哈哈哈哈,到2026年3月份才是1年吧

1 个赞

期待过年来一波

还真是 :distorted_face:
体感时间真的太长了

1 个赞

闭源模型有钱和算力支持,再加上本土企业显卡厂商多,训练出来的效果,可以说跟钱多硬件足有不小的关系。

DeepSeek注重模型研究和开源思路,本家搞量化的,在人人可用的AI上DeepSeek带给大家日常使用的影响是很直观的,DeepSeek推出的时候价格比国外低几十倍,这个我感觉对大家日常使用还挺重要的。

相信开源,相信未来!就像Linux腾空出世,就像Linuxdo社区的诞生一样!开放友好,共建你我引以为荣之社区!

3 个赞

现在模型更新太猛了,我们总觉得时间过得好慢,好像DEEPSEEK很久没大更新了,哈哈哈 :rofl:

我觉得闭源太拉了,那么多钱砸进去,没跟开源拉开太大差距

我希望DS能来个比肩御三家的多模态模型,现在开源的多模态都有点玩具