豆包这个专家模型实力感觉有点强啊，一股G3P的味

Anemo_Slime · 2026 年2 月 14 日 05:01

中文吃饭的时候点开就有了，这思维链我还以为把Gemini的翻译过来了哈哈，测了几道高中原创数学压轴题感觉还可以，而且速度也很快。不说我还真以为是G3P，字节真是越来越强啊。
洗车问题加强版完美过关，有点吓人

Anemo_Slime · 2026 年2 月 14 日 05:05

小球问题还是背公式，我不行了

synthale · 2026 年2 月 14 日 05:08

这个答案还是不对吧

Anemo_Slime · 2026 年2 月 14 日 05:14

哈哈，是概率问题吗我试了一下我也做不对了

quarkape · 2026 年2 月 14 日 05:23

右侧都没有橘色球
不过，就算右侧有橘色球的话，视觉模型可以真的比较两个橘色球的大小吗？或者换句话说，从人类的角度来说，怎么判断图中的两个橘色球一模一样大？

y1q2h3111 · 2026 年2 月 14 日 05:24

感觉豆包是背题的实际体验就是没那么聪明

y1q2h3111 · 2026 年2 月 14 日 05:26

每个色块的面积不一样，人类的角度也是根据面积判断啊你不会是赛博生命吧

quarkape · 2026 年2 月 14 日 05:30

何意味？
圆的面积怎么算？面积公式？图片放大之后，是会看到像素的。只是好奇而已，何必呢。

StellaFortuna · 2026 年2 月 14 日 05:33

洗车问题，豆包本来就能完美通关
专家是内测功能吗？羡慕了

Anemo_Slime · 2026 年2 月 14 日 05:33

没有啊，你更新看看，我一上线就有了

StellaFortuna · 2026 年2 月 14 日 05:35

看到了喵

发现你测的洗车问题要难复杂的多他的思维链看起来正确了，这种问题关键还是还是还是没有问用户，你到底指的是啥？能不能把问题明确一下？
只要做到这一步了，那才是真正的完美AI

SugarBreeze · 2026 年2 月 14 日 05:35

视觉模型除非是在应用端加工具去多轮处理图片和推理，否则从色块面积判断大小这种事还是非常困难的

Anemo_Slime · 2026 年2 月 14 日 05:39

其实是有像素点的，你放大可以看到哈哈，人类就是通过占地面积直观比较啊，LLM我看Gemini算过，就直接根据同一颜色像素点的多少来呀，也可以调用python算

Anemo_Slime · 2026 年2 月 14 日 05:40

Gemini做这个问题就不会错，我感觉像豆包背题给自己背傻了让它仔细看也能看出来

y1q2h3111 · 2026 年2 月 14 日 05:44

什么圆的面积怎么算。。一张图分为不同的像素点，橘色圆圈有一定数量的像素点区分像素点的数量不就能判断了吗？小学应该会教类似的思维吧

Anemo_Slime · 2026 年2 月 14 日 05:44

像G3P答对加强问题的概率也高很多，所以我感觉还是有点差距，但是还是有G3f的水平了都

quarkape · 2026 年2 月 14 日 06:21

对哦好简单，大模型好笨，就这样那样就可以了呀，竟然做不出来！哼！

y1q2h3111 · 2026 年2 月 14 日 06:36

我觉得是因为豆包基础模型和视觉模型不是一起训练导致的，deepseek就是不支持多模态的。。换个有图形理解能力聪明点的模型就是可以区分的。而且这个解决方法也很简单上面说了工具链调用python就行了或者专项训练下

quarkape · 2026 年2 月 14 日 06:37

应该是根据像素来的。我们人类可能会用圆的面积公式，或者直观来看。但是对于计算机来说，看像素似乎也不简单，比如这张图从抖音截图的，橘黄色图形可能有锯齿，或者会有边缘的渐变，那么定义哪些像素属于这个圆这件事可能也会有难度。不知道视觉模型处理这类问题的时候是怎么做的。

quarkape · 2026 年2 月 14 日 06:42

我感觉可能并不会很简单，一张无损的图片或许是可行的。另外如果直接用python相关库的话，是否属于视觉模型技术范畴？可能也有待研究。不过或许python进行像素相关数据处理，让文本模型给出一些定义或者见解，只要我们人类可以接受，也不失为一种方案。

话题		回复	浏览量
deepseek新模型数学能力（在某些案例）貌似比gpt和Gemini效果好前沿快讯人工智能	21	915	2025 年12 月 1 日
gork3的实力太强了搞七捻三人工智能 , 纯水	61	2370	2025 年3 月 22 日
每次看到ai回复这个图片的答案我就想笑，看一遍笑一遍🤣 开发调优 ChatGPT , Claude , DeepSeek , Gemini , 人工智能 , GLM	42	1089	2025 年12 月 4 日
一个很有意思的测试大模型视觉能力的题，主流大模型倒一片搞七捻三人工智能	16	506	2025 年6 月 20 日
gemini2.5真降智降麻了。简单数学问题9.9-9.11。搞七捻三人工智能	63	1251	2025 年7 月 5 日