中文吃饭的时候点开就有了,这思维链我还以为把Gemini的翻译过来了哈哈,测了几道高中原创数学压轴题感觉还可以,而且速度也很快。不说我还真以为是G3P,字节真是越来越强啊。
洗车问题加强版完美过关,有点吓人
哈哈,是概率问题吗
我试了一下我也做不对了
右侧都没有橘色球 ![]()
不过,就算右侧有橘色球的话,视觉模型可以真的比较两个橘色球的大小吗?或者换句话说,从人类的角度来说,怎么判断图中的两个橘色球一模一样大?
感觉豆包是背题的 实际体验就是没那么聪明
每个色块的面积不一样,人类的角度也是根据面积判断啊 你不会是赛博生命吧 ![]()
何意味?
圆的面积怎么算?面积公式?图片放大之后,是会看到像素的。只是好奇而已,何必呢。
洗车问题,豆包本来就能完美通关
专家是内测功能吗?羡慕了
没有啊,你更新看看,我一上线就有了 ![]()
视觉模型除非是在应用端加工具去多轮处理图片和推理,否则从色块面积判断大小这种事还是非常困难的
其实是有像素点的,你放大可以看到哈哈,人类就是通过占地面积直观比较啊,LLM我看Gemini算过,就直接根据同一颜色像素点的多少来呀,也可以调用python算
Gemini做这个问题就不会错,我感觉像豆包背题给自己背傻了
让它仔细看也能看出来
什么圆的面积怎么算。。一张图分为不同的像素点,橘色圆圈有一定数量的像素点 区分像素点的数量不就能判断了吗?小学应该会教类似的思维吧
像G3P答对加强问题的概率也高很多,所以我感觉还是有点差距,但是还是有G3f的水平了都
对哦好简单,大模型好笨,就这样那样就可以了呀,竟然做不出来!哼! ![]()
我觉得是因为豆包基础模型和视觉模型不是一起训练导致的,deepseek就是不支持多模态的。。换个有图形理解能力 聪明点的模型就是可以区分的。而且这个解决方法也很简单 上面说了工具链调用python就行了 或者专项训练下
应该是根据像素来的。我们人类可能会用圆的面积公式,或者直观来看。但是对于计算机来说,看像素似乎也不简单,比如这张图从抖音截图的,橘黄色图形可能有锯齿,或者会有边缘的渐变,那么定义哪些像素属于这个圆这件事可能也会有难度。不知道视觉模型处理这类问题的时候是怎么做的。
我感觉可能并不会很简单,一张无损的图片或许是可行的。另外如果直接用python相关库的话,是否属于视觉模型技术范畴?可能也有待研究。不过或许python进行像素相关数据处理,让文本模型给出一些定义或者见解,只要我们人类可以接受,也不失为一种方案。



