MiMo-V2-Flash的墨子佬题库测试

测试方法:https://aistudio.xiaomimimo.com/
可以进去选择美国地区,就可以域名邮箱注册了,不需要手机号验证。
以下所有题目均开启深度思考,未开启联网搜索。
逻辑类题目:
全部题目已测试。
未做出:排列组合 将 6 个数 2,0,1,9,20,19 按任意次序排成一行, 拼成一个 8 位数 (首位不为 0),则产生的不同的 8 位数的个数为
其余全对

模型区分题库(逻辑类)

Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
https://aistudio.xiaomimimo.com/#/share/e1ea7c5dd12088836e193ffde9ccd118
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio

知识储备类题库:
全部题目已测试。
未做出: LinuxDo是什么``被称为“藏北三宝”的是藏羊、牦牛和什么植物? ``杨振宁什么时候去世的``第47任美国总统是谁

知识储备类题库

Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio

识图能力测试
模型不支持多模态。
脑筋急转弯
全部题目已测试。
未做出: 一根 5.5 米长的竹竿,能否通过高 4 米宽 3 米的门?

脑筋急转弯

Xiaomi MiMo Studio
Xiaomi MiMo Studio

Code
全部题目已测试。
完成效果不好或未完全实现要求(测试标准为实现题目要求,因为前端美感因人而异): 转盘抽奖``游戏手柄的SVG``鹈鹕自行车 SVG``随机迷宫生成与寻路``模拟六边形中小球自由落体的物理测试``投石机动画``3D 魔方模拟

Code

Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio

工具调用
模型没有多模态,不能识图。
幻觉:
成功

幻觉

Xiaomi MiMo Studio

ASR 能力
模型没有多模态。
最后,一定要去看看AI生成的迷宫,笑死了。Xiaomi MiMo Studio

11 个赞

这迷宫终点,笑死了

没有出口的迷宫吗,那很难出去了

细胞固有防御回答错误,我改一下Wiki吧

1 个赞

我在前沿快讯那里看到有一个佬称做对了,可能是不稳定,要不多测测?:melting_face:

1 个赞

好的,佬

我再试试

1 个赞

硬控我快10秒钟,结果告诉我没找到 :distorted_face:

我又测了两次一次 408,一次 486,答对应该是低概率


也是错的,答案是 498


哎???? 这题这么复杂嘛 让sonnet 4.5第一次回答像是吃了假药。。。

用公益站佬的opus直接思考死机了 :rofl:

提示了sonnet 4.5一下。。。他也卡了


:rofl: :rofl: :rofl:

思考了5分钟 下发了3k+token之后:

1 个赞

又测了4次,一共5次,对了2次,其他佬友测试也没对,感觉是小概率事件,所以上面就不改了。

测试链接

Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio

一定要看这个的思考过程:Xiaomi MiMo Studio

gemini 3.0 pro preview 第一次做出来了 结果发现是开了search搜到了答案。。。关闭搜索之后也没做出来


惊了。。。这题居然能难倒这么多顶级llm 。。。
:distorted_face: :distorted_face:


gpt-5.2 thinking-standard

gemini-3-pro-preview

gemini-3.0-Flash,Pro 都可以做对的,网页端降智了测了三次都没做对



先说结论,现在的claude gemini gpt都可以做出来

claude-opus-4.5



gemini3



gpt-5.2



插个题外话

cherry studio这个软件,从上到下透露出一个词凑合
claude用默认的沉思(high)回答几秒就完成了,最快也就30秒左右
如果想按照字面意思的思考拉高,必须从助手设置厘米手动填写最大token数,我填的12800

如果不手动开启这个最大token数(明明是个限制)


“budgetTokens”:3276

一旦你开启了最大token数


“budgetTokens”:51404效果立竿见影

我一直以为claude做题拉跨,原来是cherry请求的预算就少
这个问题我提了issue只说修没下文了

还有gemini3现在也是用的thinkingBudget而不是新出的thinking_level


应该也是high吧

至于gpt


思考过程拆开的这个问题我也提了issue也是只说修没下文

从上到下透露着凑合,刚好作为一个用户我用起来也是凑合着用

经测试最新版v1.7.6中
已支持gemini3的thinkingLevel
claude也不用设置最大token数,思维链长度也能正确对应了

2 个赞

那感觉还是有点实力啊,ds好像是写不对的