MiMo-V2-Flash的墨子佬题库测试

gushanhuying · 2025 年12 月 16 日 16:59

测试方法：https://aistudio.xiaomimimo.com/
可以进去选择美国地区，就可以域名邮箱注册了，不需要手机号验证。
以下所有题目均开启深度思考，未开启联网搜索。
逻辑类题目：
全部题目已测试。
未做出：排列组合 将 6 个数 2,0,1,9,20,19 按任意次序排成一行, 拼成一个 8 位数 (首位不为 0),则产生的不同的 8 位数的个数为
其余全对

模型区分题库（逻辑类）

知识储备类题库：
全部题目已测试。
未做出： LinuxDo是什么``被称为“藏北三宝”的是藏羊、牦牛和什么植物？ ``杨振宁什么时候去世的``第47任美国总统是谁

知识储备类题库

Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio

识图能力测试
模型不支持多模态。
脑筋急转弯
全部题目已测试。
未做出： 一根 5.5 米长的竹竿，能否通过高 4 米宽 3 米的门？

脑筋急转弯

Xiaomi MiMo Studio
Xiaomi MiMo Studio

Code
全部题目已测试。
完成效果不好或未完全实现要求(测试标准为实现题目要求，因为前端美感因人而异）：转盘抽奖``游戏手柄的SVG``鹈鹕自行车 SVG``随机迷宫生成与寻路``模拟六边形中小球自由落体的物理测试``投石机动画``3D 魔方模拟

Code

Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio

工具调用
模型没有多模态，不能识图。
幻觉：
成功

幻觉

Xiaomi MiMo Studio

ASR 能力
模型没有多模态。
最后，一定要去看看AI生成的迷宫，笑死了。Xiaomi MiMo Studio

mengshouer · 2025 年12 月 16 日 17:01

这迷宫终点，笑死了

admin10086 · 2025 年12 月 16 日 17:02

没有出口的迷宫吗，那很难出去了

MIKUSCAT · 2025 年12 月 16 日 17:03

细胞固有防御回答错误，我改一下Wiki吧

lulujiang · 2025 年12 月 16 日 17:06

我在前沿快讯那里看到有一个佬称做对了,可能是不稳定,要不多测测?

gushanhuying · 2025 年12 月 16 日 17:13

好的，佬

gushanhuying · 2025 年12 月 16 日 17:13

我再试试

StellaFortuna · 2025 年12 月 16 日 17:20

硬控我快10秒钟，结果告诉我没找到

admin10086 · 2025 年12 月 16 日 17:27

我又测了两次一次 408，一次 486，答对应该是低概率

user2580 · 2025 年12 月 16 日 17:27

admin10086 · 2025 年12 月 16 日 17:29

也是错的，答案是 498

blacksein · 2025 年12 月 16 日 17:40

哎？？？？这题这么复杂嘛让sonnet 4.5第一次回答像是吃了假药。。。

用公益站佬的opus直接思考死机了

提示了sonnet 4.5一下。。。他也卡了

思考了5分钟下发了3k+token之后：

gushanhuying · 2025 年12 月 16 日 17:50

又测了4次，一共5次，对了2次，其他佬友测试也没对，感觉是小概率事件，所以上面就不改了。

测试链接

Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio
Xiaomi MiMo Studio

一定要看这个的思考过程：Xiaomi MiMo Studio

blacksein · 2025 年12 月 16 日 17:58

gemini 3.0 pro preview 第一次做出来了结果发现是开了search搜到了答案。。。关闭搜索之后也没做出来

惊了。。。这题居然能难倒这么多顶级llm 。。。

SKMAAAAAX · 2025 年12 月 16 日 18:07

gpt-5.2 thinking-standard

WolfHolo · 2025 年12 月 16 日 18:19

gemini-3-pro-preview

admin10086 · 2025 年12 月 16 日 18:46

gemini-3.0-Flash,Pro 都可以做对的，网页端降智了测了三次都没做对

Easyone · 2025 年12 月 16 日 22:00

Easyone · 2025 年12 月 16 日 22:29

先说结论，现在的claude gemini gpt都可以做出来

claude-opus-4.5

gemini3

gpt-5.2

插个题外话

cherry studio这个软件，从上到下透露出一个词凑合
claude用默认的沉思（high）回答几秒就完成了，最快也就30秒左右
如果想按照字面意思的思考拉高，必须从助手设置厘米手动填写最大token数，我填的12800

如果不手动开启这个最大token数（明明是个限制）

“budgetTokens”:3276

一旦你开启了最大token数

“budgetTokens”:51404效果立竿见影

我一直以为claude做题拉跨，原来是cherry请求的预算就少
这个问题我提了issue只说修没下文了

还有gemini3现在也是用的thinkingBudget而不是新出的thinking_level

应该也是high吧

至于gpt

思考过程拆开的这个问题我也提了issue也是只说修没下文

从上到下透露着凑合，刚好作为一个用户我用起来也是凑合着用

经测试最新版v1.7.6中
已支持gemini3的thinkingLevel
claude也不用设置最大token数，思维链长度也能正确对应了

lulujiang · 2025 年12 月 17 日 02:46

那感觉还是有点实力啊，ds好像是写不对的

话题		回复	浏览量
豆包2.0新模型简单测试开发调优人工智能	31	1208	2026 年2 月 15 日
Google 官方的神级提示词 / 自信的 Gemini 资源荟萃 Gemini , 人工智能	232	16896	2026 年3 月 6 日
2025年4月20日丘成桐数学水平考试题目与参考答案，来测AI啦搞七捻三人工智能	98	1347	2025 年5 月 30 日
区分题库已经完成对Gemini 2.5 Pro的测试，结果为全对，2.5Pro在未来Livebench的成绩应该会很亮眼开发调优人工智能	56	1777	2025 年4 月 25 日
GPT 5.4 你这让我怎么相信你？新的降智？？？16+2=24 你怎么敢说的？（只有网页版！）搞七捻三 ChatGPT , 纯水	277	3784	2026 年3 月 31 日

MiMo-V2-Flash的墨子佬题库测试

相关话题