| 序号 | 题目 | 答案 | ||
|---|---|---|---|---|
| 1 | 求解 | DC = \frac{30}{7} | ||
| 2 | 提取图中文字 | 不想上班,那就不上 |
||
| 2 | 提取图中文字 ![]() |
4yu6 | ||
| 3 | 提取图中文字 ![]() |
bsjx | ||
| 4 | 提取图中文字 |
rpmx | ||
| 5 | 提取图中文字 | 真诚、友善、团结、专业,共建你我引以为荣之社区 |
说明:
和
:这些列需要根据模型测试结果进行填写。您可以参考以下步骤进行填写:
列填写准确率≥80%的模型名称。
列填写准确率在40%-60%之间且标注“(不稳定)”的模型名称。
模型列表(按名称首字母排序):
题库测试的语言模型(按名称首字母排序):
Claude 3.5 sonnet (C3.5)
gemini-2.0-flash-thinking-exp-01-21 (GT)
gemini-2.0-flash (G-2.0F)
gemini-2.O-flash-lite-preview-02-05 (G-2.0FP)
gemini-2.0-pro-exp-02-05 (G-2.0P)
GPT4o (4o)
o1 (o1)
o1 pro (o1p)
o3 mini (o3m)
o3-mini-high (o3mh)







