【长期更新Wiki】AI大模型图像理解能力测试题库,帮助区分模型和对比模型图形理解能力


序号 题目 答案 :check_mark:_________________________ :cross_mark:_________________________
1 求解 DC = \frac{30}{7} :orange_square:o1,:heart:o3m,:blue_heart:o3mh :blue_circle:GT
2 提取图中文字 不想上班,那就不上
2 提取图中文字 图片二 4yu6 :orange_square:o1 :blue_circle:GT
3 提取图中文字 图片三 bsjx :blue_circle:GT,:orange_square:o1
4 提取图中文字 图片一 rpmx :blue_circle:GT :orange_square:o1
5 提取图中文字 真诚、友善、团结、专业,共建你我引以为荣之社区 :blue_circle:GT,:heart:o3m,:blue_heart:o3mh :orange_square:o1,:red_circle:o1p

说明:

  1. :check_mark::cross_mark::这些列需要根据模型测试结果进行填写。您可以参考以下步骤进行填写:
    • :check_mark: 列填写准确率≥80%的模型名称。
    • :cross_mark: 列填写准确率在40%-60%之间且标注“(不稳定)”的模型名称。
      模型列表(按名称首字母排序):

题库测试的语言模型(按名称首字母排序):

  1. :brown_square: Claude 3.5 sonnet (C3.5)
  2. :blue_circle: gemini-2.0-flash-thinking-exp-01-21 (GT)
  3. :purple_square: gemini-2.0-flash (G-2.0F)
  4. :blue_square: gemini-2.O-flash-lite-preview-02-05 (G-2.0FP)
  5. :green_circle: gemini-2.0-pro-exp-02-05 (G-2.0P)
  6. :white_large_square: GPT4o (4o)
  7. :orange_square: o1 (o1)
  8. :red_circle: o1 pro (o1p)
  9. :heart: o3 mini (o3m)
  10. :blue_heart: o3-mini-high (o3mh)

18 个赞

可以的,支持!!!

1 个赞

逻辑能力区分题库可参考此贴

目前只是草稿,会持续完善


o1模型思考54秒成功作对


Gemini也是秒出的

但是我用ai studio很多次都不对,用ai studio的默认不加提示词。你多测几遍吧

1 个赞

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。