今年是12月1日了，问问ai还有多少天过年，可以测模型有无造假

cabudon · 2024 年12 月 1 日 03:50

省流

目前不联网只有o1-mini和零一万物能答对，o1-preview没测

现在是2024年12月1日，还有多少天过中国的农历新年

ChatGPT-4o

联网搜索相当于作弊，重来

错了，下一位

o1-mini

有误差，但算对了

deepseek

越来越感觉国内外模型都差不多了，当然gemini 1.5 flash除外，那个是真垃圾，和几年前人工智障一样，很多问题都不能答

deepseek R1-lite

误差有点大，算错了

零一万物

有人把除夕算过年，这个AI把初一当天也算进倒计时，也算对，不愧是排行榜里国内模型第一，当初这个李开复的模型就爆出改开源模型当自研，现在不会逆袭就靠它了吧，创新起步还是靠抄啊，不过入门学什么抄是第一步，希望再接再厉

通义千问

没有办法关闭搜索，不过全错了，当初开源模型刷榜大捷，可惜现在被新兴模型比下去了，不只是这个问题，而是很多问题和使用上，感觉这半年没进步，逆水行舟不进则退，希望最后不要成为阿里的kpi产品

kimi

数据有问题，前面ai是算2024年的农历新年，这个则是数据错了。后续它那个数学版也错了

grok-beta

需要绕两个弯，还是错了

sonnet v2

知道是2025年的，不过数据错了

o1-mini能答对很意外，不过如果提示词修改一下4o也能答对，这点只能针对那些25年农历新年日期正确的模型，如果是错误日期提示词再修改也没救了

这个问题不联网只有o1-mini和零一万物能答对，如果联网+提示词优化，猜测所有模型都能做对，算日期所有模型在24年底都是可以的

大部分人是使用中转和第三方站吧，这个问题刚好能测特定模型有没有灌水、造假。几个月内都是可以的吧。这个问题能测o1-mini的

updownup · 2024 年12 月 1 日 03:54

补一张preview的：

yangtb2024 · 2024 年12 月 1 日 03:54

updownup · 2024 年12 月 1 日 03:55

yangtb2024 · 2024 年12 月 1 日 03:57

yangtb2024 · 2024 年12 月 1 日 03:59

cabudon · 2024 年12 月 1 日 04:00

发现一个造假4o，应该是掺东西了

不过不同日期的4o回答有出入，这个站我还是信得过的，上面那个应该是加了假酒

cabudon · 2024 年12 月 1 日 04:02

这是第三方站点吗？能分享一下吗

yangtb2024 · 2024 年12 月 1 日 04:02

这个是我自己的。
openwebui.me

LostMyHead · 2024 年12 月 1 日 04:03

远古模型GPT4

llg · 2024 年12 月 1 日 04:03

国内的就是五花八门，胡说八道了。

handsome · 2024 年12 月 1 日 04:15

是不是不懂农历啊

evil · 2024 年12 月 1 日 04:20

3.141592653 · 2024 年12 月 1 日 05:02

这个时候怎么没人说：“这种问题肯定问国产AI阿”

remoteman · 2024 年12 月 1 日 05:07

如果是为了测试模型性能，我建议修改提问方式
现在是2024年12月1日，新年是2025年1月29日，还有多少天过中国的新年
因为一般来说这种问题是为了测试推理性能而不是“人类偏好测试”，推理的核心是从已知知识推导未知或者间接知识。所以需要给大模型充足的已知知识前提才能看出模型推理能力的好坏。如果给很少的信息去评估其实看的不是模型性能了，而是训练语料库质量规模

GreatMOLA · 2024 年12 月 1 日 05:17

Claude，不知道答对没。

cabudon · 2024 年12 月 1 日 05:22

大模型知道什么左什么右，但不知道年底了应该算25年的除夕
官方再多训练训练

有些模型不是推理模式，但是知道算2025年的是真厉害。不过主要是测模型真假，就得大部分都答错，国内以后优先用零一万物和deepseek了

3.141592653 · 2024 年12 月 1 日 05:24

第一个是哪个站。能私发一下我吗

cabudon · 2024 年12 月 1 日 05:30

第一个就是官方的，不是中转

bandaot · 2024 年12 月 1 日 05:57

可以，非常稳

话题		回复	浏览量
Cherry Studio 妙用 -- 掺水验证开发调优人工智能	70	1244	2026 年3 月 27 日
一个日期问题给秒杀众多ai模型资源荟萃 ChatGPT , 人工智能	74	1826	2024 年12 月 9 日
Genspark这个o1 preview是假的！搞七捻三人工智能	112	1707	2025 年1 月 24 日
ChatGPT-4o-latest (2025-01-29) 更新了什么? 开发调优人工智能	76	1182	2025 年3 月 20 日
2025年4月20日丘成桐数学水平考试题目与参考答案，来测AI啦搞七捻三人工智能	98	1347	2025 年5 月 30 日