Google还像在搞什么大动作, 发布了新的测试模型叫 gemini-test... 智商高的哈人, 比Claude 3.5还要强

kaldeqca · 2024 年7 月 18 日 16:25

经典 9.8 vs 9.11

(答对了)

然后是strawberry 测试, 问有多少个R在strawberry中(三个)

竟然答对了
这是claude 3.5和chatgpt 4o都达不到的
4o

claude 3.5 sonnet

这是因为现在LLM的tokenizer都不是一个字母一个字母的
所以stawberry这个词被分成了两个tokens, 所以大部分模型都答的是两个r, 不知道这个Gemini-test是怎们整的, 居然答对了

更可怕的是这个, 给一串随机的字符
这种字符肯定没有可能训练过
所以几乎不可能告诉你第几个字母是什么

但gemini-test居然答对了…

还有就是general language 能力, 语言生成也是强的不行

BenSu · 2024 年7 月 18 日 16:25

下一盘大旗

wo_zu_long · 2024 年7 月 18 日 16:26

Google本来积累就深，一直落后其实都挺让人奇怪的，现在估计是发力了

321 · 2024 年7 月 18 日 16:27

模型大战鹿死谁手还不一定

Jollibee · 2024 年7 月 18 日 16:31

请问这个Gemini的测试的链接在哪儿啊?我搜了一圈没有搜到。

你给的这几个回复其实都不能证明Gemini这个model比这其他几个要好, 只能证明他们的encoding的方式可能是比其他几个模型更加注重于char level, 可能在financial data上会表现得比较好一点。所以最主要还是要去看真实的使用体验怎么样。

Schupeliac · 2024 年7 月 18 日 16:33

积累深是真，人才大量流失也是真，42号楼1.2.3层顶尖大佬已经很少了，42号楼巅峰是18-20年这一块时间，那时候42号，只ai领域论文引用过20w的就能数出来5个，包括ai教父辛顿和opne ai创始人Ilya Sutskever

kaldeqca · 2024 年7 月 18 日 16:38

confirmed了
是 Gemini 2.0

Coker · 2024 年7 月 18 日 16:45

啊
看来要来了啊

updownup · 2024 年7 月 18 日 16:52

虽然但是

bbb · 2024 年7 月 18 日 16:55

大的要来了

sehsapneb · 2024 年7 月 18 日 17:00

你们都在哪找的，为什么我的lmsys上没有哪

updownup · 2024 年7 月 18 日 17:04

这是Bing的AI生成总结，实际上应该只是更新了训练资料

Leslie13 · 2024 年7 月 19 日 00:42

确实可以啊，这就是用的数学思维解决的。（反正我印象中上课见过这种，画一条线去找那些点）

passerby · 2024 年7 月 19 日 00:45

Qtian · 2024 年7 月 19 日 00:54

实锤确实有这个模型，并不是在旧模型上增加数据重新训练，是个新模型，请看vcr

0208 · 2024 年7 月 19 日 00:54

谷歌感觉追了好久了，还有就是谷歌限ip，我不喜欢香港之外的节点

handsome · 2024 年7 月 19 日 01:01

gemini总觉得差了一口气

dqfo2 · 2024 年7 月 19 日 02:37

我在想为啥没有人去搞Poe，这个大模型聚合平台，如果能搞掉真的牛，相当于以后的更新大模型就都搞掉了

cng · 2024 年7 月 19 日 03:36

数学题水平怎么样，高中数学题，可以搞定吗？

sehsapneb · 2024 年7 月 19 日 14:07

实测了，做数学没有4强

话题		回复	浏览量
谷歌推出Gemini-Exp-1114，免费开放使用前沿快讯 Google , Gemini , 人工智能	115	5564	2024 年12 月 20 日
Google新模型Nightwhisper在lmarena上现身，疑似为Gemini 2.5 Coder 前沿快讯人工智能	32	870	2025 年5 月 3 日
爆了兄弟们！新神登场！还得是谷歌！一波更新直接霸榜！楼下细嗦前沿快讯 ChatGPT , OpenAI , 人工智能	60	3822	2025 年7 月 7 日
Gemini最新泄露的8个未知模型开发调优人工智能	33	1517	2025 年7 月 14 日
gemini3.1这是何意味啊搞七捻三 Gemini , 人工智能 , 纯水 , Antigravity	8	546	2026 年2 月 26 日

Google还像在搞什么大动作, 发布了新的测试模型叫 gemini-test... 智商高的哈人, 比Claude 3.5还要强

相关话题