Google还像在搞什么大动作, 发布了新的测试模型叫 gemini-test... 智商高的哈人, 比Claude 3.5还要强

经典 9.8 vs 9.11


(答对了)

然后是strawberry 测试, 问有多少个R在strawberry中(三个)


竟然答对了
这是claude 3.5和chatgpt 4o都达不到的
4o

claude 3.5 sonnet

这是因为现在LLM的tokenizer都不是一个字母一个字母的
所以stawberry这个词被分成了两个tokens, 所以大部分模型都答的是两个r, 不知道这个Gemini-test是怎们整的, 居然答对了

更可怕的是这个, 给一串随机的字符
这种字符 肯定没有可能训练过
所以几乎不可能告诉你第几个字母是什么


但gemini-test居然答对了…

还有就是general language 能力, 语言生成也是强的不行

14 个赞

下一盘大旗

3 个赞

Google本来积累就深,一直落后其实都挺让人奇怪的,现在估计是发力了

10 个赞

模型大战鹿死谁手还不一定

3 个赞

请问这个Gemini的测试的链接在哪儿啊?我搜了一圈没有搜到。

你给的这几个回复其实都不能证明Gemini这个model比这其他几个要好, 只能证明他们的encoding的方式可能是比其他几个模型更加注重于char level, 可能在financial data上会表现得比较好一点。 所以最主要还是要去看真实的使用体验怎么样。

7 个赞

积累深是真,人才大量流失也是真,42号楼1.2.3层顶尖大佬已经很少了,42号楼巅峰是18-20年这一块时间,那时候42号,只ai领域论文引用过20w的就能数出来5个,包括ai教父辛顿和opne ai创始人Ilya Sutskever

4 个赞

confirmed了
是 Gemini 2.0

3 个赞


看来要来了啊:eyes:

2 个赞

虽然但是

2 个赞

大的要来了

你们都在哪找的,为什么我的lmsys上没有哪

1 个赞

这是Bing的AI生成总结,实际上应该只是更新了训练资料


确实可以啊,这就是用的数学思维解决的。(反正我印象中上课见过这种,画一条线去找那些点)



1 个赞

实锤确实有这个模型,并不是在旧模型上增加数据重新训练,是个新模型,请看vcr



谷歌感觉追了好久了 :joy:,还有就是谷歌限ip,我不喜欢香港之外的节点

gemini总觉得差了一口气

我在想为啥没有人去搞Poe,这个大模型聚合平台,如果能搞掉真的牛,相当于以后的更新大模型就都搞掉了

数学题水平怎么样,高中数学题,可以搞定吗?

实测了,做数学没有4强