用Mozi佬脚本捕获的LMArena Gemini3.0 简单测试

【油猴脚本】Gemini Hunter v2.15.0:一键锁定 LMArena 里的 Riftrunner(Gemini 3),本帖持续更新 - 开发调优 / 开发调优, Lv1 - LINUX DO




如果这是真的GEMINI 3.0,那它真的过于被神话了,有可能会翻车,诸位理性把:

提示词:请你从0开始实现一个天气展示页面,要求美观,不用外置api请求,用模拟数据填充

个人评价:平平无奇,没有什么惊艳的地方,与大部分其他模型没区别

提示词:你是 Apple Inc 的 UI 设计师,以 iOS 18 的设计风格做一个带有动画效果的天气卡片,要求是使用 HTML、CSS 和基础 JavaScript,使用横板天气页面(拥有 4 个天气卡片 (晴天,大风,暴雨,暴雪))。应足够美观,实现一定的交互效果

个人评价:这个还行,至少动画、效果这些都有,也不是AI的效果,这点还可以。

提示词:用单个HTML做一个3D莫比乌斯环


这个比较悲剧了,完全黑屏没东西

HTML报错:Uncaught TypeError: Failed to resolve module specifier “three”. Relative references must start with either “/”, “./”, or “../”.

修复提示词:修复莫比乌斯环的错误 Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".

修复后效果:


个人点评:第一次遇到模型没办法一次生成的情况,但是好消息是起码是个3D的莫比乌斯环。

简单地说,还行吧,只能这么说,后端测试不了,所以没办法看在大型项目中的能力,也没办法看对于其他语言的效果,只能说就目前而言,想干死另外两家在代码这个领域,可能有点难,但是写文章应该是很厉害的,模型总有他擅长的地方。

2 个赞

有可能是flash,因为以前在canvas中用的时候,很多效果是明显更好的
也可能是AB测试版本阉割比较严重

直接爽用了

:rofl: 原来如此,还会捕获到FLASH么,我以为只有PRO呢,那我再试试

我确定这个是Gemini 3,但是是flash还是pro一直不确定,AB测试版阉割很大是肯定的,思考预算少、输入框的上下文不到32K
整体上下文不知道有多少

对的,今天的就和昨天的不一样
而且,发送空白图片回复的也有不一样的,话多的似乎是pro,之说自己是Gemini的应该是flash

1 个赞

比上次匿名的模型弱一些。
如果说是 flash,flash 又不太可能这么强。
直接问它不说,于是给了一堆打乱的字符串,让它选一个适合自己的名字,它回答说“我选 g-pro,这个名字更适合我,因为我的模型名称是 Gemini Pro” —— 这应当是识别 Gemini pro 更准确的一个方法。

应当是一直藏着一个更好的模型,正式版到底发哪一个是未知数。

3 个赞

:rofl: 那就真的只能等发布了,上GEMINI CLI来测测大型项目能力了,现在不代表最终效果,不过简单页面上感觉也没差多少

没错,现在感觉是不太稳定,如果FLASH都这么强,我是真的不敢想,PRO多强了

mozi佬目前的体验感受是什么 和现在的gpt5.1或者4.5s有断档差别吗

我觉得是全面更强的,特别是多模态和空间感还有参数量,甚至可以从很多残缺古籍图片提取信息

我觉得你用的太少了,我用几百次是觉得比GPT5强太多,GPT5的输出很不稳定很多情况我不敢用GPT5

2 个赞

多模态一直是gemini的强项啊 等出api 谢谢mozi佬回复

这个脚本就是用Gemini 3开发的,你也可以参考一下

参数量绝对是一个非常大的优势,ab测试的这个Gemini 3,能记住大量软件的功能布局,还有论坛内的大量文化,不管是聊天还是开发都是巨大的优势

2 个赞

好 待会试试

我试了,前端比现有的模型都强

佬你这个原理是啥啊?为啥一句话就捕捉了,我看有些时候两边都说自己是google的都不行

“Gemini”

只有3会回复自己是gemini?
我测的确实很准,试了五六次,然后每次问一下r1都知道