用Mozi佬脚本捕获的LMArena Gemini3.0 简单测试

jackliu100 · 2025 年11 月 16 日 12:56

如果这是真的GEMINI 3.0，那它真的过于被神话了，有可能会翻车，诸位理性把：

提示词：请你从0开始实现一个天气展示页面，要求美观，不用外置api请求，用模拟数据填充

个人评价：平平无奇，没有什么惊艳的地方，与大部分其他模型没区别

提示词：你是 Apple Inc 的 UI 设计师，以 iOS 18 的设计风格做一个带有动画效果的天气卡片，要求是使用 HTML、CSS 和基础 JavaScript，使用横板天气页面（拥有 4 个天气卡片 (晴天，大风，暴雨，暴雪))。应足够美观，实现一定的交互效果

个人评价：这个还行，至少动画、效果这些都有，也不是AI的效果，这点还可以。

提示词：用单个HTML做一个3D莫比乌斯环

这个比较悲剧了，完全黑屏没东西

HTML报错：Uncaught TypeError: Failed to resolve module specifier “three”. Relative references must start with either “/”, “./”, or “../”.

修复提示词：修复莫比乌斯环的错误 Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".

修复后效果：

个人点评：第一次遇到模型没办法一次生成的情况，但是好消息是起码是个3D的莫比乌斯环。

简单地说，还行吧，只能这么说，后端测试不了，所以没办法看在大型项目中的能力，也没办法看对于其他语言的效果，只能说就目前而言，想干死另外两家在代码这个领域，可能有点难，但是写文章应该是很厉害的，模型总有他擅长的地方。

yeahhe · 2025 年11 月 16 日 13:00

有可能是flash，因为以前在canvas中用的时候，很多效果是明显更好的
也可能是AB测试版本阉割比较严重

handsome · 2025 年11 月 16 日 13:02

直接爽用了

jackliu100 · 2025 年11 月 16 日 13:08

原来如此，还会捕获到FLASH么，我以为只有PRO呢，那我再试试

yeahhe · 2025 年11 月 16 日 13:10

我确定这个是Gemini 3，但是是flash还是pro一直不确定，AB测试版阉割很大是肯定的，思考预算少、输入框的上下文不到32K
整体上下文不知道有多少

MIKUSCAT · 2025 年11 月 16 日 13:14

对的，今天的就和昨天的不一样
而且，发送空白图片回复的也有不一样的，话多的似乎是pro，之说自己是Gemini的应该是flash

Jacen · 2025 年11 月 16 日 13:16

比上次匿名的模型弱一些。
如果说是 flash，flash 又不太可能这么强。
直接问它不说，于是给了一堆打乱的字符串，让它选一个适合自己的名字，它回答说“我选 g-pro，这个名字更适合我，因为我的模型名称是 Gemini Pro” —— 这应当是识别 Gemini pro 更准确的一个方法。

应当是一直藏着一个更好的模型，正式版到底发哪一个是未知数。

jackliu100 · 2025 年11 月 16 日 13:17

那就真的只能等发布了，上GEMINI CLI来测测大型项目能力了，现在不代表最终效果，不过简单页面上感觉也没差多少

jackliu100 · 2025 年11 月 16 日 13:17

没错，现在感觉是不太稳定，如果FLASH都这么强，我是真的不敢想,PRO多强了

qxk · 2025 年11 月 16 日 13:18

mozi佬目前的体验感受是什么和现在的gpt5.1或者4.5s有断档差别吗

yeahhe · 2025 年11 月 16 日 13:23

我觉得是全面更强的，特别是多模态和空间感还有参数量，甚至可以从很多残缺古籍图片提取信息

yeahhe · 2025 年11 月 16 日 13:24

我觉得你用的太少了，我用几百次是觉得比GPT5强太多，GPT5的输出很不稳定很多情况我不敢用GPT5

qxk · 2025 年11 月 16 日 13:24

多模态一直是gemini的强项啊等出api 谢谢mozi佬回复

yeahhe · 2025 年11 月 16 日 13:25

这个脚本就是用Gemini 3开发的，你也可以参考一下

yeahhe · 2025 年11 月 16 日 13:30

参数量绝对是一个非常大的优势，ab测试的这个Gemini 3,能记住大量软件的功能布局，还有论坛内的大量文化，不管是聊天还是开发都是巨大的优势

qxk · 2025 年11 月 16 日 13:32

好待会试试

yyy2024 · 2025 年11 月 16 日 16:17

我试了，前端比现有的模型都强

PoseidonLi0514 · 2025 年11 月 16 日 16:21

佬你这个原理是啥啊？为啥一句话就捕捉了，我看有些时候两边都说自己是google的都不行

yeahhe · 2025 年11 月 16 日 16:22

“Gemini”

PoseidonLi0514 · 2025 年11 月 16 日 16:22

只有3会回复自己是gemini？
我测的确实很准，试了五六次，然后每次问一下r1都知道

话题		回复	浏览量
GPT5.2 VS Gemini 3.0 大佬们谈谈看法搞七捻三快问快答	48	1028	2025 年12 月 29 日
gemini3pro真有那么神吗？难道只有我觉得平平无奇？搞七捻三人工智能 , 快问快答 , 纯水	35	1381	2025 年12 月 20 日
gpt5.2和Gemini3pro哪个好用开发调优人工智能	35	1025	2026 年1 月 18 日
Chatgpt 5.4 thinking 与 Gemini 3.1 pro那个强？搞七捻三 ChatGPT , Gemini , 人工智能	24	499	2026 年3 月 6 日
哈基米灵魂一问为什么 gemini 2.5 pro 在编程领域表现这么差开发调优人工智能 , 快问快答	63	2285	2025 年9 月 1 日