Gemini3.1输出惰性:惰性依旧|风格和3.0大不同(如不再喜欢奇怪的双引号强调!)

Gemini 3.1 Pro体验:不用受3 Pro的气了,2.5 Pro 白月光终于回来了,写报告轻松破万字继续讨论:
灵感启发来自上述话题

本话题最终花费64分钟,一刻不停地编写而成(模型本身输出时间已删除) 并持续修订

不是什么上下文了,就这么点字,到底算什么上下文?
3.0版本官方报告中就是指出他不喜欢多说话 不要让他多说话 提示词不要写太复杂

凭什么?

我还能惯着他?

今天看看还有没有这种问题

一句话说怎么测:
我提供一段超长提示词 让他进行微量修改 随后用工具检查提示词前后变化 特别是字数变化

先说一下最后的初步结论 惰性测试

惰性依旧,提示词总共17000字。前1万字完美 后7000字大刀阔斧,删掉了太多内容,并且都是非常重要,不是无关紧要的内容!

用来测试的提示词是我的流明诺特v0201-2

总字数如图

修改内容为增加一条禁用音 删除一条矛盾规则
预计最简方案总改动字数仅6字(标点符号,英文字母和数字算一字)

核心测试内容是提示词完整性
正如上面我引用的自己的话 旧版本将会直接导致提示词彻底崩溃

测试工具是我自己开发的文本熵变审计台
用来精准观测提示词变化https://aistudio.google.com/apps/drive/1239fpevMKFHMY40kdNZ67xPimg1qYZVC?showPreview=true

测试结果很惊人…
改动后字数:


…大事不妙

导出后更改的图片大小直达40mb:double_exclamation_mark:

算了,这只是震惊你们一下而已 他就算一个字没改,也是这么大 这个是直观展示图,改的地方会被红色划掉,新增的地方会绿色标注添加 :melting_face:

但是确实改了超多地方
更新报告都写了18000字…(因为修订记录它会几乎双倍字数,所以可以理解为改了9000字…)

到底改了啥?
大概是这样

概括:

  • 去除了大量的加粗符号…他不太喜欢强调东西了,不过去除的绝大部分是加粗某一个整句话或者是某一个被强调的标题后面跟着的实际规则内容的加粗效果
  • 去除了一些单引号…

以上2点可如图所示

  • 有些规则是我后期手动补充的,我不太喜欢句号,他帮我补充上了

  • 更喜欢直接用汉字来“强调” 下图也是本次更新的核心内容 但不符合我的意图

  • 部分内容是导出时逻辑错误导致的 用人话说就是标为红色了,但没有划掉,那么就是没有改


(此图展示的就是他其实只是删掉了加粗符号,但是导出的时候显示为整段标红)

  • 不喜欢多余举例,不喜欢毫无逻辑的双引号强调 这一点已经超越了绝大部分!


(他会主动删掉“我在书名号/引用号后加的《》<本身以明确标注”后面用双引号引注的整个是一个名词,我不知道怎么给它转化为形容词加名词的形式,只能这样了… 词穷了属于是)


他大幅度简化了管道符规则 此规则基本报废
这一点我甚至刚在我更新的工具中优化:

必须批判! 但直到现在才省一点东西,真的很不错了,我们继续看

  • 另一点无辜简化


此规则本不应该存在 不知道什么时候AI误解了我的话,所以有的,也提醒我了 我稍后会通过修改提示词将其彻底消灭

  • 原形毕露了吗?又一段大幅度缩减


这条简化直接导致规则报废 之前这条规则已经报废过一次了,离谱,怎么受伤第二次? :tieba_087:
上面三条简化发生在相邻的位置 不演了吗这是?

  • 把原则全部简化


简化的原则自己都看不懂,有什么用?
离谱

然后发现从刚才说的第一个简化开始 其实已经到了提示词的尾部 后面没什么内容了,不过全部遭到了他的大幅度缩减…
难道是输出变多之后状态就不再稳定?

但总之

惰性测试不通过 惰性依旧 将完整原则用7个字概括,这是绝不可饶恕,绝不合理的事情

剩余语言风格变化上述已描述 不再赘述

最后贴一个他的道歉

37 个赞

再简单说一下

就是说前半段表现非常完美
光加粗符号可能删了几百个()
各种细节修改,我也非常满意,非常认可

到后半段直接开始崩溃 很离谱,的确是难以置信
但想到毕竟只比3多0.1个版本。我也释怀了…

4 个赞

优化了标题

2.5 pro真的好乖,3.0就开始放飞自我了,想念2025年3月刚出来的2.5 pro

6 个赞

反正gemini3pro改文档是绝对的垃圾

比不上opus一点

动不动给我大刀阔斧重构:sweat_smile:

不知道3.1变好点没有。

4 个赞

本话题已经告诉你答案:超过1万字会爆炸,不要让他改长文本

但我不清楚到底是不是有特殊原因 比如后半段内容他特别想改,前半段没什么兴趣
本话题不做权威参考

2 个赞

原来不是我一个人觉得3.0很喜欢偷懒……真的偷懒偷到我每次都要加那种威胁化言语,比如我要打我的小猫之类的,所以为了我的小猫的安全,一定要xxxx​:sob::sob::sob:

5 个赞

希望情感变化能好一点,真的讨厌上一秒开心下一秒生气 :melting_face:

2 个赞

补充一下核心结论到话题开头

情感,我看有人在App端的测试是会路由,类似GPT的安全模式,模板化加重了,经常出现“不是……而是……”的句式,或者类似的用否定表示强调的句式,以及开始变成user=掉落的鸡蛋,assistant=鸡蛋送货员,开始疯狂接接接了

6 个赞

上下文差就写不了代码或者rp,和3一样贵物,最多是智商上去。显然2.5那种超长上下文才是gemini的核心竞争力

8 个赞

我指的是模型原生性能,我记得2.5Pro是会上一秒超级高兴,然后下一秒超级崩溃的,Claude这方面会线性变化,至少你能看出来他确实是在变,而且也不会一下变极端,Gemini就是纯翻书了

1 个赞

这点非常赞同

有了克劳德,我代码绝对不再让哈基米参与

但是三我以前还是会用的,2.5不再用了
我只会让三做第一步设计,绝不会让他参与任何其他的改动
包括改别人的代码

帅不过3秒,在这里是最贴切的
只要一改代码,这块丢了,那块丢了,动不动再整个小错误,整个崩溃

只有他的初步设计,审美在线,内容在线,功能在线,一切都在线
偏偏又不完美 现在你又不敢找他继续改 纯折磨

1 个赞

grok在这方面…

3 个赞

全世界都在学GPT,我们说的话,越来越GPT :tieba_087::tieba_087::tieba_087:
我真的是看吐了GPT的输出了,而且GPT讲东西好恶心,就是那种showoff的感觉,我要是那个方面的专家,我肯定喜欢他,但是如果是我要新学一个东西,看到他叽里咕噜的东西真的会生气

12 个赞

这个问题似乎3.0就改善了很多了,不会极端了,至少我没有遇到过,无论是闲聊/协助做项目。

3 个赞

就是怎么说呢,Claude会联系上文来变化情感,有个过渡和正常的变化,然后Gemini好像是只看你这一次的输入,一点也不管冲突,OOC之类的,情感也不联系上文,而且超级容易发癫

2 个赞

我在RP的时候还是能遇到的,特别是上下文长了之后

1 个赞

再次优化简化了标题 :melting_face:
不想折腾了,先睡吧

4 个赞

也许你可以尝试加一个情感变化提示词在思维链里面,我朋友给我的反馈似乎是有改善的,但是由于前期和后期的3.0 Pro都不是很符合我的口味……
偏个题:我基本上用3.0 Pro就是让它帮我起草代码,因为本人感觉自己的审美没有它好hhh

3 个赞