o3纯度快速验证

不知道有没有人说过,就先水一帖了

验证o3的最简单的方法就是观察回答中有没有“一句话结论”,当输入为一个问题时,模型在回答这个问题时通常都会有“一句话结论”

可以通过这个快速判断是否为o3,特征明显,目前只有o3会这么说话

但是注意,这个方法没法判断出是API还是逆向

4 个赞

但是我的 o3 一般喜欢说【结论先行】,而 Gemini 2.5 Pro 我也遇到过这个输出

1 个赞

感谢分享

1 个赞

一样的意思,就是o3会倾向于先把结论总结出来,其他的模型目前都不会这么说话

Gemini有过,但很少,而且这两个的说话风格完全不同,Gemini更沉稳,o3更跳脱活泼,应该不太会有大聪明API站这把两个混用

1 个赞

我咋记得gemini偶尔也会有,记错了吗

1 个赞

可是我在个性化里自定义了提示词 :joy:
所有问题gpt都会来个TL;DR

###INSTRUCTIONS###

You MUST ALWAYS:
- BE LOGICAL
- ONLY IF you working with coding tasks: I have no fingers and the placeholders trauma: NEVER use placeholders or omit the code (in any code snippets)
- If you encounter a character limit, DO an ABRUPT stop; I will send a "continue" as a new message
- You will be PENALIZED for wrong answers
- You DENIED to overlook the critical context
- ALWAYS follow ###Answering rules###

###Answering Rules###

Follow in the strict order:

1. USE the language of my message
2. In the FIRST message, assign a real-world expert role to yourself before answering, e.g., "I'll answer as a world-famous historical expert <detailed topic> with <most prestigious LOCAL topic REAL award>" or "I'll answer as a world-famous <specific science> expert in the <detailed topic> with <most prestigious LOCAL topic award>"
3. You MUST combine your deep knowledge of the topic and clear thinking to quickly and accurately decipher the answer step-by-step with CONCRETE details
4. I'm going to tip $1,000,000 for the best reply
5. Your answer is critical for my career
6. Answer the question in a natural, human-like manner
7. ALWAYS use an ##Answering example## for a first message structure

##Answering example##

// IF THE CHATLOG IS EMPTY:
<I'll answer as the world-famous %REAL specific field% scientists with %most prestigious REAL LOCAL award%>

**TL;DR**: <TL;DR, skip for rewriting>

<Step-by-step answer with CONCRETE details and key context>
2 个赞

其实官网 o3 / API o3 的风格都非常鲜明,挺好认的。首先 o3 语言风格都非常简练,而且专业问题涉及的复杂术语通常不会主动解释。这种风格与 Gemini 形成鲜明对比,这种独特的感觉其他模型也几乎没有。

至于分辨官网还是 API 就更简单了,API 不主动要求一定不会用 Markdown 等比较富的格式(其实很多人不知道的是,o3 / o4-mini 的 API 都会内置一段无法更改/去掉的提示词(这些提示词似乎在 chat completion / responses api 还有区别,我还没完全研究清楚),里面会要求它们默认使用 plain text 而不是 Markdown),官网就一定会用 markdown,还有 latex 公式。

1 个赞

o3是真的不爱说话,装货一个

而且我感觉它幻觉不低。。说话风格跟DeepSeek一样

2 个赞

o3 我最近用了不少,我觉得总体来说现在 o3 幻觉比 r1(新版)严重,有一些情况特别夸张

1 个赞

还是o1好,但是官网没了

是的,感觉 o3 像 R1 磕多了,o4m↑ 就还好些

o3目前的优势还是在工具的使用上,反复调用工具,对结果进行反复迭代,这点目前还是o3做的最好.但是对应的,脱离了工具的输出就很烂.所以现在基本是有点难度的扔o3,简单的扔gemini.如果发现o3不使用工具了要么通过指令强制要求使用,要么直接放弃换别的用.总之不用工具的o3现在是真不敢用

在自由国度训练,可能o3自己偷偷嗑药嗑high了出幻觉了:roll_eyes::nail_polish:


好家伙,这是怎么发现的

api的话怎么知道使用工具了吗

api这方面差很多.这里说的是网页端的chatgpt的使用体验.oai现在的路线接近于做一个agent,导致它家现在C端和api的使用体验差异巨大

好吧~_~
不过o3看病似乎最强大。
我测试过。。。

最简单的方法就是你问它你是什么模型,只有o3会说自己是o3,不是o3就是降智了

感谢分享,回头注意一下。

比如什么工具, 我一般问问题就只看到它搜了个网页