私たちの直感に反する奇妙な現象が、最先端の人工知能(AI)の世界で起きている。
人類はこれまで、OpenAIの「o1」やDeepSeekの「R1」といった「推論モデル」の開発に熱狂してきた。これらは、「思考の連鎖(Chain-of-Thought: CoT)」と呼ばれるプロセスを経て、複雑な数学やコーディングの問題を解く能力を持つ。しかし、驚くべき事実が判明した。これらの天才的なAIは、「極めて単純な問題」に対して、難問に対するよりも多くの計算リソース(思考時間)を浪費し、あまつさえ間違った答えを出すことがあるというのだ。
なぜAIは「考えすぎて」しまうのか?あるいは逆に、必要な思考を放棄してしまうのか?
イリノイ大学アーバナ・シャンペーン校、MIT、ペンシルバニア大学、ニューヨーク大学、そしてNTT Researchの研究者チームが発表した衝撃的な論文『WHEN REASONING MEETS ITS LAWS(推論がその法則に出会うとき)』は、この謎に理論的なメスを入れた。彼らが提唱する新たなフレームワーク「LORE(Laws of Reasoning)」は、AIの思考プロセスを物理法則のように定義し、AI開発のパラダイムを根本から覆そうとしている。
観測されたパラドックス:天才AIが陥る「思考の罠」
単純な計算で「フリーズ」する巨大頭脳
人間であれば、問題が難しくなればなるほど、解くのに時間がかかるのは当然だ。「1+1」は瞬時に答えられるが、「387×96」は筆算の時間が必要だし、微分積分の難問ならさらに時間を要する。これを「単調性(Monotonicity)」と呼ぶ。
しかし、現在の最先端AIモデル(LRM)は、この基本的な直感に従わない挙動を見せている。論文が提示したDeepSeek-R1の事例は衝撃的だ。
- タスクA(複合): 「1から10までの和を計算し、その結果を二乗せよ」
- タスクB(単純): 「55という数字を二乗せよ」
論理的に考えれば、タスクAは「和の計算」+「二乗の計算」であり、タスクBは「二乗の計算」のみである。したがって、タスクAの方が複雑であり、多くの思考ステップを要するはずだ。タスクBはタスクAの一部(サブプロブレム)に過ぎない。
ところが、DeepSeek-R1の挙動は逆であった。
モデルは、より単純なはずのタスクB(単なる二乗)に対して、タスクA(和と二乗)よりも約300トークンも多くの「思考(Reasoning tokens)」を費やしたのである。さらに悪いことに、これだけ長く考えたにもかかわらず、正答率はタスクAの50%に対し、タスクBでは38%未満へと大幅に低下してしまった。
「考えすぎ」と「考えなさすぎ」のランダムウォーク
この現象はDeepSeek-R1に限った話ではない。研究チームの調査によれば、OpenAIのo1を含む多くの推論モデルにおいて、問題の複雑さと思考時間(計算量)の間に一貫した相関が見られないケースが多発している。
- Overthinking(考えすぎ): 自明な問題に対して、不要な前提確認や無意味な論理検証を繰り返し、迷宮入りして誤答する。
- Underthinking(考えなさすぎ): 難問に対して、必要な推論ステップをスキップし、直感的な(しかし誤った)答えを即答してしまう。
なぜこのようなことが起きるのか? 論文はその根本原因を「学習データの無秩序さ」に見出している。現在の推論モデルのトレーニングに使用されるChain-of-Thought(CoT)データは、人間がヒューリスティックに作成したものや、強化学習によって生成されたものが混在しており、「この程度の難易度の問題には、この程度の思考リソースを配分すべき」という「推論の予算配分(Reasoning Budget)」に関する明確なルール(法則)が欠落しているのだ。
AIは「考え方」は学んだが、「どれくらい考えるべきか」というペース配分を学んでいないランナーのような状態にあると言える。
LOREフレームワーク:AIの思考を律する「2つの法則」
このカオスな状況に秩序をもたらすために提唱されたのが、LORE(Laws of Reasoning)フレームワークである。研究チームは、理想的な推論モデルが従うべき「自然法則」を以下の2つに定式化した。
第一法則:計算量の法則(Compute Law)
「推論にかかる計算量(トークン数)は、問題の複雑さに比例して線形に増加すべきである」
これは極めて直感的な定義だ。問題の複雑さ(\(\kappa(x)\))が増せば、モデルが生成する推論トークン数(\(C_\theta(x)\))も比例して増えるべきである(\(C_\theta(x) \propto \kappa(x)\))。
しかし、ここで一つの壁がある。「問題の複雑さ」を客観的に数値化することは極めて困難だ。そこで研究チームは、この法則を検証可能な2つの特性(プロパティ)に分解した。
- 単調性(Monotonicity):
より複雑な問題は、より単純な問題よりも多くの計算量を必要とする。(\(\kappa(x_1) \le \kappa(x_2) \Rightarrow C_\theta(x_1) \le C_\theta(x_2)\)) - 構成性(Compositionality):
互いに独立した2つの問題(\(x_1\)と\(x_2\))を組み合わせた複合問題(\(x_1 \oplus x_\))を解く計算量は、それぞれの問題を個別に解く計算量の和に等しくなるべきである。(\(C_\theta(x_1 \oplus x_2) \approx C_\theta(x_1) + C_\theta(x_2)\))
この「構成性」の概念が、本研究の核心である。スーパーでリンゴを買う時間とバナナを買う時間がそれぞれ分かっているなら、両方を買う時間はその合計になるはずだ。AIの思考もまた、この「加法性(足し算)」に従うべきであるという主張だ。
第二法則:精度の法則(Accuracy Law)
「正答率は、問題の複雑さが増すにつれて指数関数的に減少する」
推論の各ステップが一定の確率で成功すると仮定した場合、ステップ数(複雑さ)が増えれば増えるほど、最終的な正解にたどり着く確率は累積的に低下する。したがって、最適なモデルであっても、複雑さに対して精度は指数関数的(\(A_\theta(x) = \exp(-\lambda \kappa(x))\))に減衰するのが自然な姿である。
逆に言えば、複雑さが上がっても精度が落ちない、あるいは逆に精度が上がるような挙動は、モデルがまともに推論していない証拠となり得る。
LORE-BENCHによる診断:AIは「推論の法則」に従っているか?
研究チームは、これらの法則を検証するために、新たなベンチマーク「LORE-BENCH」を開発した。これは既存のテストセットとは異なり、「複雑さを制御できる」ように設計されている。
- LORE-MONO: 数学、科学、言語、コードの4領域で、シードとなる問題から「手数を意図的に増やした」30段階のバリエーションを作成し、単調性をテストする。
- LORE-COMPO: MATH500データセットから独立した問題をペアリングし、それらを結合した複合問題を作成して、構成性(計算量が足し算になるか)をテストする。
診断結果:単調性はクリア、しかし構成性は壊滅的
DeepSeek-R1、Phi-4-mini、Qwen、Llamaなど、主要な10の推論モデルを対象に行われた実験結果は、AI研究者に冷水を浴びせるものであった。
- 単調性の評価(Monotonicity):
多くのモデルは、問題が複雑になるにつれて思考時間を増やすという点で、概ね合格点を出した。相関係数は高く、基本的な「難しければ長く考える」という挙動は獲得できている。- 例外: DeepSeek-R1-Distill-Qwen-1.5Bなどの小型モデルは、言語タスクにおいて負の相関(難しいほど短く考える)を示し、思考放棄の傾向が見られた。
- 構成性の評価(Compositionality):
全モデルが失格であった。
どのモデルも、複合問題に対して適切な「思考の和」を実現できていなかった。実際には、個別の問題の和よりも遥かに少ない思考時間で答えようとしたり(手抜き)、逆に爆発的に長い思考時間を費やしたり(パニック)と、予測不能な挙動を示した。
特筆すべきは、ThinklessやAdaptThinkといった「思考長さを制御するメカニズム」を搭載したモデルでさえ、この構成性のテストには失敗したという点だ。これは、既存の手法が根本的な推論構造を理解させていないことを示唆している。
解決策:SFT-Compoによる「脳の再配線」
AIが「構成性」を理解していないことが諸悪の根源であるならば、それを教えればよい。研究チームは、SFT-Compo(Supervised Fine-Tuning emphasizing Compositionality)というシンプルかつ強力な手法を開発した。
SFT-Compoの仕組み
この手法のアプローチは極めて論理的だ。
- トリプレットの作成: 問題A、問題B、そしてその複合問題(A+B)の3つを1セットとする。
- 推論パスのサンプリング: 教師モデル(より強力なモデル)を使って、それぞれの問題に対する正解の推論パターンを複数生成させる。
- 最適なパスの選択: 生成された推論パスの組み合わせの中で、「複合問題の思考時間が、個別の思考時間の和に最も近くなる(\(|\ell(r_1) + \ell(r_2) – \ell(r_{12})|\)が最小になる)」組み合わせを選び出す。
- ファインチューニング: この「論理的な思考配分」が行われているデータをモデルに学習させる。
つまり、単に「正解したデータ」を学習させるのではなく、「推論のコスト計算が合った(つじつまが合った)データ」を選別して学習させるのである。
劇的な改善効果
この一見地味な調整が、劇的な効果をもたらした。
- 構成性の回復:
SFT-Compoを適用したモデルは、適用前と比較して、推論計算量の乖離(nMAD)が最大で40.5%減少し、理想的な「足し算の思考」に近づいた。 - 推論能力の全体的な向上:
驚くべきことに、構成性を教え込んだだけで、一般的な推論ベンチマーク(GSM8K、MATH500、AIMEなど)のスコアが一貫して向上した。
例えば、DeepSeek-R1-8Bモデルでは、Pass@1(一発正答率)が平均で5.0ポイント向上し、特定のタスクでは11.2ポイントもの改善が見られた。 - シナジー効果:
構成性を強制することで、直接教えていない「単調性」も改善し、さらに精度の予測可能性も向上するという、ポジティブな副作用が確認された。
これは、AIモデルにとって「正しく考える」ことと「適切なペース配分で考える」ことが表裏一体であり、思考の構造(ストラクチャー)を整えることが、知能の底上げに直結することを証明している。
本質的考察:なぜこれが重要なのか?
この研究成果は、単なるAIの性能向上テクニック以上の意味を持っている。それは、私たちが「知能」と呼ぶものの本質に迫るものだ。
「ブラックボックス」からの脱却
これまでの大規模言語モデル(LLM)や推論モデルは、なぜその答えに至ったのか、なぜその思考時間が必要だったのかがブラックボックスであった。しかし、LOREフレームワークは、AIの思考プロセスに「物理法則のような予測可能性」を与えようとしている。
「難しい問題にはリニアにリソースを割く」「複合問題は分解してリソースを積算する」。この規律を持たせることは、AIの信頼性(Reliability)を担保する上で不可欠なステップとなる。
AGIへの道標
汎用人工知能(AGI)は、未知の複雑な問題に直面したとき、自律的に思考戦略を立てる必要がある。今回の研究で明らかになった「構成性の欠如」は、現在のAIがまだ問題を適切に分解・統合する能力において未熟であることを示している。
逆に言えば、SFT-Compoのようなアプローチで「思考の構成性」を獲得させることは、AIが真に複雑な現実世界の問題(科学的発見や長期的な計画立案など)を解決するための極めて重要なマイルストーンとなるだろう。
効率性とエネルギー
AIの推論コストは、電力消費や運用コストに直結する。簡単な問題に無駄な計算リソースを浪費する「Overthinking」を抑制し、必要な難問にリソースを集中させる技術は、経済的かつ環境的な観点からも極めて価値が高い。LOREは、AIのエコロジーを最適化するための理論的基盤にもなり得る。
AIは「考え方」のルールを学び始めた
「簡単な問題ほど深く考えすぎて失敗する」。この人間臭くも困ったAIの癖は、学習データの不均衡と、推論プロセスへの規律の欠如が生んだ必然的なエラーであった。
論文『WHEN REASONING MEETS ITS LAWS』は、この問題に対して「計算量の法則」と「精度の法則」という明確な基準を打ち立て、AIの思考を正しい軌道に乗せるためのロードマップを提示した。SFT-Compoによる実証実験は、AIに「思考のペース配分」と「論理の積み上げ方」を教えることで、そのポテンシャルがさらに解き放たれることを証明した。
私たちは今、AIに単に知識(What)を詰め込む段階を終え、正しい思考の作法(How)を躾ける段階に入ったと言えるだろう。これからのAI開発競争は、単なるモデルサイズやデータ量の勝負ではなく、いかにしてこの「推論の法則」に忠実で、効率的かつ論理的な思考回路を構築できるかという、質的な競争へとシフトしていくはずだ。
論文