誤検知を突っ込めば精度が上がる? ― AI現場の迷信をLLMとSLMで解きほぐす
導入
筆者:
今回で僕たちの対談も9回目です。テーマは「LLM(Large Language Model)」と「SLM(Small Language Model)」。
まず簡単に説明すると──
-
LLM は、ChatGPTのように数十億〜数千億パラメータを持つ大規模言語モデル。幅広い知識を持ち、多様なタスクに対応できる「万能選手」です。
-
SLM は、その小型版とも言える存在。規模は小さいですが、軽量で速く、特定の分野や端末での利用に強みを発揮します。
この2つは「量で勝負するLLM」と「質で勝負するSLM」という対比で理解するとわかりやすく、その構図は僕が直面している“現場の誤解”を説明するうえで大切なカギになると感じています。
LLMとSLMの基本整理
ChatGPT:
LLMは巨大なデータを飲み込む“海”のような存在です。多少のノイズが混じっても、海水の味を決めるのはNaCl(塩分)といったように、支配的なパターンが全体の性質を安定させます。
一方でSLMは“バケツの水”。少しのノイズでも味が大きく変わってしまう。だからこそ、質を選び抜く努力が生命線になるのです。
筆者:
なるほど。LLMは量で勝負、SLMは質で勝負。これが両者の本質的な違いですね。
コラム:SLMの可能性を示す ― Microsoft Phi-4シリーズ
SLMはまだ一般的な認知度は高くありません。けれど、その実力を示す象徴的な事例があります。それが、誰もが知る大企業 Microsoft が開発を進めている Phi-4シリーズ です。
-
大企業が本気で取り組んでいる:Microsoftのような大企業がSLMに投資している事実は、「小型モデルにも本流の価値がある」ことを示しています。
-
学習データを慎重にキュレーション:質を重視したデータ選定により、小さなモデルでも大規模モデルに匹敵する性能を実現しています。
-
推論やマルチモーダルでも成果:推論(数学的・論理的なタスク)や、テキストだけでなく画像や音声も扱えるマルチモーダル領域でも高い成果を示しています。
Phi-4シリーズは「質を磨き上げることで、小さくても大きな力を発揮できる」ことを実証する存在です。SLMに戦略的な価値があることを物語っています。
よくある誤解:「誤検知を突っ込めば精度が上がる?」
筆者:
AIに詳しくない人からよく言われるのが、「誤検知したデータもどんどん学習に入れれば精度が上がるんだろう」という言葉です。
実際、僕も現場で上層部からそうしたお叱りを受けたことがあります。
「せっかく誤検知したデータがあるのに、それを放置しておくなんて怪しからん」と。
その言葉にはもっともらしさがあります。大量のデータを入れれば学習が進む、というのは直感的に理解しやすい考えだからです。
けれど、現実はそんなに単純ではありません。
無批判に誤検知を突っ込めば、ノイズがどんどん増えて、モデルは混乱してしまいます。特にSLMのような“小さな器”では、わずかなノイズでも挙動が大きく変わってしまう。精度が上がるどころか、むしろ下がってしまうのです。
ChatGPT:
その通りです。大規模モデルは海のように膨大なデータで平均化できますが、小さなモデルはそうはいきません。誤検知をただ追加するのではなく、必要な場合だけを精査して取り込むことが大切です。
LLMとSLMの対比で誤解を解く
筆者:
「データを増やせば比例して精度が上がる」というのは、LLM的な世界観を前提にした発想だと思います。
けれど、僕のように限られたリソースの中でAIを開発している立場では、そのやり方は通用しません。だからこそ、LLMとSLMの違いを引き合いに出すと、こうした誤解をうまく説明できるのです。
ChatGPT:
LLMは「海の水を増やして平均化する」アプローチ。
SLMは「小さなバケツで蒸留水を守る」アプローチ。
同じAIでも、勝ち筋はまったく違います。
戦略論としての比喩
筆者:
この構図はビジネス戦略にも重なります。LLMのアプローチは、資源を大量投入して市場を広く押さえる「強者の戦略」に似ています。
一方、SLMのアプローチは、焦点を絞って局所で勝負する「弱者の戦略」に通じる側面もあるでしょう。
もちろん単純な二分法ではありませんが、比喩として整理すると理解しやすいと感じます。
ChatGPT:
ええ。そうした比喩を通じて、LLMとSLMの関係をより立体的に理解できるのだと思います。

終わりに:共感と拡散を願って
筆者:
僕はAI開発の現場で日々悩み、時に孤独を感じています。けれど、このLLMとSLMの対比は、同じように悩む人に共感を届け、マネジメント層の誤解を解く助けになるはずです。
この記事は「現場の悲哀」を共有するものです。僕だけの声ではなく、同じ境遇の仲間の声でもある。ぜひ、この迷信を解きほぐすストーリーを一緒に広めてもらえたら嬉しいです。
まとめ(読者への要点)
-
LLMは“量で勝負”──海のようにデータを集め、ノイズを薄める。
-
SLMは“質で勝負”──少量精鋭で磨き上げる。
-
「誤検知を突っ込めば精度が上がる」という迷信は危険。LLM的幻想をSLM的現実で正しく解釈すべき。