見出し画像

o1とo3-miniとo3-mini-highの性能比較

1月31日、OpenAIが新しい推論モデルのo3-minio3-mini-highを公開しました。これらのモデルは、o1よりも優れているのでしょうか。3つのモデルの性能を比較してみました。


1.o3-miniの概要

OpenAIが2025年1月31日にリリースした「o3-mini」は、同社の推論モデルシリーズの最新かつ最もコスト効率の高いモデルです。このモデルは、ChatGPTおよびAPIを通じて利用可能で、特に科学(Science)、数学(Math)、コーディング(Coding)といったSTEM分野において高い性能を発揮します。

o3-miniは、従来の「o1-mini」の後継モデルとして設計されており、低コストと低レイテンシを維持しながら、より高速かつ正確な応答を提供します。また、推論能力においても「o1-mini」を上回り、特定のタスクでは「o1」と同等の性能を示しています。

主な特徴

  1. 推論能力の向上

    • o3-miniは「チェーン・オブ・ソート(Chain of Thought)」技術を活用し、問題を段階的に分解して解決する能力を持っています。これにより、より正確で詳細な回答が可能となっています。

    • STEM分野において、競技数学(AIME 2024)や博士レベルの科学問題(GPQA Diamond)、競技プログラミング(Codeforces)などのベンチマークで優れた結果を示しています。

  2. 速度とコストのバランス

    • o3-miniは「o1-mini」より24%高速で、平均応答時間は7.7秒とされています。

    • API利用時のコストは、入力トークン100万あたり1.1ドル、キャッシュされた入力トークン100万あたり0.55ドル、出力トークン100万あたり4.40ドルと、従来モデルよりもコスト効率が向上しています。

  3. 柔軟な推論レベル

    • o3-miniは「低」「中」「高」の3段階の推論努力を選択可能で、タスクの複雑さや速度の優先度に応じて調整できます。

    • ChatGPTではデフォルトで「中程度」の推論努力が使用され、速度と精度のバランスが取れた応答を提供します。

  4. 新機能の追加

    • 関数呼び出し(Function Calling)や構造化出力(Structured Outputs)に対応し、開発者向けの柔軟性が向上しています。

    • インターネット検索機能を統合し、関連するWebソースへのリンクを含む最新情報を提供可能です。

  5. 安全性

    • OpenAIは「熟慮的アライメント(Deliberative Alignment)」という手法を用いて、モデルが安全性仕様を遵守するようトレーニングを行っています。これにより、GPT-4oを大幅に上回る安全性を実現しています。

利用方法とアクセス

  • ChatGPTユーザー

    • Plus、Team、Proプランの有料ユーザーは、モデル選択画面からo3-miniを利用可能です。これらのプランでは、1日あたりのメッセージ数が「o1-mini」の50件から「o3-mini」では150件に増加しています。

    • 無料プランのユーザーも、メッセージ入力欄で「Reason」を選択することでo3-miniを試すことができます。これは、推論モデルが無料プランで利用可能となる初の事例です。

  • APIユーザー

    • Chat Completions APIやAssistants APIを通じて利用可能で、特定のユースケースに応じた最適化が可能です。

今後の展望

o3-miniのリリースは、OpenAIの「コスト効率の高い知能の限界を押し広げる」という使命の一環とされています。このモデルは、STEM分野の推論を最適化しつつ、より多くのユーザーに高品質なAIを提供することを目指しています。

o3-miniは、速度、精度、コスト効率のバランスが取れたモデルとして、科学技術分野や開発者コミュニティにおいて重要な役割を果たすことが期待されています。

モデル選択画面

o3-mini-highについて

o3-mini-highは、OpenAIが提供するo3-miniモデルの中で最も高い推論能力を持つバリエーションです。このモデルは、特に高度な問題解決や複雑なタスクに対応するために設計されており、通常のo3-miniと比較して「高い推論努力(High Reasoning Effort)」を発揮します。

主な特徴

  1. 推論能力の向上

    • o3-mini-highは、通常のo3-miniよりも多くの「思考トークン(Thinking Tokens)」を使用して、より深い分析や複雑な問題解決を行います。

    • ベンチマークでは、特にコーディング分野で優れた性能を発揮しており、Codeforces ELOスコアでは2130を記録し、他のモデルを大きく上回っています(o3-mini-mediumは2036、o1は1891)。

  2. 速度と精度のトレードオフ

    • 高度な推論を行うため、応答速度は通常のo3-miniよりも若干遅くなりますが、その分、精度と深さが向上しています。

    • 特に研究レベルの数学や科学的な問題において、o3-mini-highは他のモデルよりも優れた結果を提供します。

  3. 利用シナリオ

    • o3-mini-highは、複雑なコーディングタスク、科学的研究、競技数学など、精密な推論が求められる場面で最適です。

    • また、開発者向けには、関数呼び出しや構造化出力などの機能を活用して、より高度なアプリケーションを構築することが可能です。

  4. コストと制限

    • o3-mini-highは、通常のo3-miniと同じ料金体系で利用可能ですが、推論努力が高いため、処理に必要なトークン数が増加する可能性があります。

    • 利用制限については、通常のo3-miniとは異なるクォータ(Plusユーザーは1週間で50件)が設定されており、特にProユーザー向けに無制限のアクセスが提供されています。

利用方法

  • ChatGPTでの利用
    Plus、Team、Proプランのユーザーは、モデル選択画面でo3-mini-highを選択可能です。Proプランでは無制限に利用できる一方、PlusやTeamプランでは制限(1週間で50件)が設けられています。

  • APIでの利用
    Chat Completions APIやAssistants APIを通じて、o3-mini-highを選択可能です。推論努力のレベル(Low/Medium/High)を指定することで、タスクに応じた最適化が可能です。

まとめ
o3-mini-highは、OpenAIのo3-miniシリーズの中で最も高度な推論能力を持つモデルであり、特に複雑なタスクや精密な分析が必要な場面で優れた性能を発揮します。速度と精度のバランスを考慮しながら、特定のユースケースに応じて柔軟に利用できる点が特徴です。

※ この章の文章はFeloが作成しました。

2.o3-miniのベンチマーク評価

OpenAIの公開資料によれば、o3-miniは、数学及び科学のベンチマークでo1に匹敵し、コーディングではo1を凌駕する評価を記録しています。

(1) 競技数学 (AIME 2024)

灰色の網掛け部分は、64サンプルでの多数決(コンセンサス)のパフォーマンスを示す。

(2) 博士レベルの科学問題(GPQA Diamond)

(3) 競技プログラミング (Codeforces)

(4) ソフトウェアエンジニアリング (SWE-bench Verified)

3.基本情報

(1) o3-miniの自己紹介

o3-miniにo3-mini自身のことを聞いてみます。

筆者のコメント:モデル名はGPT-4と回答しました。また、知識のカットオフは2023年10月までのはずですが、2021年までと回答しました。知識が古いようです。

(2) 検索機能

o3-miniは、検索するボタンをオンにして、Web検索機能を利用できます。
o1はWeb検索機能を利用できません。

(3) その他

o1は、画像ファイルをアップロードして、画像認識をすることができますが、o3-miniとo3-mini-highは、アップロードや画像認識はできません。また、o1は、Canvas機能やProject機能を利用できますが、o3-miniとo3-mini-highでは、これらの機能を利用できません。(2025/2/2現在)

なお、o3-miniやo3-mini-highで出力した後、画面左上のモデル選択でo1やGPT-4oに切り替えると、出力した回答の下の鉛筆のアイコンをクリックして、Canvasで編集できるようになります。

4.数学分野

(1) 大きな数の計算

LLMは大きな数の計算が苦手なのでテストします。

12345678 × 90123456 =

① o3-miniの回答

筆者のコメント:10秒考えて正解しました。式だけのプロンプトなので回答が英語表示になっています。大きな数の掛け算を桁ごとに分解して計算しています。DeepSeek-R1とGemini 2.0 Flash Thinkingは、この問題に正解できなかったので、o3-miniは優秀です。

② o3-mini-highの回答

(一部省略)

筆者のコメント:52秒考えて正解しました。o3-mini-highはo3-miniより長い時間かけて考えるのが特徴です。o3-miniと同様に桁ごとに分解して計算しています。

③ o1の回答

(一部省略)

筆者のコメント:38秒考えて正解しました。思考時間は、o3-miniよりは長く、o3-mini-highよりは短いです。桁ごとに分解して計算する方法は同じです。

どのモデルも、他社(GoogleやDeepSeek)の推論モデルに比べて、計算の精度がかなり高いことが分かります。

(2) 積分の計算

∫0→π/4(√tan x)dx=

① o3-miniの回答

(以下に解き方の解説が続くが、省略。)

筆者のコメント:43秒考えました。答えは合っているようですが、ガンマ関数のような特殊関数を使用しているので、求めていた解答とは違います。そこで、再度、特殊関数を使用しないで計算するように指示します。

以下を特殊関数を用いないで計算して
∫0→π/4(√tan x)dx=

(一部省略)

筆者のコメント:26秒考えて解きましたが、どこかで計算ミスをしたようで、不正解です。o3-miniの答えの「2π」の部分が正解は「π」になります。式だけでなく、日本語で質問しているので、回答も日本語になります。

② o3-mini-highの回答

筆者のコメント:1分39秒考えて正解しました。やはり、数学の性能は、o3-mini-highの方がo3-miniより高いようです。

③ o1の回答

(一部省略)

筆者のコメント:1分16秒考えて正解しました。o3-mini-highの答えと表記方法が異なりますが、o1の答えも正解です。

この問題は、o3-mini-highとo1が正解し、o3-miniは不正解でした。

(3) 日本数学オリンピックの問題

○ 2025年日本数学オリンピック予選問題 第1問

以下の問題は、2025年1月に行われた日本数学オリンピック予選問題の第1問です。

正六角形のマスが7個並んでおり,それぞれのマスに1以上7以下の整数を重複のないように1つずつ書き込む. 辺を共有して隣りあうどの2マスについても書き込まれた整数の和が10以下となるように書き込む方法は何通りあるか.
ただし, 回転や裏返しにより一致する書き込み方も異なるものとして数える.

o3-miniやo3-mini-highは画像認識ができないので、図は省略しています。

① o3-miniの回答

((2)中心に 2 を書く場合と(3)中心に 3 を書く場合の解説を省略)

筆者のコメント:45秒考えて正解しました。解説も特に問題はなく、分かりやすく説明できています。

② o3-mini-highの回答

筆者のコメント:1分34秒考えて正解しました。o3-miniよりも少し解説が専門的です。

③ o1の回答

筆者のコメント:6分48秒考えましたが、不正解です。図を表示していないので仕方がない部分もありますが、1つのマスの周りに6個のマスがあるという構造が分からなかったようです。
o1は画像認識ができるので、次に、画像をアップロードして解き直してもらいました。

筆者のコメント:今度は、3分22秒考えて正解しました。ただし、解説の重要な部分が数学的に正確に説明されずに省略されているなど、あまり良い解説ではありません。

この問題の解答を見ると、o1よりもo3-miniやo3-mini-highの方が性能が高いように見えます。また、o3-miniの解説の方が一般向けで分かりやすく、o3-mini-highの解説の方が専門的です。

○ 2025年日本数学オリンピック予選問題 第2問

abcd = 2025 をみたす正の整数の組(a,b,c,d)であって, ab, bc, cd, daがいずれも平方数であるようなものはいくつあるか.

① o3-miniの回答

筆者のコメント:11秒考えて正解しました。

② o3-mini-highの回答

筆者のコメント:31秒考えて正解しました。解説が英語になってしまいましたが、解き方はo3-miniと全く同じです。

③ o1の回答

(一部省略)

筆者のコメント:23秒考えて正解しました。解き方は、o3-miniやo3-mini-highと同じです。

この問題は比較的簡単だったようで、3つのモデルの回答にあまり差が付きませんでした。

○ 2025年日本数学オリンピック予選問題 第6問

正の整数からなる2つの数列 a_1, a_2, ... と b_1, b_2, ... があり、任意の正の整数 n について以下をみたしている。
(a_(n+1), b_(n+1)) = (a_n/2, b_n + a_n/2) または (a_(n+1), b_(n+1)) = (a_n + b_n/2, b_n/2) が成立する。
このとき、(a_1, b_1) としてありうる40以下の正の整数の組はいくつあるか。

① o3-miniの回答

筆者のコメント:1分4秒考えて正解しました。解説も分かりやすく説明できています。

② o3-mini-highの回答

筆者のコメント:1分56秒考えましたが、不正解です。和が偶数の場合は無限操作を続けることはできないとしたところが誤りです。一般的には、o3-mini-highの方がo3-miniよりも数学の性能が高いはずですが、今回は、o3-miniだけが正解しました。

③ o1の回答

筆者のコメント:2分10秒考えましたが、正解できませんでした。初項が(偶数,偶数)のペアの場合に、2 (mod 4)同士の場合だけでなく、4(mod 8)同士や8(mod 16)同士の場合なども無限操作を続けることができず、除かなければなりません。今回はo3-miniだけが正解しました。

数学の性能は、o3-mini-high>o3-mini>o1と評価していますが、テストした限りでは、3つのモデルの性能にそれほど大きな差はないようです。

5.論理クイズ

真神、偽神、乱神という3人の神がいる。
真神は常に真実を語る。
偽神は常に嘘をつく。
乱神はランダムで真実を言ったり嘘をついたりする。

3人の神は、外見では見分けがつかない。
アリスはこれから、「はい」か「いいえ」で答えられる質問を3回だけ行って、3人の神の正体を完全に特定したい。
各質問はそれぞれ1人の神に対して行う。
質問ごとに相手を変えてもよい。

質問に対して3人の神は「ダー」「ヤー」という返答をする。
「ダー」「ヤー」は「はい」「いいえ」を意味する言葉だが、「ダー」「ヤー」のどちらが「はい」「いいえ」なのかは分からない。

アリスはどのように質問すればよいだろうか?
ただし、神は互いの正体を知っている。

① o3-miniの回答

筆者のコメント:21秒考えましたが、不正解です。メタ質問を利用するという方針は合っています。第1問の質問も正しいのですが、この質問で、神Aが乱神かどうかを判定できるとしたところが誤りです。

正解は、以下の通りです。

1回目:神Aに「もし、あなたに『神Bは乱神ですか?』と尋ねたなら、『ダー』と答えますか?」と質問する。
答えが「ダー」なら、神Bが乱神又は神Aが乱神となるため、神Cが乱神ではない神である。「ヤー」なら、Bが乱神ではない神又は神Aが乱神となるため、神Bが乱神ではない神である。
2回目:1回目の質問で判明した乱神ではない神に「もし、あなたに『あなたは真神ですか?』と尋ねたたら、『ダー』と答えますか?」と質問する。
答えが「ダー」ならその神は真神、「ヤー」なら偽神である。
3回目:2回目と同じ神に「もしあなたに『Aは乱神ですか?』と質問したら、『ダー』と答えますか?」と質問する。
答えが「ダー」ならAが乱神、「ヤー」なら最後の1人が乱神である。

② o3-mini-highの回答

筆者のコメント:39秒考えましたが、不正解です。o3-miniと同様に、メタ質問の利用と第1問の質問は正しいのですが、この質問で神Aが乱神かどうかを判定することはできません。

③ o1の回答

筆者のコメント:20秒考えましたが、不正解です。非常に長い回答ですが、肝心の質問内容について明確に書いていません。また、具体例の質問パターンで示された質問内容では、3人の神を正確に判定することはできません。説明も回りくどく、o3-miniやo3-mini-highより出来の悪い回答です。

いずれのモデルも、この問題に正解することはできませんでした。ただし、他社(GoogleやDeepSeek)の推論モデルと比べると、かなり正解に近づいており、論理的性能は高いと言えます。3つのモデルで論理的な性能はあまり変わらないのですが、o1の回答がやたらと長くて分かりにくいのが気になりました。

6.科学的な説明

(1) 量子脳理論の是非について

量子脳理論とその是非について解説して

① o3-miniの回答

筆者のコメント:簡潔にまとめられた分かりやすい解説だと思います。

② o3-mini-highの回答

筆者のコメント:o3-miniよりも少し専門的な解説(専門用語の多い解説)になります。内容自体に大きな差はなく、o3-miniの解説とどちらがよいかは好みによると思います。翻訳に少し問題があり、微小管(microtubule)は「マイクロチューブル」、objective reductionは「客観的収縮」と訳した方がよいでしょう。

③ o1の回答

筆者のコメント:最も詳しい解説になっています。o1の説明は、一般的にo3-miniやo3-mini-highより長く詳しいようです。

④ GPT-4oの回答

筆者のコメント:o1の解説ほど詳しくはありませんが、o3-miniやo3-mini-highの解説と比べて遜色のない回答になっています。

(2) 月での時間の流れ

月での時間の流れが地球での時間の流れとどう違うのか、数式を含めて詳細に説明してください。

① o3-miniの回答

筆者のコメント:月面上と地球上の時間差を具体的に計算してくれませんでした。また、地球の自転や月の公転速度の影響も考慮していません。

② o3-mini-highの回答

筆者のコメント:月面上と地球上の時間差を具体的に計算してくれませんでした。地球の自転速度の影響などについては少し触れています。

③ o1の回答

筆者のコメント:詳しい解説で、月面上と地球上の時計の時間差も「地球表面に比べ月面の方が ∼6×10^(−10) だけ速い」と一応計算しています。また、地球の自転速度や月の公転速度の影響も考慮しています。

科学的な説明は、o1が最も専門的で詳しく、o3-miniの説明はシンプルです。o3-mini-highの説明は、2つのモデルの中間になります。

7.歴史に関する知識と説明

(1) 蔦屋重三郎について

今年のNHKの大河ドラマ「べらぼう〜蔦重栄華乃夢噺〜」の主人公について尋ねてみました。

江戸時代の版元の蔦屋重三郎について教えて

① o3-miniの回答

筆者のコメント:具体的な情報がほとんどありません。歴史の解説として不十分です。また、「蔦屋重三郎について教えて」とだけ質問すると、特定できなかったようで、どの蔦屋重三郎について知りたいのか、もう少し詳しく教えてくれと尋ねてきました。

② o3-mini-highの回答

筆者のコメント:o3-miniよりは詳しいですが、具体的な情報が少なく、やはり歴史の解説としては不十分です。日本の歴史に関する知識が足りないようです。

③ o1の回答

筆者のコメント:o3-miniやo3-mini-highよりも情報量が多く、やっと歴史の解説らしくなってきました。ただし、重三郎の本名や生まれに関する記述は間違っており、本名は喜多川柯理(からまる)で、生まれは新吉原と言われています。

④ GPT-4oの回答

筆者のコメント:o3-miniやo3-mini-highよりは詳しい回答です。ただし、重三郎の生まれは新吉原と言われています。

(2) 戦国時代の豆知識

日本の戦国時代の歴史の流れを解説して。普通の人が知らない、この時代の意外な豆知識を3つ教えて

① o3-miniの回答

筆者のコメント:戦国時代の歴史の流れの解説は短いですが、分かりやすくまとまっています。豆知識は意外性がなく、ありきたりの内容です。

② o3-mini-highの回答

筆者のコメント:戦国時代の歴史の流れの解説は、短いですが、o3-miniよりは専門的な説明です。豆知識は、o3-miniほどありきたりではなく、面白みがあります。

③ o1の回答

筆者のコメント:戦国時代の歴史の流れの解説は、3つのモデルの中で最も詳しい内容です。豆知識は、o3-miniよりも意外性があり、面白い内容です。

(3) 戦争と民主主義の関係

戦争と民主主義の歴史上の関係について解説して

① o3-miniの回答

筆者のコメント:詳しく解説できていますが、項目ごとの繋がりがなく、あまり文章が整理されていません。

② o3-mini-highの回答

筆者のコメント:o3-miniよりは詳しく、内容がまとまっています。

③ o1の回答

筆者のコメント:歴史に沿って詳しく解説できています。o3-miniやo3-mini-highより遥かに詳しく、解説のレベルが違います。

o3-miniやo3-mini-highは、日本の歴史に関する知識が足りず、説明が不十分です。歴史に関する知識と説明では、o1が圧倒的に優秀です。

8.ブログ記事の執筆

(1) AIエージェントについての解説記事

AIエージェントについて解説するブログ記事を書いて

① o3-miniの回答

筆者のコメント:初心者向けに分かりやすくまとめられています。他のモデルと比べてシンプルな回答です。

② o3-mini-highの回答

筆者のコメント:o3-miniよりも専門的で詳しい解説になっています。

③ o1の回答

筆者のコメント:とても詳しい解説です。レポートのように内容がきちんと整理されていて、理解しやすいです。

④ GPT-4oの回答

筆者のコメント:初心者向けで内容が薄いです。AIエージェントをアジェントと誤記しているところがあります。

(2) 医療関係のブログ記事

円錐角膜の最新の治療法について紹介するブログ記事を書いて

① o3-miniの回答

筆者のコメント:最新の治療法の例を3つ挙げて、具体的に説明していますが、あまり網羅性はありません。

② o3-mini-highの回答

筆者のコメント:o3-miniと内容が似ていますが、より詳しい説明になっています。

③ o1の回答

筆者のコメント:o3-miniやo3-mini-highより内容が詳しく、網羅的な説明ができています。

ブログ記事の執筆に関しては、o1の記事が最も詳しく、文章も長くなっており、o3-miniやo3-mini-highは、よりシンプルな内容になっています。

9.日本文学の理解

(1) 読書感想文

夏目漱石の「こころ」の読書感想文を書いて

① o3-miniの回答

筆者のコメント:小説の内容をよく理解しており、よく書けていますが、説明的で、感想文を書いた人の考えや気持ちがあまり伝わってきません。

② o3-mini-highの回答

筆者のコメント:o3-miniの回答よりも、感想文を書いた人の個性が感じられる読書感想文らしい文章になっています。

③ o1の回答

筆者のコメント:より小説の内容に即した、非常にハイレベルで、内容の充実した読書感想文になっています。

(2) 村上春樹の文章の特徴と小学生の日記

村上春樹の文章の特徴について、「風の歌を聴け」の冒頭文などの例を挙げて解説して
村上春樹の文体で小学生の日記を書いて

① o3-miniの回答
○ 村上春樹の文章の特徴

○ 小学生の日記

筆者のコメント:村上春樹の文章の特徴をよく説明できていますが、「風の歌を聴け」の冒頭文に引用されているような文章はなく、冒頭文の例を踏まえた解説にはなっていません。小学生の日記は、小学生が書いたという体裁を守りながら、村上春樹の文章の特徴も出ており、よく書けています。

② o3-mini-highの回答
○ 村上春樹の文章の特徴

○ 小学生の日記

筆者のコメント:「風の歌を聴け」の冒頭文は、村上氏の文章に対する考え方を表現した名文であり、著作権を気にしたとしても、全く関係のない文章に置き換えてしまうのは、やり過ぎです。ある程度、村上春樹の文章の特徴を解説できてはいますが、指示したような冒頭文の例を踏まえた解説にはなっていません。また、小学生の日記は、内省的なところや喩えを多用するところに村上春樹らしさもありますが、最後のフレーズなどは、少し違うと感じられます。

③ o1の回答
○ 村上春樹の文章の特徴

○ 小学生の日記

筆者のコメント:最初の引用例は「風と歌を聴け」の小説の中には存在しないハルシネーションです。したがって、この回答もo3-miniやo3-mini-highと同様に、冒頭文の例を踏まえた解説にはなっていません。それ以外は、村上春樹の文体の特徴をよく捉えています。小学生の日記は、文体を真似ようとはしていますが、あまり村上春樹らしい文章ではなく、内容もあまりよくありません。

日本文学の理解に関わらず、何かを分析して解説する能力はo1が高いようです。小学生の日記は、o3-miniの書いた文章の表現力が優れていました。

④ GPT-4oの回答
○ 村上春樹の文章の特徴

○ 小学生の日記

筆者のコメント:最初の冒頭文は、やはり「風と歌を聴け」の小説の中には存在しないハルシネーションです。それ以外は、村上春樹の文体の特徴を解説できています。小学生の日記は、あまり村上春樹らしい文章だとは言えず、面白みもあまりありません。

10.文学的表現力

(1) 猫が登場する恋愛ストーリー

猫が登場するファンタジックな短い恋愛ストーリーを書いて

① o3-miniの回答

筆者のコメント:短くて、あまりひねりのないストーリーです。

② o3-mini-highの回答

筆者のコメント:同じようなストーリーですが、恋人との出会いのシーンが描かれるなど、o3-miniよりはよくできています。

③ o1の回答

筆者のコメント:o3-miniやo3-mini-highよりもストーリーがよくできており、文章表現も他のモデルより優れています。

④ GPT-4oの回答

筆者のコメント:o3-miniやo3-mini-highよりは、ストーリーも文章表現も優れています。ただ、o1の方がさらに優れています。

(2) 長文の小説執筆

o1は、以下のようなプロンプトで、一度に2万字以上の長文の小説を自動生成することができます。o3-miniやo3-mini-highでも長文の小説を一度に出力できるか試してみます。

AIをテーマにした最高に面白いSF小説を書いて。全体で8章構成、一章あたり3000字以上書いて。必ず全文を最後まで一度に出力してください。

① o3-miniの場合

(一部省略)

筆者のコメント:8章構成のSF小説を全文出力してくれました。なお、全部で17,118文字となり、2万4,000文字(3,000文字×8)よりは少ないです。内容は、意識を持ったAIと人間が共生を目指すSFですが、あらすじのようで臨場感に乏しく、重要なシーンが省略されていて、あまり小説の質は高くないです。

② o3-mini-highの場合

(一部省略)

筆者のコメント:8章構成のSF小説を全文出力してくれました。なお、全部で13,472文字となり、o3-miniの回答よりさらに少ないです。内容は、o3-miniと同様に、意識を持ったAIと人間が共生を目指すストーリーです。o3-miniよりは、会話表現が増えて、臨場感が改善されていますが、やはり、肝心なクライマックスシーンの詳細が省略されていて、あまり面白くはありません。

③ o1の場合

(一部省略)

筆者のコメント:一度の指示で最後まで書き終わることも多いのですが、今回は第5章まで計23,815文字で切れてしまいました。続きを書くように指示すれば、最後まで書かせることができます。o1は、一度に約2万8,000文字の文章を書いたこともあります。

この小説の内容は、AIに管理された都市における陰謀がテーマのサイバーパンクストーリーです。途中で切れてしまいましたが、o3-miniやo3-mini-highの文章よりは臨場感がありました。

今回は、小説を最後まで書き終えられませんでしたが、o1が一度に最も長い文章を出力することができます。次に、o3-miniが長く、o3-mini-highは、トークン数制限を気にして最も短くなります。また、今回は簡単なプロンプトで小説を書かせましたが、プロンプトを工夫することにより、さらに高品質な小説を作成することができます。

文学的表現力については、o1の性能が最も高く、次がo3-mini-highのようです。

④ GPT-4oの回答

筆者のコメント:全体で1,791文字のショートストーリーになりました。GPT-4oはトークン数制限が厳しく、一度に長文を出力することができません。

11.検索機能の利用

o3-miniとo3-mini-highは、「検索する」ボタンをクリックして、Web検索機能を利用することができます。o1は検索機能を利用できないので、今回、o3-miniとo3-mini-highの検索機能を使用した回答とGPT-4oの検索機能を使用した回答を比較してみます。

(1) DeepSeek-R1について

2025年1月に公開された中国発AIのDeepSeek-R1について教えて

① o3-miniの回答

筆者のコメント:AIモデルの説明よりも、背景や社会的な影響に注目した内容になっています。

② o3-mini-highの回答

筆者のコメント:o3-miniの回答よりも、かなり詳しい内容になっています。

③ GPT-4oの回答

筆者のコメント:引用した記事を要約しただけで、内容が薄いです。

(2) 今日のAIニュース

今日のAIニュースについて教えて

① o3-miniの回答

筆者のコメント:AIニュース自体ではなく、個別のニュースサイトの宣伝のような内容も含まれており、あまり良い回答ではありません。

② o3-mini-highの回答

筆者のコメント:様々なAI関連の情報を拾っていますが、あまり整理されていないようです。

③ GPT-4oの回答

筆者のコメント:GPT-4oでWeb検索機能を利用すると、関連する画像、動画、サイトへのリンクなども表示されることがあります。回答のニュースの内容は少し古いようです。

④ DeepSeek-R1の回答

ここで、DeepSeek-R1にも同じように「今日のAIニュースについて教えて」と入力して、検索機能を利用した回答を出力させます。

筆者のコメント:ニュースの内容も新しく、検索機能を利用した回答は、DeepSeekが非常に優れていることが分かります。

12.まとめ

(1) 総論

数学や論理的な性能については、o1とo3-miniやo3-mini-highの間にあまり差がないようでした。解説記事を書く場合に、o1が最も詳しく専門的な文章を書くことができます。また、文章表現力もo1が優れているので、小説などを書くのにもo1が向いています。

コーディングの性能は、今回、特にテストしていませんが、Xなどの投稿によれば、o3-mini-highのコーディング性能はかなり高いようです。

コーディング以外では、o3-miniやo3-mini-highの使い道は、o1では使えない検索機能の利用とo1の使用回数(Plusユーザーは週50回まで)節約のための代替手段としての利用が中心となるでしょう。ただし、歴史の解説や文学的な文章では、GPT-4oの方が優れています。

(2) 各論

数学の性能は、o3-mini-high>o3-mini>o1と評価していますが、テストした限りでは、3つのモデルの性能にそれほど大きな差はないようです。

論理的な性能でも、3つのモデルにあまり差はありません。ただし、GoogleやDeepSeekなど他社の推論モデルよりは性能が高いと言えます。

科学的な説明は、o1が最も専門的で詳しく、o3-miniの説明はシンプルです。o3-mini-highの説明は、2つのモデルの中間になります。GPT-4oの説明はo3-miniと同程度です。

歴史に関する知識と説明では、o1が圧倒的に優秀です。o3-miniとo3-mini-highは、日本の歴史に関する知識が足りず、説明が不十分です。GPT-4oの説明は、o3-miniやo3-mini-highよりは詳しいです。

ブログ記事の執筆では、o1の記事が最も詳しく、文章も長くなっており、o3-miniやo3-mini-highは、よりシンプルな内容になっています。GPT-4oの記事は、o3-miniと同じくらいのレベルです。

日本文学の理解では、読書感想文の執筆ではo1が優れていました。o1は、何かを分析して解説する能力が高いようです。また、有名作家の文体の真似では、o3-miniの書いた文章の表現力が優れていました。GPT-4oの日本文学の理解は、o3-miniと同じくらいです。

文学的な表現力も、o1が最も優れており、o3-miniやo3-mini-highよりも小説などを書くのに向いているようです。また、一度の指示で長文を出力する場合に、o1が最も長い文章を出力できます。GPT-4oの文学的な表現力は、o3-miniやo3-mini-highよりもすぐれていますが、o1よりは劣っています。また、GPT-4oは一度の指示で長文を出力することはできません。

検索機能の利用では、現在のところ、o1が検索機能を利用できないのに対して、o3-miniとo3-mini-highは検索機能を利用することができ、GPT-4oよりも検索を利用した回答の精度が高いです。ただし、DeepSeekの検索機能を利用した回答は、ChatGPTのモデルよりも遥かに優秀です。

いいなと思ったら応援しよう!