🦥Unsloth ドキュメント

Unsloth を使用して独自のモデルをトレーニングしましょう。Unsloth は LLM のファインチューニングと強化学習のためのオープンソースフレームワークです。

Unslothの使命は、AIを可能な限り高精度かつ利用しやすくすることです。DeepSeek、gpt-oss、Llama、TTS、Qwen、GemmaなどのLLMを、VRAMを70%節約しつつ2倍速でトレーニングおよびデプロイできます。

ドキュメントでは、ローカルで独自モデルを実行およびトレーニングする方法を案内します。

始める私たちのGitHub

Qwen3.5

新しいQwen3.5モデルが公開されました！

より高速なMoEが登場！

MoE LLMを12倍高速で、より少ないVRAMでトレーニング。

Claude Code & Codex

ClaudeとOpenAIを通じてローカルLLMの実行方法を学ぶ。

Qwen3-Coder-Next

新しい80Bコード向けモデルを実行およびファインチューニング。

GLM-5

新しいSOTAオープンモデルを実行。

MiniMax-2.5

強力な230Bモデルを実行。

🧬Fine-tuning Guide 📒Unsloth ノートブック

🔮All Our Models 🚀LLM Tutorials Directory

🦥 なぜUnsloth？

私たちは以下のチームと直接協力しています gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 そして Phi-4、そこで私たちは 重大なバグを修正し モデルの精度を大幅に向上させました。
UnslothはOllama、llama.cpp、vLLMを使ってローカルトレーニング、評価、デプロイを効率化します。
Unslothは500以上のモデルのトレーニングをサポートします： vision, TTS, embedding, RL さらに、柔軟なチャットテンプレート、データセットのフォーマット、使えるノートブックでカスタマイズ可能です。

⭐ 主な機能

サポート： フルファインチューニング、事前学習、4ビット、16ビット、8ビットでのトレーニングをサポート。
サポート： あらゆる種類のモデル: TTS、 embedding, マルチモーダル、その他多数。
最も効率的な強化学習ライブラリで、VRAMを80%削減します。GRPO、GSPOなどをサポート。
精度の損失0% — 量子化や近似手法は使用せず、すべて正確です。
マルチGPU 既に動作しますが、より良いバージョンが来ます！

クイックスタート

UnslothはLinux、 Windows, NVIDIA、 AMD & Intelをサポートします。参照： Unsloth の要件

ローカルにpipでインストール（推奨） LinuxまたはWSLデバイス向け：

pip install unsloth

公式の Dockerイメージを使用: unsloth/unsloth。私たちの Dockerガイドをお読みください.

Windowsのインストール手順については、以下を参照してくださいここ.

📥Installation

新しいモデル

Kimi K2.5

GLM-4.7-Flash

DeepSeek OCR 2

ファインチューニングとRLとは？なぜ行うのか？

ファインチューニング LLMはその振る舞いをカスタマイズし、ドメイン知識を強化し、特定のタスクに対する性能を最適化します。事前学習済みモデル（例：Llama-3.1-8B）をデータセットでファインチューニングすることで、以下が可能になります：

知識の更新：新しいドメイン固有の情報を導入します。
振る舞いのカスタマイズ：モデルの口調、性格、応答スタイルを調整します。
タスクの最適化：特定のユースケースに対する精度と関連性を向上させます。

強化学習（RL） とは、エージェントが環境と相互作用し、 フィードバック の形で報酬や ペナルティ.

を受け取りながら意思決定を学ぶ手法です。 アクション：
モデルが生成するもの（例：文）。 報酬：
モデルの行動がどれほど良かったか悪かったかを示す信号（例：応答が指示に従っているか、役に立ったか）。 環境：

モデルが取り組むシナリオやタスク（例：ユーザーの質問に答えること）。:

ファインチューニングやRLの利用例
ヘッドラインが企業にとってプラスかマイナスかをLLMに予測させることができます。
過去の顧客とのやり取りを利用して、より正確でカスタマイズされた応答が可能になります。

契約分析、判例調査、コンプライアンスのために法的文書でLLMをファインチューニングします。ファインチューニングされたモデルは、特定のタスクをより効果的かつ効率的に行うために設計された専門のエージェントと考えることができます。ファインチューニングはRAGの能力をすべて再現できますが、その逆はできません。

🤔FAQ + ファインチューニングは私に適しているか？🖥️推論とデプロイ

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs