🦥Unsloth ドキュメント

Unsloth を使用して独自のモデルをトレーニングしましょう。Unsloth は LLM のファインチューニングと強化学習のためのオープンソースフレームワークです。

Unslothの使命は、AIを可能な限り高精度かつ利用しやすくすることです。DeepSeek、gpt-oss、Llama、TTS、Qwen、GemmaなどのLLMを、VRAMを70%節約しつつ2倍速でトレーニングおよびデプロイできます。

ドキュメントでは、ローカルで独自モデルを実行およびトレーニングする方法を案内します。

始める 私たちのGitHub

🦥 なぜUnsloth?

  • 私たちは以下のチームと直接協力しています gpt-ossarrow-up-right, Qwen3arrow-up-right, Llama 4arrow-up-right, Mistral, Gemma 1–3arrow-up-right そして Phi-4arrow-up-right、そこで私たちは 重大なバグを修正し モデルの精度を大幅に向上させました。

  • UnslothはOllama、llama.cpp、vLLMを使ってローカルトレーニング、評価、デプロイを効率化します。

  • Unslothは500以上のモデルのトレーニングをサポートします: vision, TTS, embedding, RL さらに、柔軟なチャットテンプレート、データセットのフォーマット、使えるノートブックでカスタマイズ可能です。

⭐ 主な機能

  • サポート: フルファインチューニング、事前学習、4ビット、16ビット、8ビットでのトレーニングをサポート。

  • サポート: あらゆる種類のモデル: TTS、arrow-up-right embedding, マルチモーダル、その他多数。

  • 最も効率的な 強化学習 ライブラリで、VRAMを80%削減します。GRPO、GSPOなどをサポート。

  • 精度の損失0% — 量子化や近似手法は使用せず、すべて正確です。

  • マルチGPU 既に動作しますが、より良いバージョンが来ます!

クイックスタート

UnslothはLinux、 Windows, NVIDIA、 AMD & Intelをサポートします。参照: Unsloth の要件

ローカルにpipでインストール(推奨) LinuxまたはWSLデバイス向け:

公式の Dockerイメージを使用: unsloth/unsloth。私たちの Dockerガイドをお読みください.

Windowsのインストール手順については、以下を参照してください ここ.

新しいモデル

ファインチューニングとRLとは?なぜ行うのか?

ファインチューニング LLMは その振る舞いをカスタマイズし、ドメイン知識を強化し、特定のタスクに対する性能を最適化します。事前学習済みモデル(例:Llama-3.1-8B)をデータセットでファインチューニングすることで、以下が可能になります:

  • 知識の更新:新しいドメイン固有の情報を導入します。

  • 振る舞いのカスタマイズ:モデルの口調、性格、応答スタイルを調整します。

  • タスクの最適化:特定のユースケースに対する精度と関連性を向上させます。

強化学習(RL) とは、エージェントが環境と相互作用し、 フィードバック の形で 報酬ペナルティ.

  • を受け取りながら意思決定を学ぶ手法です。 アクション:

  • モデルが生成するもの(例:文)。 報酬:

  • モデルの行動がどれほど良かったか悪かったかを示す信号(例:応答が指示に従っているか、役に立ったか)。 環境:

モデルが取り組むシナリオやタスク(例:ユーザーの質問に答えること)。:

  • ファインチューニングやRLの利用例

  • ヘッドラインが企業にとってプラスかマイナスかをLLMに予測させることができます。

  • 過去の顧客とのやり取りを利用して、より正確でカスタマイズされた応答が可能になります。

契約分析、判例調査、コンプライアンスのために法的文書でLLMをファインチューニングします。 ファインチューニングされたモデルは、特定のタスクをより効果的かつ効率的に行うために設計された専門のエージェントと考えることができます。ファインチューニングはRAGの能力をすべて再現できますが、その逆はできません。

最終更新

役に立ちましたか?