🦥Unsloth-Dokumentation

Trainiere dein eigenes Modell mit Unsloth, einem Open-Source-Framework für LLM-Finetuning und Reinforcement Learning.

Bei Unsloth ist es unsere Mission, KI so genau und zugänglich wie möglich zu machen. Trainieren und deployen Sie DeepSeek, gpt-oss, Llama, TTS, Qwen, Gemma-LLMs 2x schneller mit 70% weniger VRAM.

Unsere Dokumentation führt Sie durch das Ausführen und Trainieren Ihres eigenen Modells lokal.

Erste Schritte Unser GitHub

Qwen3.5

Das neue Qwen3.5-Modell ist jetzt verfügbar!

Schnelleres MoE ist da!

Trainieren Sie MoE-LLMs 12x schneller mit weniger VRAM.

Claude Code & Codex

Lernen Sie, lokale LLMs über Claude & OpenAI zu betreiben.

Qwen3-Coder-Next

Führen Sie das neue 80B-Codierungsmodell aus und passen Sie es fein an.

GLM-5

Führen Sie das neue SOTA Open-Modell aus.

MiniMax-2.5

Führen Sie das leistungsstarke 230B-Modell aus.

🧬Fine-tuning Guide 📒Unsloth-Notebooks

🔮All Our Models 🚀LLM Tutorials Directory

🦥 Warum Unsloth?

Wir arbeiten direkt mit den Teams hinter gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 und Phi-4, wo wir kritische Fehler behoben haben die die Modellgenauigkeit stark verbessert haben.
Unsloth rationalisiert lokales Training, Evaluierung und Deployment mit Ollama, llama.cpp und vLLM.
Unsloth unterstützt das Training von über 500 Modellen: Vision, TTS, Embedding, RL während es anpassbar bleibt mit flexiblen Chat-Vorlagen, Datensatzformatierung und sofort nutzbaren Notebooks.

⭐ Hauptmerkmale

Unterstützt Full-Finetuning, Pretraining, 4-Bit-, 16-Bit- und 8-Bit-Training.
Unterstützt alle Modelltypen: TTS, Embedding, multimodal, und mehr.
Effizienteste Reinforcement-Learning Bibliothek, die 80% weniger VRAM verwendet. Unterstützt GRPO, GSPO usw.
0% Genauigkeitsverlust - keine Quantisierungs- oder Approximationsmethoden - alles exakt.
MultiGPU funktioniert bereits, aber eine deutlich bessere Version kommt!

Schnellstart

Unsloth unterstützt Linux, Windows, NVIDIA, AMD & Intel. Siehe: Unsloth-Anforderungen

Lokal mit pip installieren (empfohlen) für Linux- oder WSL-Geräte:

pip install unsloth

Verwenden Sie unser offizielles Docker-Image: unsloth/unsloth. Lesen Sie unseren Docker-Leitfaden.

Für Windows-Installationsanweisungen siehe hier.

📥Installation

Neue Modelle

Kimi K2.5

GLM-4.7-Flash

DeepSeek OCR 2

Was ist Fine-Tuning und RL? Warum?

Fine-Tuning ein LLM passt sein Verhalten an, verbessert domänenspezifisches Wissen und optimiert die Leistung für bestimmte Aufgaben. Durch Feinabstimmung eines vortrainierten Modells (z. B. Llama-3.1-8B) an einem Datensatz können Sie:

Wissen aktualisieren: Neue domänenspezifische Informationen einführen.
Verhalten anpassen: Den Ton, die Persönlichkeit oder den Antwortstil des Modells anpassen.
Für Aufgaben optimieren: Genauigkeit und Relevanz für bestimmte Anwendungsfälle verbessern.

Reinforcement Learning (RL) ist, wenn ein „Agent“ durch Interaktion mit einer Umgebung Entscheidungen lernt zu treffen und Feedback in Form von Belohnungen oder Bestrafungen.

Aktion: Was das Modell generiert (z. B. einen Satz).
Belohnung: Ein Signal, das anzeigt, wie gut oder schlecht die Aktion des Modells war (z. B. hat die Antwort die Anweisungen befolgt? War sie hilfreich?).
Umgebung: Das Szenario oder die Aufgabe, an der das Modell arbeitet (z. B. Beantwortung einer Benutzerfrage).

Beispiele für Fine-Tuning- oder RL-Anwendungsfälle:

Ermöglicht LLMs vorherzusagen, ob eine Schlagzeile sich positiv oder negativ auf ein Unternehmen auswirkt.
Kann historische Kundeninteraktionen für genauere und individuellere Antworten verwenden.
Feinabstimmung von LLMs auf Rechtstexte für Vertragsanalyse, Rechtsprechungsrecherche und Compliance.

Man kann ein feinabgestimmtes Modell als einen spezialisierten Agenten betrachten, der bestimmte Aufgaben effektiver und effizienter erledigt. Feinabstimmung kann alle Fähigkeiten von RAG reproduzieren, aber nicht umgekehrt.

🤔FAQ + Ist Finetuning das Richtige für mich?🖥️Inference & Deployment

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs