🦥Unsloth-Dokumentation
Trainiere dein eigenes Modell mit Unsloth, einem Open-Source-Framework für LLM-Finetuning und Reinforcement Learning.
Bei Unsloth ist es unsere Mission, KI so genau und zugänglich wie möglich zu machen. Trainieren und deployen Sie DeepSeek, gpt-oss, Llama, TTS, Qwen, Gemma-LLMs 2x schneller mit 70% weniger VRAM.
Unsere Dokumentation führt Sie durch das Ausführen und Trainieren Ihres eigenen Modells lokal.
🦥 Warum Unsloth?
Unsloth rationalisiert lokales Training, Evaluierung und Deployment mit Ollama, llama.cpp und vLLM.
⭐ Hauptmerkmale
Unterstützt Full-Finetuning, Pretraining, 4-Bit-, 16-Bit- und 8-Bit-Training.
Unterstützt alle Modelltypen: TTS, Embedding, multimodal, und mehr.
Effizienteste Reinforcement-Learning Bibliothek, die 80% weniger VRAM verwendet. Unterstützt GRPO, GSPO usw.
0% Genauigkeitsverlust - keine Quantisierungs- oder Approximationsmethoden - alles exakt.
MultiGPU funktioniert bereits, aber eine deutlich bessere Version kommt!
Schnellstart
Unsloth unterstützt Linux, Windows, NVIDIA, AMD & Intel. Siehe: Unsloth-Anforderungen
Lokal mit pip installieren (empfohlen) für Linux- oder WSL-Geräte:
Verwenden Sie unser offizielles Docker-Image: unsloth/unsloth. Lesen Sie unseren Docker-Leitfaden.
Für Windows-Installationsanweisungen siehe hier.
Neue Modelle
Was ist Fine-Tuning und RL? Warum?
Fine-Tuning ein LLM passt sein Verhalten an, verbessert domänenspezifisches Wissen und optimiert die Leistung für bestimmte Aufgaben. Durch Feinabstimmung eines vortrainierten Modells (z. B. Llama-3.1-8B) an einem Datensatz können Sie:
Wissen aktualisieren: Neue domänenspezifische Informationen einführen.
Verhalten anpassen: Den Ton, die Persönlichkeit oder den Antwortstil des Modells anpassen.
Für Aufgaben optimieren: Genauigkeit und Relevanz für bestimmte Anwendungsfälle verbessern.
Reinforcement Learning (RL) ist, wenn ein „Agent“ durch Interaktion mit einer Umgebung Entscheidungen lernt zu treffen und Feedback in Form von Belohnungen oder Bestrafungen.
Aktion: Was das Modell generiert (z. B. einen Satz).
Belohnung: Ein Signal, das anzeigt, wie gut oder schlecht die Aktion des Modells war (z. B. hat die Antwort die Anweisungen befolgt? War sie hilfreich?).
Umgebung: Das Szenario oder die Aufgabe, an der das Modell arbeitet (z. B. Beantwortung einer Benutzerfrage).
Beispiele für Fine-Tuning- oder RL-Anwendungsfälle:
Ermöglicht LLMs vorherzusagen, ob eine Schlagzeile sich positiv oder negativ auf ein Unternehmen auswirkt.
Kann historische Kundeninteraktionen für genauere und individuellere Antworten verwenden.
Feinabstimmung von LLMs auf Rechtstexte für Vertragsanalyse, Rechtsprechungsrecherche und Compliance.
Man kann ein feinabgestimmtes Modell als einen spezialisierten Agenten betrachten, der bestimmte Aufgaben effektiver und effizienter erledigt. Feinabstimmung kann alle Fähigkeiten von RAG reproduzieren, aber nicht umgekehrt.

Zuletzt aktualisiert
War das hilfreich?










