🦥Unsloth 文档

使用 Unsloth 来训练您自己的模型，Unsloth 是一个用于大模型微调和强化学习的开源框架。

在 Unsloth，我们的使命是让人工智能尽可能准确且可访问。以 70% 更少的显存训练并部署 DeepSeek、gpt-oss、Llama、TTS、Qwen、Gemma 等大型语言模型，速度提升 2 倍。

我们的文档将引导您在本地运行和训练您自己的模型。

开始使用我们的 GitHub

Cover

Qwen3.5

全新的 Qwen3.5 模型现已发布！

Cover

更快的 MoE 到来了！

以更少的显存将 MoE 大模型训练速度提高 12 倍。

Cover

Claude Code 与 Codex

学习通过 Claude 与 OpenAI 在本地运行大型语言模型。

Cover

Qwen3-Coder-Next

运行并微调新的 80B 代码模型。

Cover

GLM-5

运行新的 SOTA 开源模型。

Cover

MiniMax-2.5

运行强大的 230B 模型。

🧬Fine-tuning Guide 📒Unsloth 笔记本

🔮All Our Models 🚀LLM Tutorials Directory

🦥 为什么选择 Unsloth？

我们直接与以下团队合作， gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 以及 Phi-4，在这些项目中我们已经 修复了关键错误， 显著提升了模型的准确性。
Unsloth 通过 Ollama、llama.cpp 和 vLLM 简化了本地训练、评估和部署流程。
Unsloth 支持 500 多种模型的训练：视觉, 语音合成 (TTS), 嵌入, 强化学习 (RL) 同时仍可通过灵活的对话模板、数据集格式化和现成笔记本进行自定义。

⭐ 主要功能

快速入门

Unsloth 支持 Linux， Windows, NVIDIA， AMD & Intel。参见： Unsloth 要求

在本地使用 pip 安装（推荐） 适用于 Linux 或 WSL 设备：

使用我们的官方 Docker 镜像: unsloth/unsloth。阅读我们的 Docker 指南.

有关 Windows 的安装说明，请参见此处.

📥Installation

新模型

Cover

Kimi K2.5

Cover

GLM-4.7-Flash

Cover

DeepSeek OCR 2

什么是微调与强化学习？为什么需要？

微调大型语言模型 (LLM) 可定制其行为、增强领域知识并针对特定任务优化性能。通过在数据集上对预训练模型（例如 Llama-3.1-8B）进行微调，您可以：

更新知识：引入新的领域特定信息。
定制行为：调整模型的语气、个性或回复风格。
为任务优化：提高特定用例的准确性和相关性。

强化学习（RL） 是指“智能体”通过与环境交互并接收反馈（以奖励或惩罚.

的形式）来学习做出决策。 动作：
模型生成的内容（例如一句话）。 奖励：
表示模型动作好坏的信号（例如：回复是否遵循指令？是否有用？）。 环境：

模型正在处理的情境或任务（例如回答用户问题）。:

微调或强化学习的示例用例
使 LLM 能预测某个标题对公司是正面还是负面影响。
可以使用历史客户互动以获得更准确和定制化的回复。

对法律文本微调 LLM 以进行合同分析、判例研究和合规性审查。 您可以把微调后的模型看作是为更有效率地完成特定任务而设计的专业化智能体。微调可以复刻 RAG 的所有能力，反之则不然。

🤔常见问题 + 微调是否适合我？🖥️推理与部署

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs

下一页Beginner? Start here!

最后更新于17小时前

这有帮助吗？