💜Qwen3.5 - ローカルで実行する方法

Medium の Qwen3.5-35B-A3B、27B、122B-A10B、Small の Qwen3.5-0.8B、2B、4B、9B、397B-A17B を含む新しい Qwen3.5 LLM を自分のローカルデバイスで実行しましょう！

Qwen3.5 は Alibaba の新しいモデルファミリーで、Qwen3.5- を含みます35B-A3B、 27B, 122B-A10B と 397B-A17B、そして新しい Small シリーズ: Qwen3.5-0.8B、2B、4B、9B。マルチモーダルなハイブリッド推論 LLM は、そのサイズ帯で最も強力な性能を発揮します。これらは 256K コンテキスト を 201 言語でサポートし、 thinking + non-thinking を備え、エージェント型コーディング、ビジョン、チャット、長文コンテキストのタスクに優れています。35B と 27B モデルは 22GB の Mac / RAM デバイスで動作します。すべての GGUF はここ.

Qwen3.5 チュートリアルを実行 Qwen3.5 をファインチューニング

3 月 17 日更新: Qwen3.5 を Unsloth Studio.

3 月 5 日更新: Qwen3.5- を再ダウンロード35B, 27B, 122B および 397B.

すべての GGUF は現在、 改善された量子化 アルゴリズムで更新されています。
すべて 新しい imatrix データを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースでの改善をご覧ください。
ツール呼び出しが改善 されました。これは私たちのチャットテンプレート修正に続くものです。 修正は普遍的 であり、 あらゆる Qwen3.5 形式と あらゆる アップローダーに適用されます。
新しい GGUF ベンチマークを確認 して、Unsloth の性能結果と私たちの MXFP4 調査.
3 つの Qwen3.5 GGUF から MXFP4 レイヤーを廃止します: Q2_K_XL、Q3_K_XL、Q4_K_XL。

すべてのアップロードは Unsloth Dynamic 2.0 を使用しており、SOTA の量子化性能を実現しています - そのため 4-bit では重要なレイヤーが 8 または 16-bit にアップキャストされています。Unsloth にデイゼロアクセスを提供してくれた Qwen に感謝します。また、 ファインチューニング Qwen3.5 を Unsloth で行うこともできます。

thinking を有効または無効にするには、 Qwen3.5.Qwen3.5 Small モデルはデフォルトで無効です。

⚙️ 使用ガイド

表: 推論ハードウェア要件 （単位 = 合計メモリ: RAM + VRAM、またはユニファイドメモリ）

Qwen3.5

3-bit

4-bit

6-bit

8-bit

BF16

0.8B + 2B

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

27B

14 GB

17 GB

24 GB

30 GB

54 GB

35B-A3B

17 GB

22 GB

30 GB

38 GB

70 GB

122B-A10B

60 GB

70 GB

106 GB

132 GB

245 GB

397B-A17B

180 GB

214 GB

340 GB

512 GB

810 GB

最高の性能を得るには、利用可能な総メモリ（VRAM + システム RAM）が、ダウンロードする量子化モデルファイルのサイズを上回っていることを確認してください。上回っていなくても llama.cpp は SSD/HDD オフロード経由で実行できますが、推論は遅くなります。

次の間では 27B および 35B-A3B、デバイスに収まらないが少しでも正確な結果が欲しいなら 27B を使ってください。はるかに高速な推論が欲しいなら 35B-A3B を選んでください。

推奨設定

最大コンテキストウィンドウ: 262,144 （YaRN により 1M まで拡張可能）
presence_penalty = 0.0 から 2.0 デフォルトではこれはオフですが、繰り返しを減らすために使用できます。ただし高い値を使うと、 わずかな性能低下
適切な出力長: 32,768 ほとんどの問い合わせに対するトークン数

意味不明な出力が出る場合、コンテキスト長が低すぎる可能性があります。あるいは --cache-type-k bf16 --cache-type-v bf16 を試してください。役立つかもしれません。

Qwen3.5 はハイブリッド推論であるため、thinking モードと non-thinking モードでは設定が異なります:

Thinking モード:

一般タスク

正確性が求められるコーディングタスク（例: WebDev）

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_k = 20

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat penalty = 無効または 1.0

一般タスク向け Thinking モード:

一般タスク向け Thinking モード: temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

正確性が求められるコーディングタスク向け Thinking モード:

正確性が求められるコーディングタスク向け Thinking モード: temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

Instruct（non-thinking）モードの設定:

一般タスク

推論タスク

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

min_p = 0.0

presence_penalty = 1.5

repeat penalty = 無効または 1.0

〜するには thinking / reasoning を無効化、次を使用します --chat-template-kwargs '{"enable_thinking":false}'

もし Windows Powershell を使っているなら、次を使用してください: --chat-template-kwargs "{\"enable_thinking\":false}"

'true' と 'false' は入れ替えて使えます。

Qwen3.5 0.8B、2B、4B、9B では、reasoning はデフォルトで無効です。有効にするには、次を使用します: --chat-template-kwargs '{"enable_thinking":true}'

一般タスク向け Instruct（non-thinking）:

一般タスク向け Instruct（non-thinking）: temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

推論タスク向け Instruct（non-thinking）:

一般タスク向け Thinking モード: temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

Qwen3.5 推論チュートリアル:

Qwen3.5 にはさまざまなサイズがあるため、すべての推論ワークロードに Dynamic 4-bit MXFP4_MOE GGUF バリアントを使用します。下をクリックして、指定されたモデルの手順に移動してください:

Unsloth Studio で実行 Qwen3.5-35B-A3B 27B 122B-A10B 397B-A17B Small（0.8B - 9B）

Unsloth Dynamic GGUF アップロード:

Qwen3.5-35B-A3B

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

presence_penalty = 0.0 から 2.0 デフォルトではこれはオフですが、繰り返しを減らすために使用できます。ただし高い値を使うと、 わずかな性能低下。

現在、Qwen3.5 GGUF は分離された mmproj ビジョンファイルのため Ollama では動作しません。llama.cpp 互換バックエンドを使用してください。

🦥 Unsloth Studio ガイド

Qwen3.5 は Unsloth Studioで実行およびファインチューニングできます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio では、モデルを MacOS、Windows、Linux 上でローカル実行でき、さらに次のことができます:

検索、ダウンロード、 GGUF を実行および safetensor モデル
自己修復型 ツール呼び出し + Web 検索
コード実行 （Python、Bash）
自動推論パラメータ調整（temp、top-p など）
llama.cpp による高速 CPU + GPU 推論
LLM を学習 70% 少ない VRAM で 2 倍高速

Unsloth をインストール

ターミナルで次を実行:

MacOS、Linux、WSL:

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex

インストールは迅速で、およそ 1〜2 分かかります。

Unsloth を起動

MacOS、Linux、WSL、および Windows:

unsloth studio -H 0.0.0.0 -p 8888

次に http://localhost:8888 をブラウザで開いてください。

Qwen3.5 を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ短いオンボーディングウィザードが表示されます。いつでもスキップできます。

次に Studio Chat タブに移動し、検索バーで Qwen3.5 を検索して、希望するモデルと量子化版をダウンロードしてください。

Qwen3.5 を実行

Unsloth Studio を使用する場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細については、私たちの Unsloth Studio 推論ガイド.

🦙 Llama.cpp ガイド

Qwen3.5-35B-A3B

このガイドでは、高速推論のために 24GB RAM / Mac デバイスで非常にうまく動作する Dynamic 4-bit を使用します。モデルは完全な F16 精度でも約 72GB 程度なので、性能をそれほど心配する必要はありません。GGUF: Qwen3.5-35B-A3B-GGUF

これらのチュートリアルでは、 llama.cpp を高速なローカル推論のために使用します。特に CPU をお持ちの場合に有効です。

最新の llama.cpp を ここ GitHub で入手。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論のみを行いたい場合です。 Apple Mac / Metal デバイス向け、設定を -DGGML_CUDA=OFF してから通常どおり続けてください - Metal サポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

モデルを読み込むために llama.cpp を直接使いたい場合は、以下のようにできます: (:Q4_K_M) は量子化タイプです。Hugging Face（ポイント 3）経由でもダウンロードできます。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使うと、 llama.cpp が特定の場所に保存するよう強制できます。モデルの最大コンテキスト長は 256K です。

用途に応じて、以下の特定コマンドのいずれかに従ってください:

Thinking モード:

正確性が求められるコーディングタスク（例: WebDev）:

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

一般タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Non-thinking モード:

一般タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

推論タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

（インストール後に）モデルを経由してダウンロード pip install huggingface_hub hf_transfer ）。Q4_K_M や、 UD-Q4_K_XL のような他の量子化版を選べます。サイズと精度のバランスを取るため、少なくとも 2-bit dynamic quant の UD-Q2_K_XL の使用を推奨します。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XET のデバッグ

hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*mmproj-F16*" \
    --include "*UD-Q4_K_XL*" # Dynamic 2bit には "*UD-Q2_K_XL*" を使用

次に会話モードでモデルを実行します:

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-35B-A3B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5 Small（0.8B • 2B • 4B • 9B）

Qwen3.5 0.8B、2B、4B、9B では、 reasoning は無効 がデフォルトです。有効にするには、次を使用します: --chat-template-kwargs '{"enable_thinking":true}'

Windows では次を使用してください: --chat-template-kwargs "{\"enable_thinking\":true}"

Qwen3.5 Small シリーズは非常に小さいため、必要なのはスクリプト内のモデル名を希望するバリアントに変更することだけです。この特定のガイドでは 9B パラメータ版を使用します。これらすべてをほぼフル精度で実行するには、12GB の RAM / VRAM / ユニファイドメモリを備えたデバイスがあれば十分です。GGUF:

最新の llama.cpp を ここ GitHub で入手。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論のみを行いたい場合です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

モデルを読み込むために llama.cpp モデルを読み込むために ollama run に似ています。 export LLAMA_CACHE="folder" を使うと、 llama.cpp が特定の場所に保存するよう強制できます。モデルの最大コンテキスト長は 256K です。

用途に応じて、以下の特定コマンドのいずれかに従ってください:

9B 以外の別バリアントを使うには、'9B' を 0.8B、2B、4B などに変更できます。

Thinking モード（デフォルトでは無効）

Qwen3.5 Small モデルはデフォルトで thinking を無効にしています。有効にするには llama-server を使ってください。

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

一般タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

9B 以外の別バリアントを使うには、'9B' を 0.8B、2B、4B などに変更できます。

Non-thinking モードはすでにデフォルトで有効です

一般タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00

推論タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

hf download unsloth/Qwen3.5-9B-GGUF \
    --local-dir unsloth/Qwen3.5-9B-GGUF \
    --include "*mmproj-F16*" \
    --include "*UD-Q4_K_XL*" # Dynamic 2bit には "*UD-Q2_K_XL*" を使用

次に会話モードでモデルを実行します:

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-9B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5-27B

このガイドでは、高速推論のために 18GB RAM / Mac デバイスで非常にうまく動作する Dynamic 4-bit を使用します。GGUF: Qwen3.5-27B-GGUF

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

用途に応じて、以下の特定コマンドのいずれかに従ってください:

Thinking モード:

正確性が求められるコーディングタスク（例: WebDev）:

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

一般タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Non-thinking モード:

一般タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

推論タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

（インストール後に）モデルを経由してダウンロード pip install huggingface_hub hf_transfer ）。次を選べます MXFP4_MOE または、次のような他の量子化版 UD-Q4_K_XL のような他の量子化版を選べます。サイズと精度のバランスを取るため、少なくとも 2-bit dynamic quant の UD-Q2_K_XL の使用を推奨します。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XET のデバッグ

hf download unsloth/Qwen3.5-27B-GGUF \
    --local-dir unsloth/Qwen3.5-27B-GGUF \
    --include "*mmproj-F16*" \
    --include "*UD-Q4_K_XL*" # Dynamic 2bit には "*UD-Q2_K_XL*" を使用

次に会話モードでモデルを実行します:

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-27B-GGUF/Qwen3.5-27B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-27B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5-122B-A10B

このガイドでは、高速推論のために 70GB RAM / Mac デバイスで非常にうまく動作する Dynamic 4-bit を使用します。GGUF: Qwen3.5-122B-A10B-GGUF

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

用途に応じて、以下の特定コマンドのいずれかに従ってください:

Thinking モード:

正確性が求められるコーディングタスク（例: WebDev）:

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

一般タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Non-thinking モード:

一般タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

推論タスク:

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

（インストール後に）モデルを経由してダウンロード pip install huggingface_hub hf_transfer ）。次を選べます MXFP4_MOE （dynamic 4bit）または、次のような他の量子化版 UD-Q4_K_XL のような他の量子化版を選べます。サイズと精度のバランスを取るため、少なくとも 2-bit dynamic quant の UD-Q2_K_XL の使用を推奨します。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XET のデバッグ

hf download unsloth/Qwen3.5-122B-A10B-GGUF \
    --local-dir unsloth/Qwen3.5-122B-A10B-GGUF \
    --include "*mmproj-F16*" \
    --include "*UD-Q4_K_XL*" # Dynamic 2bit には "*UD-Q2_K_XL*" を使用

次に会話モードでモデルを実行します:

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-122B-A10B-GGUF/UD-Q4_K_XL/Qwen3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf \
    --mmproj unsloth/Qwen3.5-122B-A10B-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B は、Gemini 3 Pro、Claude Opus 4.5、GPT-5.2 と同じ性能帯にあります。完全な 397B チェックポイントはディスク上で約 807GB ですが、 Unsloth の 397B GGUF を通じて、次を実行できます:

3-bit: 次に収まります 192GB RAM システム（例: 192GB Mac）
4-bit（MXFP4）: 次に収まります 256GB RAM。Unsloth の 4-bit dynamic UD-Q4_K_XL は ディスク上で約 214GB です - 256GB M3 Ultra
に直接読み込めます 単一の 24GB GPU + 256GB システム RAM で実行可能 MoE オフロード経由で、 25+ tokens/s
8-bit には 約 512GB RAM/VRAM

が必要です。 397B 量子化ベンチマークで Unsloth GGUF の性能をご確認ください。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

モデルを読み込むために llama.cpp を直接使いたい場合は、以下のようにできます: (:Q4_K_M) は量子化タイプです。Hugging Face（ポイント 3）経由でもダウンロードできます。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使うと、 llama.cpp が特定の場所に保存するようにします。モデルの最大コンテキスト長は 256K のみであることを忘れないでください。

これに従って thinking モードを使用してください:

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

これに従って non-thinking モードを使用してください:

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

hf download unsloth/Qwen3.5-397B-A17B-GGUF \
    --local-dir unsloth/Qwen3.5-397B-A17B-GGUF \
    --include "*mmproj-F16*" \
    --include "*UD-Q4_K_XL" # Dynamic 2bit には "*UD-Q2_K_XL*" を使用

次を編集できます --threads 32 は CPU スレッド数、 --ctx-size 16384 はコンテキスト長、 --n-gpu-layers 2 は GPU オフロードするレイヤー数です。GPU がメモリ不足になる場合は調整してみてください。CPU のみの推論なら削除してください。

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-397B-A17B-GGUF/UD-Q4_K_XL/Qwen3.5-397B-A17B-UD-Q4_K_XL-00001-of-00006.gguf \
    --mmproj unsloth/Qwen3.5-397B-A17B-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

👾 LM Studio ガイド

このガイドでは、 LM Studioを使用します。これは LLM を実行するための統合 UI インターフェースです。'💡Thinking' と 'Non-thinking' の切り替えはデフォルトでは表示されない場合があるため、動作させるには追加の手順が必要です。

ダウンロード LM Studio をお使いのデバイス向けに行ってください。その後 Model Search を開き、'unsloth/qwen3.5' を検索して、希望する GGUF（量子化版）をダウンロードしてください。

Thinking トグルの手順: ダウンロード後、ターミナル / PowerShell を開いて次を試してください: lms --help。その後、LM Studio が通常どおり多数のコマンドとともに表示されたら、次を実行してください:

lms get unsloth/qwen3.5-4b

これにより、GGUF に '💡Thinking' と 'Non-thinking' のトグルを表示させる yaml ファイルを取得できます。 4b を希望する量子化版に変更できます。

それ以外の場合は、私たちの LM Studio ページに移動して、特定の yaml ファイルをダウンロードできます。

LM Studio を再起動し、ダウンロードしたモデル（ダウンロードした特定の thinking トグル付き）をロードしてください。これで Thinking トグルが有効になっているはずです。正しいパラメータ.

🦙 Llama-server 配信 & OpenAI の completion ライブラリ

本番運用向けに Qwen3.5-397B-A17B をデプロイするには、 llama-server 新しいターミナルで、たとえば tmux 経由で、次のようにモデルをデプロイします:

./llama.cpp/llama-server \
--model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-35B-A3B-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001

次に新しいターミナルで、 pip install openaiを行った後、次を実行します:

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-397B-A17B",
    messages = [{"role": "user", "content": "Snake ゲームを作成してください。"},],
)
print(completion.choices[0].message.content)

🤔 reasoning と thinking を有効または無効にする方法

以下のコマンドでは、'true' と 'false' を入れ替えて使えます。

Unsloth Studio には thinking モデル用の 'Think' トグルが自動的にあります。

LM Studio で Think トグルを使うには、私たちのガイドを読む.

〜するには 無効化 thinking / reasoning するには、llama-server 内で次を使用してください:

    --chat-template-kwargs '{"enable_thinking":false}'

もし Windows または Powershell では、次を使用してください: --chat-template-kwargs "{\"enable_thinking\":false}"

〜するには 有効化 thinking / reasoning するには、llama-server 内で次を使用してください:

    --chat-template-kwargs '{"enable_thinking":true}'

もし Windows または Powershell では、次を使用してください: --chat-template-kwargs "{\"enable_thinking\":true}"

Qwen3.5 0.8B、2B、4B、9B では、reasoning はデフォルトで無効です。有効にするには、次を使用します: --chat-template-kwargs '{"enable_thinking":true}'

また、Windows または Powershell では: --chat-template-kwargs "{\"enable_thinking\":true}"

例として、Qwen3.5-9B で thinking を有効化するには（デフォルトでは無効）:

./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-BF16.gguf \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

そして Python では:

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-9B-GGUF",
    messages = [{"role": "user", "content": "2+2 は何ですか？"},],
)
print(completion.choices[0].message.content)
print(completion.choices[0].message.reasoning_content)

👨‍💻 OpenAI Codex & Claude Code

ローカルのコーディング系エージェント的ワークロードでモデルを実行するには、こちらのガイドに従ってください。あとはモデル名を目的の「Qwen3.5」バリアントに変更し、正しい Qwen3.5 のパラメータと使用手順に従っていることを確認するだけです。 llama-server 先ほど設定したものを使います。

Claude Code

OpenAI Codex

たとえば Claude Code の手順に従うと、次のように表示されます。

それでは、たとえば次のように依頼できます チェスの Python ゲームを作成して :

🔨Qwen3.5 でのツール呼び出し

が必要です。 Tool Calling Guide ツール呼び出しの方法について詳しくは。新しいターミナルで（tmux を使っている場合は CTRL+B+D を押します）、2つの数値の加算、Python コードの実行、Linux 関数の実行など、いくつかのツールを作成します。

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "昔々、はるか彼方の銀河系で...",
        "スロースとコードを愛する2人の友達がいました...",
        "すべてのスロースが超人的な知能を持つように進化したため、世界は終わりを迎えようとしていました...",
        "片方の友達が知らないうちに、もう一方がうっかりスロースを進化させるプログラムを書いていました...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "'rm, sudo, dd, chmod' コマンドは危険なため実行できません"
        print(msg); return msg
    print(f"ターミナルコマンド `{command}` を実行中")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"コマンド失敗: {e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "2つの数値を加算します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "最初の数値。",
                    },
                    "b": {
                        "type": "string",
                        "description": "2番目の数値。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "2つの数値を乗算します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "最初の数値。",
                    },
                    "b": {
                        "type": "string",
                        "description": "2番目の数値。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "2つの数値を減算します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "最初の数値。",
                    },
                    "b": {
                        "type": "string",
                        "description": "2番目の数値。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "ランダムな物語を書きます。",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "ターミナルから操作を実行します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "起動したいコマンド。例: `ls`, `rm`, ...",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "実行される Python コードを指定して Python インタープリタを呼び出します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "実行する Python コード",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

それでは以下の関数（コピーして貼り付けて実行）を使います。これにより関数呼び出しが自動的に解析され、どのモデルでも OpenAI エンドポイントが呼び出されます。

from openai import OpenAI
def unsloth_inference(
    messages,
    temperature = 0.6,
    top_p = 0.95,
    top_k = 20,
    min_p = 0.00,
    repetition_penalty = 1.0,
):
    messages = messages.copy()
    openai_client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
    )
    model_name = next(iter(openai_client.models.list())).id
    print(f"Using model = {model_name}")
    has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"Current messages = {messages}")
        response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
            tool_choice = "auto" if tools else None,
            extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        )
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
            out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
        else:
            has_tool_calls = False
    return messages

Qwen3.5 を起動した後、 llama-server のように Qwen3.5 または Tool Calling Guide を参照すると、さらに詳細を確認でき、その後いくつかのツール呼び出しができます。

📊 ベンチマーク

Unsloth GGUF ベンチマーク

Qwen3.5-35B Unsloth Dynamic quant を更新し、 SOTA である ことを、ほぼすべてのビットで確認しました。150件以上の KL ダイバージェンス・ベンチマークを実施し、合計で 9TB の GGUFを扱いました。研究成果物はすべて公開しています。また、 ツール呼び出し チャットテンプレートのバグ

すべての GGUF は現在、 改善された量子化 アルゴリズムで更新されています。
すべて 新しい imatrix データを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースでの改善をご覧ください。
（すべての quant アップローダーに影響します）も修正しました。Qwen3.5-35B-A3B GGUF は新しい修正を使うよう更新されています（112B、27B はまだ変換中です。更新後に再ダウンロードしてください）
99.9% の KL ダイバージェンスで SOTA を示しています UD-Q4_K_XL、IQ3_XXS などのパレート最前線上で。
MXFP4 を廃止 すべての GGUF quant から: Q2_K_XL、Q3_K_XL、Q4_K_XL。ただし純粋な MXFP4_MOE は除きます。

詳細な QWEN3.5 分析とベンチマークはこちらでご覧ください:

Qwen3.5 GGUF ベンチマーク

Qwen3.5-397B-A17B ベンチマーク

Benjamin Marie（第三者）がベンチマークを実施 Qwen3.5-397B-A17B Unsloth GGUF を使って 750プロンプトの混成スイートで （LiveCodeBench v6、MMLU Pro、GPQA、Math500）、以下の両方を報告しています 全体精度 および 相対誤差増加 （量子化モデルが元のモデルよりどれだけ頻繁にミスをするか）。

主な結果（精度；元からの変化；相対誤差増加）:

元の重み: 81.3%
UD-Q4_K_XL: 80.5% （−0.8ポイント；相対誤差増加 +4.3%）
UD-Q3_K_XL: 80.7% （−0.6ポイント；相対誤差増加 +3.5%）

UD-Q4_K_XL および UD-Q3_K_XL は元のものに非常に近いままで、 精度低下は 1 ポイント未満 このスイートでは、Ben はあなたが メモリ使用量を大幅に削減できる (（約500GB削減）一方で、テストしたタスクでは実用上ほとんど、あるいはまったく損失がないことを示唆しています。

選び方: ここで Q3 のスコアが Q4 よりわずかに高いのは、この規模では通常の実行ごとのばらつきとして十分にあり得ることなので、 Q3 と Q4 は実質的に同程度の品質 としてこのベンチマークでは扱ってください:

選ぶのは Q3 次のような場合です 最小のフットプリント / 最大のメモリ節約
選ぶのは Q4 次のような場合です やや保守的な 選択肢で 同等の 結果がほしい場合

記載されているすべての quant は、私たちの動的手法を利用しています。 UD-IQ2_M も同じ動的手法を使っていますが、変換プロセスは UD-Q2-K-XL とは異なります。K-XL は通常 UD-IQ2_M より大きくても高速なので、そのため UD-IQ2_M のほうがより良い性能を示す場合があります UD-Q2-K-XL.

公式 Qwen ベンチマーク

Qwen3.5-35B-A3B、27B、122B-A10B ベンチマーク

Qwen3.5-4B および 9B ベンチマーク

Qwen3.5-397B-A17B ベンチマーク

前へFine-tune Gemma 4 次へFine-tune Qwen3.5

最終更新 1 か月前

役に立ちましたか？

hashtag⚙️ 使用ガイド

hashtag推奨設定

hashtagThinking モード:

hashtagInstruct（non-thinking）モードの設定:

hashtagQwen3.5 推論チュートリアル:

hashtag🦥 Unsloth Studio ガイド

hashtagUnsloth をインストール

hashtagUnsloth を起動

hashtagQwen3.5 を検索してダウンロード

hashtagQwen3.5 を実行

hashtag🦙 Llama.cpp ガイド

hashtagQwen3.5-35B-A3B

hashtagQwen3.5 Small（0.8B • 2B • 4B • 9B）

hashtagQwen3.5-27B

hashtagQwen3.5-122B-A10B

hashtagQwen3.5-397B-A17B

hashtag👾 LM Studio ガイド

hashtag🦙 Llama-server 配信 & OpenAI の completion ライブラリ

hashtag🤔 reasoning と thinking を有効または無効にする方法

hashtag👨‍💻 OpenAI Codex & Claude Code

hashtag🔨Qwen3.5 でのツール呼び出し

hashtag📊 ベンチマーク

hashtagUnsloth GGUF ベンチマーク

hashtagQwen3.5-397B-A17B ベンチマーク

hashtag公式 Qwen ベンチマーク

hashtagQwen3.5-35B-A3B、27B、122B-A10B ベンチマーク

hashtagQwen3.5-4B および 9B ベンチマーク

hashtagQwen3.5-397B-A17B ベンチマーク

⚙️ 使用ガイド

推奨設定

Thinking モード:

Instruct（non-thinking）モードの設定:

Qwen3.5 推論チュートリアル:

🦥 Unsloth Studio ガイド

Unsloth をインストール

Unsloth を起動

Qwen3.5 を検索してダウンロード

Qwen3.5 を実行

🦙 Llama.cpp ガイド

Qwen3.5-35B-A3B

Qwen3.5 Small（0.8B • 2B • 4B • 9B）

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

👾 LM Studio ガイド

🦙 Llama-server 配信 & OpenAI の completion ライブラリ

🤔 reasoning と thinking を有効または無効にする方法

👨‍💻 OpenAI Codex & Claude Code

🔨Qwen3.5 でのツール呼び出し

📊 ベンチマーク

Unsloth GGUF ベンチマーク

Qwen3.5-397B-A17B ベンチマーク

公式 Qwen ベンチマーク

Qwen3.5-35B-A3B、27B、122B-A10B ベンチマーク

Qwen3.5-4B および 9B ベンチマーク

Qwen3.5-397B-A17B ベンチマーク