DFlash × DDTree × Luce DFlash:Block Diffusion drafter 點樣俾 RTX 3090 跑 Qwen3.5-27B 跑到 207 tok/s?
2026 年 2 月 z-lab 出咗 DFlash(block diffusion drafter)6× lossless speculative decoding;4 月 Liran Ringel 同 Yaniv Romano 出咗 DDTree,在 DFlash 上面加咗 tree-structured verify,全面 60/60 setting 都提升;Luce-Org 跨咗 GGUF + ggml + 3 個 custom CUDA kernel,俾一部 24 GB RTX 3090 跑 Qwen3.5-27B 跑到 207 tok/s peak、3.43× 加速。今次拆解三個層次:paper 原理、tree verification math、同 consumer GPU 部署實戰。