otherLLM推理加速Speculative Decoding开源

DFlash

Block Diffusion 推测解码加速框架，通过轻量级扩散模型实现 LLM 并行草稿生成，支持 Qwen、Llama、GPT-OSS 等主流模型，在 vLLM/SGLang/MLX 多后端可用

6 views0 stars4/19/2026

Block Diffusion 推测解码加速框架，通过轻量级扩散模型实现 LLM 并行草稿生成，支持 Qwen、Llama、GPT-OSS 等主流模型，在 vLLM/SGLang/MLX 多后端可用