PromptForge
Back to list
otherLLM推理加速Speculative Decoding开源

DFlash

Block Diffusion 推测解码加速框架,通过轻量级扩散模型实现 LLM 并行草稿生成,支持 Qwen、Llama、GPT-OSS 等主流模型,在 vLLM/SGLang/MLX 多后端可用

6 views0 stars4/19/2026

Block Diffusion 推测解码加速框架,通过轻量级扩散模型实现 LLM 并行草稿生成,支持 Qwen、Llama、GPT-OSS 等主流模型,在 vLLM/SGLang/MLX 多后端可用