other推理加速Speculative DecodingLLMDiffusion

DFlash

基于 Block Diffusion 的推测解码加速框架，通过并行生成多个 token 来加速 LLM 推理，相比传统自回归方法有显著提速。

5 views0 stars4/21/2026

基于 Block Diffusion 的推测解码加速框架，通过并行生成多个 token 来加速 LLM 推理，相比传统自回归方法有显著提速。