otherLLMinferencespeculative-decodingdiffusionacceleration

DFlash

基于Block Diffusion的Flash推测解码框架，显著加速LLM推理速度。将扩散模型的并行生成能力引入自回归语言模型解码过程。

14 views0 stars4/10/2026

基于Block Diffusion的Flash推测解码框架，显著加速LLM推理速度。将扩散模型的并行生成能力引入自回归语言模型解码过程。