PromptForge
Back to list
otherLLM推理推测解码扩散模型性能优化

DFlash

DFlash 是一种基于块扩散(Block Diffusion)的闪电推测解码方法,可以显著加速LLM推理速度。与传统自回归推测解码不同,DFlash使用扩散模型并行生成多个token块,实现更高效的推理加速。

5 views0 stars4/19/2026

DFlash 是一种基于块扩散(Block Diffusion)的闪电推测解码方法,可以显著加速LLM推理速度。与传统自回归推测解码不同,DFlash使用扩散模型并行生成多个token块,实现更高效的推理加速。