Back to list
otherLLM推理推测解码扩散模型性能优化
DFlash
DFlash 是一种基于块扩散(Block Diffusion)的闪电推测解码方法,可以显著加速LLM推理速度。与传统自回归推测解码不同,DFlash使用扩散模型并行生成多个token块,实现更高效的推理加速。
6 views0 stars4/19/2026
DFlash 是一种基于块扩散(Block Diffusion)的闪电推测解码方法,可以显著加速LLM推理速度。与传统自回归推测解码不同,DFlash使用扩散模型并行生成多个token块,实现更高效的推理加速。