otherinferencespeculative-decodingdiffusionaccelerationpython

DFlash

基于Block Diffusion的快速投机解码框架，用扩散模型加速LLM推理，显著提升生成速度。来自z-lab的最新研究成果。

14 views0 stars4/10/2026

基于Block Diffusion的快速投机解码框架，用扩散模型加速LLM推理，显著提升生成速度。来自z-lab的最新研究成果。