Back to list
otherLLMinferencespeculative-decodingdiffusionacceleration
DFlash
基于Block Diffusion的Flash推测解码框架,显著加速LLM推理速度。将扩散模型的并行生成能力引入自回归语言模型解码过程。
13 views0 stars4/10/2026
基于Block Diffusion的Flash推测解码框架,显著加速LLM推理速度。将扩散模型的并行生成能力引入自回归语言模型解码过程。
基于Block Diffusion的Flash推测解码框架,显著加速LLM推理速度。将扩散模型的并行生成能力引入自回归语言模型解码过程。
基于Block Diffusion的Flash推测解码框架,显著加速LLM推理速度。将扩散模型的并行生成能力引入自回归语言模型解码过程。