Back to list
other推理加速Speculative DecodingLLMDiffusion
DFlash
基于 Block Diffusion 的推测解码加速框架,通过并行生成多个 token 来加速 LLM 推理,相比传统自回归方法有显著提速。
5 views0 stars4/21/2026
基于 Block Diffusion 的推测解码加速框架,通过并行生成多个 token 来加速 LLM 推理,相比传统自回归方法有显著提速。
基于 Block Diffusion 的推测解码加速框架,通过并行生成多个 token 来加速 LLM 推理,相比传统自回归方法有显著提速。
基于 Block Diffusion 的推测解码加速框架,通过并行生成多个 token 来加速 LLM 推理,相比传统自回归方法有显著提速。