PromptForge
Back to list
otherllminferencespeculative-decodingpython

DFlash

Block Diffusion实现的Flash推测解码加速方案,通过并行生成多个token显著提升LLM推理速度。

6 views0 stars4/16/2026

Block Diffusion实现的Flash推测解码加速方案,通过并行生成多个token显著提升LLM推理速度。