PromptForge
Back to list
otherLLM推理加速投机解码扩散模型

DFlash

用于LLM推理加速的块扩散投机解码模型,轻量级设计,支持Qwen3.5、Kimi-K2.5等主流模型,可在vLLM/SGLang上部署,实现2-3倍推理加速。

15 views0 stars4/9/2026

用于LLM推理加速的块扩散投机解码模型,轻量级设计,支持Qwen3.5、Kimi-K2.5等主流模型,可在vLLM/SGLang上部署,实现2-3倍推理加速。