Back to list
otherLLM推理加速投机解码扩散模型
DFlash
用于LLM推理加速的块扩散投机解码模型,轻量级设计,支持Qwen3.5、Kimi-K2.5等主流模型,可在vLLM/SGLang上部署,实现2-3倍推理加速。
16 views0 stars4/9/2026
用于LLM推理加速的块扩散投机解码模型,轻量级设计,支持Qwen3.5、Kimi-K2.5等主流模型,可在vLLM/SGLang上部署,实现2-3倍推理加速。
用于LLM推理加速的块扩散投机解码模型,轻量级设计,支持Qwen3.5、Kimi-K2.5等主流模型,可在vLLM/SGLang上部署,实现2-3倍推理加速。
用于LLM推理加速的块扩散投机解码模型,轻量级设计,支持Qwen3.5、Kimi-K2.5等主流模型,可在vLLM/SGLang上部署,实现2-3倍推理加速。