PromptForge
Back to list
otherLLMinferencelow-memoryoptimizationGPU

AirLLM

在单张 4GB 显存 GPU 上运行 70B 大模型推理!通过分层加载和量化技术,让消费级硬件也能跑超大模型,15.6K Stars。

9 views0 stars4/13/2026

在单张 4GB 显存 GPU 上运行 70B 大模型推理!通过分层加载和量化技术,让消费级硬件也能跑超大模型,15.6K Stars。