Back to list
otherLLMinferencelow-memoryoptimizationGPU
AirLLM
在单张 4GB 显存 GPU 上运行 70B 大模型推理!通过分层加载和量化技术,让消费级硬件也能跑超大模型,15.6K Stars。
10 views0 stars4/13/2026
在单张 4GB 显存 GPU 上运行 70B 大模型推理!通过分层加载和量化技术,让消费级硬件也能跑超大模型,15.6K Stars。
在单张 4GB 显存 GPU 上运行 70B 大模型推理!通过分层加载和量化技术,让消费级硬件也能跑超大模型,15.6K Stars。
在单张 4GB 显存 GPU 上运行 70B 大模型推理!通过分层加载和量化技术,让消费级硬件也能跑超大模型,15.6K Stars。