主页 > 人工智能 >

大模型实战营Day5笔记

人工智能
2025-08-05 17:06:02

大模型部署背景大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程，使模型能够接收输入并返回预测结果。大模型的内存开销巨大，7B模型仅权重需要14G内存。另外大模型是自回归生成，需要缓存Attention的 k/v。

LMDeploy 简介如下：

推理性能如图所示：

核心功能-量化量化可以大大降低显存，同时提升推理速度。LLM 是典型的访存密集型任务

Weight Only 量化：

核心功能——推理引擎 TurboMind 主要包括四个部分：1. 持续批处理；2. 有状态的推理； 3. Blocked k/v cache； 4. 高性能 cuda kernel。

1. 持续批处理

2. 有状态的推理 3. Blocked K/V Cache

4. Cuda Kernel （算子融合可以有效减少访存次数）

核心功能-推理服务 api server如图所示：

标签：

大模型实战营Day5笔记由讯客互联人工智能栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“大模型实战营Day5笔记”

上一篇
【BBuf的CUDA笔记】十三，OpenAITriton入门

下一篇
表单的总数据为什么可以写成一个空对象，不用具体的写表单中绑定