Ascend笔记
昇腾产品形态
大模型能力
MindFormers
低参微调
AICC实践
LLaMa部署
Ascend 上的 vLLM
310芯片运行LLM
-
+
首页
Ascend 上的 vLLM
# Ascend 上的 vLLM 调研 ## 什么是 vLLM vLLM 是一个快速且易于使用的 LLM 推理和服务库,具有先进的服务吞吐量、高效的 PagedAttention 内存管理、连续批处理请求、CUDA/HIP 图的快速模型执行、量化技术(如 GPTQ、AWQ、SqueezeLLM、FP8 KV Cache)以及优化的 CUDA 内核。 ## Ascend 支持 vLLM 吗 > [本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程,利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾*Snt9B硬件*,为用户提供推理部署方案,帮助用户使能大模型业务。本方案目前*仅适用于部分企业客户*,完成本方案的部署,需要先联系您所在企业的华为方技术支持。](https://support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1962.html) > 本文档中的模型运行环境是ModelArts Standard。资源规格需要使用*专属资源池中的昇腾Snt9B资源*,请参考创建资源池购买资源。 可见目前(2024/10/24)vLLM在昇腾设备上仍然处于受限的支持状态。
zhangyuheng
2024年10月24日 10:52
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码