通义千问qwen-72b超级对话机器人（deepgpu-llm加速版）_计算巢服务

通义千问是由阿里巴巴集团旗下的阿里云开发的聊天机器人，能够与人交互、回答问题及协作创作。 qwen-72b是国内最大的开源模型，能为用户提供超强的交互能力。

deepgpu-llm是阿里云GPU云服务器专属的LLM加速套件，能够高效榨取GPU算力，提升LLM模型推理性能。阿里云客户可以免费获取和使用。

本文介绍如何基于计算巢快速构建基于DeepGPU-LLM加速的qwen-72b-chat对话机器人。

1 搭建流程

在阿里云官网搜索“计算巢服务”，进入管理控制台，点击“服务市场”并搜索“qwen”找到服务入口（见下图）。

也可以点击下面链接直接进入服务。

确保有机器，如果没有机器可以更换地域。由于qwen-72b模型非常大，限定了大显存GPU机型，受限于库存因素，推荐乌兰察布、日本东京或者韩国首尔等地域。

选择新建VPC，默认即可，无需配置。

如果已有VPC（VPC数量会有限制，无法无限创建），就无需新建VPC，可以直接选择已有VPC。

由于显存限制，单卡GPU只能部署int8量化版本。

系统会自动校验上述参数配置，校验通过后点击下一步。

大概需要5分钟～10分钟左右。

部署完成后，就可以打开webui进行对话了。

参见1.5节设置的账号密码

LLM模型文件较大，模型初始化需要一定时间，请耐心等待（qwen-72b-chat加载和初始化需要大约18分钟）。刷新查看是否初始化完成，若初始化完成，下方红框部分会有具体模型名称显示。

初始化完成后，就可以进行对话了。