基于deepgpu-llm加速的通义千问qwen对话机器人_计算巢服务

通义千问是由阿里巴巴集团旗下的阿里云开发的聊天机器人，能够与人交互、回答问题及协作创作。

deepgpu-llm是阿里云GPU云服务器专属的LLM加速套件，能够高效榨取GPU算力，提升LLM模型推理性能。阿里云客户可以免费获取和使用。

本文介绍如何基于计算巢快速构建基于DeepGPU-LLM加速的qwen-7b和qwen-14b对话机器人。

1 搭建流程

在阿里云官网搜索“计算巢服务”，进入管理控制台，点击“服务市场”并搜索“qwen”找到服务入口（见下图）。

也可以点击下面链接直接进入服务。

确保有机器，如果没有机器可以更换地域。

选择新建VPC，默认即可，无需配置。

如果已有VPC（VPC数量会有限制，无法无限创建），就无需新建VPC，可以直接选择已有VPC。

总共3个选项：qwen-14b-int8、qwen-7b-float16和qwen-7b-int8，根据需求选择，选择后将自动部署对应的模型和精度。qwen-14b-float16由于所需显存空间较大，无法在单卡机器上部署，暂未提供。

系统会自动校验上述参数配置，校验通过后点击下一步。

大概需要5分钟～10分钟左右。

部署完成后，就可以打开webui进行对话了。

参见1.5节设置的账号密码

LLM模型文件较大，模型初始化需要一定时间，请耐心等待。刷新查看是否初始化完成，若初始化完成，下方红框部分会有具体模型名称显示。

初始化完成后，就可以进行对话了。