大模型部署文档

vllm部署

1.版本信息

操作系统：linux-ubuntu

python版本：3.9 - 3.12

CUDA版本：12.0

2.配置环境

安装驱动前一定要更新软件列表和安装必要软件、依赖。

sudo apt-get upodate

sudo apt-get instgall g++

sudo apt-get install gcc

sudo apt-get install make

3.1安装CUDA

进入NVIDIA CUDA 版本列表页面，下载最新版本即刻。

https://developer.nvidia.com/cuda-toolkit-archive

进入版本的下载页面，选择对应的操作系统、架构、操作系统、版本，安装方式，就可以看到相应的安装命令

安装conda

可以用wget直接下载下来 wget <url>

https://www.anaconda.com/download/success

下载下来后执行安装程序：bash ~/Anaconda3-20xx.xx-Linux-x86_64.sh

按照提示操作，注意最后一步当安装程序询问你是否需要初始化Anaconda时，输入yes并回车来初始化Anaconda

3.3 创建环境并安装依赖

创建一个基于python3.12的conda环境

conda create --name vllm python=3.11

--name后面的就是环境的名字，这里是vllm。后面的3.12指定了python版本是3.12。

切换到刚创建的虚拟环境中：conda activate vllm

3.4 安装vllm

切换到国内镜像源进行安装

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm

*dify部署*

dify文档里最推荐的是基于Docker部署。所以需要先安装Docker环境。

1.安装docker

docker官网上有各个操作系统的详细安装说明，这里以Ubuntu为例，首先需要更新APT，然后安装Docker官方GPG KEY：

sudo apt-get update

sudo apt-get install ca-certificates curl

sudo install -m 0755 -d /etc/apt/keyrings

sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/ docker.asc

sudo chmod a+r /etc/apt/keyrings/docker.asc

接着，添加官方存储库并更新源数据：

echo \

\"deb [arch=\$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \

\$(. /etc/os-release && echo \"\$VERSION_CODENAME\") stable\" | \

sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

sudo apt-get update

直接安装Docker和docker-compose：

sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

国内环境直接从宝塔社区下载模型,国外从hugging face下载模型

宝塔:https://www.modelscope.cn/home

Hugging face :https://huggingface.co/

这里用的模型是Qwen2.5-14B-Instruct-GPTQ-Int4

vllm serve /home/darius/model/Qwen2.5-14B-Instruct-GPTQ-Int4

vllm默认端口是8000

netstat -ltump 查看8000端口信息

vllm部署大模型成功

2.安装dify

先找一个空文件夹，将dify源码拉取下来：

git clone https://github.com/langgenius/dify.git

如果你的服务器上没有git，可以使用以下命令安装它：

sudo apt-get install git

进入 dify 源代码的 docker 目录，执行一键启动命令：

cd dify/docker

docker compose up -d

如果拉取失败应该更换国内的docker镜像源

sudo nano /etc/docker/daemon.json

\"registry-mirrors\": [

\"https://docker.211678.top",

\"https://docker.1panel.live",

\"https://hub.rat.dev",

\"https://docker.m.daocloud.io",

\"https://do.nark.eu.org",

\"https://dockerpull.com",

\"https://dockerproxy.cn",

\"https://docker.awsl9527.cn"

]

重新加载docker镜像文件和重启docker服务

sudo systemctl daemon-reload

sudo restart docker

再次进行docker镜像拉取

sudo docker compose up -d

检查是否所有容器都正常运行：

docker compose ps

接下来，你便可以通过服务器浏览器访问http://IP:80来访问dify了。

进入后设置管理员账户

点击右上角个人头像-设置

在设置里找到模型供应商找到OpenAI-API-compatible

填写好信息后点击保存

注意API要加上/v1后缀

到此大模型私有化部署完成

附：vllm 常用启动命令参数

--tensor-parallel-size 8: 使用8个GPU进行张量并行计算。

--trust-remote-code 运行的时候信任该模型。

--max-model-len 30000 上下文文本长度。

--gpu-memory-utilization 0.98: GPU内存利用率设置为98%。

--max-model-len 3072: 模型最大输入长度为3072个token。

--max-num-batched-tokens 4096: 批处理最大token数为4096。

--max-num-seqs 16: 最大并发序列数为16。

--port 8000: API服务运行在8000端口。

--swap-space 100: 设置100GB的交换空间。

--enforce-eager: 强制使用eager模式运行。