vllm部署Qwen3方案
Qwen3概述
多种思考模式
可用户提示或系统消息中添加 /think 和 /no_think 来逐轮切换模型的思考模式
- 思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
- 非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
多语言
119 种语言和方言MCP 支持
Qwen3-30B-A3B
- 一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型
- 需24GB+显存
Qwen3-Embedding & Qwen3-Reranker
Model Type | Models | Size | Layers | Sequence Length | Embedding Dimension | MRL Support | Instruction Aware |
---|---|---|---|---|---|---|---|
Text Embedding | Qwen3-Embedding-0.6B | 0.6B | 28 | 32K | 1024 | Yes | Yes |
Text Embedding | Qwen3-Embedding-4B | 4B | 36 | 32K | 2560 | Yes | Yes |
Text Embedding | Qwen3-Embedding-8B | 8B | 36 | 32K | 4096 | Yes | Yes |
Text Reranking | Qwen3-Reranker-0.6B | 0.6B | 28 | 32K | - | - | Yes |
Text Reranking | Qwen3-Reranker-4B | 4B | 36 | 32K | - | - | Yes |
Text Reranking | Qwen3-Reranker-8B | 8B | 36 | 32K | - | - | Yes |
- 经济型:Embedding-4B + Reranker-4B(显存总需求<30GB)
- 高性能型:Embedding-8B + Reranker-8B(需多GPU,吞吐量提升40%+)
对比BGE-M3:全方位代差优势
指标 | Qwen3-8B | BGE-M3 | 优势幅度 |
---|---|---|---|
综合得分 | 70.58 | 59.56 | ↑11.02 |
上下文长度 | 32K | 8K | ↑ 4倍 |
检索任务(MSMARCO) | 57.65 | 40.88 | ↑41% |
开放问答(NQ) | 10.06 | -3.11 | 实现负分逆转 |
多语言理解 | 28.66 | 20.10 | ↑42% |
vllm 安装
uv(首选)
1
2
3uv venv llvm --python 3.12 --seed
source llvm/bin/activate
uv pip install vllmconda(有
license
问题)1
2
3
4
5conda env list ## 查看conda创建的所以虚拟环境
conda create -n llvm python=3.12 ## 创建特定版本python
conda activate llvm ## 进入某个虚拟环境
conda env remove -n llvm ## 删除某个虚拟环境
pip install vllm
模型下载
1 | ## 安装下载环境 |
vllm 服务启动
vllm serve <model_path>
1 | vllm serve /home/models/Qwen3-30B-A3B \ |
参数相关
1 | usage: vllm serve [-h] [--model MODEL] |
docker compose 部署
Qwen3-30B-A3B
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25version: '3.8'
services:
qwen3:
image: vllm/vllm-openai:latest # 使用最新的vLLM镜像
container_name: qwen3-vllm
restart: unless-stopped
environment:
- HF_ENDPOINT=https://hf-mirror.com
- MODEL_PATH=/models/Qwen3-30B-A3B # 模型路径
- SERVED_MODEL_NAME=Qwen3-30B-A3B # 对外服务时使用的模型名称
- API_KEY=dakewe # 设置API密钥
- MEMORY_UTILIZATION=0.95 # GPU内存利用率,接近但不超过显存限制
volumes:
- ./models:/models # 将本地的模型目录挂载到容器内的/models路径
runtime: nvidia # 使用NVIDIA运行时以支持GPU
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
ports:
- "8000:8000" # 将容器的8000端口映射到主机的8000端口Qwen3-Embedding-8B
临时,等vllm-openai 支持
issue: https://github.com/vllm-project/vllm/issues/192291
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18services:
Qwen3-Embedding-8B:
container_name: Qwen3-Embedding-8B
restart: no
image: dengcao/vllm-openai:v0.9.2-dev #采用vllm最新的开发版制作的镜像,经测试正常,可放心使用
ipc: host
volumes:
- ./models:/models
command: ["--model", "/models/Qwen3-Embedding-8B", "--served-model-name", "Qwen3-Embedding-8B", "--gpu-memory-utilization", "0.90"]
ports:
- 8001:8000
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]Qwen3-Reranker-8B
临时,等vllm-openai 支持
issue: https://github.com/vllm-project/vllm/issues/192291
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18services:
Qwen3-Reranker-8B:
container_name: Qwen3-Reranker-8B
restart: no
image: dengcao/vllm-openai:v0.9.2-dev #采用vllm最新的开发版制作的镜像,经在NVIDIA RTX3060平台主机上测试正常,可放心使用。
ipc: host
volumes:
- ./models:/models
command: ['--model', '/models/Qwen3-Reranker-8B', '--served-model-name', 'Qwen3-Reranker-8B', '--gpu-memory-utilization', '0.90', '--hf_overrides','{"architectures": ["Qwen3ForSequenceClassification"],"classifier_from_token": ["no", "yes"],"is_original_qwen3_reranker": true}']
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
ports:
- 8002:8000