Qwen3-30B-A3B的并发性能

1. 测试目的与范围

1.1 测试目的

验证Qwen3-30B-A3B模型在高并发场景下的稳定性、性能瓶颈。

1.2 测试范围

并发用户量范围:10到300用户并发数

1.3主要测试接口
测试接口:http://ks.sligenai.cn:5004/v1/chat/completions

2.测试环境
测试环境:在并行部署Qwen2.5-VL模型、BGE-M3-embedding模型下对4卡V100(16G)进行并发测试,全程GPU使用率保持在94%,显卡功率能耗保持在160W,显卡温度均保持在50度左右。
硬件配置:显卡NVIDIA Tesla V100 16GB *4
CPU AMD霄龙 7K62 48核心96线程
电源 长城巨龙2400W电源
内存 256G DDR4 镁光
软件环境:NVIDIA驱动版本 12.9
CUDA驱动版本 12.9
CUDA Toolkit 12.9

LMDeploy版本0.9.1

部署环境:Ubuntu 24.04

部署平台:LMDeploy

模型信息:Qwen3-30B-A3B-GPTQ-Int4

并发性能测试结果


并发连接数 平均预处理速率 平均预处理速率标准差 每个连接平均生成速率 总吞吐量 效率系数 (tokens/second) (tokens/second) (tokens/second/connection) (tokens/second) (%)

10 2.58 0.04 68.12 679.15 99.74

20 1.44 0.01 57.25 1139.54 99.54

30 0.99 0.01 47.23 1409.19 99.48

40 0.75 0.04 41.54 1651.36 99.4

50 0.61 0.04 33.98 1689.62 99.47

60 0.51 0.05 32.88 1960.99 99.44

70 0.44 0.05 31.39 2182.47 99.37

80 0.41 0.05 29.8 2366.52 99.3

90 0.38 0.06 27.59 2465.85 99.31

100 0.36 0.08 26.63 2644.08 99.41

110 0.34 0.08 30.15 2071.05 70.8

120 0.34 0.14 31.78 2176.09 68.28

130 0.33 0.14 31.38 2200.48 63.7

140 0.31 0.14 30.87 2260.82 60.8

150 0.3 0.14 29.08 2230.14 55.97

160 0.29 0.13 29 2342.47 55.14

170 0.28 0.12 28.59 2434.59 53.9

180 0.27 0.11 28.03 2518.05 52.66

190 0.26 0.11 26.65 2502.15 49.82

200 0.25 0.11 26.54 2501.99 48.97

210 0.24 0.1 26.06 2502.04 48.06

220 0.23 0.1 25.43 2489.15 46.85

230 0.23 0.1 24.81 2518.23 45.69

240 0.23 0.11 24.62 2541.22 45.03

250 0.22 0.11 24.08 2496.34 43.68

260 0.21 0.1 23.47 2510.99 42.16

270 0.21 0.1 23.47 2530.14 41.97

280 0.2 0.11 22.84 2510.38 40.75

290 0.2 0.11 22.18 2521.43 39.46

300 0.2 0.12 26.48 2528.91 39.29


关键数据指标解释

1. 并发连接数

定义:同时向系统发起请求的客户端数量。

作用:反映系统在多并发场景下的承载能力,是考察系统极限的重要参数。

2. 平均预处理速率(tokens/second)

定义:每个连接平均处理token的速度,即模型对输入文本进行处理和生成输出的速率,单位为token每秒。

意义:该值越高,表示单连接下模型响应速度越快。随着并发数提升,单连接速率一般会下降。

3. 平均预处理速率标准差(tokens/second)

定义:所有连接在预处理速率上的波动幅度,反映各连接速度的一致性。

意义:标准差越小,表示各个连接处理速度较为稳定,性能表现均匀。

4. 每个连接平均生成速率(tokens/second/connection)

定义:每个并发连接下,平均每秒由该连接生成token的数量。

意义:反映高并发场景下单一连接的生成效率。可用于分析流量均衡性。

5. 吞吐量(tokens/second)

定义:所有并发连接累加,每秒钟系统总共生成的token数量。

意义:体现模型整体在并发负载下的处理能力,是衡量系统总极限性能的重要指标。

6. 总吞吐量(tokens/second)

定义:所有请求在测试过程中一共生成的token数量。

意义:用于衡量测试期间系统的总工作量。

7. 效率系数

定义:系统实际吞吐量占理论最大吞吐量的百分比。通常用于反映资源利用率和并发下的效率损耗。

意义:此参数越接近100%,系统并发能力越强,资源利用越充分。该系数大幅下降时,可能表示已达到硬件或系统瓶颈。

性能数据分析

总token吞吐量:

总体趋势是总吞吐量随着并发数的增加而提升,直到达到一个饱和点。

吞吐量在100个并发连接时达到峰值2644.08 tokens/second。

在并发数超过100之后,吞吐量增长停滞,并在200到300的范围内基本保持在2500 tokens/second左右波动,没有显著提升。[这确认了系统在100个并发左右就已经达到了其处理上限。]{.underline}

效率系数:

这是揭示系统性能瓶颈的最关键指标。

在并发数达到100之前,效率系数一直保持在极高的水平(99%以上),表明系统在此范围内扩展性非常好,几乎可以线性地增加总吞吐量。

110个并发是性能下降的转折点,效率系数从99.41%骤降至70.80%。这表明系统已经开始遇到严重的资源瓶颈。

随着并发数的继续增加,效率系数持续下降,在300个并发时降至最低39.29%。这说明在此高负载下,有超过60%的理论性能损失,系统资源被严重争用,导致效率低下。

每个连接的平均生成速率(Average Token Generation Rate per Connection):

从10到100个并发,该速率呈线性下降趋势,符合预期。

在并发数超过100之后,速率下降趋势放缓,但总体仍处于较低水平。特别是从190到300的范围内,每个连接的平均速率维持在22到26 tokens/second之间。

结论与建议:

性能拐点(最佳工作点): 综合考虑吞吐量和效率,该模型服务的最佳工作点在100个并发连接左右。在此点,总吞吐量达到峰值,而系统效率依然极高。

瓶颈确认: 数据明确显示,该系统的性能瓶颈在100到110个并发连接之间出现。在此之后,单纯增加并发数无法有效提升总吞吐量,反而会大幅牺牲系统效率,导致每个连接的平均响应时间变长,资源利用率降低。