Qwen3 Embedding 0.6B on Thor

使用官方 vllm 镜像在 thor 机器上测试 Qwen/Qwen3-Embedding-0.6B。

测试配置

机器：thor
镜像：nvcr.io/nvidia/vllm:26.01-py3
容器内 vllm 版本：0.13.0+faa43dbf.nv26.01
模型：Qwen/Qwen3-Embedding-0.6B
运行方式：vllm serve --runner pooling
启动参数：--gpu-memory-utilization 0.65 --max-model-len 32768 --enforce-eager
数据集：datasets/qwen3_embedding_texts.jsonl
并发：1,2,4,6,8,16
batch size：1,8,32,128

结论

官方镜像在 thor 上可以直接提供 OpenAI Embeddings 兼容接口。
models 与 embeddings 请求均通过，输出向量维度为 1024。
低延迟模式下，batch=1 concurrency=16 达到最高 QPS=207.9151，平均延迟 0.0688s，p95=0.0851s。
吞吐模式下，batch=128 concurrency=16 达到最高 items/s=1371.0304，prompt tokens/s=23019.6541，平均延迟 1.1980s，p95=1.5949s。

关键结果

batch	concurrency	items/s	prompt tokens/s	avg latency (s)	p95 (s)
1	16	207.9151	3593.0330	0.0688	0.0851
8	16	584.2202	9794.8176	0.1909	0.2693
32	16	934.1475	15679.8117	0.4482	0.5799
128	16	1371.0304	23019.6541	1.1980	1.5949

Telemetry

样本数：32
最高温度：34.437 C
最高功耗：8102 mW
最高风扇 PWM：null
最高 GPU 利用率：null

产物

远端结果目录：

bash

/home/nvidia/bench-results/qwen3-embedding-vllm

关键文件：

bash

/home/nvidia/bench-results/qwen3-embedding-vllm/qwen3_embedding_bench.json
/home/nvidia/bench-results/qwen3-embedding-vllm/models.json
/home/nvidia/bench-results/qwen3-embedding-vllm/server.log
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.jsonl
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.summary.json

Qwen3 Embedding 0.6B on Thor ​

测试配置 ​

结论 ​

关键结果 ​

Telemetry ​

产物 ​

Qwen3 Embedding 0.6B on Thor

测试配置

结论

关键结果

Telemetry

产物