Are you an LLM? You can read better optimized documentation at /aipod/benchmark/qwen3-embedding-0.6b-vllm-thor.md for this page in Markdown format
Qwen3 Embedding 0.6B on Thor
使用官方 vllm 镜像在 thor 机器上测试 Qwen/Qwen3-Embedding-0.6B。
测试配置
- 机器:
thor - 镜像:
nvcr.io/nvidia/vllm:26.01-py3 - 容器内
vllm版本:0.13.0+faa43dbf.nv26.01 - 模型:
Qwen/Qwen3-Embedding-0.6B - 运行方式:
vllm serve --runner pooling - 启动参数:
--gpu-memory-utilization 0.65 --max-model-len 32768 --enforce-eager - 数据集:
datasets/qwen3_embedding_texts.jsonl - 并发:
1,2,4,6,8,16 - batch size:
1,8,32,128
结论
- 官方镜像在 thor 上可以直接提供 OpenAI Embeddings 兼容接口。
models与embeddings请求均通过,输出向量维度为1024。- 低延迟模式下,
batch=1 concurrency=16达到最高QPS=207.9151,平均延迟0.0688s,p95=0.0851s。 - 吞吐模式下,
batch=128 concurrency=16达到最高items/s=1371.0304,prompt tokens/s=23019.6541,平均延迟1.1980s,p95=1.5949s。
关键结果
| batch | concurrency | items/s | prompt tokens/s | avg latency (s) | p95 (s) |
|---|---|---|---|---|---|
| 1 | 16 | 207.9151 | 3593.0330 | 0.0688 | 0.0851 |
| 8 | 16 | 584.2202 | 9794.8176 | 0.1909 | 0.2693 |
| 32 | 16 | 934.1475 | 15679.8117 | 0.4482 | 0.5799 |
| 128 | 16 | 1371.0304 | 23019.6541 | 1.1980 | 1.5949 |
Telemetry
- 样本数:
32 - 最高温度:
34.437 C - 最高功耗:
8102 mW - 最高风扇 PWM:
null - 最高 GPU 利用率:
null
产物
远端结果目录:
bash
/home/nvidia/bench-results/qwen3-embedding-vllm1
关键文件:
bash
/home/nvidia/bench-results/qwen3-embedding-vllm/qwen3_embedding_bench.json
/home/nvidia/bench-results/qwen3-embedding-vllm/models.json
/home/nvidia/bench-results/qwen3-embedding-vllm/server.log
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.jsonl
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.summary.json1
2
3
4
5
2
3
4
5