Are you an LLM? You can read better optimized documentation at /aipod/benchmark/qwen3-embedding-0.6b-vllm-orin.md for this page in Markdown format
Qwen3 Embedding 0.6B on Orin
使用 vllm 在 orin 机器上测试 Qwen/Qwen3-Embedding-0.6B。
测试配置
- 机器:
orin - 镜像:
registry.lazycat.cloud/x/lzc-aipod-vllm:bffa39b-orin - 模型:
Qwen/Qwen3-Embedding-0.6B - 运行方式:
vllm serve --runner pooling - 显存参数:
--gpu-memory-utilization 0.65 --max-model-len 32768 --enforce-eager - 数据集:
datasets/qwen3_embedding_texts.jsonl - 并发:
1,2,4,6,8,16 - batch size:
1,8,32,128
结论
- OpenAI Embeddings 兼容接口可用,
/v1/models与/v1/embeddings均通过。 - 输出向量维度为
1024。 - 小 batch 低延迟模式下,
batch=1 concurrency=16达到最高QPS=99.7079,平均延迟0.1465s,p95=0.1781s。 - 大 batch 吞吐模式下,
batch=128 concurrency=8达到最高items/s=706.4871,prompt tokens/s=11868.5,平均延迟1.2431s,p95=1.5489s。
关键结果
| batch | concurrency | items/s | prompt tokens/s | avg latency (s) | p95 (s) |
|---|---|---|---|---|---|
| 1 | 16 | 99.7079 | 1723.0776 | 0.1465 | 0.1781 |
| 8 | 8 | 170.4528 | 2883.0500 | 0.3544 | 0.3940 |
| 32 | 8 | 522.1799 | 8784.2497 | 0.4447 | 0.5071 |
| 128 | 8 | 706.4871 | 11868.5000 | 1.2431 | 1.5489 |
Telemetry
- 样本数:
73 - 最高温度:
58.937 C - 最高功耗:
41189 mW - 最高风扇 PWM:
20.7843 - 最高 GPU 利用率:
99.9%
产物
远端结果目录:
bash
/home/nvidia/bench-results/qwen3-embedding-vllm1
关键文件:
bash
/home/nvidia/bench-results/qwen3-embedding-vllm/qwen3_embedding_bench.json
/home/nvidia/bench-results/qwen3-embedding-vllm/models.json
/home/nvidia/bench-results/qwen3-embedding-vllm/server.log
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.jsonl
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.summary.json1
2
3
4
5
2
3
4
5