Qwen3 Embedding 0.6B on Orin

使用 vllm 在 orin 机器上测试 Qwen/Qwen3-Embedding-0.6B。

测试配置

机器：orin
镜像：registry.lazycat.cloud/x/lzc-aipod-vllm:bffa39b-orin
模型：Qwen/Qwen3-Embedding-0.6B
运行方式：vllm serve --runner pooling
显存参数：--gpu-memory-utilization 0.65 --max-model-len 32768 --enforce-eager
数据集：datasets/qwen3_embedding_texts.jsonl
并发：1,2,4,6,8,16
batch size：1,8,32,128

结论

OpenAI Embeddings 兼容接口可用，/v1/models 与 /v1/embeddings 均通过。
输出向量维度为 1024。
小 batch 低延迟模式下，batch=1 concurrency=16 达到最高 QPS=99.7079，平均延迟 0.1465s，p95=0.1781s。
大 batch 吞吐模式下，batch=128 concurrency=8 达到最高 items/s=706.4871，prompt tokens/s=11868.5，平均延迟 1.2431s，p95=1.5489s。

关键结果

batch	concurrency	items/s	prompt tokens/s	avg latency (s)	p95 (s)
1	16	99.7079	1723.0776	0.1465	0.1781
8	8	170.4528	2883.0500	0.3544	0.3940
32	8	522.1799	8784.2497	0.4447	0.5071
128	8	706.4871	11868.5000	1.2431	1.5489

Telemetry

样本数：73
最高温度：58.937 C
最高功耗：41189 mW
最高风扇 PWM：20.7843
最高 GPU 利用率：99.9%

产物

远端结果目录：

bash

/home/nvidia/bench-results/qwen3-embedding-vllm

关键文件：

bash

/home/nvidia/bench-results/qwen3-embedding-vllm/qwen3_embedding_bench.json
/home/nvidia/bench-results/qwen3-embedding-vllm/models.json
/home/nvidia/bench-results/qwen3-embedding-vllm/server.log
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.jsonl
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.summary.json

Qwen3 Embedding 0.6B on Orin ​

测试配置 ​

结论 ​

关键结果 ​

Telemetry ​

产物 ​

Qwen3 Embedding 0.6B on Orin

测试配置

结论

关键结果

Telemetry

产物