Skip to content

Qwen3 Embedding 0.6B on Orin

使用 vllmorin 机器上测试 Qwen/Qwen3-Embedding-0.6B

测试配置

  • 机器:orin
  • 镜像:registry.lazycat.cloud/x/lzc-aipod-vllm:bffa39b-orin
  • 模型:Qwen/Qwen3-Embedding-0.6B
  • 运行方式:vllm serve --runner pooling
  • 显存参数:--gpu-memory-utilization 0.65 --max-model-len 32768 --enforce-eager
  • 数据集:datasets/qwen3_embedding_texts.jsonl
  • 并发:1,2,4,6,8,16
  • batch size:1,8,32,128

结论

  • OpenAI Embeddings 兼容接口可用,/v1/models/v1/embeddings 均通过。
  • 输出向量维度为 1024
  • 小 batch 低延迟模式下,batch=1 concurrency=16 达到最高 QPS=99.7079,平均延迟 0.1465sp95=0.1781s
  • 大 batch 吞吐模式下,batch=128 concurrency=8 达到最高 items/s=706.4871prompt tokens/s=11868.5,平均延迟 1.2431sp95=1.5489s

关键结果

batchconcurrencyitems/sprompt tokens/savg latency (s)p95 (s)
11699.70791723.07760.14650.1781
88170.45282883.05000.35440.3940
328522.17998784.24970.44470.5071
1288706.487111868.50001.24311.5489

Telemetry

  • 样本数:73
  • 最高温度:58.937 C
  • 最高功耗:41189 mW
  • 最高风扇 PWM:20.7843
  • 最高 GPU 利用率:99.9%

产物

远端结果目录:

bash
/home/nvidia/bench-results/qwen3-embedding-vllm

关键文件:

bash
/home/nvidia/bench-results/qwen3-embedding-vllm/qwen3_embedding_bench.json
/home/nvidia/bench-results/qwen3-embedding-vllm/models.json
/home/nvidia/bench-results/qwen3-embedding-vllm/server.log
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.jsonl
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.summary.json