Skip to content

Qwen3 Embedding 0.6B on Thor

使用官方 vllm 镜像在 thor 机器上测试 Qwen/Qwen3-Embedding-0.6B

测试配置

  • 机器:thor
  • 镜像:nvcr.io/nvidia/vllm:26.01-py3
  • 容器内 vllm 版本:0.13.0+faa43dbf.nv26.01
  • 模型:Qwen/Qwen3-Embedding-0.6B
  • 运行方式:vllm serve --runner pooling
  • 启动参数:--gpu-memory-utilization 0.65 --max-model-len 32768 --enforce-eager
  • 数据集:datasets/qwen3_embedding_texts.jsonl
  • 并发:1,2,4,6,8,16
  • batch size:1,8,32,128

结论

  • 官方镜像在 thor 上可以直接提供 OpenAI Embeddings 兼容接口。
  • modelsembeddings 请求均通过,输出向量维度为 1024
  • 低延迟模式下,batch=1 concurrency=16 达到最高 QPS=207.9151,平均延迟 0.0688sp95=0.0851s
  • 吞吐模式下,batch=128 concurrency=16 达到最高 items/s=1371.0304prompt tokens/s=23019.6541,平均延迟 1.1980sp95=1.5949s

关键结果

batchconcurrencyitems/sprompt tokens/savg latency (s)p95 (s)
116207.91513593.03300.06880.0851
816584.22029794.81760.19090.2693
3216934.147515679.81170.44820.5799
128161371.030423019.65411.19801.5949

Telemetry

  • 样本数:32
  • 最高温度:34.437 C
  • 最高功耗:8102 mW
  • 最高风扇 PWM:null
  • 最高 GPU 利用率:null

产物

远端结果目录:

bash
/home/nvidia/bench-results/qwen3-embedding-vllm

关键文件:

bash
/home/nvidia/bench-results/qwen3-embedding-vllm/qwen3_embedding_bench.json
/home/nvidia/bench-results/qwen3-embedding-vllm/models.json
/home/nvidia/bench-results/qwen3-embedding-vllm/server.log
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.jsonl
/home/nvidia/bench-results/qwen3-embedding-vllm/telemetry.summary.json