Skip to content

Qwen3 VL Embedding 2B on Orin

使用 vllmorin 机器上测试 Qwen/Qwen3-VL-Embedding-2B,同时验证离线 embedding 与 HTTP 服务拉起。

测试配置

  • 机器:orin
  • 镜像:registry.lazycat.cloud/x/lzc-aipod-vllm:bffa39b-orin
  • 模型:Qwen/Qwen3-VL-Embedding-2B
  • 离线模式:LLM(..., runner="pooling")
  • HTTP 模式:vllm serve --runner pooling
  • 显存参数:--gpu-memory-utilization 0.65 --max-model-len 8192 --enforce-eager
  • 数据集:datasets/qwen3_vl_embedding.jsonl
  • 合成资源:scripts/prepare_qwen3_vl_assets.py

结论

  • 离线 embed() 路径通过,16 条图文样本完成 embedding。
  • 输出向量维度为 2048
  • 离线吞吐为 2.4299 items/s,总耗时 6.5845s
  • 图文检索样例 4/4 top1 命中正确。
  • HTTP 服务拉起成功,/v1/models 就绪。

离线验证结果

casetop1
case-jtoppositive-doc
case-openwebuipositive-doc
case-networkpositive-doc
case-embeddingpositive-doc

Telemetry

  • 样本数:150
  • 最高温度:67.156 C
  • 最高功耗:56761 mW
  • 最高风扇 PWM:35.2941
  • 最高 GPU 利用率:99.8%

产物

远端结果目录:

bash
/home/nvidia/bench-results/qwen3-vl-embedding-vllm

关键文件:

bash
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_embedding_offline.json
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_http_probe.json
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_http.log
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_models.json
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/telemetry.jsonl
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/telemetry.summary.json