Qwen3 VL Embedding 2B on Orin

使用 vllm 在 orin 机器上测试 Qwen/Qwen3-VL-Embedding-2B，同时验证离线 embedding 与 HTTP 服务拉起。

测试配置

机器：orin
镜像：registry.lazycat.cloud/x/lzc-aipod-vllm:bffa39b-orin
模型：Qwen/Qwen3-VL-Embedding-2B
离线模式：LLM(..., runner="pooling")
HTTP 模式：vllm serve --runner pooling
显存参数：--gpu-memory-utilization 0.65 --max-model-len 8192 --enforce-eager
数据集：datasets/qwen3_vl_embedding.jsonl
合成资源：scripts/prepare_qwen3_vl_assets.py

结论

离线 embed() 路径通过，16 条图文样本完成 embedding。
输出向量维度为 2048。
离线吞吐为 2.4299 items/s，总耗时 6.5845s。
图文检索样例 4/4 top1 命中正确。
HTTP 服务拉起成功，/v1/models 就绪。

离线验证结果

case	top1
`case-jtop`	`positive-doc`
`case-openwebui`	`positive-doc`
`case-network`	`positive-doc`
`case-embedding`	`positive-doc`

Telemetry

样本数：150
最高温度：67.156 C
最高功耗：56761 mW
最高风扇 PWM：35.2941
最高 GPU 利用率：99.8%

产物

远端结果目录：

bash

/home/nvidia/bench-results/qwen3-vl-embedding-vllm

关键文件：

bash

/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_embedding_offline.json
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_http_probe.json
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_http.log
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_models.json
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/telemetry.jsonl
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/telemetry.summary.json

Qwen3 VL Embedding 2B on Orin ​

测试配置 ​

结论 ​

离线验证结果 ​

Telemetry ​

产物 ​

Qwen3 VL Embedding 2B on Orin

测试配置

结论

离线验证结果

Telemetry

产物