Are you an LLM? You can read better optimized documentation at /aipod/benchmark/qwen3-vl-embedding-2b-vllm-orin.md for this page in Markdown format
Qwen3 VL Embedding 2B on Orin
使用 vllm 在 orin 机器上测试 Qwen/Qwen3-VL-Embedding-2B,同时验证离线 embedding 与 HTTP 服务拉起。
测试配置
- 机器:
orin - 镜像:
registry.lazycat.cloud/x/lzc-aipod-vllm:bffa39b-orin - 模型:
Qwen/Qwen3-VL-Embedding-2B - 离线模式:
LLM(..., runner="pooling") - HTTP 模式:
vllm serve --runner pooling - 显存参数:
--gpu-memory-utilization 0.65 --max-model-len 8192 --enforce-eager - 数据集:
datasets/qwen3_vl_embedding.jsonl - 合成资源:
scripts/prepare_qwen3_vl_assets.py
结论
- 离线
embed()路径通过,16条图文样本完成 embedding。 - 输出向量维度为
2048。 - 离线吞吐为
2.4299 items/s,总耗时6.5845s。 - 图文检索样例
4/4top1 命中正确。 - HTTP 服务拉起成功,
/v1/models就绪。
离线验证结果
| case | top1 |
|---|---|
case-jtop | positive-doc |
case-openwebui | positive-doc |
case-network | positive-doc |
case-embedding | positive-doc |
Telemetry
- 样本数:
150 - 最高温度:
67.156 C - 最高功耗:
56761 mW - 最高风扇 PWM:
35.2941 - 最高 GPU 利用率:
99.8%
产物
远端结果目录:
bash
/home/nvidia/bench-results/qwen3-vl-embedding-vllm1
关键文件:
bash
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_embedding_offline.json
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_http_probe.json
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_http.log
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/qwen3_vl_models.json
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/telemetry.jsonl
/home/nvidia/bench-results/qwen3-vl-embedding-vllm/telemetry.summary.json1
2
3
4
5
6
2
3
4
5
6