qwen3-embedding-8b

ollama

python3 ollama_perf.py --file GuiMiZhiZhuu.txt --url https://ollama-ai.13gxg.heiyu.space/v1/embeddings --model dengcao/Qwen3-Embedding-8B:Q8_0
--- 测试参数 ---
文件路径: GuiMiZhiZhuu.txt
模型名称: dengcao/Qwen3-Embedding-8B:Q8_0
API URL: https://ollama-ai.13gxg.heiyu.space/v1/embeddings
切片长度: 1024 字符
总字数: 4775359
总切片数: 4664

注意: 所有切片将在一个 API 请求中发送。
------------------

开始发送单个大请求，请稍候...
请求完成！

--- 性能测试结果 ---
总耗时: 3763.11 秒
总字数: 4775359
总处理 Tokens: 3325333
请求状态: 成功 (HTTP 200)

--- 核心指标 ---
平均 Token 速度: 883.67 tokens/秒
平均吞吐量: 1268.99 字/秒
--------------------

小文件

$ python3 ollama_perf.py --file xce --url https://ollama-ai.13gxg.heiyu.space/v1/embeddings --model dengcao/Qwen3-Embedding-8B:Q5_K_M
--- 测试参数 ---
文件路径: xce
模型名称: dengcao/Qwen3-Embedding-8B:Q5_K_M
API URL: https://ollama-ai.13gxg.heiyu.space/v1/embeddings
切片长度: 1024 字符
总字数: 41648
总切片数: 41

注意: 所有切片将在一个 API 请求中发送。
------------------

开始发送单个大请求，请稍候...

请求完成！

--- 性能测试结果 ---
总耗时: 34.52 秒
总字数: 41648
总处理 Tokens: 29006
请求状态: 成功 (HTTP 200)

--- 核心指标 ---
平均 Token 速度: 840.33 tokens/秒
平均吞吐量: 1206.59 字/秒
--------------------

vllm

默认为官方的 Qwen/Qwen3-Embedding-8B bfloat16 类型

$ python3 ollama_perf.py --file GuiMiZhiZhuu.txt --url http://192.168.1.209:8999/v1/embeddings --model qwen3-embedding-8b
--- 测试参数 ---
文件路径: GuiMiZhiZhuu.txt
模型名称: qwen3-embedding-8b
API URL: http://192.168.1.209:8999/v1/embeddings
切片长度: 1024 字符
总字数: 4775359
总切片数: 4664

注意: 所有切片将在一个 API 请求中发送。
------------------

开始发送单个大请求，请稍候...

请求完成！

--- 性能测试结果 ---
总耗时: 2312.80 秒
总字数: 4775359
总处理 Tokens: 3329997
请求状态: 成功 (HTTP 200)

--- 核心指标 ---
平均 Token 速度: 1439.81 tokens/秒
平均吞吐量: 2064.75 字/秒
--------------------

占用内存需要 25 GB

qwen3-embedding-8b ​

ollama ​

vllm ​

qwen3-embedding-8b

ollama

vllm