bge-m3

vllm

bge-m3-vllm-1               | INFO:     Application startup complete.
bge-m3-vllm-1               | INFO 08-20 03:40:32 [metrics.py:481] Avg prompt throughput: 3698.0 tokens/s, Avg generation throughput: 5.9 tokens/s, Running: 0 reqs, Swapped: 0 reqs, Pending: 953 reqs, GPU KV cache usage: 0.0%, CPU KV cache usage: 0.0%.
bge-m3-vllm-1               | INFO 08-20 03:40:38 [metrics.py:481] Avg prompt throughput: 28348.0 tokens/s, Avg generation throughput: 44.4 tokens/s, Running: 0 reqs, Swapped: 0 reqs, Pending: 698 reqs, GPU KV cache usage: 0.0%, CPU KV cache usage: 0.0%.
bge-m3-vllm-1               | INFO 08-20 03:40:43 [metrics.py:481] Avg prompt throughput: 29275.2 tokens/s, Avg generation throughput: 46.4 tokens/s, Running: 0 reqs, Swapped: 0 reqs, Pending: 441 reqs, GPU KV cache usage: 0.0%, CPU KV cache usage: 0.0%.
bge-m3-vllm-1               | INFO 08-20 03:40:49 [metrics.py:481] Avg prompt throughput: 29540.3 tokens/s, Avg generation throughput: 46.1 tokens/s, Running: 0 reqs, Swapped: 0 reqs, Pending: 188 reqs, GPU KV cache usage: 0.0%, CPU KV cache usage: 0.0%.
bge-m3-vllm-1               | INFO:     172.20.0.4:45788 - "POST /v1/embeddings HTTP/1.1" 200 OK

并发250多个请求，输出的 token 可以达到 29540 多 token/s

python3 ollama_perf.py --file GuiMiZhiZhuu.txt --url https://bgem3vllm-ai.13gxg.heiyu.space/v1/embeddings --model bge-m3
--- 测试参数 ---
文件路径: GuiMiZhiZhuu.txt
模型名称: bge-m3
API URL: https://bgem3vllm-ai.13gxg.heiyu.space/v1/embeddings
切片长度: 1024 字符
总字数: 4775359
总切片数: 4664

注意: 所有切片将在一个 API 请求中发送。
------------------

开始发送单个大请求，请稍候...

请求完成！

--- 性能测试结果 ---
总耗时: 132.80 秒
总字数: 4775359
总处理 Tokens: 3384888
请求状态: 成功 (HTTP 200)

--- 核心指标 ---
平均 Token 速度: 25489.00 tokens/秒
平均吞吐量: 35959.57 字/秒
--------------------

ollama

$ python3 ollama_perf.py --file GuiMiZhiZhuu.txt --url https://ollama-ai.13gxg.heiyu.space/v1/embeddings --model bge-m3:latest
--- 测试参数 ---
文件路径: GuiMiZhiZhuu.txt
模型名称: bge-m3:latest
API URL: https://ollama-ai.13gxg.heiyu.space/v1/embeddings
切片长度: 1024 字符
总字数: 4775359
总切片数: 4664

注意: 所有切片将在一个 API 请求中发送。
------------------

开始发送单个大请求，请稍候...

请求完成！

--- 性能测试结果 ---
总耗时: 529.10 秒
总字数: 4775359
总处理 Tokens: 3375250
请求状态: 成功 (HTTP 200)

--- 核心指标 ---
平均 Token 速度: 6379.19 tokens/秒
平均吞吐量: 9025.38 字/秒
--------------------

小文件

python3 ollama_perf.py --file xce --url https://ollama-ai.13gxg.heiyu.space/v1/embeddings --model bge-m3:latest
--- 测试参数 ---
文件路径: xce
模型名称: bge-m3:latest
API URL: https://ollama-ai.13gxg.heiyu.space/v1/embeddings
切片长度: 1024 字符
总字数: 41648
总切片数: 41

注意: 所有切片将在一个 API 请求中发送。
------------------

开始发送单个大请求，请稍候...

请求完成！

--- 性能测试结果 ---
总耗时: 4.95 秒
总字数: 41648
总处理 Tokens: 29539
请求状态: 成功 (HTTP 200)

--- 核心指标 ---
平均 Token 速度: 5968.35 tokens/秒
平均吞吐量: 8414.97 字/秒
--------------------

bge-m3 ​

vllm ​

ollama ​

bge-m3

vllm

ollama