bge-m3
vllm
bge-m3-vllm-1 | INFO: Application startup complete.
bge-m3-vllm-1 | INFO 08-20 03:40:32 [metrics.py:481] Avg prompt throughput: 3698.0 tokens/s, Avg generation throughput: 5.9 tokens/s, Running: 0 reqs, Swapped: 0 reqs, Pending: 953 reqs, GPU KV cache usage: 0.0%, CPU KV cache usage: 0.0%.
bge-m3-vllm-1 | INFO 08-20 03:40:38 [metrics.py:481] Avg prompt throughput: 28348.0 tokens/s, Avg generation throughput: 44.4 tokens/s, Running: 0 reqs, Swapped: 0 reqs, Pending: 698 reqs, GPU KV cache usage: 0.0%, CPU KV cache usage: 0.0%.
bge-m3-vllm-1 | INFO 08-20 03:40:43 [metrics.py:481] Avg prompt throughput: 29275.2 tokens/s, Avg generation throughput: 46.4 tokens/s, Running: 0 reqs, Swapped: 0 reqs, Pending: 441 reqs, GPU KV cache usage: 0.0%, CPU KV cache usage: 0.0%.
bge-m3-vllm-1 | INFO 08-20 03:40:49 [metrics.py:481] Avg prompt throughput: 29540.3 tokens/s, Avg generation throughput: 46.1 tokens/s, Running: 0 reqs, Swapped: 0 reqs, Pending: 188 reqs, GPU KV cache usage: 0.0%, CPU KV cache usage: 0.0%.
bge-m3-vllm-1 | INFO: 172.20.0.4:45788 - "POST /v1/embeddings HTTP/1.1" 200 OK并发250多个请求,输出的 token 可以达到 29540 多 token/s
python3 ollama_perf.py --file GuiMiZhiZhuu.txt --url https://bgem3vllm-ai.13gxg.heiyu.space/v1/embeddings --model bge-m3
--- 测试参数 ---
文件路径: GuiMiZhiZhuu.txt
模型名称: bge-m3
API URL: https://bgem3vllm-ai.13gxg.heiyu.space/v1/embeddings
切片长度: 1024 字符
总字数: 4775359
总切片数: 4664
注意: 所有切片将在一个 API 请求中发送。
------------------
开始发送单个大请求,请稍候...
请求完成!
--- 性能测试结果 ---
总耗时: 132.80 秒
总字数: 4775359
总处理 Tokens: 3384888
请求状态: 成功 (HTTP 200)
--- 核心指标 ---
平均 Token 速度: 25489.00 tokens/秒
平均吞吐量: 35959.57 字/秒
--------------------ollama
$ python3 ollama_perf.py --file GuiMiZhiZhuu.txt --url https://ollama-ai.13gxg.heiyu.space/v1/embeddings --model bge-m3:latest
--- 测试参数 ---
文件路径: GuiMiZhiZhuu.txt
模型名称: bge-m3:latest
API URL: https://ollama-ai.13gxg.heiyu.space/v1/embeddings
切片长度: 1024 字符
总字数: 4775359
总切片数: 4664
注意: 所有切片将在一个 API 请求中发送。
------------------
开始发送单个大请求,请稍候...
请求完成!
--- 性能测试结果 ---
总耗时: 529.10 秒
总字数: 4775359
总处理 Tokens: 3375250
请求状态: 成功 (HTTP 200)
--- 核心指标 ---
平均 Token 速度: 6379.19 tokens/秒
平均吞吐量: 9025.38 字/秒
--------------------小文件
python3 ollama_perf.py --file xce --url https://ollama-ai.13gxg.heiyu.space/v1/embeddings --model bge-m3:latest
--- 测试参数 ---
文件路径: xce
模型名称: bge-m3:latest
API URL: https://ollama-ai.13gxg.heiyu.space/v1/embeddings
切片长度: 1024 字符
总字数: 41648
总切片数: 41
注意: 所有切片将在一个 API 请求中发送。
------------------
开始发送单个大请求,请稍候...
请求完成!
--- 性能测试结果 ---
总耗时: 4.95 秒
总字数: 41648
总处理 Tokens: 29539
请求状态: 成功 (HTTP 200)
--- 核心指标 ---
平均 Token 速度: 5968.35 tokens/秒
平均吞吐量: 8414.97 字/秒
--------------------