GPT-OSS 120B
Benchmark
以下数据来自 ~/lzc-aipod-benchmark/gpt-oss-120b-moe/cumulative-report.md,对应模型为 gpt-oss-120b-mxfp4,runtime 为 llama.cpp,权重格式为 GGUF。
| Device | Runtime | Weight | Single Stream | Peak Aggregate | Power | GPU Temp |
|---|---|---|---|---|---|---|
| Thor | llama.cpp | GGUF mxfp4 | 34.615 tok/s (g512 / c1) | 178.536 tok/s (g64 / c16) | 31.793 W | 67 C |
| Thor T5000 | llama.cpp | GGUF mxfp4 | 35.088 tok/s (g1024 / c1) | 330.602 tok/s (g64 / c48) | 31.261 W for latest c1; 54.419 W at c48 | 56 C for latest c1; 57.593 C at c48 |
| Jetson AGX Orin | - | - | no data | no data | - | - |
| Thor T4000 | - | - | no data | no data | - | - |
Notes
THOR当前单路最佳结果来自g128 / g256 / g512 / g1024的生成长度矩阵,其中g512 / c1为34.615 tok/s。T5000当前默认单路口径固定为g1024 / c1 / server_parallel=1 / 300s,最新复测结果为35.088 tok/s。T5000的高并发峰值来自c40 / c48扩展扫描,其中g64 / c48达到330.602 tok/s。- 当前 benchmark 仓库里
Orin与T4000还没有gpt-oss-120b的正式结果,因此这里只保留no data。 - 数据来源:
/home/catdog/lzc-aipod-benchmark/gpt-oss-120b-moe/cumulative-report.md