DeepSeek-r1 本地化测试¶
IAnimal在下一个版本升级中大概会使用100亿左右的输入和输出Token,从成本与效率出发,可以考虑使用本地化部署方案。恰逢DeepSeek-r1发布,其影响震撼全球,这里就优先考虑DeepSeek-r1本地化部署。本地化部署除了模型性能,其效率也极为重要,本文将对各种尺寸DeepSeek-r1模型的本地化部署速度进行一个简单的评估。
Note
在绝大多数场景下本地化部署大模型是不合算的,一张RTX4090的钱就可以买75亿的Token(DeepSeek-r1)了!
测试环境¶
-
节点A
CPU:2 * AMD EPYC 7502 (64核, 2.5GHz)
内存:8 * 32G (256G, 3200 MT/s)
显卡:2 * RTX4090 (48G)
-
节点B
CPU:2*AMD EPYC 7763 (128核,2.5GHz)
内存:16 * 64G (1024G, 3200 MT/s)
显卡:8 * RTX4090 (192G)
测试结果¶
节点A
| 序号 | 参数量 | 量化等级 | 文件大小 | CPU | GPU | CPU+GPU | 推理 |
|---|---|---|---|---|---|---|---|
| 1 | 32B | Q4 | 19G | 3 t/s | 35.78 t/s | - | ollama |
| 2 | 32B | Q8 | 34G | 2.1 t/s | 23 t/s | - | ollama |
| 3 | 32B | F16 | 66G | 1.09 t/s | - | 1.8 t/s | ollama |
| 4 | 70B | Q8 | 74G | 1.08 t/s | - | 2 t/s | ollama |
| 5 | 70B | F16 | 141G | 0.47 t/s | - | 0.5 t/s | ollama |
| 6 | 671B | 1.58bit | 131G | 2.9 t/s | - | 3.6 t/s | llama.cpp |
| 7 | 671B | 2.22bit | 183G | 2.5 t/s | 3.5 t/s | llama.cpp | |
| 8 | 671B | 2.51bit | 212G | 2.5 t/s | 3.2 t/s | llama.cpp | |
| 9 | 671B | Q4 | 404G | - | - | - | - |
| 10 | 671B | Q8 | 713G | - | - | - | - |
| 11 | 671B | 2.51bit | 212G | - | - | 8.15 t/s | KTransformers |
节点B
| 序号 | 参数量 | 量化等级 | 文件大小 | CPU | GPU | CPU+GPU | 推理 |
|---|---|---|---|---|---|---|---|
| 1 | 32B | Q4 | 19G | 3.4 t/s | 38 t/s | - | ollama |
| 2 | 32B | Q8 | 34G | 2.7 t/s | 23 t/s | - | ollama |
| 3 | 32B | F16 | 66G | 1.39 t/s | 13.5 t/s | - | ollama |
| 4 | 70B | Q8 | 74G | 1.7 t/s | 11.6 t/s | - | ollama |
| 5 | 70B | F16 | 141G | 0.64 t/s | 6.5 t/s | - | ollama |
| 6 | 671B | 1.58bit | 131G | 4.4 t/s | 12.9 t/s | ||
| 7 | 671B | 2.22bit | 183G | 3.6 t/s | - | 5.6 t/s | llama.cpp |
| 8 | 671B | 2.51bit | 212G | 3.8 t/s | - | 5.6 t/s | llama.cpp |
| 9 | 671B | Q4 | 404G | 2.8 t/s | - | 3.7 t/s | llama.cpp |
| 10 | 671B | Q8 | 713G | 2 t/s | - | 2.3 t/s | llama.cpp |
| 11 | 671B | 2.51bit | 212G | - | - | 10.6 t/s | KTransformers |
| 12 | 671B | Q4 | 404G | - | - | 7.4 t/s | KTransformers |
| 13 | 671B | Q8 | 713G | - | - | 5.01 t/s | KTransformers |
小结¶
1、纯显卡的推理显著快于CPU的,从速度上看 1和 2比较符合需求,具体还需要看性能,参数量更小的Phi-4可以纳入后续性能评估中;
2、受模型架构影响,在纯CPU环境下,满血DeepSeek-r(10)比满血70B (5)都要快!DeepSeek-r1让人震撼不仅仅是其卓越的性能,更是其"低廉"训练和推理成本上,2 token/s 堪堪可以使用(目前官方以及硅基流动的速度平均下来也就5token/s左右,主要是无法访问的太多了,此外如果针对CPU推理做优化,上5 token/s还是比较容易的,主要瓶颈在内存带宽);
3、动态量化具有不错的潜力(感觉效果比 1-5都要好),具体需要后续测试;
4、随着适配推理的硬件技术(如统一内存)和LLM技术的进步,个人终端的智能化应用有望迅速实现!
本文阅读量 次本站总访问量 次