跳转至

DeepSeek-r1 本地化测试

IAnimal在下一个版本升级中大概会使用100亿左右的输入和输出Token,从成本与效率出发,可以考虑使用本地化部署方案。恰逢DeepSeek-r1发布,其影响震撼全球,这里就优先考虑DeepSeek-r1本地化部署。本地化部署除了模型性能,其效率也极为重要,本文将对各种尺寸DeepSeek-r1模型的本地化部署速度进行一个简单的评估。

Note

在绝大多数场景下本地化部署大模型是不合算的,一张RTX4090的钱就可以买75亿的Token(DeepSeek-r1)了!

测试环境

  • 节点A


    CPU:2 * AMD EPYC 7502 (64核, 2.5GHz)

    内存:8 * 32G (256G, 3200 MT/s)

    显卡:2 * RTX4090 (48G)

  • 节点B


    CPU:2*AMD EPYC 7763 (128核,2.5GHz)

    内存:16 * 64G (1024G, 3200 MT/s)

    显卡:8 * RTX4090 (192G)

测试结果

节点A

序号 参数量 量化等级 文件大小 CPU GPU CPU+GPU 推理
1 32B Q4 19G 3 t/s 35.78 t/s - ollama
2 32B Q8 34G 2.1 t/s 23 t/s - ollama
3 32B F16 66G 1.09 t/s - 1.8 t/s ollama
4 70B Q8 74G 1.08 t/s - 2 t/s ollama
5 70B F16 141G 0.47 t/s - 0.5 t/s ollama
6 671B 1.58bit 131G 2.9 t/s - 3.6 t/s llama.cpp
7 671B 2.22bit 183G 2.5 t/s 3.5 t/s llama.cpp
8 671B 2.51bit 212G 2.5 t/s 3.2 t/s llama.cpp
9 671B Q4 404G - - - -
10 671B Q8 713G - - - -
11 671B 2.51bit 212G - - 8.15 t/s KTransformers

节点B

序号 参数量 量化等级 文件大小 CPU GPU CPU+GPU 推理
1 32B Q4 19G 3.4 t/s 38 t/s - ollama
2 32B Q8 34G 2.7 t/s 23 t/s - ollama
3 32B F16 66G 1.39 t/s 13.5 t/s - ollama
4 70B Q8 74G 1.7 t/s 11.6 t/s - ollama
5 70B F16 141G 0.64 t/s 6.5 t/s - ollama
6 671B 1.58bit 131G 4.4 t/s 12.9 t/s
7 671B 2.22bit 183G 3.6 t/s - 5.6 t/s llama.cpp
8 671B 2.51bit 212G 3.8 t/s - 5.6 t/s llama.cpp
9 671B Q4 404G 2.8 t/s - 3.7 t/s llama.cpp
10 671B Q8 713G 2 t/s - 2.3 t/s llama.cpp
11 671B 2.51bit 212G - - 10.6 t/s KTransformers
12 671B Q4 404G - - 7.4 t/s KTransformers
13 671B Q8 713G - - 5.01 t/s KTransformers

小结

1、纯显卡的推理显著快于CPU的,从速度上看 12比较符合需求,具体还需要看性能,参数量更小的Phi-4可以纳入后续性能评估中;

2、受模型架构影响,在纯CPU环境下,满血DeepSeek-r(10)比满血70B (5)都要快!DeepSeek-r1让人震撼不仅仅是其卓越的性能,更是其"低廉"训练和推理成本上,2 token/s 堪堪可以使用(目前官方以及硅基流动的速度平均下来也就5token/s左右,主要是无法访问的太多了,此外如果针对CPU推理做优化,上5 token/s还是比较容易的,主要瓶颈在内存带宽);

3、动态量化具有不错的潜力(感觉效果比 1-5都要好),具体需要后续测试;

4、随着适配推理的硬件技术(如统一内存)和LLM技术的进步,个人终端的智能化应用有望迅速实现!

本文阅读量  次
本站总访问量  次
Authors: Wind