DeepSeek-r1 本地化测试¶

IAnimal在下一个版本升级中大概会使用100亿左右的输入和输出Token，从成本与效率出发，可以考虑使用本地化部署方案。恰逢DeepSeek-r1发布，其影响震撼全球，这里就优先考虑DeepSeek-r1本地化部署。本地化部署除了模型性能，其效率也极为重要，本文将对各种尺寸DeepSeek-r1模型的本地化部署速度进行一个简单的评估。

Note

在绝大多数场景下本地化部署大模型是不合算的，一张RTX4090的钱就可以买75亿的Token(DeepSeek-r1)了！

测试环境¶

节点A

CPU：2 * AMD EPYC 7502 (64核, 2.5GHz)

内存：8 * 32G (256G, 3200 MT/s)

显卡：2 * RTX4090 (48G)
节点B

CPU：2*AMD EPYC 7763 (128核,2.5GHz)

内存：16 * 64G (1024G, 3200 MT/s)

显卡：8 * RTX4090 (192G)

测试结果¶

节点A

序号	参数量	量化等级	文件大小	CPU	GPU	CPU+GPU	推理
1	32B	Q4	19G	3 t/s	35.78 t/s	-	ollama
2	32B	Q8	34G	2.1 t/s	23 t/s	-	ollama
3	32B	F16	66G	1.09 t/s	-	1.8 t/s	ollama
4	70B	Q8	74G	1.08 t/s	-	2 t/s	ollama
5	70B	F16	141G	0.47 t/s	-	0.5 t/s	ollama
6	671B	1.58bit	131G	2.9 t/s	-	3.6 t/s	llama.cpp
7	671B	2.22bit	183G	2.5 t/s		3.5 t/s	llama.cpp
8	671B	2.51bit	212G	2.5 t/s		3.2 t/s	llama.cpp
9	671B	Q4	404G	-	-	-	-
10	671B	Q8	713G	-	-	-	-
11	671B	2.51bit	212G	-	-	8.15 t/s	KTransformers

节点B

序号	参数量	量化等级	文件大小	CPU	GPU	CPU+GPU	推理
1	32B	Q4	19G	3.4 t/s	38 t/s	-	ollama
2	32B	Q8	34G	2.7 t/s	23 t/s	-	ollama
3	32B	F16	66G	1.39 t/s	13.5 t/s	-	ollama
4	70B	Q8	74G	1.7 t/s	11.6 t/s	-	ollama
5	70B	F16	141G	0.64 t/s	6.5 t/s	-	ollama
6	671B	1.58bit	131G	4.4 t/s	12.9 t/s
7	671B	2.22bit	183G	3.6 t/s	-	5.6 t/s	llama.cpp
8	671B	2.51bit	212G	3.8 t/s	-	5.6 t/s	llama.cpp
9	671B	Q4	404G	2.8 t/s	-	3.7 t/s	llama.cpp
10	671B	Q8	713G	2 t/s	-	2.3 t/s	llama.cpp
11	671B	2.51bit	212G	-	-	10.6 t/s	KTransformers
12	671B	Q4	404G	-	-	7.4 t/s	KTransformers
13	671B	Q8	713G	-	-	5.01 t/s	KTransformers

小结¶

1、纯显卡的推理显著快于CPU的，从速度上看 1和 2比较符合需求，具体还需要看性能，参数量更小的Phi-4可以纳入后续性能评估中；

2、受模型架构影响，在纯CPU环境下，满血DeepSeek-r（10）比满血70B (5)都要快！DeepSeek-r1让人震撼不仅仅是其卓越的性能，更是其"低廉"训练和推理成本上，2 token/s 堪堪可以使用(目前官方以及硅基流动的速度平均下来也就5token/s左右，主要是无法访问的太多了,此外如果针对CPU推理做优化，上5 token/s还是比较容易的，主要瓶颈在内存带宽)；

3、动态量化具有不错的潜力(感觉效果比 1-5都要好)，具体需要后续测试；

4、随着适配推理的硬件技术（如统一内存）和LLM技术的进步，个人终端的智能化应用有望迅速实现！

本文阅读量次
本站总访问量次

Authors: Wind