LLM 本地部署方案¶
ollama 部署¶
#启动模型不启动也行,会根据API参数启动对应的模型
ollama run phi4
#frp穿透
#需要配置OLLAMA_HOST=0.0.0.0:11434,否则无法穿透出去
11434-->22124
http://frp.iomics.pro:22124/v1
#openai模式调用可以参考
https://github.com/ollama/ollama/blob/main/docs/openai.md
llama.cpp 部署¶
cd /public/home/yhfu/02Software/llama_cpp/llama.cpp/build/bin
#命令行模式
./llama-cli \
--model /usr/share/ollama/2.5bit/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00001-of-00005.gguf \
--threads 64 \
--n-gpu-layers 0 \
--temp 0.6 \
--ctx-size 1024 \
--seed 3407 \
--no-display-prompt \
--repeat-penalty 1.2 \
--mlock \
-no-cnv \
--prompt "<|User|>你是谁?<|Assistant|>"
# no-display-prompt 隐藏prompt提示词显示,适合部署在生产环境或制作干净的输出结果时使用
# mlock 将模型锁定在 RAM 中,防止操作系统将其换出到硬盘,适合有高RAM、需要低延迟的场景
## 内存不足就去掉
# repeat-penalty 1.2 控制重复token被惩罚的力度,有助于防止模型生成重复或单调的文本
#server 模式
./llama-server \
--model /usr/share/ollama/.ollama/models/blobs/sha256-fd7b6731c33c57f61767612f56517460ec2d1e2e5a3f0163e0eb3d8d8cb5df20 \
#--threads 16 \
#--threads-batch 32 \
--alias phi4:latest \
--n-gpu-layers 41 \
--ctx-size 10240 \
#--batch-size 4096 \
--port 11433 \
--prio 2 \
#--host 0.0.0.0 \
#--api-key "secret-key" \
#--ssl-key-file key.pem \
#--ssl-cert-file cert.pem \
#--metrics \
#--log-file server.log \
--mlock
# alias 为模型名称设置别名(供REST API使用)
# threads -控制生成文本时使用的CPU线程数
## 默认值为-1,表示系统会自动选择合适的线程数
## 建议设置为物理CPU核心数,而不是逻辑核心数
## 注意:设置过高可能会导致性能下降,因为线程切换开销会增加
# threads-batch 专门用于控制批处理和提示词处理时的线程数
## 默认使用与--threads相同的值
## 在处理大量并发请求时特别有用
## 可以设置比--threads更大的值,以提高批处理性能
# batch-size 逻辑最大批处理大小(默认2048),较大的值可以提高吞吐量,但会增加内存使用
# prio 设置进程/线程优先级:0-正常,1-中等,2-高,3-实时(默认值:0)
# host 设置服务器监听的IP地址
## 默认为127.0.0.1(仅本地访问)
## 设置为0.0.0.0允许远程访问
## 生产环境建议配合SSL和API密钥使用
# metrics 提供性能和使用情况的实时监控,可以与Grafana等工具集成
# log-file指定日志文件路径,记录服务器运行状态和错误信息
#frp穿透
11433-->22123
http://frp.iomics.pro:22123/v1
KTransformers 部署¶
cd /public/home/yhfu/07Test/006_KTransformers/ktransformers
micromamba activate ktransformers
#命令行
python -m ktransformers.local_chat --model_path "/usr/share/ollama/2.5bit/DeepSeek-R1-UD-Q2_K_XL/" --gguf_path "/usr/share/ollama/2.5bit/DeepSeek-R1-UD-Q2_K_XL/" --prompt_file ../p.txt --cpu_infer 64 --max_new_tokens 1024 --force_think true
#server
ktransformers --model_path "/usr/share/ollama/2.5bit/DeepSeek-R1-UD-Q2_K_XL/" --gguf_path "/usr/share/ollama/2.5bit/DeepSeek-R1-UD-Q2_K_XL/" --cpu_infer 64 --max_new_tokens 1024 --force_think true --port 11433
#frp穿透
11433-->22123
http://frp.iomics.pro:22123/v1
#部分软件可能无法识别模型,提供http://frp.iomics.pro:22123/v1/models的模型id或者name即可
本站总访问量 次
Authors: