LLM 本地部署方案¶

ollama 部署¶

#启动模型不启动也行，会根据API参数启动对应的模型
ollama run phi4

#frp穿透
#需要配置OLLAMA_HOST=0.0.0.0:11434，否则无法穿透出去
11434-->22124
http://frp.iomics.pro:22124/v1
#openai模式调用可以参考
https://github.com/ollama/ollama/blob/main/docs/openai.md

llama.cpp 部署¶

cd /public/home/yhfu/02Software/llama_cpp/llama.cpp/build/bin
#命令行模式
./llama-cli \
    --model /usr/share/ollama/2.5bit/DeepSeek-R1-UD-Q2_K_XL/DeepSeek-R1-UD-Q2_K_XL-00001-of-00005.gguf \
    --threads 64 \
    --n-gpu-layers 0 \
    --temp 0.6 \
    --ctx-size 1024 \
    --seed 3407 \
    --no-display-prompt \
    --repeat-penalty 1.2 \
    --mlock \
    -no-cnv \
    --prompt "<｜User｜>你是谁？<｜Assistant｜>"
# no-display-prompt 隐藏prompt提示词显示，适合部署在生产环境或制作干净的输出结果时使用
# mlock 将模型锁定在 RAM 中，防止操作系统将其换出到硬盘，适合有高RAM、需要低延迟的场景
## 内存不足就去掉
# repeat-penalty 1.2 控制重复token被惩罚的力度，有助于防止模型生成重复或单调的文本

#server 模式

./llama-server \
    --model /usr/share/ollama/.ollama/models/blobs/sha256-fd7b6731c33c57f61767612f56517460ec2d1e2e5a3f0163e0eb3d8d8cb5df20 \
    #--threads 16 \
    #--threads-batch 32 \
    --alias phi4:latest \
    --n-gpu-layers 41 \
    --ctx-size 10240 \
    #--batch-size 4096 \
    --port 11433 \
    --prio 2 \
    #--host 0.0.0.0 \
    #--api-key "secret-key" \
    #--ssl-key-file key.pem \
    #--ssl-cert-file cert.pem \
    #--metrics \
    #--log-file server.log \
    --mlock

# alias 为模型名称设置别名（供REST API使用)

# threads -控制生成文本时使用的CPU线程数
## 默认值为-1，表示系统会自动选择合适的线程数
## 建议设置为物理CPU核心数，而不是逻辑核心数
## 注意：设置过高可能会导致性能下降，因为线程切换开销会增加
# threads-batch 专门用于控制批处理和提示词处理时的线程数
## 默认使用与--threads相同的值
## 在处理大量并发请求时特别有用
## 可以设置比--threads更大的值，以提高批处理性能

# batch-size 逻辑最大批处理大小（默认2048），较大的值可以提高吞吐量，但会增加内存使用
# prio 设置进程/线程优先级：0-正常，1-中等，2-高，3-实时（默认值：0）
# host 设置服务器监听的IP地址
## 默认为127.0.0.1（仅本地访问）
## 设置为0.0.0.0允许远程访问
## 生产环境建议配合SSL和API密钥使用

# metrics 提供性能和使用情况的实时监控，可以与Grafana等工具集成
# log-file指定日志文件路径，记录服务器运行状态和错误信息

#frp穿透
11433-->22123
http://frp.iomics.pro:22123/v1

KTransformers 部署¶

cd /public/home/yhfu/07Test/006_KTransformers/ktransformers
micromamba activate ktransformers
#命令行
python -m ktransformers.local_chat --model_path "/usr/share/ollama/2.5bit/DeepSeek-R1-UD-Q2_K_XL/" --gguf_path "/usr/share/ollama/2.5bit/DeepSeek-R1-UD-Q2_K_XL/" --prompt_file ../p.txt --cpu_infer 64 --max_new_tokens 1024 --force_think true

#server
ktransformers --model_path "/usr/share/ollama/2.5bit/DeepSeek-R1-UD-Q2_K_XL/" --gguf_path "/usr/share/ollama/2.5bit/DeepSeek-R1-UD-Q2_K_XL/" --cpu_infer 64 --max_new_tokens 1024 --force_think true --port 11433

#frp穿透
11433-->22123
http://frp.iomics.pro:22123/v1
#部分软件可能无法识别模型，提供http://frp.iomics.pro:22123/v1/models的模型id或者name即可

本文阅读量次
本站总访问量次

Authors: wangshangjian (54.46%), Wind (45.54%)