文章目录
- llama-server(llama.cpp)核心启动参数
- 一、基础帮助/版本
- 二、模型加载(**必填核心**)
- 三、上下文与推理性能
- 四、HTTP服务配置
- 五、生成采样(文本生成参数)
- 六、日志与调试
- 常用启动示例
- 环境变量替代
llama-server(llama.cpp)核心启动参数
以下是llama-server(llama.cpp官方HTTP推理服务)的全部常用/核心启动参数,含短格式、长格式、默认值、环境变量与说明,按功能分组整理。
一、基础帮助/版本
-h, --help, --usage:显示帮助并退出--version:显示版本与构建信息--list-devices:列出可用计算设备(GPU)并退出--completion-bash:输出bash自动补全脚本
二、模型加载(必填核心)
-m, --model FNAME:必须,指定GGUF模型路径(如./model.gguf)--lora FNAME:加载LoRA适配器(可重复多LoRA)--lora-scaled FNAME SCALE:带缩放系数的LoRA--mlock:强制模型常驻内存、禁止swap--no-mmap:禁用内存映射(加载慢、减少页交换)-ngl, --gpu-layers N:GPU卸载层数(0=全CPU,推荐20~99)--split-mode {none,layer,row}:多GPU拆分模式(默认layer)--tensor-split N0,N1,...:多GPU显存分配比例(如9,1)--main-gpu INDEX:主GPU索引(默认0)--mmproj FILE:多模态投影文件(视觉模型)
三、上下文与推理性能
-c, --ctx-size N:上下文窗口(token,默认4096,0=模型默认)-b, --batch-size N:逻辑批大小(默认2048)-ub, --ubatch-size N:物理批大小(默认512)-t, --threads N:推理CPU线程(默认=CPU核心数)-tb, --threads-batch N:批处理/提示线程(默认同-t)--flash-attn:启用Flash Attention加速--cont-batching:启用连续批处理(动态批,默认开启)-nocb, --no-cont-batching:禁用连续批--cache-type-k/v TYPE:KV缓存精度(f16/q8_0等,默认f16)--rope-scaling {none,linear,yarn}:RoPE缩放(扩展上下文)--rope-scale N:RoPE缩放系数
四、HTTP服务配置
--host HOST:监听地址(默认127.0.0.1,公网用0.0.0.0)--port PORT:监听端口(默认8080)--api-key KEY:API密钥鉴权--api-key-file FNAME:从文件加载多密钥--no-webui:禁用内置Web UI--embedding:仅启用嵌入(Embedding)模式--reranking:启用重排序端点--timeout N:请求超时(秒,默认600)--threads-http N:HTTP处理线程(默认-1=自动)--ssl-key/cert-file:HTTPS证书/密钥--metrics:启用Prometheus监控端点
五、生成采样(文本生成参数)
--temp N:温度(默认0.8,越低越确定)--top-k N:Top-K采样(默认40,0=禁用)--top-p N:Top-P核采样(默认0.95)--min-p N:最小概率阈值(默认0.05)--presence/frequency-penalty N:重复惩罚(默认0)--n-predict N:最大生成token(默认-1=无限)--ignore-eos:忽略结束符、强制继续生成--seed SEED:随机种子(默认-1=随机)--grammar GRAMMAR:BNF语法约束生成--json-schema SCHEMA:JSON Schema格式约束
六、日志与调试
-v, --verbose:详细日志--log-file FNAME:日志输出到文件--log-disable:禁用日志--no-perf:关闭内部性能计时
常用启动示例
# 基础启动(CPU,本地访问)./llama-server-m./qwen-7b-q4_k_m.gguf-c4096-t8--port8080# GPU加速、公网访问、API密钥./llama-server-m./llama3-8b-q4.gguf-ngl35-c8192--host0.0.0.0--port8080--api-key mysecretkey# 嵌入模式、禁用WebUI./llama-server-m./bge-m3.gguf--embedding--no-webui-c8192环境变量替代
大部分参数可通过LLAMA_ARG_*环境变量设置(优先级低于命令行):
LLAMA_ARG_MODEL=./model.ggufLLAMA_ARG_CTX_SIZE=8192LLAMA_ARG_PORT=8080
https://github.com/ADT109119/llamacpp-distributed-inference?tab=readme-ov-file