llamacpp使用命令-编程阁

文章目录

- - llama-server（llama.cpp）核心启动参数
  - - 一、基础帮助/版本
    - 二、模型加载（**必填核心**）
    - 三、上下文与推理性能
    - 四、HTTP服务配置
    - 五、生成采样（文本生成参数）
    - 六、日志与调试
  - 常用启动示例
  - 环境变量替代

llama-server（llama.cpp）核心启动参数

以下是llama-server（llama.cpp官方HTTP推理服务）的全部常用/核心启动参数，含短格式、长格式、默认值、环境变量与说明，按功能分组整理。

一、基础帮助/版本

-h, --help, --usage：显示帮助并退出
--version：显示版本与构建信息
--list-devices：列出可用计算设备（GPU）并退出
--completion-bash：输出bash自动补全脚本

二、模型加载（必填核心）

-m, --model FNAME：必须，指定GGUF模型路径（如./model.gguf）
--lora FNAME：加载LoRA适配器（可重复多LoRA）
--lora-scaled FNAME SCALE：带缩放系数的LoRA
--mlock：强制模型常驻内存、禁止swap
--no-mmap：禁用内存映射（加载慢、减少页交换）
-ngl, --gpu-layers N：GPU卸载层数（0=全CPU，推荐20~99）
--split-mode {none,layer,row}：多GPU拆分模式（默认layer）
--tensor-split N0,N1,...：多GPU显存分配比例（如9,1）
--main-gpu INDEX：主GPU索引（默认0）
--mmproj FILE：多模态投影文件（视觉模型）

三、上下文与推理性能

-c, --ctx-size N：上下文窗口（token，默认4096，0=模型默认）
-b, --batch-size N：逻辑批大小（默认2048）
-ub, --ubatch-size N：物理批大小（默认512）
-t, --threads N：推理CPU线程（默认=CPU核心数）
-tb, --threads-batch N：批处理/提示线程（默认同-t）
--flash-attn：启用Flash Attention加速
--cont-batching：启用连续批处理（动态批，默认开启）
-nocb, --no-cont-batching：禁用连续批
--cache-type-k/v TYPE：KV缓存精度（f16/q8_0等，默认f16）
--rope-scaling {none,linear,yarn}：RoPE缩放（扩展上下文）
--rope-scale N：RoPE缩放系数

四、HTTP服务配置

--host HOST：监听地址（默认127.0.0.1，公网用0.0.0.0）
--port PORT：监听端口（默认8080）
--api-key KEY：API密钥鉴权
--api-key-file FNAME：从文件加载多密钥
--no-webui：禁用内置Web UI
--embedding：仅启用嵌入（Embedding）模式
--reranking：启用重排序端点
--timeout N：请求超时（秒，默认600）
--threads-http N：HTTP处理线程（默认-1=自动）
--ssl-key/cert-file：HTTPS证书/密钥
--metrics：启用Prometheus监控端点

五、生成采样（文本生成参数）

--temp N：温度（默认0.8，越低越确定）
--top-k N：Top-K采样（默认40，0=禁用）
--top-p N：Top-P核采样（默认0.95）
--min-p N：最小概率阈值（默认0.05）
--presence/frequency-penalty N：重复惩罚（默认0）
--n-predict N：最大生成token（默认-1=无限）
--ignore-eos：忽略结束符、强制继续生成
--seed SEED：随机种子（默认-1=随机）
--grammar GRAMMAR：BNF语法约束生成
--json-schema SCHEMA：JSON Schema格式约束

六、日志与调试

-v, --verbose：详细日志
--log-file FNAME：日志输出到文件
--log-disable：禁用日志
--no-perf：关闭内部性能计时

常用启动示例

# 基础启动（CPU，本地访问）./llama-server-m./qwen-7b-q4_k_m.gguf-c4096-t8--port8080# GPU加速、公网访问、API密钥./llama-server-m./llama3-8b-q4.gguf-ngl35-c8192--host0.0.0.0--port8080--api-key mysecretkey# 嵌入模式、禁用WebUI./llama-server-m./bge-m3.gguf--embedding--no-webui-c8192

环境变量替代

大部分参数可通过LLAMA_ARG_*环境变量设置（优先级低于命令行）：

LLAMA_ARG_MODEL=./model.gguf
LLAMA_ARG_CTX_SIZE=8192
LLAMA_ARG_PORT=8080

https://github.com/ADT109119/llamacpp-distributed-inference?tab=readme-ov-file

备忘录：3 人，开发周期3 个月，团队日净收入约100 万 +

几件我不明白的事： 2016 年微信小程序刚推出时，除了开发者，几乎没人知道该怎么编写。官方只附带了一份不算详细的代码开发指南，读过的人才能基本明白怎么用。很多人其实对程序员和编程这件事有不小的误解。 Java、C 语言与小程序所…

李华

技术书籍推荐

技术书籍推荐：提升技能的最佳指南在技术快速发展的时代，书籍仍然是系统学习知识的重要途径。无论是编程新手还是资深开发者，选择一本优质的技术书籍都能帮助突破瓶颈、提升技能。本文将推荐几本经典技术书籍，涵盖不同领域&#…

李华

保姆级教程：用ESP32和LAN8720模块DIY一个稳定可靠的以太网网关（附完整代码）

ESP32LAN8720以太网网关实战指南：从硬件搭建到稳定通信项目背景与核心价值在智能家居和工业物联网应用中，WiFi虽然方便但存在信号干扰、连接不稳定等问题。基于ESP32的有线以太网方案提供了更可靠的网络连接，特别适合对稳定性要求高的场景。…

李华

偏相关怎么做：SPSSAU操作步骤与结果解读

一、偏相关所属模块偏相关在SPSSAU中位于【进阶方法】模块。二、方法概述偏相关用于考察多个定量变量之间的相关关系，同时剔除控制变量带来的干扰影响。它适合用于研究两个或多个指标之间是否仍然存在稳定联系，尤其适用于需要排除背景因素影响的分…

李华

成功案例|揭秘 “土传病害克星”：1菌+5 菌的跨界组合，让小麦抗病又增产

文章信息文章题目：Cross-Kingdom Synthetic Microbiota Suppresses Wheat Fusarium Crown Rot by Remodeling the Rhizosphere Microbiome and Metabolome文章主题：跨界合成微生物群通过重塑根际微生物组和代谢组抑制小麦镰刀菌冠腐病发表期刊&#xff1…

李华