news 2026/4/18 1:50:18

llamacpp使用命令

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
llamacpp使用命令

文章目录

      • llama-server(llama.cpp)核心启动参数
        • 一、基础帮助/版本
        • 二、模型加载(**必填核心**)
        • 三、上下文与推理性能
        • 四、HTTP服务配置
        • 五、生成采样(文本生成参数)
        • 六、日志与调试
      • 常用启动示例
      • 环境变量替代

llama-server(llama.cpp)核心启动参数

以下是llama-server(llama.cpp官方HTTP推理服务)的全部常用/核心启动参数,含短格式、长格式、默认值、环境变量与说明,按功能分组整理。

一、基础帮助/版本
  • -h, --help, --usage:显示帮助并退出
  • --version:显示版本与构建信息
  • --list-devices:列出可用计算设备(GPU)并退出
  • --completion-bash:输出bash自动补全脚本
二、模型加载(必填核心
  • -m, --model FNAME必须,指定GGUF模型路径(如./model.gguf
  • --lora FNAME:加载LoRA适配器(可重复多LoRA)
  • --lora-scaled FNAME SCALE:带缩放系数的LoRA
  • --mlock:强制模型常驻内存、禁止swap
  • --no-mmap:禁用内存映射(加载慢、减少页交换)
  • -ngl, --gpu-layers N:GPU卸载层数(0=全CPU,推荐20~99)
  • --split-mode {none,layer,row}:多GPU拆分模式(默认layer)
  • --tensor-split N0,N1,...:多GPU显存分配比例(如9,1
  • --main-gpu INDEX:主GPU索引(默认0)
  • --mmproj FILE:多模态投影文件(视觉模型)
三、上下文与推理性能
  • -c, --ctx-size N:上下文窗口(token,默认4096,0=模型默认)
  • -b, --batch-size N:逻辑批大小(默认2048)
  • -ub, --ubatch-size N:物理批大小(默认512)
  • -t, --threads N:推理CPU线程(默认=CPU核心数)
  • -tb, --threads-batch N:批处理/提示线程(默认同-t)
  • --flash-attn:启用Flash Attention加速
  • --cont-batching:启用连续批处理(动态批,默认开启)
  • -nocb, --no-cont-batching:禁用连续批
  • --cache-type-k/v TYPE:KV缓存精度(f16/q8_0等,默认f16)
  • --rope-scaling {none,linear,yarn}:RoPE缩放(扩展上下文)
  • --rope-scale N:RoPE缩放系数
四、HTTP服务配置
  • --host HOST:监听地址(默认127.0.0.1,公网用0.0.0.0
  • --port PORT:监听端口(默认8080
  • --api-key KEY:API密钥鉴权
  • --api-key-file FNAME:从文件加载多密钥
  • --no-webui:禁用内置Web UI
  • --embedding:仅启用嵌入(Embedding)模式
  • --reranking:启用重排序端点
  • --timeout N:请求超时(秒,默认600)
  • --threads-http N:HTTP处理线程(默认-1=自动)
  • --ssl-key/cert-file:HTTPS证书/密钥
  • --metrics:启用Prometheus监控端点
五、生成采样(文本生成参数)
  • --temp N:温度(默认0.8,越低越确定)
  • --top-k N:Top-K采样(默认40,0=禁用)
  • --top-p N:Top-P核采样(默认0.95)
  • --min-p N:最小概率阈值(默认0.05)
  • --presence/frequency-penalty N:重复惩罚(默认0)
  • --n-predict N:最大生成token(默认-1=无限)
  • --ignore-eos:忽略结束符、强制继续生成
  • --seed SEED:随机种子(默认-1=随机)
  • --grammar GRAMMAR:BNF语法约束生成
  • --json-schema SCHEMA:JSON Schema格式约束
六、日志与调试
  • -v, --verbose:详细日志
  • --log-file FNAME:日志输出到文件
  • --log-disable:禁用日志
  • --no-perf:关闭内部性能计时

常用启动示例

# 基础启动(CPU,本地访问)./llama-server-m./qwen-7b-q4_k_m.gguf-c4096-t8--port8080# GPU加速、公网访问、API密钥./llama-server-m./llama3-8b-q4.gguf-ngl35-c8192--host0.0.0.0--port8080--api-key mysecretkey# 嵌入模式、禁用WebUI./llama-server-m./bge-m3.gguf--embedding--no-webui-c8192

环境变量替代

大部分参数可通过LLAMA_ARG_*环境变量设置(优先级低于命令行):

  • LLAMA_ARG_MODEL=./model.gguf
  • LLAMA_ARG_CTX_SIZE=8192
  • LLAMA_ARG_PORT=8080

https://github.com/ADT109119/llamacpp-distributed-inference?tab=readme-ov-file

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 1:49:26

备忘录:3 人,开发周期3 个月,团队日净收入约100 万 +

几件我不明白的事: 2016 年微信小程序刚推出时,除了开发者,几乎没人知道该怎么编写。官方只附带了一份不算详细的代码开发指南,读过的人才能基本明白怎么用。很多人其实对程序员和编程这件事有不小的误解。 Java、C 语言与小程序所…

作者头像 李华
网站建设 2026/4/18 1:47:23

技术书籍推荐

技术书籍推荐:提升技能的最佳指南 在技术快速发展的时代,书籍仍然是系统学习知识的重要途径。无论是编程新手还是资深开发者,选择一本优质的技术书籍都能帮助突破瓶颈、提升技能。本文将推荐几本经典技术书籍,涵盖不同领域&#…

作者头像 李华
网站建设 2026/4/18 1:45:29

偏相关怎么做:SPSSAU操作步骤与结果解读

一、偏相关所属模块 偏相关在SPSSAU中位于【进阶方法】模块。 二、方法概述 偏相关用于考察多个定量变量之间的相关关系,同时剔除控制变量带来的干扰影响。它适合用于研究两个或多个指标之间是否仍然存在稳定联系,尤其适用于需要排除背景因素影响的分…

作者头像 李华
网站建设 2026/4/18 1:45:25

Oracle密码过期的处理方法

1、问题描述2、解决方法2.1、以SYSDBA身份登陆sqlplus sys/sysorcl as sysdba2.2、修改账号的密码alter user 账号 identified by "密码";

作者头像 李华