大语言模型驱动的自主渗透测试：PentestGPT实战部署与核心架构解析-编程阁

1. 项目概述：当大语言模型拿起渗透测试的“手术刀”

如果你和我一样，在网络安全这个行当里摸爬滚打了十几年，从手动敲Nmap扫描到写自动化脚本，再到看着各种安全工具百花齐放，那你肯定能感受到一个趋势：安全测试正在变得越来越“智能”，或者说，越来越“自动化”。但这里的自动化，不再是简单的脚本串联，而是开始具备某种“思考”能力。今天要聊的PentestGPT，就是这样一个标志性的产物——一个由大语言模型驱动的自主渗透测试智能体。

简单来说，PentestGPT 试图解决一个困扰安全从业者多年的核心矛盾：渗透测试需要高度的创造性思维和临场应变能力，这恰恰是传统自动化工具最欠缺的；而大语言模型在逻辑推理、代码理解和多步骤规划上展现出的惊人潜力，让它看起来像是一位不知疲倦、知识渊博的“虚拟安全专家”。这个项目，就是把这位“专家”请到我们的渗透测试工作流里来。

它的核心价值在于，将LLM的高级推理能力与成熟的渗透测试工具链相结合，形成一个能够自主分析目标、制定策略、执行工具并解释结果的闭环系统。这不再是简单的“AI写POC”，而是一个能理解“为什么要这么做”以及“下一步该做什么”的智能体。对于安全研究人员，它是一个强大的辅助大脑，能帮你探索新的攻击路径；对于渗透测试工程师，它可以承担大量重复性的信息收集和初步漏洞验证工作，让你更专注于核心的漏洞挖掘和利用；对于正在学习安全的新手，它则是一个永不厌烦、能实时反馈的“教练”，带你一步步理解渗透测试的完整逻辑链。

我最初接触这个项目，是因为它在USENIX Security 2024上发表了论文。学术圈的认可，通常意味着其方法论的严谨性和创新性得到了验证。实际用下来，最让我印象深刻的是它的“Agentic Pipeline”（智能体管道）设计。它不像一些玩具项目那样，只是把用户输入扔给LLM然后输出一些命令建议就完事了。PentestGPT内部有一个完整的决策循环：观察（解析工具输出）、思考（LLM分析当前状态和上下文）、行动（选择并执行下一个最合适的工具）、再观察……这个循环会持续进行，直到达成预设目标（比如找到flag）或无法继续。这种设计，让它真正具备了在复杂、未知环境中自主探索的能力。

2. 核心架构与设计哲学拆解

2.1 从“工具调用者”到“策略制定者”的范式转变

传统的安全自动化，无论是Metasploit的模块化框架，还是自己写的Python脚本，本质都是“if-else”规则的具象化。我们预先定义好流程：先端口扫描，发现80端口就调用dirsearch，找到登录页就尝试弱口令爆破……这种方法的局限性很明显：环境稍一变，规则就可能失效，缺乏真正的适应性。

PentestGPT的设计哲学完全不同。它把LLM作为整个系统的“中央处理器”和“策略引擎”。你可以把它想象成一个经验丰富的渗透测试指挥官，它手里有一本厚厚的“安全测试百科全书”（即其训练数据中的海量安全知识），面前有一个实时更新的“战场态势图”（即当前扫描结果和上下文），然后由它来动态决定派哪支“特种部队”（即哪个工具）去执行什么任务。

这个转变的关键在于“目标驱动”而非“流程驱动”。你给PentestGPT一个目标IP（--target 10.10.11.234）和可能的背景信息（--instruction “WordPress site”），它不会机械地跑一遍固定流程。它会先尝试理解目标：这是一个Web服务器吗？开放了哪些非常规端口？服务指纹是什么？基于这些初步观察，LLM会生成一个初步的测试假设，比如“这可能是一个存在插件漏洞的WordPress站点”，然后指导系统去执行针对性的信息收集（如wpscan）和漏洞验证。如果假设被推翻，它会灵活地调整策略，尝试其他攻击面。

2.2 Docker优先与模块化设计：保障可复现与可扩展

作为一个需要集成多种安全工具（如nmap, nikto, sqlmap等）并可能执行高风险操作的项目，环境隔离和可复现性是重中之重。PentestGPT采用了“Docker-First”的设计，这是我非常赞赏的一点。

为什么是Docker？

环境一致性：所有依赖（Python版本、工具库、系统包）都被锁定在一个特定的Docker镜像里。这意味着我在我的Ubuntu 22.04上运行的结果，和你在MacOS或Windows WSL2上运行的结果，是完全一致的。彻底避免了“在我机器上好好的”这种经典问题。
安全性隔离：渗透测试工具有时行为会比较激进。在Docker容器中运行，为宿主机系统提供了一层隔离，即使工具运行出现意外，也能将影响控制在容器内。
一键部署：项目通过一个精心编写的Makefile，将复杂的Docker构建、网络配置、权限设置封装成了简单的make install和make connect命令。用户几乎不需要关心底层的细节，大大降低了使用门槛。
预置工具集：项目的Docker镜像已经预装了渗透测试常用的工具链。你不需要再手动安装和配置nmap、gobuster、sqlmap等，开箱即用。

它的架构是高度模块化的。核心的“大脑”（LLM交互与推理模块）与“四肢”（工具执行模块）是解耦的。工具模块通过统一的接口被调用，这意味着未来要新增一个工具，比如一个最新的漏洞扫描器，只需要按照规范编写对应的插件即可，无需改动核心逻辑。这种设计为社区贡献和功能扩展留足了空间。

2.3 多模型路由策略：为不同任务匹配合适的“大脑”

并非所有LLM任务都需要同等强大的推理能力，也并非所有模型都擅长所有事。PentestGPT v1.0版本引入了一个非常精巧的“模型路由”机制。这就像是一个智能调度中心，根据任务类型，将请求分发到最合适的LLM上。

在scripts/ccr-config-template.json配置文件中，你可以清晰地看到这种路由策略：

{ “router”: { “default”: “openai/gpt-oss-20b”, “background”: “openai/gpt-oss-20b”, “think”: “qwen/qwen3-coder-30b”, “longContext”: “qwen/qwen3-coder-30b”, “webSearch”: “openai/gpt-oss-20b” } }

think路由：处理最核心、最需要复杂推理的步骤。例如，分析nmap扫描结果，推断可能存在的服务版本漏洞，并规划下一步攻击路径。这个任务通常会路由到能力最强的模型（如配置中的qwen/qwen3-coder-30b），因为它的表现直接决定了渗透测试的成败。
background路由：处理一些后台的、相对简单的任务，比如日志记录、状态更新。这些任务对模型能力要求不高，可以使用更经济、更快速的模型（如openai/gpt-oss-20b）来处理，以节省成本和时间。
longContext路由：当需要处理很长的对话历史或工具输出时（比如分析一个庞大的网站目录扫描结果），需要模型有强大的长文本处理能力。
webSearch路由：如果未来集成网络搜索功能（用于查找最新的漏洞利用信息），可以指定专门的模型来处理。

这种设计带来了两个巨大优势：成本优化和性能优化。你可以用强大的但昂贵的模型处理关键推理，用轻量级的模型处理简单任务，整体成本更低、速度更快。同时，它也赋予了用户极大的灵活性，你可以根据自己拥有的API权限和预算，自由配置这个路由表。

实操心得：在初期配置时，不要盲目追求使用最顶尖的模型处理所有任务。可以先从“default”路由全部使用同一个性价比高的模型开始（如GPT-4o-mini），观察其表现。如果发现它在复杂规划上经常“卡壳”，再考虑将think路由指向一个更强大的模型（如Claude-3.5-Sonnet或GPT-4o）。这种渐进式的配置，能帮你找到效果和成本的最佳平衡点。

3. 从零到一的实战部署与配置详解

3.1 环境准备与依赖梳理

在开始之前，我们需要确保宿主机环境就绪。PentestGPT的核心依赖其实非常简洁：

Docker与Docker Compose：这是基石。请务必安装最新稳定版。在Linux上，通常用包管理器安装即可。在Windows和Mac上，建议安装Docker Desktop，它会一并提供Docker Compose。安装后，在终端运行docker --version和docker compose version确认安装成功。
Git：用于克隆项目代码。
LLM API访问权限：这是项目的“燃料”。你需要准备以下至少一项：
- Anthropic Claude API Key：目前项目的默认和主要支持模型。你需要注册Anthropic账户并在控制台（console.anthropic.com）创建API Key。注意，Claude API是独立计费的，与ChatGPT Plus订阅无关。
- OpenRouter API Key：这是一个聚合平台，可以访问众多开源和闭源模型（如Google Gemini、Meta Llama等）。如果你不想直接使用OpenAI或Anthropic，OpenRouter是一个很好的选择，它统一了API接口。
- 本地LLM服务器：如果你有强大的显卡，或者希望数据完全本地化，可以部署Ollama、LM Studio或text-generation-webui。这需要一定的本地硬件资源（通常建议16GB以上内存，有GPU更佳）。

注意事项：关于网络问题。由于需要从Docker容器内访问外部API（如Anthropic）或宿主机上的本地LLM服务，你需要确保网络通畅。如果宿主机处于特殊的网络环境，可能需要配置Docker容器的代理或调整宿主机的防火墙规则，允许容器访问特定端口。这是初期部署时最常见的“坑”之一。

3.2 步步为营：安装与初始化全流程

假设我们已经在本地准备好Docker和Git，接下来是标准的安装流程。我强烈建议你一字不差地跟着做，尤其是第一次。

步骤一：克隆项目打开终端，执行：

git clone --recurse-submodules https://github.com/GreyDGL/PentestGPT.git cd PentestGPT

这里的--recurse-submodules参数至关重要。PentestGPT项目包含一个子模块（benchmark/目录），里面是用于测试和评估的104个XBOW基准测试套件。如果忘记这个参数，后续的基准测试将无法运行。如果已经克隆但忘了加，可以运行git submodule update --init --recursive来补救。

步骤二：构建Docker镜像在项目根目录下，运行：

make install

这个命令会执行Makefile中的install目标。背后发生的事情是：Docker会基于项目提供的Dockerfile，拉取基础镜像（如Ubuntu），然后执行一系列安装脚本，将Python环境、渗透测试工具（nmap, nikto, gobuster, sqlmap等）、项目代码及其依赖全部打包进一个全新的镜像中。这个过程视网络情况，可能需要5-15分钟。你会看到终端输出大量的安装日志。

步骤三：首次配置（关键步骤）构建完成后，运行：

make config

这是你与PentestGPT的“第一次对话”。这个命令会启动一个交互式的配置向导。通常，它会让你选择LLM提供商：

Anthropic API Key（直接输入密钥）
Claude OAuth（通过网页登录授权，适用于有Claude订阅的用户）
OpenRouter API Key
Local LLM（本地模型）

以最常用的Anthropic API Key为例，选择选项1，然后它会提示你输入API Key。输入后，配置向导还会问你一些其他偏好设置，比如默认的交互模式、是否启用遥测等。这些配置会被保存到容器内部的一个持久化存储卷中，所以下次启动时无需重新配置。

步骤四：进入渗透测试环境配置完成后，运行：

make connect

这个命令会启动Docker容器（如果还没运行的话），并将你的终端会话附加到容器内部。此时，你的命令行提示符通常会发生变化，表明你已经进入了PentestGPT的专用环境。你会在容器内的/app目录下，这里包含了所有的工具和脚本。

至此，PentestGPT的运行环境已经完全就绪。你可以输入pentestgpt --help来查看所有可用的命令和参数。

3.3 模型配置的深水区：本地LLM集成实战

对于很多想要完全控制数据流或没有稳定外部API访问条件的用户，使用本地LLM是更理想的选择。这里我以目前最易用的Ollama为例，详细走一遍流程。

在宿主机上（不是在Docker容器里）：

安装并启动Ollama：访问Ollama官网下载对应系统的安装包。安装后，在终端运行ollama serve。这个命令会启动一个本地API服务器，默认监听在11434端口。
拉取模型：打开另一个终端，运行ollama pull qwen2.5-coder:7b。这里我选择Qwen2.5-Coder的7B版本，因为它代码和理解能力不错，且对硬件要求相对友好（8GB左右内存可运行）。你可以根据自己硬件选择更大或更小的模型。

在PentestGPT配置中：

再次运行make config（如果之前配置过，可能需要先make clean-docker清理再重来）。
选择配置选项4（Local LLM）。
当询问本地LLM服务器地址时，这里有一个关键点：从Docker容器内部访问宿主机的服务，不能使用localhost或127.0.0.1，因为那指向的是容器自己。必须使用Docker提供的特殊主机名host.docker.internal。所以，地址应填写为：http://host.docker.internal:11434（端口号根据你的Ollama设置调整，默认是11434）。
后续会提示你输入模型名称，填写你在Ollama中拉取的模型名，例如qwen2.5-coder:7b。

验证连接：进入容器（make connect）后，你可以手动测试一下连接。容器内预装了curl，可以尝试：

curl http://host.docker.internal:11434/api/generate -d '{ “model”: “qwen2.5-coder:7b”, “prompt”: “Hello”, “stream”: false }'

如果返回了JSON格式的响应且包含生成的文本，说明网络和模型服务都正常。

踩坑记录：我在第一次配置本地LLM时，遇到了“Connection refused”错误。排查后发现两个问题：一是宿主机的防火墙屏蔽了11434端口，需要在宿主机放行该端口；二是在Docker Desktop for Mac的某些版本中，host.docker.internal解析可能有问题，需要检查Docker Desktop的网络设置。如果遇到类似问题，可以尝试在容器内ping host.docker.internal看是否能解析到IP，并检查Ollama服务日志。

4. 核心工作流与实战操作解析

4.1 交互式渗透测试：像指挥官一样观察与决策

PentestGPT默认启动的是交互式TUI模式。这是最能体现其“智能体”特性的方式。我们以一个模拟目标为例（请务必仅在授权的靶机或CTF环境中使用）。

在容器内，运行：

pentestgpt --target 10.10.11.234

程序启动后，你会看到一个基于文本的用户界面。界面通常会分为几个区域：状态显示区、实时日志输出区、以及底部的操作提示区。

初始阶段（侦察）： PentestGPT不会立刻开始狂轰滥炸。它首先会进行“轻量级侦察”。你会在日志中看到它调用nmap进行一个快速扫描（可能是-sS -sV -O --top-ports 100），目的是快速勾勒出目标轮廓：开放了哪些端口？运行着什么服务？是什么操作系统？

LLM介入分析与规划：扫描结果返回后，这些原始文本会被送入LLM。LLM的角色是“分析师”，它会阅读这些结果并生成一份“情报摘要”。例如，它可能输出：

分析结果：目标IP开放了80端口（HTTP，Apache 2.4.49）、22端口（SSH，OpenSSH 8.2p1）、3306端口（MySQL）。Web服务器版本可能存在已知漏洞（CVE-2021-41773）。建议下一步：1. 对80端口进行详细的Web目录枚举。2. 尝试利用Apache 2.4.49的路径遍历漏洞。

自主工具执行：根据LLM的建议，PentestGPT会自动选择并执行相应的工具。比如，它会启动gobuster或dirsearch对Web目录进行扫描。扫描结果会再次反馈给LLM。

循环与深化： LLM分析目录扫描结果，发现/admin、/backup等路径。它可能会判断：“发现管理后台，下一步应尝试识别CMS类型并寻找默认凭证或漏洞。” 于是指导系统进行whatweb或wappalyzer式的指纹识别，识别出是WordPress，然后自动调用wpscan进行漏洞扫描。

在整个过程中，你作为操作者，可以随时按F1查看帮助，按Ctrl+P暂停/继续自动执行流程，或者根据情况输入一些引导性的指令。这种模式让你仿佛在指挥一个不知疲倦的助手，你能看到它的“思考过程”，并在关键节点进行干预或修正。

4.2 非交互式模式与批量处理

对于已经明确测试流程，或者需要批量测试多个目标的情况，交互式模式可能效率不高。PentestGPT提供了非交互式模式。

pentestgpt --target 10.10.11.100 --non-interactive

在这种模式下，PentestGPT会按照其内置的策略逻辑，从头到尾自动执行完整个渗透测试流程，并将最终报告输出到终端或指定的日志文件中。你可以在命令后添加--instruction参数来提供初始上下文，极大地缩小搜索范围，提升效率。

pentestgpt --target 10.10.11.50 --non-interactive --instruction “这是一个公开的DVWA（Damn Vulnerable Web Application）靶场，请尝试找出SQL注入漏洞并获取数据库中的flag。”

加上指令后，LLM会将其作为强约束条件。它可能跳过不必要的端口扫描，直接对Web服务进行深度测试，并优先尝试与SQL注入相关的工具和Payload。

实操技巧：非交互式模式非常适合集成到CI/CD管道中，对开发或测试环境进行定期的自动化安全扫描。你可以编写一个脚本，遍历一个IP列表，对每个目标运行PentestGPT的非交互式扫描，并收集整理生成的报告。不过，务必严格控制扫描的激进程度，避免对生产系统造成影响。

4.3 会话持久化：随时中断与继续

这是v1.0版本一个非常实用的功能——会话持久化。渗透测试，尤其是对复杂目标的测试，往往不是一蹴而就的，可能需要数小时甚至数天。

假设你对一个目标测试了半小时，发现了几个有趣的线索，但此时需要下班关机。在旧版本中，所有上下文都会丢失，下次只能重头再来。而现在，PentestGPT会自动保存会话状态。

当你按Ctrl+Q退出，或者容器正常停止时，当前的测试上下文（包括目标信息、已执行的命令历史、收集到的数据、LLM的推理状态）会被加密保存到持久化存储中。

下次当你对同一个目标再次启动PentestGPT时：

pentestgpt --target 10.10.11.234

它会检测到存在该目标的未完成会话，并询问你是否要恢复。选择“是”，它就会从上次中断的地方继续，仿佛从未停止过。这对于进行长时间、多步骤的渗透测试演练至关重要。

5. 性能评估与基准测试实战

5.1 理解XBOW基准测试套件

如何客观评价一个自动化渗透测试工具的好坏？不能光靠“感觉”。PentestGPT团队引入了一套名为XBOW的基准测试套件。这套套件包含了104个精心设计的“挑战”，覆盖了Web、密码学、逆向工程、取证、二进制漏洞利用、权限提升等多个安全领域。每个挑战都模拟了一个真实的安全漏洞场景，并设定了明确的“目标”（通常是找到一个特定的flag）。

运行这些基准测试，就像是让PentestGPT参加一场标准化的“安全高考”。我们可以从以下几个维度量化其能力：

成功率：在多少道题上能独立找到flag。
效率：平均耗时和耗时中位数。
成本：平均消耗的API调用费用（如果使用云API）。

项目论文中公布的86.5%的整体成功率（90/104）是一个非常亮眼的成绩，尤其是在Level 2（中等难度）和Level 3（高难度）题目上仍能保持74.5%和62.5%的成功率，证明了其解决复杂问题的能力。

5.2 亲手运行基准测试

我们可以在自己的环境中复现这个测试，评估当前配置下的PentestGPT性能。

首先，确保你已经按照安装步骤克隆了包含子模块的项目。基准测试的运行器位于独立的子模块中。

# 进入基准测试目录 cd benchmark/standalone-xbow-benchmark-runner # 运行一个简单的测试（例如，运行第1到第5题） python3 run_benchmarks.py --range 1-5 --pattern-flag

--range 1-5：指定运行挑战的编号范围。
--pattern-flag：这是一个关键参数。它告诉测试运行器，挑战成功的标志是“找到了符合特定模式的字符串”（即flag）。很多CTF的flag格式类似flag{...}或HTB{...}。

运行后，你会看到详细的输出：每个挑战的开始时间、PentestGPT执行的步骤、LLM的推理过程、最终是否找到flag、耗时以及API调用成本（如果配置了计费API）。

测试结果解读示例：

[Challenge #003 - Web_SQLi_Simple] Status: SUCCESS Time: 2m 17s Cost: $0.08 Steps: 5 Flag: flag{s1mpl3_sql_1nj3ct10n}

这表示PentestGPT在2分17秒内，通过5个步骤，成功找到了一个简单的SQL注入漏洞的flag，花费了大约8美分（使用Claude API）。

5.3 根据测试结果优化配置

基准测试不仅是验证工具，更是优化配置的罗盘。通过分析失败案例，你可以调整策略。

常见失败原因与调优建议：

失败现象	可能原因	调优方向
超时失败	LLM思考过程过长，陷入循环；或工具执行时间太久。	1. 在CCR配置中，为`think`路由设置更强大的模型（如Claude-3.5-Sonnet），减少无效推理。 2. 调整工具执行的超时时间（如果配置允许）。 3. 使用`--instruction`提供更明确的初始提示，缩小搜索空间。
未找到Flag	LLM未能正确解析工具输出，或选择了错误的攻击路径。	1. 检查本地LLM的能力是否足够。尝试在`think`路由换用更大的模型。 2. 审查失败挑战的详细日志，看LLM在哪一步做出了错误判断。有时需要人工总结后，以“系统提示词”的形式注入更专业的领域知识。
API调用错误	网络问题、额度不足或模型不可用。	1. 配置API备用Key或切换模型提供商。 2. 对于本地LLM，检查服务器是否稳定，内存是否充足。

你可以使用--retry-failed参数只重新运行之前失败的挑战，节省时间。也可以使用--dry-run参数预览将要执行的命令而不实际运行，用于检查配置。

经验之谈：不要期望在任何配置下都能达到论文中的86.5%成功率。这个成绩是在特定模型（论文中可能是Claude-3 Opus）和优化后的提示词工程下取得的。如果你使用较小的本地模型（如7B参数），成功率可能会显著下降，尤其是在逆向、密码学等需要深度推理的领域。这很正常。基准测试的意义在于为你建立一个性能基线，并帮助你通过调整模型、提示词和参数来持续提升这个基线。

6. 高级技巧、问题排查与生态展望

6.1 提示词工程：与你的AI助手高效沟通

虽然PentestGPT已经内置了优化的提示词，但作为高级用户，你可以通过--instruction参数进行“微调”。这本质上是为LLM提供额外的上下文或约束，引导它更高效地工作。

场景化引导：--instruction “目标是一个Windows域控制器，请重点关注SMB服务和Kerberos相关漏洞。”这样LLM会优先考虑使用enum4linux、smbclient、GetUserSPNs等工具和方向，而不是漫无目的地扫描所有Web端口。
约束性引导：--instruction “这是一个生产环境，只允许进行非破坏性的信息收集，禁止任何爆破和注入攻击。”这可以模拟“白盒测试”或“最小化风险评估”的场景，让LLM自动规避高风险操作。
技术栈引导：--instruction “该服务运行在Java Spring Boot框架上，请针对性测试。”LLM可能会联想到Spring Boot Actuator未授权访问、Spring Cloud Config Server漏洞等特定于该技术栈的测试点。

如何构造有效的指令？我的经验是：具体、可操作、包含关键词。避免“好好测试”这种模糊指令。而是像给你的实习生布置任务一样清晰：“优先扫描80和443端口，识别Web框架，重点测试登录框的SQL注入和弱口令，使用/api/开头的接口进行模糊测试。”

6.2 常见问题与故障排除手册

在实际使用中，你可能会遇到一些问题。这里我整理了一个快速排查清单：

问题	可能原因	解决方案
`make install`失败，Docker构建错误。	1. 网络问题，无法拉取基础镜像或安装包。 2. 宿主机Docker磁盘空间不足。 3. Dockerfile中的步骤有误（较新版本可能已修复）。	1. 检查网络，尝试使用镜像加速器。 2. 运行`docker system prune`清理空间。 3. 查看具体的错误日志，去项目GitHub Issues页面搜索是否有相同问题。
`make connect`后无法运行`pentestgpt`命令。	1. 容器未成功启动或启动后立即退出。 2. 容器内环境变量或PATH设置问题。	1. 运行`docker ps -a`查看容器状态。运行`docker logs <container_id>`查看启动日志。 2. 尝试手动进入容器：`docker exec -it pentestgpt /bin/bash`，然后检查`/app`目录下文件是否存在。
PentestGPT启动后，LLM无响应或一直“思考”。	1. API Key配置错误或额度用完。 2. 本地LLM服务器未启动或连接地址错误。 3. 网络代理导致API请求超时。	1. 运行`make config`重新检查API配置。 2. 对于本地LLM，在宿主机用`curl`测试API端点是否可达。 3. 如果使用代理，需要在Docker容器内也配置相应的代理环境变量（如`HTTP_PROXY`）。
工具执行失败，如`nmap`找不到。	Docker镜像构建时工具安装不完全，或容器内权限问题。	1. 在容器内手动运行`which nmap`确认。 2. 尝试重新构建镜像：`make clean-docker && make install`。
非交互式模式运行后无详细输出。	日志级别设置或输出被重定向。	查看项目文档，是否有`--verbose`或`--log-file`参数可以启用更详细的日志记录。通常日志会保存在容器内的`/tmp`或项目目录的`logs/`下。

6.3 项目生态、定制化与未来展望

PentestGPT是一个活跃的开源项目，这意味着你可以不仅仅是使用者，还可以是贡献者。

工具扩展：如果你常用的某个利器（如ffuf、nuclei）不在默认工具集中，你可以参考现有工具模块的写法，为其编写一个集成插件。这通常需要定义一个工具类，实现run()方法，并处理好输入输出与LLM的对接。
模型集成：项目正在积极开发对多模型的支持。你可以关注其GitHub仓库的Issues和Pull Requests，了解如何集成新的LLM API，如Google Gemini、DeepSeek等。
与现有工作流整合：PentestGPT可以作为一个“智能扫描引擎”集成到更大的安全平台中。例如，你可以编写一个调度器，从资产管理系统获取目标列表，调用PentestGPT进行扫描，然后将结构化的结果（发现的端口、服务、漏洞线索）导入到漏洞管理平台（如DefectDojo）中。

关于未来，我认为这类AI驱动的安全测试工具会沿着几个方向发展：一是多智能体协作，让多个具备不同专长的AI智能体（一个擅长Web，一个擅长内网，一个擅长社会工程学评估）协同工作；二是与ATT&CK等知识库深度结合，使AI的测试路径规划更加贴合真实的攻击者行为模型；三是解释性增强，不仅报告“发现了什么”，还能用更自然、更权威的语言解释“这个漏洞为什么危险”、“在真实的攻击链中可能如何被利用”，极大提升报告的价值。

最后，我必须再次强调责任与授权。PentestGPT是一个功能强大的工具，但刀无好坏，全在使用者。它只能用于你拥有明确书面授权的系统测试、CTF比赛或你自己的实验环境。未经授权的测试不仅是非法的，也可能对目标系统造成不可预知的影响。请务必在法律和道德的框架内，利用这项技术让我们的数字世界变得更加安全。