feedclaw：基于AI与本地SQLite的智能RSS摘要工具实践指南-编程阁

1. 项目概述与核心价值

如果你和我一样，每天被海量的技术博客、新闻资讯和行业动态淹没，却又不想错过任何有价值的信息，那么feedclaw这个工具的出现，绝对值得你花上十分钟了解一下。它不是一个简单的RSS阅读器，而是一个集成了本地存储和AI智能摘要的“信息捕手”。想象一下，你订阅的几十个高质量源，每天自动抓取更新，然后由一个“AI助理”帮你阅读、筛选，并生成一份精炼的、带有人工智能洞察的每日简报。这正是feedclaw的核心使命：将被动、碎片化的信息消费，转变为主动、高效的知识获取。

我最初接触这个项目，是因为厌倦了在多个阅读器、新闻App和浏览器标签页之间来回切换的疲惫感。传统的RSS工具解决了信息聚合的问题，但没有解决信息过载的问题。feedclaw的巧妙之处在于，它用本地SQLite数据库作为你的私人知识库，所有文章都离线存储，彻底摆脱了云服务的限制和隐私担忧。更重要的是，它内置了对 Anthropic Claude 和 OpenAI GPT 系列模型的支持，能够基于你过去24小时、一周甚至更长时间内未读的文章，生成一份高度概括、突出重点的AI摘要。你可以选择在终端里快速浏览，也可以生成Markdown或HTML文件进行深度阅读，甚至输出JSON供其他自动化脚本处理。对于开发者、技术博主、产品经理或任何需要保持技术前沿敏感度的人来说，这无疑是一个提升信息处理效率的利器。

2. 核心设计与架构解析

2.1 为什么选择本地优先与SQLite？

feedclaw的设计哲学非常明确：数据主权归用户所有，核心操作离线可用。这直接体现在它使用 SQLite 作为存储后端。相比于依赖网络服务的在线RSS阅读器，本地存储带来了几个关键优势：

隐私与安全：你的订阅列表、已抓取的文章全文、阅读状态，全部存储在你自己的硬盘上。没有任何第三方服务器能接触到这些数据。这对于关注数据隐私的用户来说是首要考量。
速度与可靠性：所有读写操作都在本地完成，速度极快。查询订阅源、过滤文章、更新阅读状态都是毫秒级响应，不受网络波动影响。
离线工作流：一旦完成初次抓取，你可以在完全离线的环境下浏览历史文章、生成摘要（如果模型支持本地运行的话，目前仍需API调用）。这对于网络环境不稳定或需要在飞机、高铁上工作的场景非常友好。
简化部署与依赖：SQLite是一个单文件数据库，无需安装和配置复杂的数据库服务（如PostgreSQL, MySQL）。这使得feedclaw的安装和运行门槛极低，一个pnpm install和build命令就能让整个系统跑起来。

在数据库表结构设计上，它至少会包含feeds（订阅源信息）、articles（文章内容）、digests（生成的摘要记录）等核心表，并通过外键关联，形成一个完整的数据闭环。这种设计也为未来的功能扩展，比如文章标签、全文搜索、跨源关联分析，留下了充足的空间。

2.2 模块化架构与清晰的职责划分

浏览其源代码结构，你会发现feedclaw采用了典型的模块化设计，这保证了代码的可维护性和可测试性。主要模块通常包括：

Fetcher（抓取器）：负责与远程RSS/Atom源通信。它的核心是实现了条件请求（Conditional GET），利用ETag和Last-Modified头。这意味着，如果订阅源自上次抓取后没有更新，服务器会返回304 Not Modified状态码，feedclaw就不会下载重复的内容，极大地节省了带宽和抓取时间。这是构建一个“好公民”式爬虫的基础。
Parser（解析器）：将抓取到的XML格式的RSS或Atom内容，解析为结构化的JavaScript对象。这里需要处理各种源的非标准格式，确保标题、链接、发布时间、正文等关键字段能被正确提取。
Database（数据库层）：封装所有对SQLite的CRUD操作。提供诸如“插入新文章”、“标记文章为已读”、“按时间和分类查询文章”等高层接口。这一层是业务逻辑与底层存储的桥梁。
Digester（摘要生成器）：这是AI能力的核心模块。它接收一批文章（标题、链接、摘要或全文），构造一个精心设计的提示词（Prompt），调用配置的AI提供商API（Anthropic或OpenAI），并解析返回的摘要结果。提示词的设计质量直接决定了摘要的可用性。
CLI（命令行界面）：基于诸如commander或yargs的库构建，提供清晰、易用的命令行交互。每个命令（init,fetch,digest等）都对应一个清晰的业务操作。

这种架构使得每个部分都可以独立开发、测试和替换。例如，如果你想增加对另一个AI提供商（如Google Gemini）的支持，主要工作就在 Digester 模块；如果你想更换数据库，理论上只需重写 Database 层。

2.3 一体化与生态集成：作为OpenClaw技能

feedclaw的另一个设计亮点是它既是独立的工具，也是OpenClaw 生态系统中的一个“技能”。OpenClaw 是一个致力于构建模块化、可组合开发者工具的生态。这意味着你可以将feedclaw作为一个组件，集成到更复杂的自动化工作流中。

通过--json标志，几乎所有命令都能输出结构化的JSON数据，而不是人类可读的文本。这使得其他脚本、Agent（智能体）或OpenClaw中的其他工具可以轻松消费feedclaw的数据。例如，你可以写一个脚本，每天定时运行feedclaw --json digest，将生成的JSON摘要发送到Slack或钉钉；或者，在OpenClaw Agent中，当用户询问“今天AI领域有什么新闻”时，Agent可以直接调用feedclaw的技能来获取答案。

这种设计体现了“Unix哲学”：一个工具只做好一件事，并通过清晰的接口（这里是JSON和CLI）与其他工具协作。feedclaw做好了“信息抓取与AI摘要”这件事，并为你将它嵌入任何自动化流程提供了可能。

3. 从零开始：详细安装与环境配置指南

3.1 基础运行环境搭建

要运行feedclaw，你需要准备以下环境，我将以macOS/Linux和Windows为例分别说明：

1. Node.js 与 pnpm：feedclaw要求 Node.js 版本 22 或更高。我推荐使用nvm(Node Version Manager) 来管理Node版本，这样可以轻松切换而不影响系统其他项目。

# 安装nvm (macOS/Linux) curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash # 重新打开终端或运行 source ~/.bashrc (或 ~/.zshrc) nvm install 22 # 安装Node.js 22 nvm use 22 # 使用该版本 # 安装pnpm (Node.js包管理器，比npm更快、更节省磁盘空间) npm install -g pnpm

在Windows上，你可以从Node.js官网下载安装包，或者使用nvm-windows。pnpm的安装命令同样是npm install -g pnpm。

2. 构建工具链（Windows用户特别注意）：由于feedclaw依赖的better-sqlite3等原生模块需要编译，在Windows上你必须安装Visual Studio Build Tools或Visual Studio并包含“使用C++的桌面开发”工作负载。这是最关键也最容易出错的一步。

注意：很多Windows下的Node.js原生模块编译失败，都源于此步骤缺失。请务必确保安装成功，并能在命令行中调用cl.exe(C++编译器)。

3. 获取项目代码：打开终端，克隆仓库并进入目录：

git clone https://github.com/psandis/feedclaw.git cd feedclaw

3.2 依赖安装与项目构建

进入项目根目录后，使用 pnpm 安装依赖并构建项目：

pnpm install pnpm build

pnpm install会读取package.json，安装所有必要的依赖包。pnpm build则通常会执行TypeScript编译（将.ts文件转成.js）等构建步骤。如果一切顺利，你应该能看到dist/或lib/目录被创建，里面是编译后的JavaScript代码。

常见问题与解决：

pnpm install报错，提示better-sqlite3编译失败：这几乎总是Windows上缺少C++构建工具导致的。请返回上一步，确认Visual Studio Build Tools已正确安装。在macOS/Linux上，通常需要Xcode命令行工具或build-essential(Ubuntu/Debian) 或base-devel(Arch)。
网络问题导致安装缓慢或失败：可以考虑配置pnpm的国内镜像源：pnpm config set registry https://registry.npmmirror.com。
构建后pnpm cli命令找不到：确保你在项目根目录下运行。cli命令通常定义在package.json的bin字段或scripts中，pnpm会帮你链接到本地。

3.3 核心配置：AI API密钥与数据目录

feedclaw的核心功能——AI摘要生成——需要调用外部AI服务，因此你必须配置API密钥。

1. 获取API密钥：

Anthropic Claude：访问 Anthropic Console ，注册账号并创建API Key。Claude模型在长文本理解和摘要任务上表现非常出色，是feedclaw的默认推荐。
OpenAI GPT：访问 OpenAI Platform ，创建API Key。

2. 设置环境变量（推荐方式）：将密钥设置为环境变量是最安全、最灵活的方式，因为它不会将密钥硬编码在配置文件中。

# macOS / Linux (添加到 ~/.bashrc, ~/.zshrc 或直接在终端会话中设置) export ANTHROPIC_API_KEY='sk-ant-...你的真实密钥...' # 或者使用OpenAI export OPENAI_API_KEY='sk-...你的真实密钥...' # Windows (命令提示符) set ANTHROPIC_API_KEY=sk-ant-...你的真实密钥... # Windows (PowerShell) $env:ANTHROPIC_API_KEY="sk-ant-...你的真实密钥..."

3. 配置文件（可选）：你也可以在~/.feedclaw/config.json中创建配置文件，设置一些默认行为。但API密钥强烈建议通过环境变量设置，避免密钥泄露。

{ "defaultProvider": "anthropic", "defaultModel": "claude-3-5-sonnet-20241022", "defaultFormat": "terminal", "digestSince": "24h" }

4. 自定义数据目录：默认情况下，feedclaw的所有数据（数据库、配置、缓存）都存放在~/.feedclaw/目录下。如果你想改变这个位置，例如存放到一个同步盘（如iCloud Drive, Dropbox）以实现多设备间状态同步，可以设置FEEDCLAW_HOME环境变量。

export FEEDCLAW_HOME="$HOME/Library/Mobile Documents/com~apple~CloudDocs/FeedClawData" # 之后运行任何 feedclaw 命令，数据都会存储在这个新路径下。

4. 核心工作流实战与命令详解

安装配置完成后，我们就可以开始实际使用了。feedclaw的操作围绕几个核心CLI命令展开，逻辑清晰。

4.1 初始化：导入你的第一批订阅源

首先，你需要告诉feedclaw要关注哪些信息源。最快捷的方式是使用内置的精选源列表。

pnpm cli init

这个命令会从项目内的feeds/default.json文件中读取一个预定义的源列表，并将它们添加到你的本地数据库。你会看到类似下面的输出，列出了添加的源及其分类：

✓ MIT Technology Review ✓ OpenAI Blog ✓ Google AI Blog ... 16 feeds added. Run fetch to pull articles.

高级用法与技巧：

按分类初始化：如果你只对某个领域感兴趣，可以使用--bundle参数。例如，pnpm cli init --bundle ai只会添加AI分类下的源（MIT Tech Review, OpenAI, Google AI等）。可选值有ai,dev,openclaw,news,all（默认）。
导入自定义OPML文件：如果你从其他阅读器（如Feedly, Inoreader）导出了OPML文件，可以直接导入：pnpm cli opml-import your-feeds.opml。OPML是订阅列表交换的标准格式。
从本地JSON文件初始化：你可以创建一个自定义的JSON文件，格式参照feeds/default.json，然后通过pnpm cli init --from my-feeds.json导入。这是批量管理私人订阅源的好方法。

4.2 抓取：让信息自动流入你的知识库

初始化订阅源后，下一步就是抓取文章。这是自动化信息收集的核心。

pnpm cli fetch

这个命令会遍历你数据库中的所有订阅源，向每个源的URL发起HTTP请求，抓取最新的文章列表，并将新文章存入本地SQLite数据库。得益于条件请求，如果某个源自上次抓取后没有更新，它会快速跳过，输出✓ [Feed Name]: 0 new。

抓取策略与参数：

单源抓取：如果你只想更新某个特定的源，可以使用--feed参数指定源的ID或URL。首先用pnpm cli list查看源ID。
```
pnpm cli fetch --feed 5 # 抓取ID为5的源 pnpm cli fetch --feed https://simonwillison.net/atom/everything/ # 抓取指定URL的源
```
后台定时抓取：为了实现真正的“信息流”，你需要定时运行fetch。在Linux/macOS上，最经典的方式是使用cron定时任务。
```
# 编辑当前用户的cron任务 crontab -e # 添加一行，表示每天上午8点和晚上8点各抓取一次 0 8,20 * * * cd /path/to/your/feedclaw && /usr/local/bin/pnpm cli fetch >> ~/.feedclaw/fetch.log 2>&1
```
在Windows上，可以使用“任务计划程序”来实现类似功能。这样，你的知识库就能在后台持续更新，无需手动干预。

4.3 生成与消费：AI驱动的智能摘要

这是feedclaw最激动人心的部分。当你的数据库里积累了一批新文章后，就可以让AI帮你消化了。

基础摘要生成：

pnpm cli digest

这个最简单的命令会使用默认配置（过去24小时内未读的文章、Anthropic作为提供商、终端格式输出）生成一份摘要。

深度定制你的摘要：digest命令提供了丰富的参数，让你能精确控制摘要的内容和形式。

时间范围 (--since)：决定摘要涵盖哪些文章。

pnpm cli digest --since 7d # 过去7天 pnpm cli digest --since 2w # 过去2周 pnpm cli digest --since 1h # 过去1小时（适合高频源）

内容过滤 (--category)：只摘要特定分类的文章。

pnpm cli digest --category ai # 只看AI新闻 pnpm cli digest --category dev # 只看开发者动态 pnpm cli digest --category ai,dev # 同时看AI和开发

输出格式 (--format)：适配不同场景。

pnpm cli digest --format terminal # 在终端彩色输出，适合快速浏览 pnpm cli digest --format markdown > digest.md # 生成Markdown文件，可用Typora、Obsidian等打开，或发布到博客 pnpm cli digest --format html > digest.html # 生成HTML文件，样式更美观，可直接在浏览器中查看或邮件发送 pnpm cli digest --format json # 输出结构化JSON，供其他程序处理

AI模型与提供商 (--provider,--model)：选择不同的AI引擎。
```
pnpm cli digest --provider openai --model gpt-4o # 使用OpenAI的GPT-4o模型 pnpm cli digest --provider anthropic --model claude-3-haiku-20240307 # 使用Claude 3 Haiku，速度更快成本更低
```
注意：模型名称需要与API提供商支持的模型列表匹配。不同模型在理解能力、生成速度和成本上差异很大。对于摘要任务，Claude Sonnet或GPT-4通常是质量和成本的平衡点。
数量限制 (--max-articles)：如果某个时间段内文章太多，可以限制送入AI的上下文数量，以控制成本和生成时间。
```
pnpm cli digest --since 7d --max-articles 30 # 只从过去7天的文章中选取最多30篇进行摘要
```

一个完整的实战命令示例：假设我想每周日晚上生成一份过去一周AI和开发领域的精华摘要，保存为Markdown文件，以便周一早上回顾。

# 每周日晚上11点运行 pnpm cli digest --since 7d --category ai,dev --format markdown --provider anthropic --model claude-3-5-sonnet-20241022 > ~/Documents/Weekly-Tech-Digest-$(date +%Y-%m-%d).md

这个命令会生成一个带日期的Markdown文件，内容就是过去一周的智能摘要。

4.4 源管理：打造你的个性化信息食谱

你的兴趣会变化，订阅源也需要随之调整。feedclaw提供了简单的源管理命令。

添加新源：pnpm cli add <feed-url> [--category <name>]

pnpm cli add https://blog.rust-lang.org/feed.xml --category dev pnpm cli add https://astral.sh/rss.xml --category dev

删除源：可以通过ID或URL删除。
```
pnpm cli list # 先查看ID pnpm cli remove 12 # 删除ID为12的源 pnpm cli remove https://example.com/old-feed.xml # 删除指定URL的源
```
注意：删除源不会删除该源下已抓取的文章。这些文章仍然保留在你的本地数据库中，只是不再有新的文章被抓取进来。这保证了你的历史数据不会丢失。
导出与备份：定期导出OPML是个好习惯，可以作为备份，也方便迁移到其他阅读器。
```
pnpm cli opml-export > my-feeds-backup-$(date +%Y%m%d).opml
```

5. 进阶技巧、问题排查与生态集成

5.1 提升摘要质量的实用技巧

AI摘要的质量不仅取决于模型，也取决于你“喂”给它的信息和指令。虽然feedclaw内置了提示词，但你可以通过一些间接方式影响输入质量。

精心筛选订阅源：摘要的质量上限取决于输入文章的质量。优先订阅那些观点深刻、信息密度高、写作规范的源（如官方技术博客、资深从业者的个人博客）。避免过多订阅内容农场或标题党网站。
利用分类进行聚焦：将订阅源进行精细分类（如ai-research,dev-python,news-security）。这样在生成摘要时，你可以针对特定领域提问，AI更容易给出专业、深入的总结。例如，--category ai-research得到的摘要会比泛泛的--category ai更具学术深度。
控制时间与数量：不要一次性摘要太多文章（如超过50篇）。过多的上下文会稀释重点，增加AI的负担和出错概率，成本也更高。对于高频源，可以每天摘要；对于低频高质量源，可以每周摘要一次。
理解“已读”状态：digest命令默认只处理未读文章，并在生成摘要后将其标记为已读。这意味着你不会在后续的摘要中重复看到同一篇文章。如果你希望重新摘要某篇文章，需要先在数据库层面将其标记为未读（这可能需要直接操作SQLite数据库或等待未来工具支持）。

5.2 常见问题与解决方案速查表

问题现象	可能原因	解决方案
运行`pnpm cli`任何命令都报错`Command not found`	1. 未在项目根目录运行。 2.`pnpm build`未成功执行或构建产物路径不对。	1. 确保终端当前目录是`feedclaw/`。 2. 重新运行`pnpm install && pnpm build`，检查是否有构建错误。
`fetch`命令报网络错误或超时	1. 订阅源URL失效或无法访问。 2. 本地网络问题或代理设置。 3. 源服务器屏蔽了请求。	1. 用浏览器检查该URL是否能正常访问。 2. 检查网络，如有代理需配置Node.js的代理环境变量 (`HTTP_PROXY`)。 3. 尝试添加`User-Agent`头（需修改代码或等待配置支持）。
`digest`命令报错`Missing API key`	未正确设置`ANTHROPIC_API_KEY`或`OPENAI_API_KEY`环境变量。	1. 运行`echo $ANTHROPIC_API_KEY`(Linux/macOS) 或`echo %ANTHROPIC_API_KEY%`(Windows) 检查变量是否已设置。 2. 确保在运行`digest`的同一个终端会话中设置了环境变量。 3. 重启终端或重新加载shell配置文件 (如`source ~/.zshrc`)。
AI摘要内容空洞、重复或跑题	1. 输入文章质量差或主题过于分散。 2. 选择的AI模型不适合摘要任务。 3. 上下文文章数量过多。	1. 优化订阅源列表。 2. 尝试更换模型，如从`claude-haiku`换到`claude-sonnet`。 3. 使用`--max-articles`限制数量，或使用`--since`缩短时间范围。
数据库文件损坏或异常	程序异常退出、磁盘错误或手动修改了数据库文件。	1.备份！首先复制`~/.feedclaw/feedclaw.db`文件。 2. 可以尝试删除数据库文件（`rm ~/.feedclaw/feedclaw.db`），然后重新运行`init`和`fetch`。注意：这会丢失所有历史数据。
Windows下`pnpm install`编译原生模块失败	缺少C++编译环境（Visual Studio Build Tools）。	1. 确认已安装VS Build Tools且包含了“C++桌面开发”工作负载。 2. 以管理员身份打开“x64 Native Tools Command Prompt for VS 2022”这个专门的命令行工具，再在其中运行`pnpm install`。

5.3 集成到自动化工作流与OpenClaw

feedclaw的--json输出和技能化设计，为自动化打开了大门。

场景一：每日摘要推送至社交平台你可以写一个简单的Node.js脚本或Shell脚本：

#!/bin/bash # daily-digest.sh cd /path/to/feedclaw # 1. 抓取新文章 pnpm cli fetch # 2. 生成JSON格式的摘要 JSON_OUTPUT=$(pnpm cli digest --since 24h --format json --provider anthropic) # 3. 使用jq解析JSON，并调用curl发送到Slack Webhook TITLE=$(echo "$JSON_OUTPUT" | jq -r '.title') SUMMARY=$(echo "$JSON_OUTPUT" | jq -r '.summary') curl -X POST -H 'Content-type: application/json' \ --data "{\"text\":\"*$TITLE*\n\n$SUMMARY\"}" \ YOUR_SLACK_WEBHOOK_URL

然后通过cron定时执行这个脚本。

场景二：作为OpenClaw Agent的“眼睛”在OpenClaw工作区中，你可以声明feedclaw作为一个技能。当用户向Agent提问“今天有什么重要的科技新闻？”时，Agent可以自动执行feedclaw --json digest --category news --since 12h，获取结构化的摘要数据，然后组织成自然语言回复给用户。这相当于给你的AI助手装上了实时信息感知能力。

我个人在实践中，将feedclaw与我的笔记软件（Obsidian）结合。我设置了一个cron任务，每天上午9点生成一份Markdown格式的“昨日技术摘要”，并自动保存到Obsidian的每日笔记文件夹中。这样，我每天打开笔记，第一眼就能看到AI为我梳理好的行业动态，极大地提升了信息摄入的效率，也方便日后回溯和链接。这个工具真正让我从“追逐信息”的焦虑中解脱出来，转向了“管理知识”的从容。