Node.js脚本监听文件夹自动触发DDColor处理-编程阁

Node.js脚本监听文件夹自动触发DDColor处理

在家庭相册数字化项目中，你是否曾为上百张泛黄的黑白老照片而头疼？一张张手动上传、选择模型、点击运行——不仅耗时费力，还容易出错。有没有可能让整个过程“放进即出”，完全无需干预？

答案是肯定的。借助Node.js 文件监听 + ComfyUI 工作流 + DDColor 图像着色模型的组合方案，我们完全可以构建一个“智能修复流水线”：只需把老照片扔进指定文件夹，系统就会自动识别内容类型、调用合适的AI模型完成上色，并将结果保存到输出目录。

这不仅是效率的跃升，更是使用体验的根本性转变。

从手动操作到自动化流水线

传统方式下，即便使用了如 ComfyUI 这样图形化的AI推理平台，用户仍需反复执行相同的操作流程：

打开浏览器访问 ComfyUI 界面；
加载对应的工作流（人物 or 建筑）；
拖入待处理图像；
点击“运行”按钮；
等待几秒至十几秒后查看结果。

对于单张图片尚可接受，但面对几十甚至上百张历史影像时，这种重复劳动显然难以持续。

真正的解决方案不是更快地点击，而是彻底消除点击。

通过引入一个轻量级的 Node.js 脚本作为“自动化触发器”，我们可以实现文件系统的实时监控。一旦检测到新图像被放入输入目录，脚本立即解析其路径信息，智能匹配预设工作流，并通过 ComfyUI 提供的 API 接口自动提交任务。整个过程无需人工介入，真正做到“投放即处理”。

这套机制特别适用于档案馆、摄影工作室、家族史整理等需要批量处理场景。

DDColor：语义感知的高质量图像着色模型

在这条自动化链条中，最核心的“生产力引擎”就是 DDColor —— 一种基于扩散机制的图像着色算法，专为黑白老照片恢复真实自然色彩而设计。

与早期 GAN 类模型相比，DDColor 的最大优势在于其对语义的理解能力。它不仅能识别画面中的面部、衣物、建筑结构等关键元素，还能根据上下文为其分配符合现实的颜色分布。例如，在一张祖辈站在寺庙前的老照片中，模型会合理推测出皮肤应呈暖黄色调、衣着多为深色棉麻材质、木构建筑则保留棕褐纹理，而非随意填充饱和度极高的“假彩色”。

其技术实现采用双分支架构，分别处理亮度（Luminance）和色度（Chrominance），有效避免了颜色溢出或偏色问题。同时，该模型经过轻量化优化，可在消费级 GPU（如 RTX 3060 及以上）上稳定运行，推理时间控制在 5~10 秒/张之间，兼顾质量与效率。

对比项	DDColor	传统GAN着色
颜色真实性	✅ 高（基于真实统计分布）	⚠️ 易出现伪影或失真
细节保留能力	✅ 支持局部精细控制	❌ 容易模糊边缘
推理速度	中等（约5~10秒/张）	快（但牺牲多样性）
可控性	✅ 支持参数调节（size/model choice）	❌ 黑箱性强

数据来源：ComfyUI 社区测试报告 & DDColor 官方 GitHub benchmark

更重要的是，DDColor 已深度集成于 ComfyUI 生态，支持通过 JSON 工作流文件直接调用，极大降低了部署门槛。

ComfyUI：可视化工作流引擎的核心作用

如果说 DDColor 是“大脑”，那么 ComfyUI 就是“神经系统”——它将复杂的 AI 推理过程拆解为一系列可配置、可复用的节点模块，形成清晰的工作流拓扑。

典型的修复流程如下所示：

[Load Image] → [Preprocess (grayscale check)] → [DDColor-ddcolorize] → [Save Image]

每个节点代表一个功能单元，比如加载图像、执行模型、保存结果等。所有配置均以 JSON 格式存储，便于版本管理与跨设备迁移。

更关键的是，ComfyUI 提供了完整的 HTTP API 接口，允许外部程序动态提交任务。这意味着我们可以通过代码控制整个流程，而不必依赖图形界面。

以下是一个典型的 API 调用示例：

const axios = require('axios'); const fs = require('fs'); async function queuePrompt(workflowPath, imagePath) { const prompt = JSON.parse(fs.readFileSync(workflowPath)); // 动态替换图像输入节点路径 prompt["3"].inputs.image = imagePath; // 假设节点ID为3的是图像加载节点 const data = { prompt: prompt }; try { const response = await axios.post('http://127.0.0.1:8188/prompt', data); console.log("工作流已提交:", response.status); } catch (error) { console.error("提交失败:", error.message); } }

这段代码读取本地.json工作流文件，修改其中图像路径后，通过/prompt接口将任务推入执行队列。正是这个接口的存在，使得自动化成为可能。

Node.js 监听脚本：让系统“活”起来

要实现“文件一进来就处理”，光有模型和接口还不够，还需要一个始终在线的“守门人”——这就是 Node.js 编写的文件监听脚本。

虽然 Node.js 内置了fs.watch()方法，但在实际应用中存在跨平台兼容性差、事件抖动频繁等问题。因此推荐使用第三方库chokidar，它封装了底层差异，提供了更稳定的监听体验。

以下是完整实现代码：

const chokidar = require('chokidar'); const fs = require('fs'); const axios = require('axios'); // 配置路径 const INPUT_DIR = './input_photos'; const WORKFLOW_PERSON = './workflows/DDColor人物黑白修复.json'; const WORKFLOW_BUILDING = './workflows/DDColor建筑黑白修复.json'; const PROCESSED = new Set(); // 防止重复处理 // 启动监听 const watcher = chokidar.watch(INPUT_DIR, { ignored: /(^|[\/\\])\../, // 忽略隐藏文件 persistent: true, awaitWriteFinish: true // 等待文件写入完成 }); watcher.on('add', async (path) => { if (PROCESSED.has(path)) return; if (!/\.(jpe?g|png)$/i.test(path)) return; console.log(`检测到新图像: ${path}`); PROCESSED.add(path); // 简化版分类逻辑：根据文件名关键词判断类型 let workflowFile = /person|renwu|face/i.test(path) ? WORKFLOW_PERSON : /building|jianzhu|temple|street/i.test(path) ? WORKFLOW_BUILDING : WORKFLOW_PERSON; // 默认为人像 try { const prompt = JSON.parse(fs.readFileSync(workflowFile)); prompt["3"].inputs.image = path; // 设置图像输入节点 await axios.post('http://127.0.0.1:8188/prompt', { prompt }); console.log(`✅ 已提交任务: ${path}`); } catch (err) { console.error(`❌ 处理失败: ${err.message}`); } }); console.log(`📁 开始监听文件夹: ${INPUT_DIR}`);

关键设计考量

文件完整性保障：启用awaitWriteFinish: true选项，确保文件完全写入后再触发处理，防止因复制未完成导致加载错误。
防重复提交：使用Set缓存已处理文件路径，避免某些系统多次触发add事件造成冗余任务。
路径权限检查：确保 Node.js 进程对输入/输出目录具有读写权限，否则会导致 I/O 错误。
扩展性预留：当前分类基于文件名关键字，未来可接入轻量级图像分类模型（如 MobileNetV2）实现自动识别，进一步提升准确性。

实际运行流程演示

假设你正在整理祖父留下的老相册，其中一张名为grandpa_at_temple.jpg的照片需要修复。

你将这张照片复制到./input_photos文件夹；
Node.js 脚本立刻捕获add事件，发现文件名含 “temple”，判定为建筑类场景；
自动加载DDColor建筑黑白修复.json工作流模板；
修改模板中图像输入节点路径为当前文件；
发送 POST 请求至http://127.0.0.1:8188/prompt提交任务；
ComfyUI 接收请求并启动推理流程，GPU 开始工作；
约 8 秒后，彩色图像生成完毕，自动保存至output/目录；
你在资源管理器中打开输出文件夹，看到一张焕然一新的老照片。

全程无需打开任何网页或软件界面，真正实现了“零交互”处理。

架构整合与工程实践建议

整体系统由四个层级构成：

graph LR A[用户投放原始照片] --> B[输入文件夹 ./input_photos] B --> C[Node.js 监听脚本] C --> D{判断图像类型} D -->|人物| E[加载人物工作流] D -->|建筑| F[加载建筑工作流] E --> G[调用 ComfyUI + DDColor] F --> G G --> H[输出彩色图像 ./output_colorized] H --> I[用户查看结果]

为了保证系统的稳定性与性能，建议在部署时注意以下几点：