fft npainting lama初始化卡住？依赖加载问题诊断-编程阁

FFT NPainting LaMa 初始化卡住？依赖加载问题诊断

1. 问题现象与背景定位

1.1 启动时卡在“初始化…”状态的真实表现

你执行bash start_app.sh后，终端输出停在这一行很久不动：

Initializing model...

或者 WebUI 界面右下角状态栏一直显示：

初始化...

但始终不进入“执行推理...”，也没有报错日志，浏览器也打不开界面——这不是程序崩溃，而是模型依赖加载被阻塞。这种卡顿往往发生在首次运行、环境重装或镜像更新后，尤其常见于 GPU 驱动未就绪、PyTorch CUDA 版本不匹配、或 ONNX Runtime 动态库缺失的场景。

1.2 为什么偏偏是 LaMa 模型容易卡住？

LaMa（Large Mask Inpainting）不是轻量级模型。它依赖：

PyTorch + CUDA（非 CPU 版本，强制要求 GPU 加速）
TorchVision（需与 PyTorch 版本严格对齐）
ONNX Runtime（用于部分后处理加速）
OpenCV（带 CUDA 支持的cv2.dnn模块）

而fft npainting lama这个二次开发版本，在科哥的构建中进一步集成了自定义预处理流水线（FFT 域掩码增强），又额外引入了scipy和pyfftw。任一环节的 ABI 不兼容、CUDA 上下文初始化失败、或设备可见性异常，都会导致model.load_state_dict()或torch.jit.load()在后台静默挂起——没有 traceback，只有沉默。

注意：这不是代码 bug，而是环境链路断裂。就像拧紧最后一颗螺丝前，发现扳手尺寸不对——得先换工具，再拧。

2. 五步诊断法：从表象直击根因

2.1 第一步：确认服务进程是否真在运行

别只看终端输出。打开新终端，执行：

ps aux | grep -E "(app\.py|gradio)"

如果看到类似：

root 12345 0.0 0.2 123456 7890 ? S 10:22 0:00 python app.py

说明进程活着，但卡在某处；如果没结果，说明启动脚本根本没跑起来——跳转到2.5 脚本执行层检查。

2.2 第二步：查看实时日志流（关键！）

启动时加-v参数捕获详细日志：

cd /root/cv_fft_inpainting_lama bash start_app.sh -v

或直接读取日志文件（如果脚本已配置）：

tail -f logs/start.log

重点关注三类线索：

CUDA device count: 0→ GPU 不可见
OSError: libcudnn.so.8: cannot open shared object file→ cuDNN 缺失
RuntimeError: Found no NVIDIA driver on your system→ 驱动未安装
ImportError: libtorch_cuda.so: cannot open shared object file→ PyTorch CUDA 库路径错误

2.3 第三步：手动验证核心依赖可用性

进入 Python 环境，逐项测试：

cd /root/cv_fft_inpainting_lama source venv/bin/activate # 如果用了虚拟环境 python -c "import torch; print('CUDA:', torch.cuda.is_available(), 'Device:', torch.cuda.device_count())"

正常应输出：CUDA: True Device: 1
❌ 若为False或0，问题锁定在 GPU 层。

继续验证：

python -c "import cv2; print('OpenCV CUDA:', cv2.ocl.haveOpenCLActivated())" python -c "import onnxruntime as ort; print('ONNX Runtime providers:', ort.get_available_providers())"

若ort.get_available_providers()不含'CUDAExecutionProvider'，说明 ONNX Runtime 未编译 CUDA 支持——LaMa 的推理会退化到 CPU，但更大概率直接卡死。

2.4 第四步：检查模型文件完整性与路径

LaMa 模型权重默认放在：

/root/cv_fft_inpainting_lama/models/ffc_resnet18.pth

确认文件存在且非空：

ls -lh models/ffc_resnet18.pth # 应显示 >100MB，如 132M file models/ffc_resnet18.pth # 应返回: data（不是 broken link 或 empty file）

同时检查app.py中模型路径是否硬编码错误（常见于二次开发分支）：

grep -n "ffc_resnet" app.py # 输出类似：42: model_path = "models/ffc_resnet18.pth"

确保该路径与实际文件位置一致，且 Python 进程有读取权限（ls -l models/查 owner/group）。

2.5 第五步：回溯启动脚本执行逻辑

打开start_app.sh，重点看三处：

环境激活是否成功？

source venv/bin/activate || echo " 虚拟环境激活失败"

CUDA_VISIBLE_DEVICES 是否被清空？

export CUDA_VISIBLE_DEVICES=0 # 必须显式指定，不能留空

Gradio 启动命令是否加了--no-gradio-queue？
LaMa 推理耗时长，若未禁用 Gradio 队列，前端会因超时反复重连，造成“假卡住”。

修正建议（在start_app.sh中添加）：

nohup python app.py \ --share \ --server-name 0.0.0.0 \ --server-port 7860 \ --no-gradio-queue \ > logs/app.log 2>&1 &

3. 高频问题速查与修复方案

3.1 GPU 不可见：驱动/CUDA/cuDNN 三件套校准

现象	检查命令	修复动作
`nvidia-smi`报错	`nvidia-smi`	重装 NVIDIA 驱动（推荐 535.x）
`nvcc --version`无输出	`which nvcc`	安装 CUDA Toolkit（11.8 或 12.1，与 PyTorch 匹配）
`libcudnn.so.8`找不到	`find /usr -name "libcudnn.so*"`	下载 cuDNN 8.6+，解压后`cp`到`/usr/local/cuda/lib64/`并`ldconfig`

验证闭环：

nvidia-smi && nvcc --version && python -c "import torch; print(torch.__version__, torch.version.cuda)"

输出应全部成功，且torch.version.cuda与nvcc版本主号一致（如都是 11.8）。

3.2 PyTorch 版本错配：最隐蔽的卡点

fft npainting lama依赖 PyTorch ≥1.12，但必须匹配 CUDA 版本。常见错误组合：

torch==1.13.1+cu117+ CUDA 11.7
❌torch==1.13.1+cpu+ 期望 GPU 加速 → 卡在torch.cuda.is_available()
❌torch==2.0.1+cu118+ 系统 CUDA 11.7 →libtorch_cuda.so找不到

修复命令（以 CUDA 11.8 为例）：

pip uninstall torch torchvision torchaudio -y pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2+cu118 -f https://download.pytorch.org/whl/torch_stable.html

科哥构建版特别提示：该镜像预装torch==1.13.1+cu117，请勿升级到 2.x，否则 FFT 模块会因torch.fftAPI 变更报错。

3.3 ONNX Runtime 无 CUDA 支持

默认pip install onnxruntime安装的是 CPU 版。LaMa 需要 GPU 版：

pip uninstall onnxruntime -y pip install onnxruntime-gpu==1.16.3

验证：

python -c "import onnxruntime as ort; print(ort.get_device(), ort.get_available_providers())" # 应输出: GPU ['CUDAExecutionProvider', 'CPUExecutionProvider']

3.4 权限与路径陷阱：Docker/Rootless 场景特供

如果你在 Docker 容器中运行：

确保启动时加--gpus all
挂载模型目录用绝对路径：-v /host/models:/root/cv_fft_inpainting_lama/models:ro
检查容器内nvidia-smi是否可见

如果是非 root 用户部署：

chown -R $USER:$USER /root/cv_fft_inpainting_lama
修改start_app.sh中cd和python路径为用户可写目录

4. 一键自检脚本（复制即用）

将以下内容保存为diagnose_init.sh，放在项目根目录运行：

#!/bin/bash echo "=== FFT NPainting LaMa 初始化诊断报告 ===" echo echo "【1】GPU 基础检查" nvidia-smi -L 2>/dev/null || echo " nvidia-smi 不可用（驱动未安装）" echo echo "【2】CUDA 环境" nvcc --version 2>/dev/null || echo " nvcc 未找到" echo echo "【3】Python 依赖" source venv/bin/activate 2>/dev/null || echo " 虚拟环境激活失败" python -c "import torch; print('PyTorch:', torch.__version__, '| CUDA:', torch.cuda.is_available())" 2>/dev/null || echo " PyTorch 导入失败" python -c "import cv2; print('OpenCV CUDA:', cv2.ocl.haveOpenCLActivated())" 2>/dev/null || echo " OpenCV 导入失败" python -c "import onnxruntime as ort; print('ONNX GPU:', 'CUDAExecutionProvider' in ort.get_available_providers())" 2>/dev/null || echo " ONNX Runtime 导入失败" echo echo "【4】模型文件" ls -lh models/ffc_resnet18.pth 2>/dev/null || echo " 模型文件不存在或路径错误" echo echo "【5】端口占用" lsof -ti:7860 >/dev/null && echo " 端口 7860 已被占用" || echo " 端口 7860 空闲"

运行后，根据 `` 提示精准定位问题模块。