MiDaS实战教程：热力图生成-编程阁

MiDaS实战教程：热力图生成

1. 引言

1.1 AI 单目深度估计 - MiDaS

在计算机视觉领域，从单张二维图像中恢复三维空间信息是一项极具挑战性的任务。传统方法依赖于立体视觉或多视角几何，而近年来，深度学习技术的突破使得单目深度估计（Monocular Depth Estimation）成为可能。其中，由 Intel ISL（Intel Intelligent Systems Lab）提出的MiDaS 模型因其高精度、强泛化能力和轻量化设计，迅速成为该领域的标杆方案之一。

MiDaS 的核心思想是将不同数据集上的深度标注进行统一尺度归一化，从而实现跨数据集的大规模混合训练。这使得模型能够理解多种场景下的相对深度关系——无论是城市街道、室内房间，还是自然风光，都能准确推断出“哪些物体近，哪些背景远”。

本教程将带你基于MiDaS v2.1 small 模型，构建一个无需 GPU、无需 Token 验证、集成 WebUI 的 CPU 友好型深度热力图生成系统，适用于边缘设备部署与快速原型开发。

1.2 教程目标与价值

本文是一篇典型的教程指南类（Tutorial-Style）技术文章，旨在帮助开发者：

快速搭建 MiDaS 深度估计服务
理解深度图到热力图的可视化原理
掌握 WebUI 集成与推理流程
获得可直接运行的代码和配置文件

学完本教程后，你将能用任意普通照片生成科技感十足的Inferno 风格热力图，并可用于 AR/VR、机器人导航、图像编辑等下游应用。

2. 环境准备与项目结构

2.1 前置知识要求

Python 基础语法（熟悉函数、模块导入）
了解 PyTorch 和 OpenCV 的基本使用
对 Web 交互界面有初步认知（如 Flask 或 Gradio）

2.2 技术栈说明

组件	版本	作用
Python	>=3.8	主语言环境
PyTorch	>=1.9	深度学习框架
torchvision	>=0.10	图像预处理支持
OpenCV	cv2	图像处理与热力图渲染
Gradio	>=3.0	快速构建 WebUI

💡为什么选择MiDaS_small？
相比 full 模型，small版本参数量更少（约 25M），推理速度提升 3 倍以上，特别适合 CPU 推理和实时性要求较高的场景，牺牲少量精度换取极高的实用性。

2.3 项目目录结构

midas-thermalmap/ ├── app.py # 主程序入口（含Gradio界面） ├── model_loader.py # MiDaS模型加载封装 ├── processor.py # 图像预处理与深度图生成 ├── requirements.txt # 依赖包列表 └── README.md # 使用说明文档

3. 核心功能实现

3.1 模型加载与初始化

我们通过 PyTorch Hub 直接加载 Intel 官方发布的 MiDaS 权重，避免 ModelScope 等平台的 Token 验证问题。

# model_loader.py import torch def load_midas_model(device='cpu'): """ 加载 MiDaS_small 模型，支持 CPU 推理 """ try: midas = torch.hub.load("intel-isl/MiDaS", "MiDaS_small") midas.to(device) midas.eval() # 设置为评估模式 print(f"[✓] MiDaS_small 模型已成功加载至 {device}") return midas except Exception as e: raise RuntimeError(f"模型加载失败: {e}")

📌关键点解析： -torch.hub.load("intel-isl/MiDaS", "MiDaS_small")：直接从 GitHub 仓库拉取官方模型。 -.to('cpu')：显式指定运行设备，确保无 CUDA 环境也能稳定运行。 -.eval()：关闭 Dropout/BatchNorm 的训练行为，保证推理一致性。

3.2 图像预处理与深度推理

深度估计前需对输入图像进行标准化处理，包括尺寸缩放、归一化等。

# processor.py import cv2 import numpy as np import torch def preprocess_image(img): """ 将 OpenCV 图像转换为模型输入格式 :param img: numpy array (H, W, C), BGR format :return: tensor (1, 3, H, W) """ img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) h, w = img_rgb.shape[:2] # Resize to 256x256 (MiDaS_small 输入尺寸) img_resized = cv2.resize(img_rgb, (256, 256)) # Normalize: [0, 255] -> [0, 1], then standardize img_normalized = img_resized.astype(np.float32) / 255.0 mean = torch.tensor([0.485, 0.456, 0.406]) std = torch.tensor([0.229, 0.224, 0.225]) # To tensor and normalize tensor = torch.from_numpy(img_normalized).permute(2, 0, 1) # HWC -> CHW tensor = (tensor - mean[:, None, None]) / std[:, None, None] tensor = tensor.unsqueeze(0) # Add batch dim return tensor def infer_depth(model, input_tensor, device='cpu'): """ 执行深度推理 :param model: loaded MiDaS model :param input_tensor: preprocessed tensor :return: depth map (numpy, 256x256) """ with torch.no_grad(): prediction = model(input_tensor.to(device)) # Move back to CPU and convert to numpy depth_map = prediction.cpu().numpy()[0, 0] # Remove batch and channel dim return depth_map

📌处理流程说明： 1. BGR → RGB 转换（OpenCV 默认 BGR） 2. 统一缩放到 256×256（MiDaS_small固定输入） 3. 归一化：先除以 255，再按 ImageNet 均值/标准差标准化 4. 张量维度调整：HWC → CHW，并增加 batch 维度 5. 推理后提取第一个样本的第一个通道作为深度图

3.3 深度图转热力图可视化

使用 OpenCV 的applyColorMap函数将灰度深度图映射为彩色热力图。

# processor.py（续） def depth_to_thermal(depth_map, colormap=cv2.COLORMAP_INFERNO): """ 将深度图转换为热力图 :param depth_map: 2D float array :param colormap: OpenCV colormap (e.g., INFERNO, JET) :return: colored thermal image (uint8, 256x256x3) """ # Normalize depth to 0-255 depth_min = depth_map.min() depth_max = depth_map.max() normalized = (depth_map - depth_min) / (depth_max - depth_min + 1e-8) * 255 depth_uint8 = normalized.astype(np.uint8) # Apply color map thermal_image = cv2.applyColorMap(depth_uint8, colormap) return thermal_image

🔥颜色语义解释： -红色/黄色（暖色）：深度值大 → 距离镜头近-紫色/黑色（冷色）：深度值小 → 距离镜头远

💡 提示：COLORMAP_INFERNO是最推荐的配色方案，具有高对比度和科技美感；也可尝试COLORMAP_JET或COLORMAP_MAGMA。

3.4 构建 WebUI 界面（Gradio 实现）

使用 Gradio 快速构建用户友好的网页上传与展示界面。

# app.py import gradio as gr import cv2 import numpy as np from model_loader import load_midas_model from processor import preprocess_image, infer_depth, depth_to_thermal # Global variables DEVICE = 'cpu' MODEL = None def process_image(input_img): """ Gradio 处理函数：接收图像 → 输出热力图 """ global MODEL if MODEL is None: MODEL = load_midas_model(DEVICE) # Preprocess input_tensor = preprocess_image(input_img) # Inference depth_map = infer_depth(MODEL, input_tensor, DEVICE) # Generate thermal image thermal_img = depth_to_thermal(depth_map, cv2.COLORMAP_INFERNO) # Convert BGR to RGB for display thermal_display = cv2.cvtColor(thermal_img, cv2.COLOR_BGR2RGB) return thermal_display # Build Gradio Interface with gr.Blocks(title="MiDaS 深度热力图生成器") as demo: gr.Markdown(""" # 🌊 MiDaS 3D感知深度估计系统 上传一张照片，AI 自动分析其三维空间结构，并生成**深度热力图**！ > 🔥 红色 = 近处 | ❄️ 蓝黑色 = 远处 """) with gr.Row(): with gr.Column(): input_image = gr.Image(label="上传原始图像", type="numpy") submit_btn = gr.Button("📂 上传照片测距") with gr.Column(): output_image = gr.Image(label="生成的深度热力图", type="numpy") submit_btn.click(fn=process_image, inputs=input_image, outputs=output_image) # 启动服务 if __name__ == "__main__": demo.launch(server_name="0.0.0.0", server_port=7860, share=False)

✅WebUI 功能亮点： - 支持拖拽上传图片 - 实时显示热力图结果 - 无需登录或 Token 验证 - 可部署在本地或云服务器

4. 使用说明与实践建议

4.1 部署步骤概览

克隆项目仓库：bash git clone https://github.com/your-repo/midas-thermalmap.git cd midas-thermalmap
安装依赖：bash pip install -r requirements.txt
启动服务：bash python app.py
浏览器访问http://localhost:7860，即可使用！

4.2 推荐测试图像类型

为了获得最佳效果，请选择包含明显远近层次的照片：

街道远景（近处行人 vs 远处建筑）
室内走廊（近景门框 vs 深远尽头）
宠物特写（鼻子突出 vs 背景虚化）
山景或城市天际线

🚫 避免使用： - 平面画作、屏幕截图 - 缺乏透视变化的纯色背景图 - 极端曝光（过曝/欠曝）图像

5. 常见问题与优化建议

5.1 FAQ 常见问题解答

问题	解决方案
启动时报错`No module named 'torch'`	请确认已安装 PyTorch：`pip install torch torchvision`
图像上传后无响应	检查是否启用了`demo.launch()`的正确端口
热力图颜色反了？	确保未反转深度值；MiDaS 输出越大表示越近
CPU 推理太慢？	可尝试进一步降低输入分辨率（如 128x128），但会影响精度

5.2 性能优化建议

缓存模型实例：避免每次请求都重新加载模型（已在代码中实现全局单例）。
异步处理：对于高并发场景，可结合 FastAPI + asyncio 提升吞吐量。
模型量化：对MiDaS_small进行 INT8 量化，可再提速 30%-50%。
前端压缩：上传前在浏览器端压缩图像，减少传输延迟。

6. 总结

6.1 学习成果回顾

通过本教程，我们完成了一个完整的MiDaS 单目深度估计实战项目，涵盖了：

✅ 如何从 PyTorch Hub 加载官方 MiDaS 模型
✅ 图像预处理与 CPU 推理全流程实现
✅ 利用 OpenCV 将深度图转为 Inferno 热力图
✅ 使用 Gradio 快速构建 WebUI 交互界面
✅ 实现零依赖、免验证、高稳定的本地化部署

该项目不仅具备学术研究价值，也适用于智能安防、辅助驾驶、虚拟现实等工业级应用场景。

6.2 下一步学习路径

尝试dpt_large等更大模型提升精度
结合 3D Mesh 重建工具生成点云
集成到 ROS 系统用于机器人避障
使用 ONNX 导出模型以支持多平台部署

💡获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

MiDaS实战教程：热力图生成