【YOLO-Ultralytics】【核心引擎】【v8.3.235版本】模型预测器基类代码predictor.py解析-编程阁

【YOLO-Ultralytics】【核心引擎】【v8.3.235版本】模型预测器基类代码predictor.py解析

文章目录

【YOLO-Ultralytics】【核心引擎】【v8.3.235版本】模型预测器基类代码predictor.py解析
前言
YOLO 预测功能全解析
- 输入源（source 参数）说明
- 模型格式（model 参数）说明
- 关键注意事项
所需的库和模块
BasePredictor 类
- 整体概览
- - 1. BasePredictor 类属性说明表
  - 2. BasePredictor 类方法说明表
- 初始化函数：__init__
- 图像预处理：preprocess
- 模型推理：inference
- 图像预变换：pre_transform
- 预测后处理（基类占位）：postprocess
- 预测执行入口：\_\_call\_\_
- CLI预测执行：predict_cli
- 输入源设置：setup_source
- 流式推理核心：stream_inference
- 模型初始化：setup_model
- 结果写入：write_results
- 预测图像保存：save_predicted_images
- 结果可视化：show
- 回调执行：run_callbacks
- 回调注册：add_callback
完整代码
- 通用预测框架的核心特性
- 工程化核心优化
- 扩展与易用性能力
- 关键注意事项
总结

前言

代码路径：ultralytics\engine\predictor.py
BasePredictor 是 Ultralytics YOLO 框架中所有预测器的基类，抽象出 YOLO 模型推理的通用核心流程，为检测 / 分割 / 分类等任务的专用预测器（如 DetectionPredictor）提供标准化的底层能力。该类封装了「配置加载→模型初始化→数据源加载→预处理→推理→后处理→结果保存 / 可视化→资源释放」的全流程通用逻辑，支持多输入源（摄像头、视频、图片、流、张量等）、多模型格式（PyTorch/ONNX/TensorRT 等）、流式推理（避免内存溢出）、线程安全推理、自定义回调等核心特性，是 YOLO 推理体系的基础骨架。

【YOLOv8-Ultralytics 系列文章目录】

YOLO 预测功能全解析

mode=predict模式用于目标检测/分割/分类等预测任务，核心参数为model（模型文件）和source（输入源），后续会详细说明。

""" Run prediction on images, videos, directories, globs, YouTube, webcam, streams, etc. Usage - sources: $ yolo mode=predict model=yolo11n.pt source=0 # webcam img.jpg # image vid.mp4 # video screen # screenshot path/ # directory list.txt # list of images list.streams # list of streams 'path/*.jpg' # glob 'https://youtu.be/LNwODJXcvt4' # YouTube 'rtsp://example.com/media.mp4' # RTSP, RTMP, HTTP, TCP stream Usage - formats: $ yolo mode=predict model=yolo11n.pt # PyTorch yolo11n.torchscript # TorchScript yolo11n.onnx # ONNX Runtime or OpenCV DNN with dnn=True yolo11n_openvino_model # OpenVINO yolo11n.engine # TensorRT yolo11n.mlpackage # CoreML (macOS-only) yolo11n_saved_model # TensorFlow SavedModel yolo11n.pb # TensorFlow GraphDef yolo11n.tflite # TensorFlow Lite yolo11n_edgetpu.tflite # TensorFlow Edge TPU yolo11n_paddle_model # PaddlePaddle yolo11n.mnn # MNN yolo11n_ncnn_model # NCNN yolo11n_imx_model # Sony IMX yolo11n_rknn_model # Rockchip RKNN yolo11n.pte # PyTorch Executorch """

输入源（source 参数）说明

参数值	类型	详细说明	使用示例
`0`	本地摄像头	调用本地摄像头（0为默认摄像头，1/2为其他摄像头）	`yolo mode=predict model=yolo11n.pt source=0`
`img.jpg`（或png/bmp等）	单张图片	本地图片文件路径，支持常见图像格式	`yolo mode=predict model=yolo11n.pt source=test_image.png`
`vid.mp4`（或avi/mov等）	本地视频	本地视频文件路径，支持常见视频格式	`yolo mode=predict model=yolo11n.pt source=demo_video.avi`
`screen`	屏幕截图	实时捕获电脑屏幕作为输入（仅桌面端：Windows/Linux/macOS）	`yolo mode=predict model=yolo11n.pt source=screen`
`path/`	目录	批量预测指定目录下所有图片/视频文件（递归遍历子目录）	`yolo mode=predict model=yolo11n.pt source=./dataset/images/`
`list.txt`	图片列表文件	TXT文件每行写一个图片路径，批量预测列表内所有图片	`yolo mode=predict model=yolo11n.pt source=image_list.txt`
`list.streams`	流列表文件	后缀为`.streams`的文本文件，每行写一个网络流地址，批量预测多个流	`yolo mode=predict model=yolo11n.pt source=stream_list.streams`
`'path/*.jpg'`	Glob通配符	匹配指定路径下符合通配符规则的文件（需加引号避免系统解析通配符）	`yolo mode=predict model=yolo11n.pt source='./data/*.jpg'`
`'https://youtu.be/xxx'`	YouTube视频	直接通过YouTube链接预测视频内容（需网络通畅，支持公开视频）	`yolo mode=predict model=yolo11n.pt source='https://youtu.be/LNwODJXcvt4'`
`'rtsp://example.com/media.mp4'`	网络流	支持RTSP/RTMP/HTTP/TCP等协议的网络视频流（如摄像头推流、直播流）	`yolo mode=predict model=yolo11n.pt source='rtsp://admin:123456@192.168.1.100:554/stream1'`

模型格式（model 参数）说明

模型文件名称/后缀	推理引擎/框架	详细说明	使用示例
`yolo11n.pt`	PyTorch	原生PyTorch模型（基础格式），支持推理/再训练，灵活性最高	`yolo mode=predict model=yolo11n.pt source=0`
`yolo11n.torchscript`	TorchScript	PyTorch导出的TorchScript格式，适配生产环境，跨平台兼容性更好	`yolo mode=predict model=yolo11n.torchscript source=img.jpg`
`yolo11n.onnx`	ONNX Runtime/OpenCV DNN	通用ONNX格式，支持ONNX Runtime推理；加`dnn=True`可使用OpenCV DNN推理	1. ONNX Runtime：`yolo mode=predict model=yolo11n.onnx source=vid.mp4` 2. OpenCV DNN：`yolo mode=predict model=yolo11n.onnx source=vid.mp4 dnn=True`
`yolo11n_openvino_model`	OpenVINO	Intel OpenVINO优化模型，适配Intel CPU/GPU/VPU，推理速度提升	`yolo mode=predict model=yolo11n_openvino_model source=path/`
`yolo11n.engine`	TensorRT	NVIDIA TensorRT优化模型，适配NVIDIA GPU，极致推理性能（需提前导出）	`yolo mode=predict model=yolo11n.engine source=0`
`yolo11n.mlpackage`	CoreML	Apple CoreML格式，仅支持macOS/iOS，适配Apple Silicon（M系列）芯片	`yolo mode=predict model=yolo11n.mlpackage source=img.jpg`（macOS环境）
`yolo11n_saved_model`	TensorFlow SavedModel	TensorFlow原生SavedModel格式，适配TensorFlow生态	`yolo mode=predict model=yolo11n_saved_model source=list.txt`
`yolo11n.pb`	TensorFlow GraphDef	TensorFlow传统GraphDef格式（.pb文件），适配老版本TensorFlow部署	`yolo mode=predict model=yolo11n.pb source='path/*.jpg'`
`yolo11n.tflite`	TensorFlow Lite	轻量级TFLite格式，适配移动端/嵌入式设备（手机、单片机等）	`yolo mode=predict model=yolo11n.tflite source=0`（嵌入式设备）
`yolo11n_edgetpu.tflite`	TensorFlow Edge TPU	适配Google Coral Edge TPU加速棒的TFLite格式，硬件加速推理	`yolo mode=predict model=yolo11n_edgetpu.tflite source=list.streams`
`yolo11n_paddle_model`	PaddlePaddle	百度飞桨PaddlePaddle格式，适配Paddle推理引擎	`yolo mode=predict model=yolo11n_paddle_model source='https://youtu.be/xxx'`
`yolo11n.mnn`	MNN	阿里MNN格式，轻量级跨平台推理，适配移动端/嵌入式	`yolo mode=predict model=yolo11n.mnn source='rtsp://example.com/media.mp4'`
`yolo11n_ncnn_model`	NCNN	腾讯NCNN格式，专为移动端优化，适配手机/嵌入式设备	`yolo mode=predict model=yolo11n_ncnn_model source=vid.mp4`
`yolo11n_imx_model`	Sony IMX	适配Sony IMX系列视觉芯片的模型，面向索尼嵌入式硬件	`yolo mode=predict model=yolo11n_imx_model source=path/`
`yolo11n_rknn_model`	Rockchip RKNN	瑞芯微RKNN格式，适配RK3588等瑞芯微芯片，嵌入式硬件优化	`yolo mode=predict model=yolo11n_rknn_model source=0`
`yolo11n.pte`	PyTorch Executorch	PyTorch轻量级部署格式，适配移动端/边缘设备	`yolo mode=predict model=yolo11n.pte source=img.jpg`

关键注意事项

通配符使用：source='path/*.jpg'需加引号，避免操作系统提前解析通配符导致参数错误；
环境依赖：不同模型格式需安装对应依赖（如TensorRT需装NVIDIA TensorRT库，OpenVINO需装OpenVINO工具包）；
硬件适配：CoreML仅支持macOS/iOS，TensorRT仅支持NVIDIA GPU，RKNN仅支持瑞芯微芯片；
网络流认证：RTSP等流若需账号密码，需在地址中拼接（如rtsp://账号:密码@IP:端口/流地址）；
模型版本：示例中yolo11n.pt的n代表nano（轻量级），还有s/m/l/x等版本，用法完全一致。

所需的库和模块

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license# 引入未来版本的类型注解支持，提升代码静态类型检查和编辑器提示能力from__future__importannotations# 导入系统平台检测模块（区分Windows/Linux/macOS，适配视频编码格式、窗口显示逻辑）importplatform# 导入正则表达式模块（解析视频帧号、处理路径/日志字符串中的结构化信息）importre# 导入线程管理模块（提供线程锁，保证多线程环境下推理的资源安全）importthreading# 导入路径处理模块（面向对象的路径操作，统一管理推理结果保存路径、数据源路径）frompathlibimportPath# 导入类型注解模块（Any类型用于兼容推理流程中多类型的输入/输出参数）fromtypingimportAny# 导入OpenCV核心模块（图像/视频的读取、写入、可视化、格式转换、视频编码等）importcv2# 导入数值计算模块（图像数组处理、维度转换、归一化、数组拼接等核心数值操作）importnumpyasnp# 导入PyTorch核心模块（张量操作、设备管理、模型推理、数据类型转换等）importtorch# 从ultralytics配置模块导入：配置加载函数（合并基础配置与自定义覆盖参数）、保存目录生成函数（自动创建runs/predict/exp*目录）fromultralytics.cfgimportget_cfg,get_save_dir# 从ultralytics数据模块导入：推理数据源加载函数（统一处理摄像头/视频/图片/流/张量等多类型输入源）fromultralytics.dataimportload_inference_source# 从ultralytics数据增强模块导入：LetterBox类（图像等比例缩放+自动填充，保证尺寸为模型步长倍数）fromultralytics.data.augmentimportLetterBox# 从ultralytics神经网络后端模块导入：AutoBackend类（统一加载PyTorch/ONNX/TensorRT等多格式模型）fromultralytics.nn.autobackendimportAutoBackend# 从ultralytics工具模块导入：默认配置常量、日志器、系统标识（macOS/WINDOWS）、回调函数字典、彩色字符串函数、通用操作工具（计时/缩放等）fromultralytics.utilsimportDEFAULT_CFG,LOGGER,MACOS,WINDOWS,callbacks,colorstr,ops# 从ultralytics工具检查模块导入：图像尺寸检查函数（保证尺寸为模型步长倍数）、可视化可用性检查函数（兼容不同系统的窗口显示）fromultralytics.utils.checksimportcheck_imgsz,check_imshow# 从ultralytics工具文件模块导入：路径增量函数（自动生成不重复的文件/目录名，避免结果覆盖）fromultralytics.utils.filesimportincrement_path# 从ultralytics工具PyTorch模块导入：模型编译函数（提升推理效率）、设备选择函数（自动选择CPU/GPU/TensorRT）、推理模式装饰器（禁用梯度计算）fromultralytics.utils.torch_utilsimportattempt_compile,select_device,smart_inference_mode# 若在使用 Ultralytics 模型推理时未传入stream=True参数，推理结果会堆积在内存中，# 可能导致处理大型数据源、长时间运行的流或视频时出现内存不足错误，# 建议启用stream=True生成 Results 对象生成器并遍历处理（详见指定文档）。STREAM_WARNING=""" inference results will accumulate in RAM unless `stream=True` is passed, causing potential out-of-memory errors for large sources or long-running streams and videos. See https://docs.ultralytics.com/modes/predict/ for help. Example: results = model(source=..., stream=True) # generator of Results objects for r in results: boxes = r.boxes # Boxes object for bbox outputs masks = r.masks # Masks object for segment masks outputs probs = r.probs # Class probabilities for classification outputs """

BasePredictor 类

整体概览

项目	详情
类名	`BasePredictor`
父类	`object`
核心定位	所有YOLO预测器的基础类，封装模型加载、输入源处理、图像预处理、推理执行、结果后处理、可视化/保存等通用逻辑，支持多输入源（图像/视频/流/摄像头等）、多模型格式（PyTorch/ONNX/TensorRT等）
核心依赖模块	`ultralytics.cfg`（配置解析）、`ultralytics.data`（输入源加载）、`ultralytics.nn.autobackend`（多模型后端适配）、`ultralytics.utils`（工具函数/性能分析/设备选择）、`cv2`（图像/视频处理）、`torch`（张量操作）、`threading`（线程安全）
关键特性	1. 支持多输入源（图像/视频/文件夹/摄像头/RTSP/YouTube/张量等）；2. 适配多模型格式（PyTorch/ONNX/TensorRT等）；3. 流式推理避免内存溢出；4. 线程安全的推理流程；5. 完整的结果保存（图像/视频/标签/TXT）与可视化；6. 性能分析（预处理/推理/后处理耗时）；7. 回调机制支持自定义扩展；8. 自动预热模型提升推理速度
典型使用流程	初始化预测器→配置参数→加载模型→设置输入源→预热模型→逐批次预处理图像→模型推理→后处理结果→可视化/保存结果→释放资源→输出性能统计

1. BasePredictor 类属性说明表

属性名	类型	说明
args	SimpleNamespace	推理配置参数（conf/imgsz/save/show等）
save_dir	Path	结果保存目录
done_warmup	bool	模型是否完成预热
model	torch.nn.Module	AutoBackend封装的推理模型（支持多格式）
data	dict	数据配置字典
device	torch.device	推理设备（CPU/GPU/TensorRT等）
dataset	InferenceDataset	加载的推理数据源
vid_writer	dict[str, cv2.VideoWriter]	视频写入器字典（{保存路径: 写入器}）
plotted_img	np.ndarray	最后一次可视化的图像（带预测框/掩码）
source_type	SimpleNamespace	输入源类型（stream/video/image/tensor等）
seen	int	已处理的图像数量
windows	list[str]	可视化窗口名称列表
batch	tuple	当前批次数据（路径/原始图像/日志字符串）
results	list[Any]	当前批次的推理结果（Results对象列表）
transforms	callable	分类任务专用图像变换
callbacks	dict[str, list[callable]]	回调函数字典（按事件分类）
txt_path	Path	预测结果txt保存路径
_lock	threading.Lock	线程锁（保证多线程推理安全）

2. BasePredictor 类方法说明表

方法名	功能说明
preprocess	图像预处理（格式转换/归一化/设备迁移/数据类型转换）
pre_transform	预处理前的LetterBox缩放（保持比例，自动填充）
inference	模型推理（支持增强/可视化/嵌入提取）
postprocess	后处理基方法（子类重写，如检测的NMS）
call	对外推理接口（支持流式/非流式）
predict_cli	CLI模式推理（消费生成器，避免内存累积）
setup_source	加载推理数据源，检查输入类型
stream_inference	核心流式推理循环（全流程执行）
setup_model	初始化模型（AutoBackend加载多格式模型，设备选择/编译）
write_results	结果写入（txt/图片/视频，可视化）
save_predicted_images	保存预测结果（图片/视频/帧）
show	可视化展示推理结果
run_callbacks	执行指定事件的所有回调函数
add_callback	注册自定义回调函数

初始化函数：init

def__init__(self,cfg=DEFAULT_CFG,overrides:dict[str,Any]|None=None,_callbacks:dict[str,list[callable]]|None=None,):""" 初始化BasePredictor类 参数: cfg (str | dict): 基础配置文件路径/字典（默认DEFAULT_CFG） overrides (dict, optional): 配置覆盖参数（如conf=0.5, imgsz=640） _callbacks (dict, optional): 自定义回调函数字典（按事件分类） """# 加载并合并配置（基础配置 + 覆盖参数）self.args=get_cfg(cfg,overrides)# 生成结果保存目录（默认 runs/predict/exp*）self.save_dir=get_save_dir(self.args)# 设置默认置信度阈值（未指定时为0.25）ifself.args.confisNone:self.args.conf=0.25# 标记模型未完成预热self.done_warmup=False# 检查可视化可用性（Windows/Linux/macOS兼容）ifself.args.show:self.args.show=check_imshow(warn=True)# 后续初始化的属性（setup_model/setup_source后赋值）self.model=None# 推理模型实例（AutoBackend封装，支持PyTorch/ONNX/TensorRT等格式，setup_model后初始化）self.data=self.args.data# 数据配置字典（如数据集路径、类别名等，来自推理配置参数）self.imgsz=None# 推理输入图像尺寸（tuple，如(640,640)，setup_source中check_imgsz后确定）self.device=None# 推理设备（torch.device对象，如cuda:0/cpu，setup_model后从model.device同步）self.dataset=None# 推理数据源实例（InferenceDataset，封装多类型输入源，setup_source后初始化）self.vid_writer={}# 视频写入器字典（key=保存路径，value=cv2.VideoWriter，用于多视频/流结果保存）self.plotted_img=None# 最后一次绘制的带预测结果的图像（np.ndarray，可视化/保存时使用）self.source_type=None# 输入源类型（SimpleNamespace，含stream/video/image/tensor等标识，setup_source后赋值）self.seen=0# 已处理的图像/帧总数（流式推理中逐批次累加，用于统计和耗时计算）self.windows=[]# 可视化窗口名称列表（Linux下创建可调整窗口时记录，避免重复创建）self.batch=None# 当前批次数据（tuple，含paths/im0s/s，遍历dataset时赋值）self.results=None# 当前批次后处理结果（list[Results]，postprocess后赋值）self.transforms=None# 分类任务专用图像变换（callable，检测任务暂未使用）self.callbacks=_callbacksorcallbacks.get_default_callbacks()# 推理回调函数字典（按事件分类，如on_predict_start）self.txt_path=None# 单张图像预测结果txt保存路径（Path，write_results时动态生成）self._lock=threading.Lock()# 线程锁（保证多线程环境下推理流程的资源安全，如模型推理/视频写入）callbacks.add_integration_callbacks(self)# 注册集成回调（如W&B/MLflow日志、ClearML监控等）

项目	详情
函数名	`__init__`
功能概述	初始化预测器核心配置，设置保存目录、默认参数、回调函数、线程锁等基础属性
返回值	无（构造函数）
核心逻辑	解析配置→设置保存目录→初始化默认置信度→检查可视化可用性→初始化核心属性→注册集成回调
设计亮点	1. 配置分层解析，支持基础配置+覆盖项灵活调整；2. 自动适配系统可视化能力；3. 线程锁保证多线程安全；4. 默认回调机制便于扩展
注意事项	1. 需确保`overrides`中的参数与`DEFAULT_CFG`兼容，否则可能解析失败；2. 保存目录会自动增量命名（exp1/exp2），避免覆盖已有结果

图像预处理：preprocess

defpreprocess(self,im:torch.Tensor|list[np.ndarray])->torch.Tensor:""" 图像预处理：将输入转换为模型可接受的张量格式（BCHW/归一化/设备迁移/数据类型转换） 参数: im (torch.Tensor | list[np.ndarray]): 输入图像 - Tensor: 形状(N, 3, H, W) - list[np.ndarray]: 形状[(H, W, 3) x N]（N为批次大小） 返回: (torch.Tensor): 预处理后的张量（N, 3, H, W），已迁移到指定设备，归一化到0-1 """# 判断输入是否为张量not_tensor=notisinstance(im,torch.Tensor)ifnot_tensor:# 对列表中每张图像执行pre_transform（LetterBox缩放）im=np.stack(self.pre_transform(im))# BGR→RGB（OpenCV加载的图像是BGR，模型需要RGB）ifim.shape[-1]==3:im=im[...,::-1]# 维度转换：BHWC（批次，高度，宽度，通道）→ BCHW（批次，通道，高度，宽度）im=im.transpose((0,3,1,2))# 转换为连续内存数组（提升张量操作效率）im=np.ascontiguousarray(im)# NumPy→PyTorch张量im=torch.from_numpy(im)# 迁移到推理设备（CPU/GPU）im=im.to(self.device)# 数据类型转换：uint8→fp16/fp32（模型若启用fp16则用half，否则float）im=im.half()ifself.model.fp16elseim.float()# 归一化：0-255→0.0-1.0（仅非张量输入需要，张量输入已预处理）ifnot_tensor:im/=255returnim

项目	详情
函数名	`preprocess`
功能概述	将输入图像（张量/列表格式）转换为模型可接受的张量格式，完成设备迁移、数据类型转换、归一化等操作
返回值	`torch.Tensor`：预处理后的图像张量（[N,3,H,W]，float16/float32，归一化到0-1）
核心逻辑	格式转换（列表→张量）→通道转换（BGR→RGB）→维度调整（BHWC→BCHW）→设备迁移→数据类型转换→归一化
设计亮点	1. 兼容张量/列表两种输入格式；2. 自动适配模型精度（fp16/fp32）；3. 连续内存优化（`ascontiguousarray`）提升推理速度
注意事项	1. 列表输入需保证每张图像为(H,W,3)格式，否则`np.stack`会报错；2. 张量输入假定已归一化，无需重复除以255

模型推理：inference

definference(self,im:torch.Tensor,*args,**kwargs):""" 模型推理核心方法 参数: im (torch.Tensor): 预处理后的图像张量（N, 3, H, W） *args/ **kwargs: 额外推理参数 返回: (torch.Tensor | list): 模型原始预测结果（检测为张量，嵌入为列表） """# 可视化特征图的保存路径（仅非张量输入且启用visualize时）visualize=(increment_path(self.save_dir/Path(self.batch[0][0]).stem,mkdir=True)ifself.args.visualizeand(notself.source_type.tensor)elseFalse)# 调用模型推理：支持推理增强、特征图可视化、嵌入提取returnself.model(im,augment=self.args.augment,visualize=visualize,embed=self.args.embed,*args,**kwargs)

项目	详情
函数名	`inference`
功能概述	执行模型前向推理，可选启用数据增强、可视化特征图、提取嵌入特征
返回值	`torch.Tensor / list[torch.Tensor]`：模型原始预测结果/嵌入特征
核心逻辑	配置可视化路径→调用模型前向传播→返回预测结果
设计亮点	1. 灵活支持推理增强/特征可视化/嵌入提取；2. 可视化路径自动增量命名，避免覆盖
注意事项	1. 推理增强会增加耗时，但可提升小目标检测效果；2. 特征可视化仅支持PyTorch模型，其他格式（ONNX/TensorRT）不支持

图像预变换：pre_transform

defpre_transform(self,im:list[np.ndarray])->list[np.ndarray]:""" 预处理前的图像变换：LetterBox缩放（保持比例，自动填充） 参数: im (list[np.ndarray]): 原始图像列表（[(H, W, 3) x N]） 返回: (list[np.ndarray]): 缩放/填充后的图像列表 """# 判断批次内所有图像是否形状相同：若批次内所有图像形状完全相同（x.shape 的值都一样），集合中只会保留 1 个唯一元素same_shapes=len({x.shapeforxinim})==1# 初始化LetterBox（保持比例缩放，自动填充）letterbox=LetterBox(self.imgsz,# 目标尺寸# 自动填充开关：仅当图像形状相同+启用rect+模型为PyTorch或动态+非IMX时开启auto=same_shapesandself.args.rectand(self.model.ptor(getattr(self.model,"dynamic",False)andnotself.model.imx)),stride=self.model.stride,# 模型下采样步长（保证尺寸是步长的倍数）)# 对每张图像执行LetterBox变换return[letterbox(image=x)forxinim]

项目	详情
函数名	`pre_transform`
功能概述	对输入图像列表执行LetterBox缩放，保证图像尺寸为模型步长的整数倍，适配矩形推理
返回值	`list[np.ndarray]`：缩放后的图像列表
核心逻辑	检查图像尺寸一致性→初始化LetterBox→逐张图像缩放
设计亮点	1. 自动适配矩形推理，减少无效填充，提升推理速度；2. 兼容动态尺寸模型/IMX模型等特殊场景
注意事项	1. 矩形推理仅在所有图像尺寸相同时启用；2. LetterBox缩放会保持长宽比，不足部分填充灰色

预测后处理（基类占位）：postprocess

defpostprocess(self,preds,img,orig_imgs):""" 后处理基方法（子类必须重写，如检测的NMS、分割的掩码处理） 参数: preds: 模型原始预测结果 img: 预处理后的图像张量 orig_imgs: 原始图像列表 返回: 后处理后的结果（子类自定义） """returnpreds

项目	详情
函数名	`postprocess`
功能概述	基类占位方法，子类需重写以实现任务专属的预测结果后处理（如检测任务的NMS）
返回值	`Any`：原始预测结果（基类无处理）
核心逻辑	直接返回原始预测结果，无任何处理
设计亮点	为子类预留扩展接口，保证框架的可扩展性
注意事项	子类必须重写该方法，否则无法得到结构化的预测结果

预测执行入口：call

def__call__(self,source=None,model=None,stream:bool=False,*args,**kwargs):""" 对外统一推理接口：支持流式/非流式推理 参数: source: 推理数据源（图片/视频/摄像头/流等） model: 推理模型（路径/张量/模型实例） stream (bool): 是否流式推理（True返回生成器，False返回列表） *args/ **kwargs: 额外推理参数 返回: (list[Results] | generator): 推理结果（列表/生成器） """self.stream=streamifstream:# 流式推理：返回生成器（避免内存累积）returnself.stream_inference(source,model,*args,**kwargs)else:# 非流式推理：将生成器转为列表（一次性返回所有结果）returnlist(self.stream_inference(source,model,*args,**kwargs))

项目	详情
函数名	`__call__`
功能概述	预测器核心执行入口，支持流式/非流式推理，适配不同输入源和模型
返回值	`list[Results] / generator`：非流式返回结果列表，流式返回结果生成器
核心逻辑	设置流式标记→调用流式推理→非流式时转换为列表，流式时返回生成器
设计亮点	1. 流式推理避免内存溢出，适合视频/流等大输入源；2. 统一入口兼容两种推理模式
注意事项	1. 非流式推理会将所有结果存入内存，大输入源可能导致OOM；2. 生成器需迭代消费，否则无法释放资源

CLI预测执行：predict_cli

defpredict_cli(self,source=None,model=None):""" CLI模式专用推理方法：消费生成器，避免内存累积 参数: source: 推理数据源 model: 推理模型 注意: 必须消费生成器（即使不使用结果），否则会导致内存溢出； 该方法专为CLI模式设计，保证长视频/大流推理时的内存安全。 """gen=self.stream_inference(source,model)# 消费生成器（不存储结果）for_ingen:pass

项目	详情
函数名	`predict_cli`
功能概述	适配命令行的预测执行方法，消费流式推理生成器，避免内存累积
返回值	无
核心逻辑	调用流式推理生成器→迭代消费生成器（不存储结果），避免内存溢出
设计亮点	专为CLI场景设计，确保长时推理/大输入源不会内存溢出
注意事项	1. 不可移除生成器迭代逻辑，否则会导致结果累积；2. 该方法无返回值，结果仅通过保存/可视化输出

输入源设置：setup_source

defsetup_source(self,source):""" 加载推理数据源，检查输入类型，初始化数据集 参数: source: 推理数据源（图片/视频/摄像头/流等） """# 检查并调整图像尺寸（保证是模型步长的倍数）self.imgsz=check_imgsz(self.args.imgsz,stride=self.model.stride,min_dim=2)# 加载推理数据源（多源统一接口）self.dataset=load_inference_source(source=source,batch=self.args.batch,# 批次大小vid_stride=self.args.vid_stride,# 视频帧采样步长buffer=self.args.stream_buffer,# 流缓冲开关channels=getattr(self.model,"ch",3),# 模型输入通道数（默认3）)# 获取输入源类型（stream/video/image/tensor等）self.source_type=self.dataset.source_type# 检测是否为大流/长视频/多图片输入，警告流式推理必要性if(self.source_type.streamorself.source_type.screenshotorlen(self.dataset)>1000# 大量图片orany(getattr(self.dataset,"video_flag",[False]))# 长视频):# 对视频/流等大输入源警告非流式推理的OOM风险importtorchvisionifnotgetattr(self,"stream",True):LOGGER.warning(STREAM_WARNING)# 重置视频写入器字典self.vid_writer={}

项目	详情
函数名	`setup_source`
功能概述	验证图像尺寸、加载推理输入源、检测输入源类型、初始化视频写入器
返回值	无
核心逻辑	验证图像尺寸→加载输入源→检测源类型→警告非流式推理风险→初始化视频写入器
设计亮点	1. 自动验证图像尺寸适配模型步长；2. 统一加载所有输入源类型；3. 主动警告潜在内存风险
注意事项	1. 需确保输入源路径/格式正确，否则`load_inference_source`会报错；2. 视频源需保证ffmpeg可用，否则无法写入视频

流式推理核心：stream_inference

defstream_inference(self,source=None,model=None,*args,**kwargs):""" 核心流式推理循环：执行「模型预热→批次遍历→预处理→推理→后处理→结果保存→资源释放」全流程 参数: source: 推理数据源 model: 推理模型 *args/ **kwargs: 额外推理参数 生成: (Results): 逐批次生成结构化推理结果 """ifself.args.verbose:LOGGER.info("")# 初始化模型（未初始化时）ifnotself.model:self.setup_model(model)# 线程锁：保证多线程推理时的资源安全withself._lock:# 加载数据源（每次predict调用时重新加载）self.setup_source(sourceifsourceisnotNoneelseself.args.source)# 创建结果保存目录（save/save_txt启用时）ifself.args.saveorself.args.save_txt:(self.save_dir/"labels"ifself.args.save_txtelseself.save_dir).mkdir(parents=True,exist_ok=True)# 模型预热（首次推理前，避免首次推理耗时过长）ifnotself.done_warmup:self.model.warmup(imgsz=(1ifself.model.ptorself.model.tritonelseself.dataset.bs,self.model.ch,*self.imgsz))self.done_warmup=True# 初始化批次计数、窗口列表、当前批次self.seen,self.windows,self.batch=0,[],None# 初始化计时器（预处理/推理/后处理）profilers=(ops.Profile(device=self.device),ops.Profile(device=self.device),ops.Profile(device=self.device),)# 执行推理开始回调self.run_callbacks("on_predict_start")# 遍历数据集批次forself.batchinself.dataset:# 执行批次开始回调self.run_callbacks("on_predict_batch_start")# 解析当前批次数据：路径列表、原始图像列表、日志字符串列表paths,im0s,s=self.batch# 1. 预处理（计时）withprofilers[0]:im=self.preprocess(im0s)# 2. 模型推理（计时）withprofilers[1]:preds=self.inference(im,*args,**kwargs)# 若启用嵌入提取：直接生成嵌入结果，跳过后续处理ifself.args.embed:yieldfrom[preds]ifisinstance(preds,torch.Tensor)elsepredscontinue# 3. 后处理（计时）withprofilers[2]:self.results=self.postprocess(preds,im,im0s)# 执行后处理结束回调self.run_callbacks("on_predict_postprocess_end")# 4. 结果可视化/保存/写入（遍历批次内每张图像）n=len(im0s)try:foriinrange(n):self.seen+=1# 累计处理图像数# 记录单张图像的耗时（分摊批次耗时）self.results[i].speed={"preprocess":profilers[0].dt*1e3/n,"inference":profilers[1].dt*1e3/n,"postprocess":profilers[2].dt*1e3/n,}# 若启用verbose/save/save_txt/show：写入结果并更新日志ifself.args.verboseorself.args.saveorself.args.save_txtorself.args.show:s[i]+=self.write_results(i,Path(paths[i]),im,s)exceptStopIteration:# 按下q键退出时终止循环break# 打印批次日志（verbose模式）ifself.args.verbose:LOGGER.info("\n".join(s))# 执行批次结束回调self.run_callbacks("on_predict_batch_end")# 生成当前批次的推理结果yieldfromself.results# 5. 资源释放# 释放视频写入器forvinself.vid_writer.values():ifisinstance(v,cv2.VideoWriter):v.release()# 销毁可视化窗口ifself.args.show:cv2.destroyAllWindows()# close any open windows# 打印最终耗时统计（verbose模式）ifself.args.verboseandself.seen:# 计算单张图像平均耗时t=tuple(x.t/self.seen*1e3forxinprofilers)# speeds per imageLOGGER.info(f"Speed: %.1fms preprocess, %.1fms inference, %.1fms postprocess per image at shape "f"{(min(self.args.batch,self.seen),getattr(self.model,'ch',3),*im.shape[2:])}"%t)# 打印结果保存路径ifself.args.saveorself.args.save_txtorself.args.save_crop:nl=len(list(self.save_dir.glob("labels/*.txt")))s=f"\n{nl}label{'s'*(nl>1)}saved to{self.save_dir/'labels'}"ifself.args.save_txtelse""LOGGER.info(f"Results saved to{colorstr('bold',self.save_dir)}{s}")# 执行推理结束回调self.run_callbacks("on_predict_end")

verbose 模式（冗余 / 详细模式）是控制日志输出详细程度的核心配置，用于平衡 “执行透明度” 与 “日志简洁性”。

项目	详情
函数名	`stream_inference`
功能概述	预测器核心执行逻辑，完成模型预热、逐批次推理、结果处理、可视化/保存、性能统计等全流程
返回值	`generator`：逐批次的Results对象生成器
核心逻辑	模型加载→输入源设置→模型预热→逐批次预处理→推理→后处理→结果保存/可视化→性能统计→释放资源
设计亮点	1. 线程安全的推理流程；2. 逐批次处理避免内存累积；3. 精细化性能统计；4. 完整的资源释放机制；5. 回调机制支持自定义扩展
注意事项	1. 模型预热仅执行一次，提升后续推理速度；2. 生成器需迭代消费，否则会阻塞在批次循环中；3. 视频写入器需手动释放，否则会导致视频文件损坏

模型初始化：setup_model

defsetup_model(self,model,verbose:bool=True):""" 初始化推理模型：支持多格式模型加载（PyTorch/ONNX/TensorRT等） 参数: model: 模型路径/实例（默认使用self.args.model） verbose (bool): 是否打印详细日志 """# AutoBackend：多模型格式统一加载后端self.model=AutoBackend(model=modelorself.args.model,# 模型路径/实例device=select_device(self.args.device,verbose=verbose),# 选择推理设备dnn=self.args.dnn,# 是否使用OpenCV DNN（ONNX模型）data=self.args.data,# 数据配置fp16=self.args.half,# 是否启用fp16推理fuse=True,# 是否融合Conv+BN（提升PyTorch模型效率）verbose=verbose,# 日志开关)# 更新设备/半精度配置（同步模型实际状态）self.device=self.model.device self.args.half=self.model.fp16# 从导出元数据中复用图像尺寸（非动态模型）ifhasattr(self.model,"imgsz")andnotgetattr(self.model,"dynamic",False):self.args.imgsz=self.model.imgsz# 模型设为评估模式（禁用Dropout/BatchNorm训练行为）self.model.eval()# 尝试编译模型（提升推理效率，如TorchScript）self.model=attempt_compile(self.model,device=self.device,mode=self.args.compile)

项目	详情
函数名	`setup_model`
功能概述	加载多格式模型（PyTorch/ONNX/TensorRT等），配置设备、精度、编译等参数
返回值	无
核心逻辑	加载AutoBackend模型→更新设备/精度配置→设置模型为评估模式→可选编译模型
设计亮点	1. 一站式加载多格式模型，无需手动适配；2. 自动更新设备/精度配置；3. 可选编译模型提升推理速度
注意事项	1. TensorRT/ONNX等模型需提前导出，否则加载失败；2. 模型编译仅支持PyTorch 2.0+，且仅在GPU上生效

结果写入：write_results

defwrite_results(self,i:int,p:Path,im:torch.Tensor,s:list[str])->str:""" 写入单张图像的推理结果：保存txt/图片/视频，可视化，生成日志字符串 参数: i (int): 批次内图像索引 p (Path): 图像路径 im (torch.Tensor): 预处理后的图像张量 s (list[str]): 日志字符串列表 返回: (str): 更新后的日志字符串 """string=""# 初始化日志字符串# 扩展批次维度（单张图像时）iflen(im.shape)==3:im=im[None]# 处理流/张量/从图像输入：添加批次索引ifself.source_type.streamorself.source_type.from_imgorself.source_type.tensor:string+=f"{i}: "frame=self.dataset.count# 流/视频帧计数else:# 解析视频帧号（从日志字符串中）match=re.search(r"frame (\d+)/",s[i])frame=int(match[1])ifmatchelseNone# 初始化txt保存路径（图片：文件名；视频：文件名_帧号）self.txt_path=self.save_dir/"labels"/(p.stem+(""ifself.dataset.mode=="image"elsef"_{frame}"))# 添加图像尺寸到日志string+="{:g}x{:g} ".format(*im.shape[2:])# 获取当前图像的推理结果result=self.results[i]result.save_dir=self.save_dir.__str__()# 设置结果保存目录# 添加推理结果详情+耗时到日志string+=f"{result.verbose()}{result.speed['inference']:.1f}ms"# 可视化/保存结果（启用save/show时）ifself.args.saveorself.args.show:# 绘制预测结果（框/掩码/标签/置信度）self.plotted_img=result.plot(line_width=self.args.line_width,# 框线宽度boxes=self.args.show_boxes,# 是否显示框conf=self.args.show_conf,# 是否显示置信度labels=self.args.show_labels,# 是否显示标签im_gpu=Noneifself.args.retina_maskselseim[i],# 掩码绘制优化)# 保存结果到txt（save_txt启用时）ifself.args.save_txt:result.save_txt(f"{self.txt_path}.txt",save_conf=self.args.save_conf)# 保存裁剪后的目标（save_crop启用时）ifself.args.save_crop:result.save_crop(save_dir=self.save_dir/"crops",file_name=self.txt_path.stem)# 可视化展示（show启用时）ifself.args.show:self.show(str(p))# 保存预测图像/视频（save启用时）ifself.args.save:self.save_predicted_images(self.save_dir/p.name,frame)returnstring

项目	详情
函数名	`write_results`
功能概述	生成结果字符串、保存标签TXT、保存裁剪图像、可视化结果、保存预测图像/视频
返回值	`str`：当前图像的结果信息字符串
核心逻辑	生成结果字符串→绘制预测图像→保存TXT标签→保存裁剪→可视化→保存图像/视频
设计亮点	1. 统一管理所有结果输出方式；2. 结果字符串包含关键信息（尺寸/耗时/检测结果）；3. 适配图像/视频不同保存逻辑
注意事项	1. 保存裁剪需确保`save_crop`为True，否则不会生成；2. 可视化需系统支持，否则会静默失败

预测图像保存：save_predicted_images

defsave_predicted_images(self,save_path:Path,frame:int=0):""" 保存预测结果：图片→JPG，视频→MP4/AVI，流→帧+视频 参数: save_path (Path): 保存路径 frame (int): 视频帧号（仅视频/流输入） """# 带预测结果的图像im=self.plotted_img# 处理视频/流输入ifself.dataset.modein{"stream","video"}:# 获取帧率（视频用原帧率，流默认30）fps=self.dataset.fpsifself.dataset.mode=="video"else30# 帧保存目录（save_frames启用时）frames_path=self.save_dir/f"{save_path.stem}_frames"# 初始化视频写入器（新视频）ifsave_pathnotinself.vid_writer:ifself.args.save_frames:Path(frames_path).mkdir(parents=True,exist_ok=True)# 适配不同系统的视频编码suffix,fourcc=(".mp4","avc1")ifMACOSelse(".avi","WMV2")ifWINDOWSelse(".avi","MJPG")self.vid_writer[save_path]=cv2.VideoWriter(filename=str(Path(save_path).with_suffix(suffix)),fourcc=cv2.VideoWriter_fourcc(*fourcc),fps=fps,# 帧率（必须整数）frameSize=(im.shape[1],im.shape[0]),# 视频尺寸（宽度，高度）)# 写入视频帧self.vid_writer[save_path].write(im)# 保存单帧（save_frames启用时）ifself.args.save_frames:cv2.imwrite(f"{frames_path}/{save_path.stem}_{frame}.jpg",im)# 处理图片输入：保存为JPGselse:cv2.imwrite(str(save_path.with_suffix(".jpg")),im)

项目	详情
函数名	`save_predicted_images`
功能概述	按输入源类型（图像/视频/流）保存预测结果，视频保存为MP4/AVI，图像保存为JPG
返回值	无
设计亮点	1. 跨平台适配视频编码（MAC/WIN/LINUX）；2. 支持视频帧单独保存；3. 图像统一保存为JPG保证兼容性
注意事项	1. 视频编码需系统支持对应fourcc，否则会导致视频无法播放；2. 保存路径需有写入权限，否则会报错

结果可视化：show

defshow(self,p:str=""):""" 可视化展示带预测结果的图像 参数: p (str): 窗口名称（默认空） """im=self.plotted_img# Linux系统：创建可调整大小的窗口ifplatform.system()=="Linux"andpnotinself.windows:self.windows.append(p)cv2.namedWindow(p,cv2.WINDOW_NORMAL|cv2.WINDOW_KEEPRATIO)cv2.resizeWindow(p,im.shape[1],im.shape[0])# 显示图像cv2.imshow(p,im)# 按键监听：图片窗口停留300ms，视频/流停留1ms；按q键退出ifcv2.waitKey(300ifself.dataset.mode=="image"else1)&0xFF==ord("q"):raiseStopIteration

项目	详情
函数名	`show`
功能概述	在窗口中显示预测结果图像，支持图像/视频的实时可视化
返回值	无
核心逻辑	创建自适应窗口→显示图像→监听按键（按q退出）
设计亮点	1. Linux系统支持窗口自适应调整；2. 图像/视频适配不同等待时间；3. 按键退出机制友好
注意事项	1. 无显示器的环境（如服务器）禁用可视化，否则会报错；2. 视频可视化需快速迭代，否则会卡顿

回调执行：run_callbacks

defrun_callbacks(self,event:str):""" 执行指定事件的所有回调函数 参数: event (str): 事件名称（如on_predict_start/on_predict_batch_end） """forcallbackinself.callbacks.get(event,[]):callback(self)

项目	详情
函数名	`run_callbacks`
功能概述	执行指定事件的所有注册回调函数，支持自定义扩展预测流程
返回值	无
核心逻辑	遍历指定事件的回调列表→逐个执行回调函数（传入预测器自身）
设计亮点	1. 松耦合的回调机制，无需修改核心代码即可扩展功能；2. 支持多回调函数注册
注意事项	1. 回调函数需接收预测器实例作为参数；2. 回调函数异常会中断预测流程，需做好异常处理

回调注册：add_callback

defadd_callback(self,event:str,func:callable):""" 注册自定义回调函数到指定事件 参数: event (str): 事件名称 func (callable): 回调函数（接收self作为参数） """self.callbacks[event].append(func)

项目	详情
函数名	`add_callback`
功能概述	为指定事件注册新的回调函数，扩展预测器功能
返回值	无
核心逻辑	将回调函数添加到指定事件的回调列表中
设计亮点	简单易用的回调注册接口，支持动态扩展预测流程
注意事项	1. 需确保事件名正确（如on_predict_start），否则回调不会执行；2. 避免注册耗时回调，否则会降低推理速度

完整代码

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license""" Run prediction on images, videos, directories, globs, YouTube, webcam, streams, etc. Usage - sources: $ yolo mode=predict model=yolo11n.pt source=0 # webcam img.jpg # image vid.mp4 # video screen # screenshot path/ # directory list.txt # list of images list.streams # list of streams 'path/*.jpg' # glob 'https://youtu.be/LNwODJXcvt4' # YouTube 'rtsp://example.com/media.mp4' # RTSP, RTMP, HTTP, TCP stream Usage - formats: $ yolo mode=predict model=yolo11n.pt # PyTorch yolo11n.torchscript # TorchScript yolo11n.onnx # ONNX Runtime or OpenCV DNN with dnn=True yolo11n_openvino_model # OpenVINO yolo11n.engine # TensorRT yolo11n.mlpackage # CoreML (macOS-only) yolo11n_saved_model # TensorFlow SavedModel yolo11n.pb # TensorFlow GraphDef yolo11n.tflite # TensorFlow Lite yolo11n_edgetpu.tflite # TensorFlow Edge TPU yolo11n_paddle_model # PaddlePaddle yolo11n.mnn # MNN yolo11n_ncnn_model # NCNN yolo11n_imx_model # Sony IMX yolo11n_rknn_model # Rockchip RKNN yolo11n.pte # PyTorch Executorch """# 引入未来版本的类型注解支持，提升代码静态类型检查和编辑器提示能力from__future__importannotations# 导入系统平台检测模块（区分Windows/Linux/macOS，适配视频编码格式、窗口显示逻辑）importplatform# 导入正则表达式模块（解析视频帧号、处理路径/日志字符串中的结构化信息）importre# 导入线程管理模块（提供线程锁，保证多线程环境下推理的资源安全）importthreading# 导入路径处理模块（面向对象的路径操作，统一管理推理结果保存路径、数据源路径）frompathlibimportPath# 导入类型注解模块（Any类型用于兼容推理流程中多类型的输入/输出参数）fromtypingimportAny# 导入OpenCV核心模块（图像/视频的读取、写入、可视化、格式转换、视频编码等）importcv2# 导入数值计算模块（图像数组处理、维度转换、归一化、数组拼接等核心数值操作）importnumpyasnp# 导入PyTorch核心模块（张量操作、设备管理、模型推理、数据类型转换等）importtorch# 从ultralytics配置模块导入：配置加载函数（合并基础配置与自定义覆盖参数）、保存目录生成函数（自动创建runs/predict/exp*目录）fromultralytics.cfgimportget_cfg,get_save_dir# 从ultralytics数据模块导入：推理数据源加载函数（统一处理摄像头/视频/图片/流/张量等多类型输入源）fromultralytics.dataimportload_inference_source# 从ultralytics数据增强模块导入：LetterBox类（图像等比例缩放+自动填充，保证尺寸为模型步长倍数）fromultralytics.data.augmentimportLetterBox# 从ultralytics神经网络后端模块导入：AutoBackend类（统一加载PyTorch/ONNX/TensorRT等多格式模型）fromultralytics.nn.autobackendimportAutoBackend# 从ultralytics工具模块导入：默认配置常量、日志器、系统标识（macOS/WINDOWS）、回调函数字典、彩色字符串函数、通用操作工具（计时/缩放等）fromultralytics.utilsimportDEFAULT_CFG,LOGGER,MACOS,WINDOWS,callbacks,colorstr,ops# 从ultralytics工具检查模块导入：图像尺寸检查函数（保证尺寸为模型步长倍数）、可视化可用性检查函数（兼容不同系统的窗口显示）fromultralytics.utils.checksimportcheck_imgsz,check_imshow# 从ultralytics工具文件模块导入：路径增量函数（自动生成不重复的文件/目录名，避免结果覆盖）fromultralytics.utils.filesimportincrement_path# 从ultralytics工具PyTorch模块导入：模型编译函数（提升推理效率）、设备选择函数（自动选择CPU/GPU/TensorRT）、推理模式装饰器（禁用梯度计算）fromultralytics.utils.torch_utilsimportattempt_compile,select_device,smart_inference_mode STREAM_WARNING=""" inference results will accumulate in RAM unless `stream=True` is passed, causing potential out-of-memory errors for large sources or long-running streams and videos. See https://docs.ultralytics.com/modes/predict/ for help. Example: results = model(source=..., stream=True) # generator of Results objects for r in results: boxes = r.boxes # Boxes object for bbox outputs masks = r.masks # Masks object for segment masks outputs probs = r.probs # Class probabilities for classification outputs """classBasePredictor:""" YOLO通用预测器基类，抽象所有推理任务的公共逻辑 核心作用：为检测/分割/分类等专用预测器提供标准化的推理框架，包含： - 配置加载与初始化 - 多源数据加载（摄像头/视频/图片/流/张量等） - 图像预处理（缩放/归一化/通道转换/设备迁移） - 模型推理（多格式模型兼容） - 结果后处理（子类重写） - 结果保存/可视化/日志输出 - 回调机制（推理各阶段自定义逻辑） - 流式推理（避免内存溢出） - 线程安全推理 属性: args (SimpleNamespace): 推理配置参数（conf/imgsz/save/show等） save_dir (Path): 结果保存目录 done_warmup (bool): 模型是否完成预热 model (torch.nn.Module): AutoBackend封装的推理模型（支持多格式） data (dict): 数据配置字典 device (torch.device): 推理设备（CPU/GPU/TensorRT等） dataset (InferenceDataset): 加载的推理数据源 vid_writer (dict[str, cv2.VideoWriter]): 视频写入器字典（{保存路径: 写入器}） plotted_img (np.ndarray): 最后一次可视化的图像（带预测框/掩码） source_type (SimpleNamespace): 输入源类型（stream/video/image/tensor等） seen (int): 已处理的图像数量 windows (list[str]): 可视化窗口名称列表 batch (tuple): 当前批次数据（路径/原始图像/日志字符串） results (list[Any]): 当前批次的推理结果（Results对象列表） transforms (callable): 分类任务专用图像变换 callbacks (dict[str, list[callable]]): 回调函数字典（按事件分类） txt_path (Path): 预测结果txt保存路径 _lock (threading.Lock): 线程锁（保证多线程推理安全） 方法: preprocess: 图像预处理（格式转换/归一化/设备迁移/数据类型转换） pre_transform: 预处理前的LetterBox缩放（保持比例，自动填充） inference: 模型推理（支持增强/可视化/嵌入提取） postprocess: 后处理基方法（子类重写，如检测的NMS） __call__: 对外推理接口（支持流式/非流式） predict_cli: CLI模式推理（消费生成器，避免内存累积） setup_source: 加载推理数据源，检查输入类型 stream_inference: 核心流式推理循环（全流程执行） setup_model: 初始化模型（AutoBackend加载多格式模型，设备选择/编译） write_results: 结果写入（txt/图片/视频，可视化） save_predicted_images: 保存预测结果（图片/视频/帧） show: 可视化展示推理结果 run_callbacks: 执行指定事件的所有回调函数 add_callback: 注册自定义回调函数 """def__init__(self,cfg=DEFAULT_CFG,overrides:dict[str,Any]|None=None,_callbacks:dict[str,list[callable]]|None=None,):""" 初始化BasePredictor类 参数: cfg (str | dict): 基础配置文件路径/字典（默认DEFAULT_CFG） overrides (dict, optional): 配置覆盖参数（如conf=0.5, imgsz=640） _callbacks (dict, optional): 自定义回调函数字典（按事件分类） """# 加载并合并配置（基础配置 + 覆盖参数）self.args=get_cfg(cfg,overrides)# 生成结果保存目录（默认 runs/predict/exp*）self.save_dir=get_save_dir(self.args)# 设置默认置信度阈值（未指定时为0.25）ifself.args.confisNone:self.args.conf=0.25# 标记模型未完成预热self.done_warmup=False# 检查可视化可用性（Windows/Linux/macOS兼容）ifself.args.show:self.args.show=check_imshow(warn=True)# 后续初始化的属性（setup_model/setup_source后赋值）self.model=None# 推理模型实例（AutoBackend封装，支持PyTorch/ONNX/TensorRT等格式，setup_model后初始化）self.data=self.args.data# 数据配置字典（如数据集路径、类别名等，来自推理配置参数）self.imgsz=None# 推理输入图像尺寸（tuple，如(640,640)，setup_source中check_imgsz后确定）self.device=None# 推理设备（torch.device对象，如cuda:0/cpu，setup_model后从model.device同步）self.dataset=None# 推理数据源实例（InferenceDataset，封装多类型输入源，setup_source后初始化）self.vid_writer={}# 视频写入器字典（key=保存路径，value=cv2.VideoWriter，用于多视频/流结果保存）self.plotted_img=None# 最后一次绘制的带预测结果的图像（np.ndarray，可视化/保存时使用）self.source_type=None# 输入源类型（SimpleNamespace，含stream/video/image/tensor等标识，setup_source后赋值）self.seen=0# 已处理的图像/帧总数（流式推理中逐批次累加，用于统计和耗时计算）self.windows=[]# 可视化窗口名称列表（Linux下创建可调整窗口时记录，避免重复创建）self.batch=None# 当前批次数据（tuple，含paths/im0s/s，遍历dataset时赋值）self.results=None# 当前批次后处理结果（list[Results]，postprocess后赋值）self.transforms=None# 分类任务专用图像变换（callable，检测任务暂未使用）self.callbacks=_callbacksorcallbacks.get_default_callbacks()# 推理回调函数字典（按事件分类，如on_predict_start）self.txt_path=None# 单张图像预测结果txt保存路径（Path，write_results时动态生成）self._lock=threading.Lock()# 线程锁（保证多线程环境下推理流程的资源安全，如模型推理/视频写入）callbacks.add_integration_callbacks(self)# 注册集成回调（如W&B/MLflow日志、ClearML监控等）defpreprocess(self,im:torch.Tensor|list[np.ndarray])->torch.Tensor:""" 图像预处理：将输入转换为模型可接受的张量格式（BCHW/归一化/设备迁移/数据类型转换） 参数: im (torch.Tensor | list[np.ndarray]): 输入图像 - Tensor: 形状(N, 3, H, W) - list[np.ndarray]: 形状[(H, W, 3) x N]（N为批次大小） 返回: (torch.Tensor): 预处理后的张量（N, 3, H, W），已迁移到指定设备，归一化到0-1 """# 判断输入是否为张量not_tensor=notisinstance(im,torch.Tensor)ifnot_tensor:# 对列表中每张图像执行pre_transform（LetterBox缩放）im=np.stack(self.pre_transform(im))# BGR→RGB（OpenCV加载的图像是BGR，模型需要RGB）ifim.shape[-1]==3:im=im[...,::-1]# 维度转换：BHWC（批次，高度，宽度，通道）→ BCHW（批次，通道，高度，宽度）im=im.transpose((0,3,1,2))# 转换为连续内存数组（提升张量操作效率）im=np.ascontiguousarray(im)# NumPy→PyTorch张量im=torch.from_numpy(im)# 迁移到推理设备（CPU/GPU）im=im.to(self.device)# 数据类型转换：uint8→fp16/fp32（模型若启用fp16则用half，否则float）im=im.half()ifself.model.fp16elseim.float()# 归一化：0-255→0.0-1.0（仅非张量输入需要，张量输入已预处理）ifnot_tensor:im/=255returnimdefinference(self,im:torch.Tensor,*args,**kwargs):""" 模型推理核心方法 参数: im (torch.Tensor): 预处理后的图像张量（N, 3, H, W） *args/ **kwargs: 额外推理参数 返回: (torch.Tensor | list): 模型原始预测结果（检测为张量，嵌入为列表） """# 可视化特征图的保存路径（仅非张量输入且启用visualize时）visualize=(increment_path(self.save_dir/Path(self.batch[0][0]).stem,mkdir=True)ifself.args.visualizeand(notself.source_type.tensor)elseFalse)# 调用模型推理：支持推理增强、特征图可视化、嵌入提取returnself.model(im,augment=self.args.augment,visualize=visualize,embed=self.args.embed,*args,**kwargs)defpre_transform(self,im:list[np.ndarray])->list[np.ndarray]:""" 预处理前的图像变换：LetterBox缩放（保持比例，自动填充） 参数: im (list[np.ndarray]): 原始图像列表（[(H, W, 3) x N]） 返回: (list[np.ndarray]): 缩放/填充后的图像列表 """# 判断批次内所有图像是否形状相同：若批次内所有图像形状完全相同（x.shape 的值都一样），集合中只会保留 1 个唯一元素same_shapes=len({x.shapeforxinim})==1# 初始化LetterBox（保持比例缩放，自动填充）letterbox=LetterBox(self.imgsz,# 目标尺寸# 自动填充开关：仅当图像形状相同+启用rect+模型为PyTorch或动态+非IMX时开启auto=same_shapesandself.args.rectand(self.model.ptor(getattr(self.model,"dynamic",False)andnotself.model.imx)),stride=self.model.stride,# 模型下采样步长（保证尺寸是步长的倍数）)# 对每张图像执行LetterBox变换return[letterbox(image=x)forxinim]defpostprocess(self,preds,img,orig_imgs):""" 后处理基方法（子类必须重写，如检测的NMS、分割的掩码处理） 参数: preds: 模型原始预测结果 img: 预处理后的图像张量 orig_imgs: 原始图像列表 返回: 后处理后的结果（子类自定义） """returnpredsdef__call__(self,source=None,model=None,stream:bool=False,*args,**kwargs):""" 对外统一推理接口：支持流式/非流式推理 参数: source: 推理数据源（图片/视频/摄像头/流等） model: 推理模型（路径/张量/模型实例） stream (bool): 是否流式推理（True返回生成器，False返回列表） *args/ **kwargs: 额外推理参数 返回: (list[Results] | generator): 推理结果（列表/生成器） """self.stream=streamifstream:# 流式推理：返回生成器（避免内存累积）returnself.stream_inference(source,model,*args,**kwargs)else:# 非流式推理：将生成器转为列表（一次性返回所有结果）returnlist(self.stream_inference(source,model,*args,**kwargs))defpredict_cli(self,source=None,model=None):""" CLI模式专用推理方法：消费生成器，避免内存累积 参数: source: 推理数据源 model: 推理模型 注意: 必须消费生成器（即使不使用结果），否则会导致内存溢出； 该方法专为CLI模式设计，保证长视频/大流推理时的内存安全。 """gen=self.stream_inference(source,model)# 消费生成器（不存储结果）for_ingen:passdefsetup_source(self,source):""" 加载推理数据源，检查输入类型，初始化数据集 参数: source: 推理数据源（图片/视频/摄像头/流等） """# 检查并调整图像尺寸（保证是模型步长的倍数）self.imgsz=check_imgsz(self.args.imgsz,stride=self.model.stride,min_dim=2)# 加载推理数据源（多源统一接口）self.dataset=load_inference_source(source=source,batch=self.args.batch,# 批次大小vid_stride=self.args.vid_stride,# 视频帧采样步长buffer=self.args.stream_buffer,# 流缓冲开关channels=getattr(self.model,"ch",3),# 模型输入通道数（默认3）)# 获取输入源类型（stream/video/image/tensor等）self.source_type=self.dataset.source_type# 检测是否为大流/长视频/多图片输入，警告流式推理必要性if(self.source_type.streamorself.source_type.screenshotorlen(self.dataset)>1000# 大量图片orany(getattr(self.dataset,"video_flag",[False]))# 长视频):# 对视频/流等大输入源警告非流式推理的OOM风险importtorchvisionifnotgetattr(self,"stream",True):LOGGER.warning(STREAM_WARNING)# 重置视频写入器字典self.vid_writer={}@smart_inference_mode()defstream_inference(self,source=None,model=None,*args,**kwargs):""" 核心流式推理循环：执行「模型预热→批次遍历→预处理→推理→后处理→结果保存→资源释放」全流程 参数: source: 推理数据源 model: 推理模型 *args/ **kwargs: 额外推理参数 生成: (Results): 逐批次生成结构化推理结果 """ifself.args.verbose:LOGGER.info("")# 初始化模型（未初始化时）ifnotself.model:self.setup_model(model)# 线程锁：保证多线程推理时的资源安全withself._lock:# 加载数据源（每次predict调用时重新加载）self.setup_source(sourceifsourceisnotNoneelseself.args.source)# 创建结果保存目录（save/save_txt启用时）ifself.args.saveorself.args.save_txt:(self.save_dir/"labels"ifself.args.save_txtelseself.save_dir).mkdir(parents=True,exist_ok=True)# 模型预热（首次推理前，避免首次推理耗时过长）ifnotself.done_warmup:self.model.warmup(imgsz=(1ifself.model.ptorself.model.tritonelseself.dataset.bs,self.model.ch,*self.imgsz))self.done_warmup=True# 初始化批次计数、窗口列表、当前批次self.seen,self.windows,self.batch=0,[],None# 初始化计时器（预处理/推理/后处理）profilers=(ops.Profile(device=self.device),ops.Profile(device=self.device),ops.Profile(device=self.device),)# 执行推理开始回调self.run_callbacks("on_predict_start")# 遍历数据集批次forself.batchinself.dataset:# 执行批次开始回调self.run_callbacks("on_predict_batch_start")# 解析当前批次数据：路径列表、原始图像列表、日志字符串列表paths,im0s,s=self.batch# 1. 预处理（计时）withprofilers[0]:im=self.preprocess(im0s)# 2. 模型推理（计时）withprofilers[1]:preds=self.inference(im,*args,**kwargs)# 若启用嵌入提取：直接生成嵌入结果，跳过后续处理ifself.args.embed:yieldfrom[preds]ifisinstance(preds,torch.Tensor)elsepredscontinue# 3. 后处理（计时）withprofilers[2]:self.results=self.postprocess(preds,im,im0s)# 执行后处理结束回调self.run_callbacks("on_predict_postprocess_end")# 4. 结果可视化/保存/写入（遍历批次内每张图像）n=len(im0s)try:foriinrange(n):self.seen+=1# 累计处理图像数# 记录单张图像的耗时（分摊批次耗时）self.results[i].speed={"preprocess":profilers[0].dt*1e3/n,"inference":profilers[1].dt*1e3/n,"postprocess":profilers[2].dt*1e3/n,}# 若启用verbose/save/save_txt/show：写入结果并更新日志ifself.args.verboseorself.args.saveorself.args.save_txtorself.args.show:s[i]+=self.write_results(i,Path(paths[i]),im,s)exceptStopIteration:# 按下q键退出时终止循环break# 打印批次日志（verbose模式）ifself.args.verbose:LOGGER.info("\n".join(s))# 执行批次结束回调self.run_callbacks("on_predict_batch_end")# 生成当前批次的推理结果yieldfromself.results# 5. 资源释放# 释放视频写入器forvinself.vid_writer.values():ifisinstance(v,cv2.VideoWriter):v.release()# 销毁可视化窗口ifself.args.show:cv2.destroyAllWindows()# close any open windows# 打印最终耗时统计（verbose模式）ifself.args.verboseandself.seen:# 计算单张图像平均耗时t=tuple(x.t/self.seen*1e3forxinprofilers)# speeds per imageLOGGER.info(f"Speed: %.1fms preprocess, %.1fms inference, %.1fms postprocess per image at shape "f"{(min(self.args.batch,self.seen),getattr(self.model,'ch',3),*im.shape[2:])}"%t)# 打印结果保存路径ifself.args.saveorself.args.save_txtorself.args.save_crop:nl=len(list(self.save_dir.glob("labels/*.txt")))s=f"\n{nl}label{'s'*(nl>1)}saved to{self.save_dir/'labels'}"ifself.args.save_txtelse""LOGGER.info(f"Results saved to{colorstr('bold',self.save_dir)}{s}")# 执行推理结束回调self.run_callbacks("on_predict_end")defsetup_model(self,model,verbose:bool=True):""" 初始化推理模型：支持多格式模型加载（PyTorch/ONNX/TensorRT等） 参数: model: 模型路径/实例（默认使用self.args.model） verbose (bool): 是否打印详细日志 """# AutoBackend：多模型格式统一加载后端self.model=AutoBackend(model=modelorself.args.model,# 模型路径/实例device=select_device(self.args.device,verbose=verbose),# 选择推理设备dnn=self.args.dnn,# 是否使用OpenCV DNN（ONNX模型）data=self.args.data,# 数据配置fp16=self.args.half,# 是否启用fp16推理fuse=True,# 是否融合Conv+BN（提升PyTorch模型效率）verbose=verbose,# 日志开关)# 更新设备/半精度配置（同步模型实际状态）self.device=self.model.device self.args.half=self.model.fp16# 从导出元数据中复用图像尺寸（非动态模型）ifhasattr(self.model,"imgsz")andnotgetattr(self.model,"dynamic",False):self.args.imgsz=self.model.imgsz# 模型设为评估模式（禁用Dropout/BatchNorm训练行为）self.model.eval()# 尝试编译模型（提升推理效率，如TorchScript）self.model=attempt_compile(self.model,device=self.device,mode=self.args.compile)defwrite_results(self,i:int,p:Path,im:torch.Tensor,s:list[str])->str:""" 写入单张图像的推理结果：保存txt/图片/视频，可视化，生成日志字符串 参数: i (int): 批次内图像索引 p (Path): 图像路径 im (torch.Tensor): 预处理后的图像张量 s (list[str]): 日志字符串列表 返回: (str): 更新后的日志字符串 """string=""# 初始化日志字符串# 扩展批次维度（单张图像时）iflen(im.shape)==3:im=im[None]# 处理流/张量/从图像输入：添加批次索引ifself.source_type.streamorself.source_type.from_imgorself.source_type.tensor:string+=f"{i}: "frame=self.dataset.count# 流/视频帧计数else:# 解析视频帧号（从日志字符串中）match=re.search(r"frame (\d+)/",s[i])frame=int(match[1])ifmatchelseNone# 初始化txt保存路径（图片：文件名；视频：文件名_帧号）self.txt_path=self.save_dir/"labels"/(p.stem+(""ifself.dataset.mode=="image"elsef"_{frame}"))# 添加图像尺寸到日志string+="{:g}x{:g} ".format(*im.shape[2:])# 获取当前图像的推理结果result=self.results[i]result.save_dir=self.save_dir.__str__()# 设置结果保存目录# 添加推理结果详情+耗时到日志string+=f"{result.verbose()}{result.speed['inference']:.1f}ms"# 可视化/保存结果（启用save/show时）ifself.args.saveorself.args.show:# 绘制预测结果（框/掩码/标签/置信度）self.plotted_img=result.plot(line_width=self.args.line_width,# 框线宽度boxes=self.args.show_boxes,# 是否显示框conf=self.args.show_conf,# 是否显示置信度labels=self.args.show_labels,# 是否显示标签im_gpu=Noneifself.args.retina_maskselseim[i],# 掩码绘制优化)# 保存结果到txt（save_txt启用时）ifself.args.save_txt:result.save_txt(f"{self.txt_path}.txt",save_conf=self.args.save_conf)# 保存裁剪后的目标（save_crop启用时）ifself.args.save_crop:result.save_crop(save_dir=self.save_dir/"crops",file_name=self.txt_path.stem)# 可视化展示（show启用时）ifself.args.show:self.show(str(p))# 保存预测图像/视频（save启用时）ifself.args.save:self.save_predicted_images(self.save_dir/p.name,frame)returnstringdefsave_predicted_images(self,save_path:Path,frame:int=0):""" 保存预测结果：图片→JPG，视频→MP4/AVI，流→帧+视频 参数: save_path (Path): 保存路径 frame (int): 视频帧号（仅视频/流输入） """# 带预测结果的图像im=self.plotted_img# 处理视频/流输入ifself.dataset.modein{"stream","video"}:# 获取帧率（视频用原帧率，流默认30）fps=self.dataset.fpsifself.dataset.mode=="video"else30# 帧保存目录（save_frames启用时）frames_path=self.save_dir/f"{save_path.stem}_frames"# 初始化视频写入器（新视频）ifsave_pathnotinself.vid_writer:ifself.args.save_frames:Path(frames_path).mkdir(parents=True,exist_ok=True)# 适配不同系统的视频编码suffix,fourcc=(".mp4","avc1")ifMACOSelse(".avi","WMV2")ifWINDOWSelse(".avi","MJPG")self.vid_writer[save_path]=cv2.VideoWriter(filename=str(Path(save_path).with_suffix(suffix)),fourcc=cv2.VideoWriter_fourcc(*fourcc),fps=fps,# 帧率（必须整数）frameSize=(im.shape[1],im.shape[0]),# 视频尺寸（宽度，高度）)# 写入视频帧self.vid_writer[save_path].write(im)# 保存单帧（save_frames启用时）ifself.args.save_frames:cv2.imwrite(f"{frames_path}/{save_path.stem}_{frame}.jpg",im)# 处理图片输入：保存为JPGselse:cv2.imwrite(str(save_path.with_suffix(".jpg")),im)defshow(self,p:str=""):""" 可视化展示带预测结果的图像 参数: p (str): 窗口名称（默认空） """im=self.plotted_img# Linux系统：创建可调整大小的窗口ifplatform.system()=="Linux"andpnotinself.windows:self.windows.append(p)cv2.namedWindow(p,cv2.WINDOW_NORMAL|cv2.WINDOW_KEEPRATIO)cv2.resizeWindow(p,im.shape[1],im.shape[0])# 显示图像cv2.imshow(p,im)# 按键监听：图片窗口停留300ms，视频/流停留1ms；按q键退出ifcv2.waitKey(300ifself.dataset.mode=="image"else1)&0xFF==ord("q"):raiseStopIterationdefrun_callbacks(self,event:str):""" 执行指定事件的所有回调函数 参数: event (str): 事件名称（如on_predict_start/on_predict_batch_end） """forcallbackinself.callbacks.get(event,[]):callback(self)defadd_callback(self,event:str,func:callable):""" 注册自定义回调函数到指定事件 参数: event (str): 事件名称 func (callable): 回调函数（接收self作为参数） """self.callbacks[event].append(func)

通用预测框架的核心特性

特性	实现方式
多输入源适配	`setup_source`调用`load_inference_source`统一加载图像/视频/流/摄像头等
多模型格式兼容	`setup_model`通过`AutoBackend`加载PyTorch/ONNX/TensorRT等格式模型
流式推理防OOM	`stream_inference`生成器逐批次返回结果，`predict_cli`消费生成器
性能精细化统计	基于`ops.Profile`统计预处理/推理/后处理耗时，输出单图像平均耗时
跨平台视频保存	根据系统（MAC/WIN/LINUX）选择不同视频编码（avc1/WMV2/MJPG）
线程安全推理	`stream_inference`使用`self._lock`保证多线程下推理安全
模型预热优化	首次推理前执行`model.warmup`，提升后续推理速度

工程化核心优化

优化点	实现方式
内存效率优化	流式推理避免结果累积，LetterBox矩形推理减少无效填充
数据类型适配	自动转换图像为模型所需的fp16/fp32，非张量输入自动归一化
资源自动释放	推理结束后释放视频写入器、关闭可视化窗口，避免资源泄漏
配置灵活解析	`__init__`通过`get_cfg`合并基础配置与覆盖项，支持动态参数调整
错误友好提示	非流式推理大输入源时输出OOM警告，可视化不可用时自动禁用
代码可扩展性	基类占位`postprocess`方法，子类重写实现任务专属后处理

扩展与易用性能力

扩展项	用途
回调机制	`run_callbacks`/`add_callback`支持自定义扩展预测流程（如日志/监控）
多结果输出方式	支持保存图像/视频/TXT标签/裁剪图像，可视化窗口显示
矩形推理优化	`pre_transform`的LetterBox根据图像尺寸一致性启用auto模式
动态尺寸验证	`check_imgsz`保证图像尺寸为模型步长整数倍，避免推理错误
统一结果封装	子类返回`Results`对象，包含检测框/掩码/类别等所有信息

关键注意事项

流式推理使用：视频/流/大量图像必须启用stream=True，否则会导致内存溢出；生成器需迭代消费，不可直接转为列表（除非确认数据量小）。
模型格式适配：ONNX/TensorRT等模型需提前导出，AutoBackend加载时需保证依赖库（如onnxruntime/tensorrt）已安装。
可视化限制：服务器/无显示器环境需禁用show=True，否则会触发OpenCV错误；Linux系统需安装X11才能显示窗口。
视频保存依赖：需保证系统安装ffmpeg，否则视频写入器初始化失败，可降级为保存单帧图像。
回调函数开发：自定义回调函数需接收预测器实例作为参数，避免修改预测器核心属性，做好异常捕获。
多线程推理：多线程调用预测器时，需确保每个线程使用独立实例，或依赖self._lock保证线程安全。
图像输入格式：列表输入需为RGB通道的(H,W,3)格式，OpenCV读取的BGR图像会自动转换，无需手动处理。

总结

详细介绍了 Ultralytics 框架中作为 YOLO 全任务推理通用基础的 BasePredictor 类。

【YOLO-Ultralytics】【核心引擎】【v8.3.235版本】模型预测器基类代码predictor.py解析

【YOLO-Ultralytics】【核心引擎】【v8.3.235版本】模型预测器基类代码predictor.py解析

文章目录

前言

YOLO 预测功能全解析

输入源（source 参数）说明

模型格式（model 参数）说明

关键注意事项

所需的库和模块

BasePredictor 类

整体概览

1. BasePredictor 类属性说明表

2. BasePredictor 类方法说明表

初始化函数：init

图像预处理：preprocess

模型推理：inference

图像预变换：pre_transform

预测后处理（基类占位）：postprocess

预测执行入口：call

CLI预测执行：predict_cli

输入源设置：setup_source

流式推理核心：stream_inference

模型初始化：setup_model

结果写入：write_results

预测图像保存：save_predicted_images

结果可视化：show

回调执行：run_callbacks

回调注册：add_callback

完整代码

通用预测框架的核心特性

工程化核心优化

扩展与易用性能力

关键注意事项

总结

Rust FFI扩展编译实战解析（99%开发者忽略的关键步骤）

基于单片机的智能电能表

气温变化趋势预测全解析，基于R语言的ARIMA与ETS模型深度对比

具身智能：梯队

Springboot3 + shardingsphere-jdbc5.5.2 按年月分表（动态创建表）

前端安全问题

【YOLO-Ultralytics】 【核心引擎】【v8.3.235版本】 模型预测器基类代码predictor.py解析

文章目录

前言

YOLO 预测功能全解析

输入源（source 参数）说明

模型格式（model 参数）说明

关键注意事项

所需的库和模块

BasePredictor 类

整体概览

1. BasePredictor 类属性说明表

2. BasePredictor 类方法说明表

初始化函数：init

图像预处理：preprocess

模型推理：inference

图像预变换：pre_transform

预测后处理（基类占位）：postprocess

预测执行入口：__call__

CLI预测执行：predict_cli

输入源设置：setup_source

流式推理核心：stream_inference

模型初始化：setup_model

结果写入：write_results

预测图像保存：save_predicted_images

结果可视化：show

回调执行：run_callbacks

回调注册：add_callback

完整代码

通用预测框架的核心特性

工程化核心优化

扩展与易用性能力

关键注意事项

总结

Rust FFI扩展编译实战解析（99%开发者忽略的关键步骤）

基于单片机的智能电能表

气温变化趋势预测全解析，基于R语言的ARIMA与ETS模型深度对比

具身智能：梯队

Springboot3 + shardingsphere-jdbc5.5.2 按年月分表（动态创建表）

前端安全问题

【YOLO-Ultralytics】【核心引擎】【v8.3.235版本】模型预测器基类代码predictor.py解析

预测执行入口：call