news 2026/6/10 9:22:24

先扔个完整代码镇楼(波士顿房价预测实战)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
先扔个完整代码镇楼(波士顿房价预测实战)

CatBoost-shap集成模型中的一种,本项目用在了回归问题上,并对模型和变量采用shap进行解释分析 Python代码,自带数据集,可以直接运行,代码实价,联系 所有图所见即所得,只会更多

from catboost import CatBoostRegressor, Pool import shap import pandas as pd import matplotlib.pyplot as plt # 加载数据 data = pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv') X = data.iloc[:,:-1] y = data.iloc[:,-1] # 训练CatBoost model = CatBoostRegressor(iterations=300, depth=5, learning_rate=0.1, verbose=0) cat_features = list(X.select_dtypes(include='object').columns) model.fit(X, y, cat_features=cat_features) # SHAP魔法开始 explainer = shap.TreeExplainer(model) shap_values = explainer.shap_values(Pool(X, cat_features=cat_features)) # 特征重要性全景图 plt.figure(figsize=(10,6)) shap.summary_plot(shap_values, X, plot_type="bar") plt.title('特征影响力排行榜') plt.tight_layout() # 单样本决策推演 sample_idx = 42 shap.force_plot(explainer.expected_value, shap_values[sample_idx], X.iloc[sample_idx], matplotlib=True, text_rotation=15)

跑完这段代码你会看到两张图——第一张是特征重要性排序,像游戏战力榜一样展示各个特征对房价的影响力;第二张是单样本预测的"决策推演",像拆解俄罗斯套娃一样展示每个特征如何影响最终预测值。

这里有个骚操作:cat_features参数自动处理类别型变量,连one-hot都不用做。比如数据里如果有房屋类型(别墅/公寓)这种字符串特征,CatBoost自己就能消化,比XGBoost省事得多。

SHAP值分析时注意这个细节:

Pool(X, cat_features=cat_features) # 必须用Pool对象传递类别特征信息

如果直接传DataFrame,模型会忘记哪些是类别特征,导致SHAP解释出现偏差。这个坑我帮你们踩过了,记得用Pool封装数据。

看特征重要性图时,重点关注颜色深浅——红色表示特征值大,蓝色表示特征值小。比如'rm'(房间数)特征,当柱子偏红时说明房间多的房子预测价更高,符合常识。

当看到单样本force_plot时,找那个把预测值往右推的最强特征。比如某个样本的'ptratio'(师生比)特别低(教育资源好),SHAP值就会用红色长箭头把预测价顶上去,比看枯燥的特征权重直观多了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:08:44

电池组散热分析:结合ANSYS流体Fluent,探索优化散热效果的关键因素

电池组散热分析 ansys 流体 fluent打开Ansys Fluent做电池包散热仿真,第一反应肯定是"这破模型能收敛吗?"。毕竟密密麻麻的电池单体加上复杂的冷却流道,网格质量稍微差点就能让残差曲线跳起disco。不过别慌,咱先整明白核…

作者头像 李华
网站建设 2026/6/10 13:01:34

[网络技术] 常见内网流媒体协议快速认知与取舍

在内网环境中,搭建高效稳定的流媒体系统(如视频直播、游戏串流、远程桌面)已成为技术人员的重要任务。无论是家庭媒体中心、公司会议投屏、还是教育直播平台,正确选择流媒体协议是保证体验的关键环节。 本篇文章将系统梳理 常见的内网流媒体协议,分析各自的优缺点、适用场…

作者头像 李华
网站建设 2026/6/10 13:37:47

AI自动生成PPT工具横评,真实使用感受分享

告别PPT难题!轻竹办公让工作汇报轻松出彩在职场中,年终总结、项目汇报等工作汇报场景是每位职场人都绕不开的挑战。为了完成一份高质量的报告,我们常常需要熬夜修改,面对杂乱无章的内容框架无从下手,好不容易有了内容&…

作者头像 李华
网站建设 2026/6/10 13:38:12

ECC公钥生成过程

ECC公钥生成过程:像魔法变身一样简单却安全在椭圆曲线密码学(ECC)的奇幻世界里,公钥生成就像一个超级英雄的“变身仪式”:从一个秘密起点(私钥)出发,通过魔法公式“放大”成公开的守…

作者头像 李华
网站建设 2026/6/10 13:37:09

多模态大模型引领:计算机视觉的下一个爆发点

计算机视觉与模式识别正迎来 “多模态融合高效落地” 的双重爆发!如今的研究早已跳出单一视觉任务框架,核心突破集中在三大方向。多模态 LLM 成为绝对热点,视觉编码器与大语言模型深度整合,实现图像理解、跨模态检索与逻辑推理的无…

作者头像 李华