news 2026/4/25 2:04:46

5. KNN算法之 超参选择(交叉验证网格搜索)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
5. KNN算法之 超参选择(交叉验证网格搜索)

交叉验证、网格搜索的目的都是寻找最优超参;

  1. 知道交叉验证是什么?
  2. 知道网格搜索是什么?
  3. 知道交叉验证网格搜索API函数用法
  4. 能实践交叉验证网格搜索进行模型超参数调优
  5. 利用KNN算法实现手写数字识别

1. 交叉验证:

交叉验证 本质上就是复验即重复校验;多验几回,最后求均值;
交叉验证法,是划分数据集的一种方法,目的就是为了得到更加准确可信的模型评分。

图示:交叉验证也叫几折验证,将数据集分成n份,图中分成了4份即 4折交叉验证,分成了几份就叫几折验证;第一次:把第一份当做验证集即测试集,其他的当做训练集来训练模型,训练之后再用第一份的验证集进行验证,得到 80%的正确率;第二次:把第二份当验证集、其他的当做训练集,重新对模型进行训练、进行预测了,又会得到一个78%的正确率;第三次拿第3份做验证、第四次拿第4份做验证;一共验证了4次。4折就是4次,几折就是几次。在划分之前只做一次,80%就作为最终得分、但现在4折是验证了4次,就要算一下几个值的平均值78.75作为最终的结果。如果哪一次最好,再使用全部的训练集对它再做一次训练,训练完后在使用测试,假设最后一次得分最高,拿总的4份做训练,最后的一份(红色部分’验证集’)做测试即谁得分最好,在使用全部的对它再训练一次,再做一次评估;)

2. 网格搜索:

简述:

图示:交叉验证是多验几回,最后求均值;上图交叉验证图里面的k与KNN算法中的K不是一个,前者k只是把数据分成几份、KNN中的K表示找最近的K个邻居(样本);交叉验证就是复验,复验几次,而网格搜索才是找最有超参,什么是最有超参?KNN算法中创建模型对象estimator=KNeighborsClassifier(n_neighbors=3)中的3这种用户手动录入的变化的数据就称为超参。为什么叫网格搜索?因为模型有很多超参,其能力也存在着很大的差异,如 n_neighbors=3时准确率可能是93.多,=5准确率可能96.多,所以需要手动产生很多超参的组合:此种模型只有一个参数即3,但可能模型需要3个参数,那组合方式有2的3次方=8种;所以网格搜索时帮忙寻找最有超参;为什么每组超参都采用交叉验证评估?假如拿着3这个参数只测一回,不能说明最终的准确率,因为要复验,多测几次;当 n_neighbors=[1,2,3,5,7],结合4折验证,程序共执行了20次:因为每一个参数都要经过4折验证,4折验证就是4回,则一共执行4*5=20回;[1,2,3,5,7]结合不同折的验证,效果会不一样:如4折验证时可能2最好,7折验证时可能5最好,所以网格搜索时帮忙寻找最优超参。
网格搜索时模型调参的有力工具,啥叫模型调参?n_neighbors=3为什么=3不等于其他值,此为模型调参。
将来寻找最有超参可使用:网格搜索+交叉验证。
为什么叫网格搜索?:本来是n_neighbors=3参数值只有一个3,它会像网格一样划分很多值如 [1,2,3,5,7],每个参数都结合交叉验证去验证哪个参数最好;像网格一样将参数隔开,去做排列组合;)


API解释:


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 2:03:47

Go语言APM探针:无侵入式分布式链路追踪实战指南

1. 项目概述:为什么我们需要一个Go语言的APM探针?在微服务和云原生架构成为主流的今天,一个典型的线上应用可能由几十甚至上百个服务组成。当用户的一个请求超时,或者某个接口的响应时间突然飙升,你如何快速定位问题&a…

作者头像 李华
网站建设 2026/4/25 2:02:40

HS2-HF Patch:让Honey Select 2游戏体验全面升级的终极增强方案

HS2-HF Patch:让Honey Select 2游戏体验全面升级的终极增强方案 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在为《Honey Select 2》的游戏体验…

作者头像 李华
网站建设 2026/4/25 2:00:22

演讲时观众都在刷手机,Claper用下来确实能打破冷场

前言 做分享或者汇报的时候,最尴尬的场面不是内容讲得不好,而是你一个人在台上说,下面的观众全程低头刷手机。提问环节更不用想了,鸦雀无声,想互动一下都不知道从哪里切入。说到底,PPT 这种工具天生就是单…

作者头像 李华
网站建设 2026/4/25 2:00:21

如何用 Network 面板的性能节流模拟弱网环境下的加载

选 No throttling 以外的预设(如 Slow 3G)才真正生效,但仅影响当前标签页后续请求;需刷新前启用、禁用缓存,并观察 Waterfall 中 Stalled 和 TTFB 是否延长。Network 面板里“Throttling”下拉菜单选哪个才真有效选 No…

作者头像 李华
网站建设 2026/4/25 1:58:28

机器学习中的距离度量:原理、实现与应用

1. 机器学习中的距离度量概述距离度量在机器学习中扮演着至关重要的角色。作为一名从业多年的数据科学家,我发现距离计算是许多经典算法的核心基础。无论是监督学习中的K近邻算法,还是无监督学习中的K均值聚类,距离度量都直接影响着模型的性能…

作者头像 李华