news 2026/4/16 12:07:58

13、聚类算法在MNIST和借贷俱乐部数据中的应用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
13、聚类算法在MNIST和借贷俱乐部数据中的应用

聚类算法在MNIST和借贷俱乐部数据中的应用

1. 层次聚类在MNIST数据集上的表现

层次聚类在MNIST数字数据集上表现出色,且整个过程未使用任何标签。在实际应用中,通常先进行降维(如PCA),再进行聚类(如层次聚类),最后对每个聚类中的少量点进行手动标注。以MNIST数据集为例,如果没有标签,可查看每个聚类中的几张图像,根据显示的数字对这些图像进行标注。只要聚类足够均匀,手动标注的少量标签就可自动应用于该聚类中的所有其他图像,这样能以近77%的准确率标注50000个数据集中的所有图像,凸显了无监督学习的强大之处。

2. DBSCAN算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是基于密度的空间聚类算法。与k - means和层次聚类不同,DBSCAN根据点的密度进行分组,能明确将点标记为离群点,避免对其进行聚类,受数据中离群点导致的失真影响较小,且无需预先指定聚类数量。

2.1 DBSCAN算法原理

使用Scikit - Learn中的DBSCAN库时,需要指定两个关键参数:
-eps:两点之间的最大距离,若两点距离在此范围内,则认为它们在同一邻域。默认值为0.5。若设置过低,可能所有点都无法被聚类;若设置过高,大部分点会被聚类,只有少数点成为离群点。
-min_samples:一个组成为聚类所需的最小样本数,默认值为5。当有min_samples个紧密相邻的点时,任何与这些核心点距离在eps范围内的其他点都属于该聚类,即使这些其他

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:02:56

编写程序,模拟送餐机器人导航,输入目标桌号,输出从取餐区到餐桌的最优路线,如取餐区到A区到3号桌,并提示已到达。

我将为你设计一个模拟送餐机器人导航的程序,结合智能机器人导论的地图建模与路径规划知识,实现模块化、易扩展的导航系统。核心代码实现# -*- coding: utf-8 -*-"""送餐机器人导航模拟程序 v1.0基于智能机器人导论的地图建模与路径规划原…

作者头像 李华
网站建设 2026/4/15 20:41:00

Unity AI视觉革命:MediaPipe插件从零到一的实战指南

Unity AI视觉革命:MediaPipe插件从零到一的实战指南 【免费下载链接】MediaPipeUnityPlugin Unity plugin to run MediaPipe 项目地址: https://gitcode.com/gh_mirrors/me/MediaPipeUnityPlugin 在当今AI技术爆发的时代,Unity开发者面临着如何将…

作者头像 李华
网站建设 2026/4/16 2:49:06

5、Git实用技巧:别名、引用规范与分支管理

Git实用技巧:别名、引用规范与分支管理 1. Git别名的创建与使用 Git别名可以让我们更方便地使用Git命令,避免每次都输入冗长的命令。下面我们将介绍如何创建不同类型的别名。 1.1 简单别名 我们可以为常用的Git命令创建简单别名,例如: $ git config --global alias.c…

作者头像 李华
网站建设 2026/4/16 9:26:09

19、Git 仓库历史共享与信息查看实用指南

Git 仓库历史共享与信息查看实用指南 1. 创建 Git 捆绑包 在不同仓库之间共享仓库历史时, git bundle 命令是一种实用的方法。Git 捆绑包是一系列提交,可作为远程仓库使用,但捆绑包中不包含仓库的完整历史。 1.1 准备工作 克隆 offline-sharing 仓库: git clone h…

作者头像 李华
网站建设 2026/4/16 11:14:46

架构设计原则

主要原则 这些维度通常被归纳为 “质量属性”(Quality Attributes) 或 “非功能性需求”(NFRs),它们共同决定了系统的长期可维护性、可靠性和业务价值。 以下是架构设计中必须关注的主要方面,并附上典型场…

作者头像 李华
网站建设 2026/4/16 9:21:44

为什么 AI 评论,反而比人工复制更安全?

很多人一听“AI 评论”,第一反应是: 这不是更容易被平台识别吗? 但从工程和风控角度看,结论恰恰相反。 一、真正容易被识别的,其实是“人工复制” 平台风控系统重点关注的,并不是“是不是人”&#xff0…

作者头像 李华