news 2026/4/25 18:47:19

Iridescent:Day22

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Iridescent:Day22

https://blog.csdn.net/weixin_45655710?type=blog
@浙大疏锦行
DAY 22 复习日
复习日
仔细回顾一下之前21天的内容,没跟上进度的同学补一下进度。
作业:
自行学习参考如何使用 kaggle平台,写下使用注意点,并对下述比赛提交代码
您好!这是一个很好的复习和拓展学习的机会。

🎯 Kaggle 平台使用指南及注意事项

Kaggle 是全球最大的数据科学和机器学习社区,它不仅是一个竞赛平台,更是一个强大的学习和协作生态系统。

一、Kaggle 的核心板块与使用方式

Kaggle 平台主要由四个核心板块构成:

板块核心内容主要作用
Competitions (竞赛)解决真实世界问题的挑战,通常提供数据、评估指标和奖金。实践应用:在时限内解决复杂问题,应用和测试您的模型。
Datasets (数据集)丰富的公开数据集,涵盖各种领域(CSV, JSON 等)。数据探索与练习:查找高质量数据进行练习、可视化或构建项目。
Code / Notebooks (代码/内核)用户分享的代码、教程和分析报告(基于 Jupyter/R Markdown)。学习与借鉴:学习他人解决问题的方法、数据清洗技巧和模型构建流程。
Discussion (论坛)社区成员交流、提问和讨论竞赛或技术的场所。社区交流:提问、回答、讨论算法和数据科学趋势。

二、使用 Kaggle 的关键步骤和建议

1. 竞赛参与流程
步骤行动注意事项
1. 注册/加入注册账号,加入您感兴趣的竞赛。仔细阅读**“Rules”(规则)和“Data”**(数据)页面,了解评估指标(Metric)。
2. 初步探索Code/Notebooks中搜索其他用户分享的**“EDA”**(探索性数据分析)Notebook,快速了解数据。不要直接复制别人的代码,要理解其思路并尝试改进。
3. 模型构建在本地或 Kaggle Notebook 中进行特征工程和模型训练。经常提交(Submission)以获取即时反馈,但要注意公共排行榜(Public Leaderboard)可能会过拟合。
4. 最终提交在竞赛结束前选择2 22个最佳的提交作为最终得分。最终得分由私有排行榜(Private Leaderboard)决定,与公共榜单可能有较大差异。
2. 在 Notebooks 中学习 (推荐)

Kaggle Notebooks 是您学习和练习的最佳场所。

  • 新手起步:从经典的 [Titanic: Machine Learning from Disaster] 或 [House Prices: Advanced Regression Techniques] 等入门级竞赛入手。
  • 筛选优质内容:在 Notebooks 页面,按“Hot”(热门)或“Highest Score”(最高分)筛选,优先学习高赞或高分的代码。
  • 善用 GPU/TPU:Kaggle Notebooks 提供免费的 GPU/TPU 资源,可以用来训练大型模型(如深度学习),但要注意使用时长限制。

三、Kaggle 使用的五大注意事项

序号注意点详细说明
1作弊与团队协作禁止在同一竞赛中拥有多个账号。如果参加团队赛,必须遵守团队成员人数限制和代码分享规则。
2关注 Private LB不要过度信任 Public Leaderboard。许多参赛者为了冲高公共榜单分数而牺牲泛化能力。最终决定您奖金和排名的都是 Private Leaderboard。
3数据泄露 (Leakage)严格区分训练数据测试数据。任何在模型训练阶段使用了测试集信息的行为都可能导致数据泄露,从而得到虚高的分数。
4外部数据使用必须严格遵守竞赛规则中关于外部数据的规定。有些竞赛允许使用,有些则禁止。如果允许,必须在论坛中声明使用的外部数据源。
5资源限制注意 Notebooks 的运行时长限制(通常12 1212小时)、GPU/TPU 配额(通常每周有限额)以及文件输出大小限制。

Day 21 复习回顾:降维算法

在您复习第21 2121天的降维算法时,请重点回顾PCAt-SNE的核心区别和适用场景。

  • PCA (主成分分析):线性降维,追求最大方差,适用于全局结构保留和特征工程
  • t-SNE (t-分布随机邻域嵌入):非线性降维,追求局部相似性,适用于数据可视化和发现聚类结构
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:55:32

TEMU 采购困局突围:风控诱因拆解与信任重建方案

在TEMU的低价生态中,卖家常被高砍单率困扰,这并非简单的供需问题,而是一场与平台精密风控系统间的信任博弈,高砍单率背后,是平台严格的防滥用机制与卖家传统粗放模式间的冲突,需理解平台逻辑,并…

作者头像 李华
网站建设 2026/4/23 18:39:18

AI营销获客:谁是2025获奖大户?

进入2025年,当一位企业决策者问出“哪家企业在AI营销领域获得了诸多奖项?”时,他所探寻的答案已远非一张简单的榜单所能概括。流量红利的潮水彻底退去,粗放的增长模式已成明日黄花。 如今,评判一家AI营销服务商是否真…

作者头像 李华
网站建设 2026/4/22 5:12:19

回溯递归算法(Java)

回溯法:也称“试探法”。它的基本思想是:为了求得问题的解,先选择一种可能情况向前探索,在探索过程中,一旦发现原来的选择是错误的,就退回一步重新选择,继续向前探索,如此反复进行&a…

作者头像 李华
网站建设 2026/4/22 2:20:40

JMeter的基本使用与性能测试

Jmeter的介绍Jmeter是用Java编写的开源软件,主要用于进行性能和负载测试工具。最初设计用于Web应用测试,但现已扩展到测试各种服务和应用,如:Web应用(HTTP/HTTPS请求)Web服务(SOAP/REST,GraphQL…

作者头像 李华
网站建设 2026/4/24 12:36:45

硬核拆解】酒厂自动化产线核心代码这样写才稳

基于PLC的酒厂输送带系统 采用西门子博途软件梯形图程序编写,基于西门子1200plc,进行仿真演示:提供画面,接线图,IO分配表,Plc选型以及优质的售后服务解答 实现功能(详见上方视频): 1控制汾酒厂皮带输送系统的自动传送运…

作者头像 李华
网站建设 2026/4/23 12:30:34

Rust与PHP混合调试终极方案:如何在生产环境中快速定位函数错误

第一章:Rust与PHP混合调试的背景与挑战在现代Web开发中,性能与开发效率的平衡成为关键议题。PHP作为长期服务于后端逻辑的脚本语言,以其快速开发和广泛生态著称;而Rust凭借内存安全与接近C的执行效率,逐渐被用于高性能…

作者头像 李华