news 2026/4/16 13:49:56

在数据马拉松中导航数据:见解与指导 [NeurIPS’23]

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
在数据马拉松中导航数据:见解与指导 [NeurIPS’23]

原文:towardsdatascience.com/navigating-data-in-datathons-insights-and-guidelines-at-neural-information-processing-systems-26ef8a1078d4?source=collection_archive---------11-----------------------#2024-02-09

如何在数据马拉松中处理数据

https://medium.com/@carmougan?source=post_page---byline--26ef8a1078d4--------------------------------https://towardsdatascience.com/?source=post_page---byline--26ef8a1078d4-------------------------------- Carlos Mougan

·发布于 Towards Data Science ·阅读时间 8 分钟·2024 年 2 月 9 日

什么是数据马拉松?

数据马拉松或数据黑客马拉松,广义上定义为以数据或数据科学为中心的黑客马拉松,近年来变得越来越受欢迎,为参与者和组织提供了一个平台,能够在短时间内进行协作、创新和学习,专注于数据科学领域。

这些活动挑战参与者在限定的时间内解决与数据相关的问题,要求他们理解数据科学并对所使用的数据保持敏锐的意识。

问题是什么?

数据马拉松是高能量的活动,数据科学和机器学习从业者聚集一堂,共同解决紧迫问题,这不仅关乎创新,也关乎数据的有效处理。

尽管数据马拉松有显著的潜在好处,组织往往因缺乏明确的指南和最佳实践而在处理数据时面临困难,无法有效应对可能出现的问题。

这篇博客的目标是什么?

本文基于 2023 年神经信息处理系统会议上的一篇论文《如何在数据马拉松中处理数据》(How to Data in Datathons),深入探讨了准备和选择数据参加数据马拉松的关键方面,涉及:

— 数据对数据马拉松来说合适是什么意思?

— 多少数据是足够的数据?

— 我们如何识别、分类并使用敏感数据?

— 数据分析准备好了吗?

— 数据是否可靠

该框架来源于艾伦·图灵研究所自 2016 年以来,与 60 多个合作组织共同举办 80 多场数据马拉松挑战赛的经验和洞察!!

它旨在提供一套指南和建议,帮助准备不同类型的数据,以应对数据马拉松,这些建议来源于广泛的数据马拉松组织经验。如果有兴趣,考虑作为参与者或挑战拥有者参加其中的一个数据学习小组活动;更多信息请见[此处]

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/36bfcefebe6f19ea564132ef6c4308f8.png

这是艾伦·图灵研究所应用技能团队的合影,摄于 2023 年 5 月。

在数据马拉松中的数据评估

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/880843fa792b7908b246ff0d5d80dc68.png

数据评估矩阵。摘自《如何在数据马拉松中使用数据》#NeurIPS23

对于数据马拉松来说,任何数据都不行。数据需要是“适用的”、“充分的”,并且要考虑到隐私问题。组织者和参与者常常会遇到这样的问题:什么样的数据适合数据马拉松?多少数据才算足够?我们如何处理敏感数据?每个维度都对于确保数据马拉松使用的数据适合、合乎伦理并有助于实现活动目标至关重要。让我们逐一探讨这些方面。

1. 数据适用性

数据的适用性关乎其在解决数据马拉松特定挑战问题时的相关性和实用性。本维度评估提供的数据是否与数据马拉松的目标一致,确保参与者能够获得合适的数据来进行工作。

2. 数据准备度

准备度评估数据的状态,涉及其是否为即时分析做好了准备。这包括数据的清洁度、完整性、结构和可访问性等因素,这些因素对数据马拉松的效率有着显著影响。

3. 数据可靠性

数据可靠性涉及数据的准确性和偏差问题。它考量数据在多大程度上能够真实反映其所代表的现象或群体。

4. 数据敏感性

数据敏感性涉及数据的隐私、机密性和伦理问题。它评估了使用和共享数据时所涉及的风险,特别是与个人或专有信息相关的风险。

5. 充足性

充足性评估提供的数据量和类型是否足以有效解决挑战性问题。它考虑数据的数量、种类和粒度与数据挑战赛目标之间的关系。

见解与建议

数据学习小组(DSGs)是由英国国家数据科学与人工智能研究院——阿兰·图灵研究所组织的获奖协作型数据挑战赛活动。ADSGs 是由一个单一团队共同合作进行的(而不是多个团队彼此竞争)。数据学习小组的目标是为学术界和工业界的组织与参与者提供合作机会,利用数据科学和机器学习方法共同解决现实世界的挑战。DSGs 由一支专门的内部团队负责管理和准备,包括活动组织者和跨学科的学术支持人员。更多信息[这里]

成功的数据挑战赛是准备工作、灵活性以及组织者、挑战主办方和参与者共同努力的结果。我们概述了以下建议。

活动前:协作与对齐

成功的数据挑战赛的基础工作在活动之前就已奠定。与挑战主办方(商业合作伙伴)的早期合作至关重要。他们的领域专长和对数据的理解可以显著影响活动的方向和结果。他们对问题的理解和领域专长可以大大改善数据,早期的合作有助于对齐双方的目标和期望,从而增加活动取得成功的可能性。

随着数据挑战赛的临近,对数据准备情况进行合理性检查并根据经验调查员的反馈调整挑战问题是非常有益的,调查员能够平衡行业需求和研究需求,同时考虑参与者的视角。

数据挑战赛期间:适应与参与

现场活动是计划与现实的交汇点。PI(主要研究员)在引导参与者解决数据挑战并确保目标达成方面发挥着关键作用。此外,参与者的反馈是宝贵的资源。他们对数据的全新视角可以揭示新的洞察或识别改进的领域,使得数据马拉松成为一个动态环境,调整不仅是可能的,而且是受到鼓励的。

对实际应用案例感兴趣吗?在会议论文中,我们将 10 个应用案例映射到我们的框架中。

  1. Cefas: 环境、渔业与水产科学中心

  2. 谢菲联大学先进制造研究中心:基于多传感器的智能加工过程监控

  3. CityMaaS: 通过预测和个性化使城市中的人们更容易出行

  4. WWF: 保护区智能监测

  5. 英国南极考察:太空中的海豹

  6. DWP: 工作和养老金部

  7. 痴呆症研究所与 DEMON 网络:预测 DNA 序列与表观遗传状态之间的功能关系

  8. 自动化评估重症病人舌下微循环的灌注情况

  9. Entale: 播客发现的推荐系统

  10. Odin Vision: 探索 AI 支持的早期结直肠癌诊断决策

完整报告以及其他数据研究小组的成果可以在报告部分找到。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e12fb8164715607bce1392addf7e27ef.png

最后 10 个 DSG 报告的报告计数数据评估分类

结论

在本文中,我们从五个关键维度(适当性、准备性、可靠性、敏感性和充足性)分析了数据马拉松中的数据,这些维度来自于自 2016 年以来组织的 80 多场数据马拉松。通过这样做,我们希望在数据马拉松事件之前改善组织对数据的处理。

我们提出的定性分析提供了多个视角下的数据状态程度;这些程度可以根据需要调整或扩展,类似于美国国家航空航天局提供的技术准备度等级,后者随着时间的推移和进一步的工作不断扩展。

Bibtex 引用:

@inproceedings{mougan2023how,title={How to DatainDatathons},author={Carlos MouganandRichard PlantandClare TengandMarya BazziandAlvaro Cabrejas-EgeaandRyan Sze-Yin ChanandDavid Salvador Jasinandmartin stoffelandKirstie Jane WhitakerandJULES MANSER},booktitle={Thirty-seventh Conference on Neural Information Processing Systems DatasetsandBenchmarks Track},year={2023},url={https://openreview.net/forum?id=bjvRVA2ihO}}

Mougan, C., Plant, R., Teng, C., Bazzi, M., Cabrejas-Egea, A., Chan, R. S.-Y., Jasin, D. S., Stoffel, M., Whitaker, K. J., & Manser, J. (2023). 如何在数据马拉松中使用数据。载于第三十七届神经信息处理系统大会数据集和基准跟踪

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5f8da924103086b0e5849292d44e642a.png

一张我(Carlos Mougan)在艾伦·图灵研究所的照片。(所有图片由作者提供并经授权使用)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:58:25

AI绘画辅助神器:描述角色特点自动生成SD可用tag

AI绘画辅助神器:描述角色特点自动生成SD可用tag 1. 为什么你需要这个工具 你是不是也遇到过这些情况: 想用Stable Diffusion画一个二次元角色,却卡在写提示词这一步——“蓝发双马尾少女”写出来效果平平,“穿着水手服的傲娇系学姐…

作者头像 李华
网站建设 2026/4/16 12:46:34

AI净界-RMBG-1.4保姆级教学:从GitHub源码编译到Docker镜像构建

AI净界-RMBG-1.4保姆级教学:从GitHub源码编译到Docker镜像构建 1. 为什么需要自己编译RMBG-1.4镜像 市面上已有不少一键式背景去除工具,但真正用过的人会发现:很多服务要么限制图片尺寸,要么处理发丝边缘时毛边明显,…

作者头像 李华
网站建设 2026/4/15 16:31:41

InstructPix2Pix入门指南:设计师转型AI提示工程师的5个关键认知

InstructPix2Pix入门指南:设计师转型AI提示工程师的5个关键认知 1. 从PS高手到“指令指挥官”:一场修图范式的悄然转移 你有没有过这样的时刻: 花半小时调色,结果客户说“再暖一点,但别太黄”; 精修人像3…

作者头像 李华
网站建设 2026/4/8 11:16:04

Swin2SR防炸显存黑科技:24G显卡也能处理4K图片的秘诀

Swin2SR防炸显存黑科技:24G显卡也能处理4K图片的秘诀 你有没有遇到过这样的窘境: 明明手头有一张512512的AI草稿图,想放大成高清海报打印,却在点击“超分”按钮后—— GPU显存瞬间飙红,服务直接崩溃,日志里…

作者头像 李华