原文:
towardsdatascience.com/i-spent-96k-to-become-a-data-scientist-heres-5-crucial-lessons-all-beginners-must-know-7a13ef389285
我花了很多钱,因为我来自商业背景,所以我对自己一无所知关于数据科学。
如果这也适用于你,你觉得自己对即将进入的领域一无所知,这篇文章就是为你(以及我的过去)准备的!**
如果我每天看到人工智能出现新的数据科学子领域,我也会感到迷茫。但别担心!我已经为你准备好了。
我在这里是为了给你提供我 5 年前作为一个初学者时希望有人能给我的提示。
今天,我要分享我从在顶尖学校(包括纽约大学)三年的数据科学培训以及 Spotify 三年的工作经验中获得的 5 个关键教训——5 个任何数据科学初学者都应该尽早了解的教训!
我保证这篇文章将帮助你更好地规划自己的数据科学之旅,并快速实现你的职业目标,而无需遵循同样的昂贵的时间路径。
你将会有一个更好的想法,了解今天成为一名数据科学家的意义。
第 1 课:了解数据科学的不同的职业道路
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f4f955bb1b0f0329c12fbcf57cd59d67.png
照片由 Caleb Jones 在 Unsplash 上提供
当我开始我的数据科学之旅时,这个领域看起来与今天完全不同。
数据科学位于人工智能的核心,因此,该领域自然受到了同样程度的变化的影响。
当你规划你的数据科学教育时,你必须考虑到在人工智能影响下数据科学职业中发生的不同转变。
这一切始于了解你有哪些职业道路可供选择,并找到最适合你的那一个。根据你的选择,你将会有不同的数据科学教育管理方式。
这里有一个例子——你认为数据科学研究人员和在大科技公司工作的数据科学家之间有什么区别?
他们的数据科学教育的长度和深度。
数据科学相关职业的列表每天都在增长。但总体来说,它们都包含在以下几类中,根据你的目标,你将不得不专注于其中之一:
类别 1:数据科学家职业
数据科学家:他们专注于分析数据以提取见解、预测趋势并告知战略决策。这项职业需要机器学习、统计分析和数据可视化的技能。
决策科学家:与数据科学家类似,但更侧重于决策过程。他们利用数据洞察力来影响商业策略和结果。这正是我在 Spotify 所扮演的数据科学家类型。
商业分析师:他们分析数据以了解商业状况并提出改进措施。这比数据科学家所做的技术性要低,并且更强调商业洞察力。
量化分析师:他们专注于解决金融和风险管理问题。他们通常开发统计和数学模型来指导金融策略。
数据科学家职业都有相同的培训基础:→ 在数学(尤其是统计学)方面有坚实的基础。→ 精通编程语言(Python 或 R,SQL)。→ 在数据处理和分析技术方面有专业知识。
然而,这些技能的应用各不相同:→ 数据科学家和决策科学家更专注于使用数据来指导更广泛的战略决策。→ 商业分析师和量化分析师将他们的技能更直接地应用于商业或金融环境。
第 2 类:机器学习专家
机器学习工程师(MLE):他们设计和部署机器学习应用程序和系统。
自然语言处理(NLP)专家:他们开发模型来处理和理解人类语言。
计算机视觉专家:他们致力于使计算机能够理解和解释视觉信息。
大型语言模型(LLM)专家:他们专门从事开发和完善大型语言模型,用于聊天机器人和自动写作工具。
与机器学习相关的职业都有相同的培训基础:→ 计算机科学、数据科学、工程或数学的高级学位。→ 对机器学习算法、神经网络和编程(Python 或 R,有时还需要 C++进行系统级集成)的深入了解。→ 专业化通常(但不总是)需要专注的研究,有时甚至达到博士水平。
然而,这些技能的应用各不相同。核心培训相似,但专家专注于机器学习的不同方面。
第 3 类:数据科学领域的科研人员
我可以说他们基本上都是一样的。无论他们工作的核心是什么,他们都有相同的基础背景:
通常拥有数据科学、机器学习、计算机科学、统计学或其他相关领域的博士学位。
数学领域的星系背景,尤其是在统计学和线性代数方面。
在数据科学或数学的特定研究领域的深厚专业知识,如音频系统。
这里的唯一区别是他们关注的领域,类似于机器学习专家也会进行专业化。
所以,如果你想要成为那种类型的数据科学家,确保通过将数学和计算机科学作为培训的核心重点来相应地调整你的教育。如果你目标是大型科技公司的工作,准备好投入博士研究。
第二课:选择正确的培训项目
四年前,我开始在纽约大学攻读硕士学位时,我就跳入了数据科学。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d9838c4110ef9575769f36103c852cf0.png
我的纽约大学毕业回顾(作者照片)
对于我当时的技能组合来说,这不是最好的学位,因为 1. 我不知道如何编码,2. 知道一些数学远远不够。
从第一天起,我就直接被投入到机器学习(ML)中。我的编码技能如此基础,以至于我连写两行代码都感到困难,更不用说掌握复杂的 ML 算法了。
我很高兴我选择了这个学位,但一个更战略性的准备方法本可以节省我大量的精神和情感斗争。
并非所有项目都是一刀切。
如果你是一个初学者,这意味着你将带着与其他初学者不同的技能包。所以你必须确定与你的当前技能集相匹配的项目。
这里有一些你可以遵循的步骤来实现这一点:
评估你背景中的差距。来自商业背景,我低估了在编码和数学方面拥有基础技能的重要性。在跳入新领域之前,评估你现有的技能组合并确定你的专业知识中的任何差距是至关重要的。
明智地选择项目。选择与你当前技能相匹配的学位或训练营。理想情况下,这些应该在你开始学习高级主题如 ML 之前提供编码和数学的基础课程。
做好你的作业。彻底调查你选择项目的先决条件。如果基础课程不包括在内,在项目开始之前投入时间来发展这些技能。如果你没有掌握基础知识,不要开始这个项目!
通过在线课程弥合差距。如果项目不提供基础课程,利用项目开始前的这段时间来填补任何知识空白。我第二个数据科学学位的前两周专注于概率、统计学和线性代数的复习课程。这有助于为接下来的学习打下基础。
学校的声誉取决于你所在的位置
我在纽约大学完成了我的第一个学位,这所大学是美国顶尖大学联盟中的知名大学。然而,当我申请美国的实习和工作时,这个名声并没有帮到我多少。
很好,因为他们并不那么关心那些事情。重要的是你是否具备技能。
但在欧洲,情况略有不同。我设法在法国最好的工程和商学院——巴黎综合理工学院和巴黎高等商学院——获得了第二个数据科学学位,在这里,这些名字具有影响力。
它们可以在你的简历得到第二次审视或与其他人一起陷入深渊之间做出区别。
我在寻找项目时的主要建议
如果你申请美国的顶尖学校,认为一个响亮的名字能帮助你找到好工作,你可能错了。然而,了解这些学校可以在世界其他地方给你带来优势总是好的。
当你追求学位时,请记住这一点。调整你对学位投资回报的期望。
_ 这是否是声望?是校友网络?或者也许是学位是独一无二的?_ 做好研究。当你处于职业生涯早期时,这些事情比你想象的更重要。不幸的是(或者也许是幸运的)?
第三课:首先学习数学。不是机器学习
尽管不受欢迎,但我认为机器学习被过度炒作。它不是数据科学工作的核心,数学才是。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6af1ada8b2f75501493b62c95fcd0439.png
我在第二个数据科学学位的第一年所上的大多数课程都是数学导向的,甚至机器学习课程也涵盖了主要算法的数学基础 :’) (图片由作者提供)
机器学习在数据科学领域只能带你走这么远。
大多数数据科学工作属于我之前提到的第一类,即数据科学家,在这一群体中:
机器学习(ML)只是一种工具,用于回答商业或战略问题,而不是答案本身。
如果你的目标是进入顶级科技公司工作,学习数学是首要的且是必须的。仅仅学习机器学习(ML)并不能让你走得很远。
实际上,这并不能让你走得太远。
数学会的。
大多数初学者常见的错误是直接关注机器学习,但请记住:
数据科学≠机器学习
机器学习作为产品与作为工具
我在数据科学学习的整个过程中都在开发各种复杂的机器学习模型。但当我进入技术世界时,我对那些机器学习领域几乎一无所知。
事实是,大多数数据问题可以在不使用机器学习的情况下解决。
我花了一些时间才理解这一点。
在商业世界中,机器学习有两个用例,人们很容易混淆这两个用例。
作为一名初学者,你必须认识到数据科学家主要将机器学习作为工具而不是产品:
作为产品的机器学习– 推荐系统是机器学习作为产品或功能的纯粹例子。因为实现这种机器学习所需的类型非常先进和前沿,通常由拥有博士学位和大量数学背景的研究人员完成。
作为工具的机器学习– 模型被开发出来以帮助理解商业问题。我在 Spotify 开发了 7 个月的机器学习模型,以识别驱动听众满意度的关键因素。在这种情况下,机器学习只是回答商业问题的工具。它是达到目的的手段,而不是目的本身。
因此,仅仅专注于机器学习本身并不能保证你能在梦想的公司中占有一席之地,因为它只是一个锦上添花的东西,而不是必需品。
我知道许多顶级公司中的数据科学家对机器学习并不特别了解。但你猜猜他们所有人都掌握的核心技能是什么?
数学!
以下是为什么优先考虑数学而不是机器学习会给你带来优势:
深入理解数学概念至关重要。没有它,在机器学习或人工智能领域取得进步几乎是不可能的。如果你了解数学,你就可以学习任何机器学习算法,但反之则不然。
统计胜过炒作。在大多数数据科学角色中,统计知识几乎总是比机器学习更适用、更有价值。
顶级科技公司重视数学专长。大多数商业问题都可以通过使用 A/B 测试等方法进行统计分析来解决。专注于这些技能。
总而言之,了解机器学习始终是一个好的加分项,但数学,尤其是统计学的熟练程度,仍然是数据科学的基本支柱。
数学是持续给予的礼物。一旦你付出努力,你就可以持续收获果实。别忘了这一点。
第四课:商业项目将使你脱颖而出
在 Spotify 的第一天,我了解到我的同事是特意挑选了我的简历。自然地,我询问了我的简历为什么脱颖而出。
他说这是因为我有商业知识和技术专长的混合。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/90994b88b34ac6d9f790b4c63e2ac909.png
我最初以工商管理学士学位毕业,然后跳入数据科学领域(图片来自作者)
他解释了这种组合是如何使最佳数据科学家脱颖而出的。他所知道的每一位都戴着这顶强大的两面帽。
这里的教训是什么?不惜一切代价发展商业洞察力。
以下是为什么商业洞察力如此关键
大多数数据科学工作都需要商业专长。
在作为数据科学家工作了 3 年后,我现在明白,在高风险环境中工作,良好的沟通能力是不可或缺的。
在 Spotify 或 FAANG 等领先科技公司,数据科学家被视为实现商业目标的关键玩家。因此,拥有调和商业目标和技术专长的技能将是你的胜利赌注。
在哪里有商业,哪里就有沟通
沟通是所有商业相关职业的主导技能。这是区分任何商业领域的领导者的因素。
能够清晰而有说服力地向利益相关者传达复杂的数据洞察是无价的。你将不得不说服决策者你的发现为什么重要,并据此采取行动。
正是这种沟通能力放大了你的影响力。这是仅仅分析数据的数据科学家和推动真正变革的数据科学家之间的区别。
这是将优秀的数据科学家转变为卓越数据科学家的核心技能,它决定了那些加入顶级公司和那些没有加入的人之间的全部差异。
Kaggle 竞赛对你们帮助不大
这里有一个秘密:我一生中从未真正参加过 Kaggle 竞赛。我一直想参加,但懒惰战胜了我。
这些竞赛对于让你动手实践很有帮助,但它们在找到一份好工作方面帮助不大,商业项目则会。
这就是你可以提升你的商业技能的方法:
追求涉及商业数据的工程项目。泰坦尼克号挑战很有趣,但并不能为工作责任做好准备。涉及商业问题的动手项目是强制性的。整理你的发现,向非技术受众模拟演示,以练习简化复杂信息。
追求面向人类的经验。参与需要向不同受众展示的活动,如聚会、黑客马拉松和工作坊。这磨练了公众演讲技巧和使复杂概念易于理解的能力,这对于在 FAANG 和 Spotify 等公司中担任关键角色至关重要,在这些公司中,向非专业人士解释数据科学是关键。
**现实世界的经验可以在就业市场上给你带来优势。**理想情况下,寻找实习或工作经历,这样你可以在现场直接获得技能。
最后一点,确保你在简历上突出显示的项目是那些,特别是对于属于数据科学家职业的工作。
第 5 课:脱颖而出的唯一途径是建立人脉
对于每个人来说,就业市场都很残酷,尤其是对于新加入者。如今找到一份工作变得更加困难,因为该领域充斥着新加入者,他们正骑在 AI 热潮之上。
数据科学不再是过去公司张开双臂欢迎任何能将 CSV 转换为 dataframe 的人的天堂。
所以如果你打算开始你的数据科学之旅,你必须准备好面对就业市场的残酷竞争。
即使在法国最顶尖的学校毕业后,获得一份好的实习仍然感觉我需要擦亮神灯的灯神才能让它发生。
我在 Spotify 获得实习的那一年,我记得我们班所有的人都申请并被 Ubisoft 的实习拒绝了,包括我。但是,我仍然设法得到了那份实习。
我通过建立人脉的方式进入其中。
想知道我是怎么做到的吗?这里有基于那个案例的完整的网络指南:
即使被拒绝,网络也让我在科技行业找到了工作,这是我的方法
建立人脉不再是可选的,而是强制性的!!
学习到网络能让你在生活中走得更远,这不需要 10 万美元——或者按下求职门户的发送按钮。
严峻的事实是,那些能力不如你的人可能会在你之上得到这份工作,因为他们愿意接受建立人脉的不适感。如果你想实现你的职业目标,你必须学会建立关系。
我曾经认为,只要足够努力,我仍然可以抓住机会。
但是,努力到足够程度已经不再足够了。你正在处理超出你控制的依赖关系。
获得回电首先取决于运气。这包括从你的简历是否落在正确的堆叠一边到那天招聘人员早餐吃了什么。
人脉是通过扩大你撒下的网来对抗运气的一种方式。毕竟,总有一条鱼会咬钩。
这里的教训是什么?人脉现在是任何成功的求职策略的关键要素。你必须适应这个就业市场的方面,因为游戏规则已经设定了。
在一群极其有能力的申请者中脱颖而出,唯一的途径就是人脉。而且我恰好编写了一篇关于如何创建你自己的成功求职策略的指南。所以请务必彻底查看并消化其内容。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d475021d3fd4358cae5b224ae5e96072.png
这是一个证明人脉有效的例子。背景:我的朋友告诉我她得到了苹果公司的推荐(图片由作者提供)
这值得吗?
是的!
我在数据科学教育上投入了超过 10 万美元,以及我生命中 3 年的时间来学习这门手艺,我会再次这样做,因为我喜欢这份工作带来的自由。
但就像我说的,如果我早点学到今天向你解释的所有课程,我就能更好地管理事情。我在学习旅程中会少些挣扎,我会调整我的期望,并为我的职业生涯做出更好的规划。
好消息是,你不必花费 10 万美元就能在职业生涯中取得成功,只需想象我已经为你做到了。这意味着你现在唯一要做的就是注意你未来如何接近和管理你的教育。
怎么做到的?
确保你已经理解了所有可用的职业路径。确定最适合你兴趣和情况的那个。
然后研究现有的不同项目,选择最符合你当前技能集的那个。别忘了上基础课程来填补编程和数学的任何空白。
优先确保数学基础扎实,不要急于进入机器学习领域。这是灾难和失败的一个配方。我这是从经验中说的。
商业项目是就业市场上被低估的 GOAT。确保你已经从现实场景中完成了一系列商业项目,以准备你面对实际工作职责。Kaggle 不是你的最佳朋友,除非它能为你的晚餐服务。
拥抱社交网络的不适,因为就业市场充满了求职者。这有助于你掌握自己的信念,不要让坏运气压倒你。掌握主动权!
我为你准备了礼物 🎁 !
注册我的**时事通讯 K 的 DataLadder**,你将自动获得我每天在大科技公司工作中使用的终极 SQL 速查表,以及另一个神秘礼物!
我每周都会分享作为一名科技领域数据科学家的体验,以及实用的技巧、技能和故事,所有这些都有助于你提升水平——因为直到你亲身经历,否则没有人真的了解!
如果你还没有这么做
订阅我的**YouTube**频道。新视频很快就要上线了!
在 Instagram、LinkedIn、X上关注我,选择对你来说最方便的方式
拜拜啦!