想当数据科学家的你这13个错误可别犯大数据应用

来源:互联网 / 作者:SKY / 2018-08-10 15:03 / 点击:
当你看这篇文章的时候,我们知道你已经决定把数据科学当作你的工作。当下越来越多的企业需要数据支持其决策,世界也变得越来越紧密,几乎每个企业都需要大量的数

技术沙龙 | 8月25日与多位资深技术大咖探讨小程序电商实战

前言

当你看这篇文章的时候,我们知道你已经决定把数据科学当作你的工作。当下越来越多的企业需要数据支持其决策,世界也变得越来越紧密,几乎每个企业都需要大量的数据科学实践。因此,对数据科学家的需求是巨大的。当然,人才短缺也是业内所公认的。

然而,成为一名数据科学家并不容易。它需要解决问题的能力、结构化思维、编码以及各种技术技能,才能真正成功。如果你只有非技术和非数学的背景,那么你很有可能通过书籍和视频来学习。然而这类资源大多并没有教你工业界对数据科学家要求的能力。

这也是渴望成功的数据科学家需要努力弥补自我学习与实际工作之间差距的主要原因之一。

在本文中,我将讨论业余数据科学家所犯的常见错误(我自己也犯了其中某些错误),并提供了一些比较实用的资源,旨在帮助您避免数据科学中的这些陷阱。

想当数据科学家的你这13个错误可别犯

目录

• 学习理论概念而不应用它们

• 不学习先决知识而直接学习机器学习技术

• 完全依靠认证和学位

• 误以为你在机器学习竞赛中看到的是真实的工作现状

• 注重模型的精度胜过其适用性和可解释性

• 在简历中使用过多的数据科学术语

• 优先考虑该使用的工具和各种库而不是业务本身要解决的问题

• 没有花费足够的时间去探索和可视化数据

• 缺乏结构化的方法来解决问题

• 试图一次学习多个工具

• 不能坚持学习

• 远离讨论和竞赛

• 不去提升沟通技巧

1. 学习理论概念而不应用它们

想当数据科学家的你这13个错误可别犯


资料来源:认知课 - YouTube

正如我在 AV 实践问题那篇文章中提到的那样:掌握机器学习技术背后的理论是很好的,但如果你不应用它们,它们只是理论。当我开始学习数据科学时,我也犯了同样的错误:我学习了书籍和在线课程,但并不总是用它们来解决问题。

因此当我有机会应用我所学的知识去解决面临的挑战或问题时,我却忘了一大半!我们需要学习的东西有很多,比如算法、推导、研究论文等。你很有可能在中途失去学习动力并放弃。我已经看到这种情况发生在很多试图进入这个领域的人身上。

如何避免这个问题?

你必须在理论和实践之间保持一个平衡。一旦你学习了一个概念,请立即访问 Google,找到可以使用它的数据集或问题。你会发现这样做之后可以更好地理解理论知识。您还可以使用 AV 的 DataHack 平台,完成上面的练习题和参与比赛。

必须承认的是你无法通过一次学习掌握所有的东西,在练习时查漏补缺,这样会使你学到更多东西!

2. 不学习先决知识而直接学习机器学习技术

资料来源:伦敦帝国理工学院 - YouTube

大多数立志要成为数据科学家的人都受到机器人视频或有趣的预测模型的鼓舞,当然也有些人是在高薪诱惑下入行的。遗憾的是(不好意思让你们失望了!),在你到达那里之前,你还有一条漫长的路要走。

在应用一项技术解决问题之前你应该了解其背后的工作原理,这样做将有助于你了解算法如何工作,知道如何去微调它,并且还将帮助你在现有技术的基础上搭建新的技术。数学在里面发挥着重要作用,因此了解某些概念总是有帮助的。在日常的企业数据科学家角色中,您可能不需要了解高级微积分,但有一个总体的了解肯定是有帮助的。

如果您有好奇心或想要进入研究领域,那么在深入了解机器学习的核心技术之前,您需要了解的四个关键组件是:

• 线性代数

• 微积分

• 统计学

• 概率论

如何避免这个问题?

正如房子是一砖一瓦建造的,数据科学家的看家本领也是由掌握一个一个知识点开始的。有大量的资源可以帮助您学习这些知识点。为了帮助您入门,下面我为每个知识点主题列出了一个资源:

• 数据科学家线性代数综合入门指南

• 可汗学院的微积分课程

 数据科学概率基础的案例解释

您还可以查看 Analytics Vidhya 的「数据科学入门」课程,其中包括了有关统计和概率的综合模块。

3. 完全依靠认证和学位

自从数据科学变得非常受欢迎以来,各地的认证和学位几乎都出现了,给招聘经理和招聘人员增加了不少烦恼。浏览我的 LinkedIn 资料,至少 5 张认证图片被我自豪地展示在那里。虽然得到这些认证并非易事,但完全依赖它们也是非常危险的。

数以万计渴望成功的数据科学家报名并完成了种类繁多的在线课程。如果说完成这些课程曾经能为你的数据科学简历添加一些独特的价值,那么现在已经不是这种情况 了。招聘经理对这些证书并不那么看重了, 他们更加重视你的知识结构,以及你如何在现实生活中应用它们。

与客户打交道、处理项目截止日期、了解数据科学项目的生命周期如何工作、如何设计模型以适应现有业务框架,这些只是你作为一个成功的数据科学家所要做好的工作的一部分,而这些仅仅只有课程认证或学位是不够的。

如何避免这个问题?

不要误解我的意思:认证是很有价值的,但只有当你将这些知识应用到课堂之外并将其展示出来时才有价值。不管你对真实数据做何种分析,确保你写下它。创建自己的博客、在 LinkedIn 上发布,并征求社区的反馈意见。这表明你愿意学习并且有很多想法,愿意接受别人提出的建议并将其用于你的项目中。

你应该对实习持开放态度(无论你的经验水平如何)。你将学习到很多关于数据科学团队如何工作的经验,这会使你在参加下一次面试时受益。

如果你正在寻找下一个项目,那么你来对地方了。我们有一个很棒的按难度分级的项目清单。现在就开始吧。

4. 误以为你在机器学习竞赛中看到的是真实的工作现状

想当数据科学家的你这13个错误可别犯

阅读延展

1
3