发表于2019年7月30日16:58最后回复于2019年7月30日16:58

数据科学家如何将数据转化为价值?

380浏览量

0评论

在许多类型的程序的设计中,数据结构的选择是一个基本的设计考虑因素。许多大型系统的构造经验表明,系统实现的困难程度和系统构造的质量都严重的依赖于是否选择了最优的数据结构。许多时候,确定了数据结构后,算法就容易得到了。有些时候事情也会反过来,我们根据特定算法来选择数据结构与之适应。不论哪种情况,选择合适的数据结构都是非常重要的。

数据科学是一种使用从统计分析到机器学习的方法从结构化和非结构化数据中收集洞察力的方法。对于大多数组织而言,数据科学被用于将数据转化为价值,其形式是改善收入,降低成本,提高业务灵活性,改善客户体验,开发新产品等。

数据科学是一种将业务数据转换为资产的方法,可帮助组织提高收入、降低成本、抓住商机、改善客户体验等。

数据科学定义

数据科学是一种使用从统计分析到机器学习的方法从结构化和非结构化数据中收集洞察力的方法。对于大多数组织而言,数据科学被用于将数据转化为价值,其形式是改善收入,降低成本,提高业务灵活性,改善客户体验,开发新产品等。

RiskIQ公司首席数据科学家Adam Hunt说,“如果愿意,企业可以获取的数据量是巨大的,但是如果没有做任何事情,把它变成有趣的东西,它有什么用呢?数据科学是关于提供这些数据的目的。”

数据科学与分析

虽然数据分析是紧密相关的,但它是数据科学的一个组成部分,用于了解组织的数据是什么样子的。数据科学利用分析的输出来解决问题。

Hunt说,“数据科学正在得出推动数据向前发展的结论。如果不是采用数据解决问题,如果只是在做调查,那就是分析。如果真的要用结果来解释某些事情,就要从分析到科学。数据科学与实际解决问题的关系比观察、检查、绘制数据更大。”

对于Looker公司首席数据科学家Hillary Green-Lerman来说,数据分析和数据科学之间的区别在于时间尺度。她表示,数据分析描述了当前的现实状况。数据科学使用该数据来预测或了解未来。

Green-Lerman说,“许多人认为数据分析师只是初级数据科学家;有人希望在他们长大后成为数据科学家。有时这是真的,但实际上我发现一个非常优秀的分析师拥有与数据科学家不同的技能。”

数据科学与大数据

数据科学和大数据通常是一致的,但数据科学可以用来从各种规模的数据中提取价值,无论是结构化的、非结构化的还是半结构化的。当然,在许多情况下,大数据对数据科学家很有用,因为企业拥有的数据越多,在给定模型中可以包含的参数就越多。

Hunt说,“有了大数据,企业就不必受制于小数据的维数限制。大数据在某些方面确实有帮助,但更多并不总是更好。如果把股票市场放在合适的位置,它就不会起作用。”

数据科学的商业价值

数据科学的商业价值取决于组织需求。数据科学可以帮助组织构建工具来预测硬件故障,允许组织执行维护,并防止意外停机。它可以帮助预测超市货架上的内容,或者根据产品的属性预测产品的流行程度。

MapR科技公司首席应用架构师Ted Dunning说,“数据科学团队可以拥有的最大价值在于他们与业务团队融为一体。几乎按照定义,寻求新奇的人员,真正创新的人员,将会发现价值或泄漏的价值,而不是人们所预期的。通常他们会让业务人员带来惊喜。价值并不是人们最初认为的那样。”

数据科学团队

数据科学通常是一门团队科学。数据科学家是大多数数据科学团队的前瞻性核心,但从数据转向分析,然后将分析转化为生产价值需要一系列技能和角色。例如,数据分析师应该在将数据呈现给团队,并在维护数据模型之前对其进行调查。数据工程师必须构建数据管道以丰富数据集,并使数据可供公司其他人使用。

eBates公司分析副总裁Mark Stange-Tregear警告不要寻求数据科学“独角兽”,也就是将非线性思维与高级数学和统计知识以及编码能力相结合的人员。

Stange-Tregear解释说,“我不认为数据工程是关键的数据科学家特征,我希望有人真正添加其他内容。如果我可以让某人建立模型,能够评估统计数据,并将该模型的好处传达给业务部门,那么我就可以雇佣足够成熟的数据工程师来采用该模型并实现它。”

数据科学的嵌入式方法

一些组织选择将数据科学家与其他功能混合在一起。例如,Mapr公司的Dunning建议遵循数据操作方法,将数据科学家嵌入到具有业务线职责的DevOps团队中。这些数据运营团队往往是跨职能的和技能的,如运营、软件工程、架构和产品管理,并且可以从头到尾协调数据、工具、代码和环境。数据运营团队倾向于将分析管道视为类似于生产线。

Dunning说,“孤立的数据科学团队可能希望部署最复杂的模型,嵌入式数据科学家将寻找可维护的廉价胜利。他们对于选择的解决方案是务实的。”

数据科学目标和可交付成果

数据科学的目标是构建从数据中提取以业务为中心的见解的方法。这需要理解价值和信息在企业中是如何流动的,并能够利用这种理解来识别业务机会。虽然这可能涉及一次性项目,但更典型的是,数据科学团队寻求识别关键数据资产,这些资产可以转化为数据管道,为可维护工具和解决方案提供支持。例如,银行使用的信用卡欺诈监控解决方案,或用于优化风电场中风力发电机布置的工具。

逐渐地,传达团队所做工作的演示文稿也是重要的可交付成果。Riskq公司的Hunt说,“确保他们将结果传达给公司的其他人是非常重要的,当数据科学团队长时间陷入困境时,它开始陷入困境。产品经理认为工作是理所当然的,除非我们一直在谈论和关注它。”

数据科学过程和方法

生产工程团队在Sprint周期中工作,并且有计划的时间表。Hunt表示,数据科学团队通常很难做到这一点,因为可以提前花很多时间来确定一个项目是否可行。

Hunt说,“很多时候,第一周甚至第一个月都是研究、收集、清理数据。我们能回答这个问题吗?我们能有效地做到吗?我们花费了大量的时间进行设计和调查,远远超过了标准工程团队的表现。”

对于Hunt来说,数据科学应该遵循科学方法,尽管他指出并非总是如此,甚至不可行。

Hunt说,“企业试图从数据中提取一些洞察力。为了反复和自信地做到这一点,必须使用科学方法准确地证明其假设。但我不认为许多数据科学家真正使用任何科学。”

Hunt说,真正的科学需要时间。企业花费时间确认其假设,然后花费很多时间试图反驳自己。

Hunt说,“通过数据科学,企业需要深入研究数据来验证这些假设。我们试图回答的很多问题都是短暂的。例如,在安全方面试图找到解决威胁的办法。”

他表示,因此,数据科学通常意味着采用“足够好”的答案,而不是最佳答案。然而,危险是结果可能成为确认偏见或过度拟合的牺牲品。

他说,“如果这不是真正的科学,也就是说企业用科学的方法来证实一个假设,那么所做的就是向一些算法采用数据来证实自己的假设。”

数据科学技能

虽然数据科学学位课程的数量正在迅速增加,但它们并不一定是组织在寻找数据科学家时所寻求的。eBates公司Stange-Tregear表示,他寻找具有统计背景的候选人,因此他们知道是否在看实际结果,将结果置于场景中的领域知识;以及使他们能够向业务用户传达结果的沟通技巧。

“如果我有一位可以完成所有这些工作的数据科学家,那么我会担心通过数据工程团队实现这一点。”他说。

RiskIQ公司的Hunt表示,对拥有博士学位的应聘者很感兴趣。Hunt说,“我偏向招聘于拥有博士学位的人,但我不会放弃那些具有丰富经验的人才。博士能够对一个主题进行非常深入的研究,并且能够将这些信息传播给其他人。但是,拥有扎实的背景或个人项目是非常有趣的。”

Hunt说,他特别寻找物理、数学、计算机科学、经济学甚至社会科学的博士学位的人才。他不会对拥有数据科学或分析学位的应聘者另眼相看,但他确实对招聘这些人有所保留。他说,“我的个人经历是,我发现它们非常有用,但他们过于关注模型的操作,而不是思维方式。”

MapR公司的Dunning更关心申请人的个人能力,而不是展示新事物的能力。他说,“我在招聘数据科学家时首先想到的内容是:受访者是否能教会我一些东西?我不想找到指导我怎么做的人,我非常想找到那些可以做我不能做的事情的人才,或者可以教会团队的人才。”

Dunning指出,一些优秀的数据科学家或数据科学领域的领导者都具有非传统背景,并指出,他与之合作过的最好的人员包括曾经做了6年园丁的人,具有美术背景的人,有的甚至拥有法国文学学位,还有一位没有接受计算机培训的新闻系学生。

Dunning说:“想用数据感知来测试人们,而不是用公式。希望有能力看到事物并理解它们。”

数据科学培训

鉴于目前缺乏数据科学人才,许多组织正在制定计划,以培养内部数据科学人才。而培训是另一条快速增长的途径,培训工作人员承担数据科学家的角色。


发布新帖

私信

举报