作为数据科学家应该学习的第一件事 | 数据分析网 首页 分类阅读 行业资讯 大数据 统计学
时间: 2018-05-28来源:数据分析网
前景提要
根据30年的商业经验,下面的列表是我认为首先应该在数据科学课中讲授的(非全面的)内容选择。 这是我文章的后续内容 为什么Logistic回归应该最后讲解。
我不确定下面这些 主题 是否在数据营或大学课堂上讨论过。 问题之一是招聘教师的方式。 招聘过程是有利于以学业成就或其“明星”身份而闻名的个人,并且他们倾向于在数十年内反复教导同一事物。 厉害的专业人士对成为老师毫无兴趣(俗话说:如果你做不到,就写出来,如果你写不出来,就教你。)

它不一定是那样。 大量合格的专业人士,尽管不是明星,但他们会成为完美的老师,并不一定是受到金钱的激励。 他们在实战中获得大量的经验,可能会是很棒的老师,帮助学生处理真实的数据。 他们不需要成为 数据科学家 ,许多工程师完全有能力(并且有资格)提供强大的数据科学培训。

在 数据科学课程 中应该尽早讲解的主题
我的建议如下: 概述算法如何工作 不同类型的数据和数据问题(数据缺失,数据重复,数据错误)以及探索真实样本数据集,并且有建设性地批判他们 如何确定有用的度量指标 数据科学项目的生命周期 编程语言简介和基本命令行指令(Unix命令:grep,sort,uniq,head,Unix管道等)。 将结果传达给非专家并理解决策者的请求(将请求转化为数据科学家的行动项目) 概述常见技术的优缺点,以及何时使用它们 实例探究 能够识别有缺陷的研究
相比之下,传统数据科学课程中首先讨论了一个典型的主题列表: 概率论,随机变量,最大似然估计 线性回归, 逻辑回归 ,方差分析,一般线性模型 K-NN(最近邻居聚类),层次聚类 假设检验,非参数统计,马尔可夫链,时间序列 NLP,尤其是词云(适用于小样本Twitter数据) 协同过滤算法 神经网络,决策树,线性判别分析,朴素贝叶斯
这些技术没有什么根本性的错误(除了最后两个),但是你不可能在职业生涯中使用它们 – 而不是在课堂上提出的基本版本 – 除非你是在一群志同道合的人中全部使用相同的老式黑盒子工具。确实应该教他们,但也许不是一开始。
数据科学课程中应包含的主题
下面列出的不应该在一开始就教,但是非常有用,很少包括在标准课程中: 模型选择,工具(产品)选择,算法选择 经验法则 最佳实践 将非结构化数据转换为结构化数据(创建分类法,编目算法和自动标注) 如此处所述,混合多种技术以获得最佳效果 测量模型表现(R-Squared是最差的指标,但通常是课堂上教授的唯一指标) 数据增强(找到外部数据集和功能以获得更好的预测能力,将其与内部数据混合) 建立你自己的自制模型和算法 大数据 的诅咒(与维度的诅咒不同)以及如何区分相关和因果关系 应该更新数据科学实现(例如查找表)的频率 从设计原型到生产模式部署:警告 蒙特卡洛模拟(一种简单的替代方案,可以计算置信区间和测试统计假设,甚至不需要知道随机变量是什么)。 原文链接:
https://www.datasciencecentral.com/profiles/blogs/the-first-things-you-should-learn-as-a-data-scientist-not-what-yo
编译:数据人网
出处:http://shujuren.org/article/587.html
本文为专栏文章,来自:数据人网,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/54876.html 。

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行