小白和牛人之间的这15个问答，让你知道该怎么学习大数据

时间: 2017-04-21来源：开源中国

前景提要

HDC调试需求开发（15万预算）,能者速来！>>>
问：不同的语言在数据处理以及算法计算过程中性能的差别是否很大？
答：就目前的经验来看，使用C或者C++的效率确实要比PYTHON高一些，但是没有差到一个数量级的差别。PYTHON程序的维护成本比C或C++感觉还是要略低一些，在生产中可以考虑用硬件数量进行弥补。

问：请问入门机器学习需要哪些基础知识呢？
答：如果想走得远，微积分、概率，这些肯定是跑不了的。然后就可以是各种聚类分类算法，这部分还是比较好理解的，甚至没有微积分的知识也基本不影响理解。最后是深度学习的部分，这部分说实话其实还是挺有难度的。

问：算法模型是自己建造，还是有专家开源
答：开源的工具能解决很多问题，算法一般不用调整。但是不排除你在优化的时候根据自己的需求做修改。

问：目前机器学习进行到了哪个阶段? 对于软件功能的自动化测试，是否可以让机器人自己学习需求，根据设计文档来进行测试？
答：理论上确实是可行的。不过对设计文档进行特征化的过程恐怕是个非常不确定的过程。问题一、设计文档的标准化问题是不是做到位了？问题二、有多少样本来供训练？
训练是一个监督学习的过程，要把“文档”和“对应的测试行为”这样的关联告诉学习引擎才可以。

问：数学基础对后面的学习很重要么？我是个高数很渣的java程序员
答：数学基础对后面还是比较重要的，很多书籍里讲解算法都有数学公式推导，至少需要能看懂公式是什么意思

问：在学习前是否要复习下微积分、概率论知识？
答：边学技术边复习数学知识就行，遇到问题再去学习，不用刻意先复习一遍。

问：我做了5年的Web开发。现在就职的公司不大，数据量也才百万级。我想知道您对数据分析的理解和如何正确利用数据分析得到的结果。我想在大数据方向有所发展，希望能在学习路线上给点建议。
答：大数据的真实含义不是数据量大，而是具有丰富的数据维度。数据的价值不在于多在于能够挖掘出有价值的信息从而消除不确定性，降低试错成本。
很大一部分的数据分析是有试探性的，日常的工作中更多的是做指标涨跌的关联分析，分析好这些已经能为公司解决很多问题了。
其它方面的应用其实不一定在每个公司里都有机会去做，比如推荐系统（典型的机器学习应用场景），如果你的数据维度不足够支撑，或者业务形态不是面向大众的，那很可能无法成行。
学习路线你可以看一下这篇文章： https://my.oschina.net/ijj/blog/878119

问：公司数据分析人员如何转入大数据？
答：先学一门容易入门的语言 R 或者pyhton，掌握基础后再使用它们处理数据、分析数据，我觉得这种对你切入比较容易。

问：我从事两年JavaWeb最近想转大数据这块，请问有什么直观的入门指引呢？
答：入门指引的话，不妨关注一下《Hadoop大数据实战手册》这里面对大数据和Hadoop生态圈做了比较详细的介绍，用来入门很不错。我个人认为，在大数据这个领域还是要跟个人结合，扬长避短，对于是具体做可视化，工程应用，还是分析，这个还是要看个人是否擅长和喜欢。
给大家推荐一套Hadoop教学视频，老师是百度Hadoop核心架构师。内容包括Hadoop入门、Hadoop生态架构、Hadoop大型商业项目讲解，讲的很细致。需要的话可以联系微信 ganshiyu1026 ，备注OSC 免费获取。

问：我目前主要是做一些数据统计的工作，想要往推荐系统方向发展，这块儿我该怎么学习呢？
答：推荐系统现在用的比较多的是SVM算法或协同过滤等。这个内容在我看来其实还是贝叶斯信念网络的延伸或变种，可以看一些关于推荐系统方面的专著。

问：业界采用的大数据解决方案有哪些？
答：现在的框架相对比较成熟的有hadoop，这是做离线处理的； spark可以做离线处理和准实时处理； storm，这是做实时处理的； mahout，spark mllib，离线机器学习； scikit-learn，离线机器学习； tensorflow，torch深度学习。除此之外还有很多框架，解决方案也是使用这些工程与其它一些开源产品做组合。

问：个人对大数据没有太多的了解，主观地认为现在的大数据都基本是以Hadoop为核心，综合其他技术，如HBase, Hive等，根据行业实际建立相应的分析模型，但不知实施大数据项目时，在不同的行业中有没有标准的技术路线以及标准的架构呢？
我个人认为不要过于纠结这些。大数据的边界怎么划分会长期没有定义，不过有一点是确定的，就是一个人工作的价值。一个人工作的价值是否能够帮助公司或者客户提高效率，消除不确定性，减小试错成本，找出好的改进方向，这些才是价值所在。至于某一个工具都是有适用场景的，在不同项目里进行有侧重的选择使用就可以了。

问：个人对大数据的理解就是历史数据产生了很多，然后多表查询时效率很慢，怎么用一些缓存或数据库中间件解决性能的事？
答：如果单纯从你说的这个场景来看，应该属于海量数据存储的研究范畴。大部分都是用类似分布式存储、表分区、索引、压缩存储等手段进行解决。这个应该不属于大数据研究的重点。

问：机器学习有哪些最新的理论知识？如果要实现机器学习，业界是否有成熟的开源方案？
答：最新的理论知识多用google进行相关论文的查询，更新还是比较快的。
机器学习开源方案有不少，我们用的是scikit-learn，是python语言的框架，已经能解决不少问题了。

问：在大数据领域，机器学习首先应该是有足够多的数据来支撑其运算吧，但其实很多现实是数据量并没有到达那个级别，或者数据维度还有许多尚不被我们所认知。所以，有没有一个相对清晰的分界线，哪些情况下就可以使用机器学习，哪些还不足够呢？
答：在神经网络出现之前，对于特征抽取比较准确，解释比较清晰的领域都是可以使用机器学习的。在神经网络出现之后，尤其是卷积神经网络出现之后，对于模式识别方面的加强是令人瞩目的。很多原来使用随机森林或者SVM都无法处理得很好的模式识别问题都有了进展。如果一定要划界限的话，我想可以从特征提取的难易程度上来做划分。如果特征很难提取，甚至特征完全不明确，则十有八九在机器学习过程中得不到令人满意的模型解

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

更多数据

热门排行

咨询电话(周一至周五9：00-18：00)