发表于2018年5月28日17:47最后回复于2018年5月28日17:47

大数据讲座一:大数据中的数据流向

1204浏览量

0评论

       在信息技术迅猛发展的当下,大数据的应用已渗透进人们生活中各个领域,每个人直接或间接的都在接触着大数据,可见大数据技术领域的重要性。

       大数据领域对于身处于IT行业的工作者来说,既好奇又神秘。小编在虚心学习的同时,将前嗅内部员工培训的知识点,详细的记录了下来,今天与大家分享一下此次前嗅培训的知识点~~~


(1)数据产生

①web服务协议。web(World Wide Web)即全球广域网,也称为万维网,它是一种基于超文本和HTTP的、全球性的、动态交互的、跨平台的分布式图形信息系统。

web服务协议是建立在Internet上的一种网络服务,它为浏览者在Internet上查找和浏览信息提供了图形化的、易于访问的直观界面。其中的文档及超级链接,将Internet上的信息节点,组织成一个互为关联的网状结构。

其中此协议包括HTTP-GET、HTTP-POST、SOAP。

每个协议都由一系列 HTTP 请求头组成,这些请求头与一些其他信息一起定义客户端向服务器请求的内容。而在响应成功时,服务器将用一系列 HTTP 响应头和所请求的数据响应。

②传感器数据。例如摄像头数据,像超市、政府、企业的话都会安放摄像头,像这些摄像头存储下来的数据就是传感器数据。

③数据源介质包括条形码,二维码,射频码。

④系统数据包括日志数据、监控数据。爬虫软件采集数据时,日志记录了采集过程的历史情况,用于管理采集的日志。

(2)数据处理

①存储。数据存储对象包括:数据流在加工过程中产生的临时文件、加工过程中需要查找的信息。

②清洗。是将数据中的垃圾数据清洗掉,从而提高数据的质量。

ForeSpider这款爬虫软件,是通过一个采集模板,采集搜索引擎,挖掘全网特征信息。数据的采集-挖掘-排重-清洗-权重分析-采集入库,同步完成,清洗的作用:是去除重复数据及垃圾数据。

③挖掘。数据挖掘一般是指从大量的数据中通过算法,搜索隐藏于其中信息的过程。通过爬虫软件采集数据时,如果根据文本中的关键词来判断该数据是否需要,这就属于数据挖掘。

④模拟/学习。模拟数据是由传感器采集得到的连续变化的值,例如温度、压力,以及目前在电话、无线电和电视广播中的声音和图像。

(3)数据的价值

①图表将庞大的数据采集出来以图表的形式直观的展示出来,ForeSpider将采集的数据存入数据库,可以导出csv文件用excel打开,也可以采集图片、文件、视频、报表等非结构化数据。

②预测包括模型和指导意义。


        其中模型包括确定性模型和概率模型。确定性模型就相当于概率事件中的必然事件,概率模型相当于概率事件。

       指导意义相当于数据的应用,例如自动驾驶、人工智能城市。

       大数据应用领域极广,比如小编在前嗅工作的这段时间里,接触到了各种采集数据的客户,有需要淘宝电商的数据,或者政府投标的相关信息,再或者新闻网站的数据等。


总之,大数据领域既神秘又吸引人,作为公司内部福利,小编也会定期跟大家分享成果滴~~~让我们一起跟随前嗅的小伙伴开启大数据领域的冒险之旅吧!

前嗅大数据——深度大数据专家

前嗅(www.forenose.com)是首个深度大数据专家。

提供数据采集-分析-处理-管理-营销-应用,

自主知识产权的全套大数据产品。




发布新帖

私信

举报