数据专栏

智能大数据搬运工,你想要的我们都有

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

大数据概念全解析:大数据 云计算 Hadoop 工业大数据
来源: 数据观 时间:2015-11-02 16:38:58 作者:
  大数据概念是网友比较关心的内容,因为大数据随着社会的发展越来越火热,而其中许多人对还不是非常了解。本文在大数据概念的基础上,针对网友比较迫切了解的大数据相关内容,比如云计算、Hadoop、工业大数据,初步建立大数据知识结构。
  大数据概念全面解析
  大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
  在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
  对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
  以上的内容为大数据概念的粗略解释。如果你们想更深入地了解大数据,请仔细阅读以下三篇稿件,假如你觉得内容过多,可适当选取部分内容来看。
  从标题上看,下面三篇文章内容大致一样,但是他们都有不同的侧重点。第一篇文章非常全面展示了大数据概念的相关内容:大数据定义、特征、价值、未来、隐私、技术等方面,全面地剖析大数据,加入你是一位迫切想要了解大数据内容的读者,第一篇稿件将是你的最佳选择。如果你是刚接触大数据没多久,想要知道它的基本概念和应用,那么你最好阅读第二篇和第三篇文章。
  1. 大数据概念:史上最全大数据解析
  2. 大数据知识科普:什么叫大数据
  3. 大数据是什么意思
  提到大数据时,人们常把它和云计算关联起来,那么云计算到底是什么,它和大数据又有什么关系呢?
  云计算概念解读
  云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。同样的,先为你推荐三篇基础的文章热身。
  1. 云计算概念详解:共享软硬件资源信息
  2. 云计算的概念及其基本结构模型
  3. 云计算概念及发展趋势
  在了解以上信息之后,相信你对云计算有一定了解,那么再次跑出上面的问题。大数据和云计算到底是什么关系?那下面这篇文章会解答这个问题。
  大数据和云计算到底是何关系?
  大数据、云计算是人们常提起的名词,与此关联的还有Hadoop。那么Hadoop是什么?它又和大数据、云计算有什么关系呢?
   Hadoop概念解析
  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
  Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
  推荐一篇文章: hadoop是什么:分布式系统基础架构
  在了解了Hadoop基本概念之后,我们接下俩看一下大数据、云计算、Hadoop他们之间到底是什么关系?
  1.大数据与Hadoo之间是什么关系?
  3.云计算之初识Hadoop——站上山巅看清上山的路
  2.Hadoop技术全解析 深度挖掘大数据背后的秘密
  随着大数据的发展,它在行业领域里也得到应用,比如工业领域,因此产生了工业大数据的概念。
   工业大数据概念解读
  工业大数据也是一个全新的概念,从字面上理解,工业大数据是指在工业领域信息化应用中所产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码、二维码、RFID、工业传感器、工业自动控制系统、工业物联网、ERP、CAD/CAM/CAE/CAI等技术在工业企业中得到广泛应用,尤其是互联网、移动互联网、物联网等新一代信息技术在工业领域的应用,工业企业也进入了互联网工业的新的发展阶段,工业企业所拥有的数据也日益丰富。
  推荐文章: 工业大数据概念解读:什么是工业大数据
  推荐一个专题: 工业4.0 工业大数据专题。这个专题包含了工业4.0和工业大数据丰富内容。
  如果正在阅读本文内容,相信你是一个对数据感兴趣的朋友,那么这篇文章可能会对你的胃口: 互联网数据分析师职位介绍及职业规划
  本文为 数据观原创精编,转载请注明来源 www.cbdio.com   百度一下“数据观”,获取更多大数据相关资讯
  微信搜索“数据观”,关注后有一大波大数据干货奉送
 扫码关注
责任编辑:陈卓阳
产业观察
2015-11-02 16:38:58
SaaS概念浅析及发展分析
来源: 数据观 时间:2015-10-23 11:38:41 作者:
   SaaS(软件即服务 英文:Software as a Service),这是21世纪初期兴起的一种新的软件应用模式。它与“应用服务提供商”(英文the Application Service Provider,简称为ASP),“按需软件”(英文on-demand software),“托管软件”(英文hosted software)所具有相似的含义。
   “SaaS”的概念起源于1999年之前。2000年12月,贝内特等人指出“SaaS将在市场上获得接受”。“软件即服务”的常见用法和简称始于刊登在2001年2月SIIA的白皮书 “战略背景:软件即服务”。
   第一个SaaS应用程序是SiteEasy,在1998年发起的Siteeasy.com网站中,由总部位于亚特兰大的公司WebTransit的特劳特曼和德鲁加里威尔金斯共同开发。
   最早应用实现的是salesforce公司提出的SaaS 并运用于CRM行业。它是一种通过Internet提供软件的模式,厂商将应用软件统一部署在自己的服务器上,客户可以根据自己实际需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用,并通过互联网获得厂商提供的服务。用户不用再购买软件,而改用向提供商租用基于Web-base的软件,来管理企业经营活动,且无需对软件进行维护,服务提供商会全权管理和维护软件,软件厂商在向客户提供互联网应用的同时,也提供软件的离线操作和本地数据存储,让用户随时随地都可以使用其定购的软件和服务。对于许多中小企业来说,SaaS是采用先进技术的最好途径,它消除了企业购买、构建和维护基础设施和应用程序的需要。
   在中国,八百客则于2006年2月推出了全球首个中文SaaS在线企业管理软件平台800APP(CRM),随后推出了全球首个中文应用软件协同开发平台800APP COMPOSITE,于2008年底再次融资成功,成为中国第一家获得海外投资的SaaS企业,是中国SaaS市场的技术领先者及最大的SaaS模式企业管理应用系统提供商和专业服务商,致力于客户创造长期的价值和潜在的增长,助力中国企业快速有效实现管理自动化。
   目前国内的主流SaaS服务提供厂商有八百客、天天进账网、中企开源、CSIP、阿里软件、友商网、伟库网、金算盘、CDP、百会创造者、奥斯在线等 。
  云计算带给SaaS的机遇
   SaaS(Software as a Service,软件即服务)作为应用软件的一种全新的销售方式已经开始蓬勃发展起来,但是随着SaaS软件客户的增长,网络存储和带宽等基础资源就会逐步成为发展的瓶颈,对众多企业来说,自身计算机设备的性能也许永远无法满足需求,一个简单的办法是采购更多、更先进的设备,随之而来就是设备成本急剧增长,利润随之降低,有没有更加经济有效的解决途径呢?“云计算”的出现也许为这个问题的解决推开了大门的一个缝隙。
   Cloud Computing(云计算)是一种新兴的共享基础架构的方法,通常为一些大型服务器集群,包括计算服务器、存储服务器、宽带资源等等,它可以将巨大的系统池连接在一起以提供各种IT服务。云计算将所有的计算资源集中起来,并由软件实现自动管理,无需人为参与。这使得企业无需为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于创新。
   SaaS出租软件服务,云计算出租网络资源
   云计算的出现,恰好解决了SaaS发展过程中面临的一些问题,当SaaS提供商的客户快速增加到一定程度,客户所消耗的巨大资源将迫使SaaS供应商提供更多的硬件资源,但由于成本的问题,SaaS又不想花费大量资金购买硬件或带宽资源的时候,云计算无疑是个不错的选择。
   根据通常的概念,云计算处于SaaS的更底层,而SaaS位于云计算和最终客户之间,如果SaaS在最初开发的时候是基于云计算架构的,那么就很容易利用云计算架构来获取海量的资源,并提供给最终用户。这就一劳永逸的解决SaaS发展的瓶颈问题。
   SaaS供应商面临的选择是,是在现有的SOA架构(Service-Oriented Architecture,面向服务架构)下开发应用并租出给最终客户,还是在Cloud Computing(云计算)平台进行开发,使用云计算架构并租出给最终用户。
   通常情况下,SaaS供应商更专注于软件的开发,而对网络资源管理能力较弱,往往会浪费大量资金购买服务器和带宽等基础设施,但提供的用户负载依然有限,而云计算提供了一种管理网络资源的简单而高效的机制,其分配计算任务、工作负载重新平衡、动态分配资源等等,可以帮助SaaS厂商提供不可想象的巨大资源给海量的用户,SaaS供应商可以不再服务器和带宽等基础设施上浪费自己的资源,而专注于具体的软件开发和应用,从而达到最终用户、SaaS、云计算三方的共赢。
   由此可见,云计算在企业软件市场上具有相当大的潜力,对于SaaS供应商来说也是一大机遇,他们可以选择云计算平台,使用云计算的基础架构,使用及其低廉的价格为海量的用户群提供更为稳定、快速、安全的应用和服务。
  问题:saas模式会被企业接受不?
  网友回答一:
  SaaS目前可能在某些领域已经得到了充分的使用,比如在CRM:纷享销客,销售易,快消总管等;在邮件系统:网易,263,qq,阿里云;在其他的应用领域里可能还不是那么的被迅速的认同并接受。
  在我们看来:
  1,SaaS服务实际上的核心价值是:提高效率,降低成本,增加收益三者其一。而大部分SaaS针对的企业是:有需求,但没有足够的能力去自有部署或开发的这类企业,也就是我们常说的中小企业。目前企业的人力成本越来越高,而人力也越难招到,同时,各个行业的竞争其实已经是白热化,趋于完全竞争,也就是利润越来越少。这也就要求企业必须在管理上下功夫,让软件去替换人力来解决这样的矛盾。这是其一。美国人力成本高,管理水平高,算是SaaS的乐土。
  2,企业所关心的数据安全。
  SaaS企业会不会偷取用户信息?
  先从业务逻辑上来讲,绝大数做长远发展的SaaS服务商也不会去偷取用户的信息,因为SaaS做的就是信任,一旦信任崩溃了,就相当于损失掉了所有客户。
  SaaS企业能否保证数据安全?
  每家SaaS企业都应该清楚:你的数据库是上万家乃至更多的企业数据,安全问题的严重性,SaaS老板比企业更清楚,所以都会在安全上下足够的功夫。像逸创云客服都建立了自己的安全运维团队来保证所有数据的安全,数据的安全备份。在我看来,这个绝对是比企业自己的所谓的运维团队更加专业。
  当然 成本和安全两个核心问题解决了,当然剩下的就看SaaS厂商自身产品和营销及服务。
  我的结论是:SaaS服务在将来一定是企业管理的最佳助手。
  网友回答二:
  不存储企业核心业务数据的SaaS,其实企业使用起来已经毫无障碍了。比如用携程的企业版订票,用滴滴的企业版出行,用一些网络会议系统,电话会议系统,HR测评系统等等。
  这里我觉得主要想讨论的还是存储企业核心业务数据的SaaS。
  这类SaaS,目前的情况是,中小型企业已经接受程度很高了。因为SaaS在部署实施上的便利性,对中小企业吸引非常大,尤其是在运维方面,SaaS产品基本不需要企业保留运维人员,所以对中小企业来说,成本也节省的非常多。所以现在国内的SaaS产品供应商,几乎都是服务于中小型企业。
  对大型企业来说,IT的投入本来就不算什么,所以实施部署成本,运维成本,几乎都不是主要考虑的问题,对他们来说,SaaS吸引力不大。而又因为对数据安全性要求等等,所以更倾向于私有云的方式。可以说,目前接受程度并不高。而大企业几乎占据了行业中大部分利润,以及人员规模也是巨大的,所以,大企业没有接受SaaS,基本上可以认为SaaS还没有成熟
  想让SaaS为大多数企业接受,特别是大企业接受,还有几道门槛
  1、个性化。企业总是个性化的,如果共性了,那就不是一个个的企业了。SaaS往往是标准产品,如何能让标准产品满足企业个性化的需求,是一个非常大的挑战。(这里做个广告,外勤365在这点上做的不错)。而个性化带来的就是复杂性,产品需要厚重才能满足企业的需求,2C市场一招鲜的模式,在2B市场中很难奏效
  2、安全性。几乎不用多说了,SaaS企业的内控就很重要,也很复杂。而安全性又会带来信任度的问题,容易形成马太效应。SaaS产品的安全就和食品安全一样,一旦出问题,对企业就是毁灭性的打击。
  3、稳定性。SaaS产品都是由小做大,需要不停的升级迭代。SaaS产品更新的速度数十倍于私有云部署产品。更新越多越容易出错,而企业对稳定性的要求是很高的。无法做到稳定的产品不可能被市场所接受。
  因为上面这些原因和限制,即使SaaS再发展,SaaS和私有云也会处于长期共存的状态,除非:
  SaaS产品带来的价值要超过私有云方式!而不是仅节约成本。
  个人认为产品价值提升,很可能出现在下面几种状态下:
  1、 互联网化的多企业信息沟通。
  2、大数据的分析对企业带来帮助。
  3、企业内部和外部的社交化。
  类似于P2P下载对FTP下载的替代模型。你不使用SaaS,就无法享受SaaS给企业带来的价值,这才能彻底让SaaS为企业所接受
   相关阅读
  企业级SaaS常用的三种加密方式
  互联网时代的软件革命:SaaS架构设计
  本文为 数据观原创精编,转载请注明来源 www.cbdio.com   百度一下“数据观”,获取更多大数据相关资讯
  微信搜索“数据观”,关注后有一大波大数据干货奉送
 扫码关注
产业观察
2015-10-23 11:38:41
PaaS概念解读以及特点分析
来源: 数据观 时间:2015-10-22 10:49:48 作者:
  PaaS(Platform-as-a-Service:平台即服务)是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。在2007年国内外SaaS厂商先后推出自己的PAAS平台。PAAS能够提供企业进行定制化研发的中间件平台,同时涵盖数据库和应用服务器等。PAAS可以提高在Web平台上利用的资源数量。例如,可通过远程Web服务使用数据即服务(Data-as-a-Service:数据即服务),还可以使用可视化的API,甚至像800app的PAAS平台还允许你混合并匹配适合你应用的其他平台。用户或者厂商基于PaaS平台可以快速开发自己所需要的应用和产品。同时,PaaS平台开发的应用能更好地搭建基于SOA架构的企业应用。
  所谓PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。PAAS之所以能够推进SaaS的发展,主要在于它能够提供企业进行定制化研发的中间件平台,同时涵盖数据库和应用服务器等。PAAS可以提高在Web平台上利用的资源数量。用户或者厂商基于PaaS平台可以快速开发自己所需要的应用和产品。同时,PaaS平台开发的应用能更好地搭建基于SOA架构的企业应用。此外,PAAS对于SaaS运营商来说,可以帮助他进行产品多元化和产品定制化。
  PaaS主要特点
  PaaS能将现有各种业务能力进行整合,具体可以归类为应用服务器、业务能力接入、业务引擎、业务开放平台,向下根据业务能力需要测算基础服务能力,通过IaaS提供的API调用硬件资源,向上提供业务调度中心服务,实时监控平台的各种资源,并将这些资源通过API开放给SaaS用户。PaaS主要具备以下三个特点:
  (1)平台即服务:PaaS所提供的服务与其他的服务最根本的区别是PaaS提供的是一个基础平台,而不是某种应用。在传统的观念中,平台是向外提供服务的基础。一般来说,平台作为应用系统部署的基础,是由应用服务提供商搭建和维护的,而PaaS颠覆了这种概念,由专门的平台服务提供商搭建和运营该基础平台,并将该平台以服务的方式提供给应用系统运营商;
  (2)平台及服务:PaaS运营商所需提供的服务,不仅仅是单纯的基础平台,而且包括针对该平台的技术支持服务,甚至针对该平台而进行的应用系统开发、优化等服务。PaaS的运营商最了解他们所运营的基础平台,所以由PaaS运营商所提出的对应用系统优化和改进的建议也非常重要。而在新应用系统的开发过程中,PaaS运营商的技术咨询和支持团队的介入,也是保证应用系统在以后的运营中得以长期、稳定运行的重要因素;
  (3)平台及服务:PaaS运营商对外提供的服务不同于其他的服务,这种服务的背后是强大而稳定的基础运营平台,以及专业的技术支持队伍。这种“平台级”服务能够保证支撑SaaS或其他软件服务提供商各种应用系统长时间、稳定的运行。PaaS的实质是将互联网的资源服务化为可编程接口,为第三方开发者提供有商业价值的资源和服务平台。有了PaaS平台的支撑,云计算[2]的开发者就获得了大量的可编程元素,这些可编程元素有具体的业务逻辑,这就为开发带来了极大的方便,不但提高了开发效率,还节约了开发成本。有了PaaS平台的支持,WEB应用的开发变得更加敏捷,能够快速响应用户需求的开发能力,也为最终用户带来了实实在在的利益。
  PaaS区别
  简单地说,PaaS平台就是指云环境中的应用基础设施服务,也可以说是中间件即服务。PaaS平台在云架构中位于中间层,其上层是SaaS,其下层是IaaS[3]。在传统On-Premise部署方式下,应用基础设施即中间件的种类非常多,有应用服务器,数据库,ESBs,BPM,Portal,消息中间件,远程对象调用中间件等等。对于PaaS平台,Gartner把它们分为两类,一类是应用部署和运行平台APaaS(applicationplatformasaservice),另一类是集成平台IPaaS(integrationasaservice)。人们经常说的PaaS平台基本上是指APaaS,如Force和GoogleAppEngine。
  国内日前上线的中国云应用平台,能够为软件厂商提供领先的 IaaS基础平台,使得软件厂商能够将注意力集中在其应用产品的云化之上,而将对基础资源的需求,包括云服务器、云存储、云监控等完全依托在理念领先、技术成熟、安全可靠的IaaS平台上。
  中国云应用平台将加盟入驻的传统软件向SaaS软件转型,采用传统软件结合云计算IaaS的模式,逐步实现多租户单实例的应用架构最终实现高性能应用。未来大量传统软件企业在与华云数据的合作过程中,通过与PaaS平台的整合,可以快速实现云化与SaaS化改造。
  PaaS发展既是一个挑战,也是一个机遇
   根据全球最权威的调研机构Technavio发布的最新调查报告结果来看,到2016年为止,预计PaaS市场规模将达到64.5亿美元,以接近50%的复合增长率(CAGR)在增长,预计增长最快的是应用基础设施和PaaS中间件。
  研究人员称,目前这个市场有13.1亿美元,预计到今年年底这个数字会上升到18.5亿美元。这个预测数据与Gartner的非常接近,Gartner曾预测到2012年底PaaS的收入到将达12亿美元,不过,TechNavio还注意到到当前的市场正面临一些困难,特别是在最佳使用实践与公认标准的缺失上。
  PaaS是 云计算市场最小的一部分,同时也是公认的增长速度最快的。今年早些时候,Informatica公司的Juan Carlos Soto称,PaaS是“从最小的基础准备,成长为可预见的最快的业务”。
  该报告还指出,“大多数的机构都意识到这里有一个先进的系统需求,如,提高开发进程、部署和管理企业应用。而一些投资业务中不包括PaaS的软件企业供应商,在未来的发展中将面临激烈的市场竞争,因此,他们必须开始重点建设PaaS的专业知识。”
  超过四分之三的受访者表示,他们与SaaS(软件作为服务)同时使用PaaS,相反地,有32.6%的人独立使用PaaS,但独立使用PaaS服务的较去年同期呈上升趋势,通过加强市场建设,对比今年年底的36.5%,预计到2016年独立使用人数将达到41.5%。
  按行业划分,最流行的PaaS行业是制造业,占受访者的21.5%,提供金融服务方面占到20.2%, 通信行业占16.1%,政府部门占15.6%和排在第五名的零售业,占10.2%。
  通过分析,报告给出了一个最终结论:PaaS的发展既是一个挑战,也是一个机遇。
  “尽管有一些挑战,全球的PaaS市场仍然显示出巨大的增长潜力,”TechNavio公司分析师表示。在各种利好因素的推动下,这个市场仍是值得期待的,从2014年的47%和2015年的52.9%的增长速度看,挑战环境将被改善,市场在2016年将会达到顶峰,预计那时的增长速度将达到55%。  
  相关阅读
  PaaS(平台即服务)应用的关键是什么
  PaaS模型的确立相当的重要
  本文为 数据观原创精编,转载请注明来源 www.cbdio.com   百度一下“数据观”,获取更多大数据相关资讯
  微信搜索“数据观”,关注后有一大波大数据干货奉送
 扫码关注
产业观察
2015-10-22 10:49:48
IaaS是什么:基础设施即服务
来源: 中国大数据产业观察网 时间:2015-10-10 16:06:28 作者:
  IaaS(Infrastructure as a Service),即基础设施即服务。
  消费者通过Internet 可以从完善的计算机基础设施获得服务。这类服务称为基础设施即服务。基于 Internet 的服务(如存储和数据库)是 IaaS的一部分。Internet上其他类型的服务包括平台即服务(Platform as a Service,PaaS)和软件即服务(Software as a Service,SaaS)。PaaS提供了用户可以访问的完整或部分的应用程序开发,SaaS则提供了完整的可直接使用的应用程序,比如通过 Internet管理企业资源。
  “云服务”现在已经快成了一个家喻户晓的词了。如果你不知道PaaS, IaaS 和SaaS的区别,那么也没啥,因为很多人确实不知道。
  “云”其实是互联网的一个隐喻,“云计算”其实就是使用互联网来接入存储或者运行在远程服务器端的应用,数据,或者服务。
  任何一个使用基于互联网的方法来计算,存储和开发的公司,都可以从技术上叫做从事云的公司。然而,不是所有的云公司都一样。不是所有人都是CTO,所以有时候看到云技术背后的一些词可能会比较头疼。
  云也是分层的
  任何一个在互联网上提供其服务的公司都可以叫做 云计算公司。其实云计算分几层的,分别是Infrastructure(基础设施)-as-a-Service,Platform(平台)-as-a-Service,Software(软件)-as-a-Service。基础设施在最下端,平台在中间,软件在顶端。别的一些“软”的层可以在这些层上面添加。
  今天我们来粗略了解IaaS。
  IaaS应用方式
  作为Infrastructure as a Service (IaaS) 在实际应用中的一个例子,The New York Times 使用成百上千台 Amazon EC2虚拟机实例在 36 小时内处理 TB 级的文档数据。如果没有 EC2,The New York Times 处理这些数据将要花费数天或者数月的时间。
  IaaS通常分为三两种用法:公有云共的和、私有云的和混合云。AmazonEC2在基础设施云中使用公共服务器池(公有云)。更加私有化的服务会使用企业内部数据中心的一组公用或私有服务器池(私有云)。如果在企业数据中心环境中开发软件,那么这两种类型公有云、私有云、混合云都能使用,而且使用EC2临时扩展资源的成本也很低,如-比方说开发和测试,混合云。结合使用两者可以更快地开发应用程序和服务,缩短开发和测试周期。
  同时,IaaS也存在安全漏洞,例如服务商提供的是一个共享的基础设施,也就是说一些组件或功能,例如CPU缓存,、GPU等对于该系统的使用者而言并不是完全隔离的,这样就会产生一个后果,即当一个攻击者得逞时,全部服务器都向攻击者敞开了大门,即使使用了hypervisor,有些客户机操作系统也能够获得基础平台不受控制的访问权。解决办法:开发一个强大的分区和防御策略,IaaS供应商必须监控环境是否有未经授权的修改和活动。
  网友提问:云计算中IAAS是什么意思?
  回答:
  目前云计算是新新事物,新新事物风险和机遇并存。
  以直白的方式来表达:
  “云”是技术炒作专家搞出来忽悠你的,
  其实就是一个代表透明的资源池和服务站,不用太理会!
  云计算是整合资源以即方式提供服务,它主要在三个层面体现技术和服务。
  一个是硬件基础设施层面(IAAS),让硬件资源以即方式提供服务;
  (客户要硬件环境资源,登录资源池自己定制、然后交钱、最后获取资源,用多少付多少钱;
  付费对象是:应用开发者,企业IT管理者,应用平台供应商等。);
  一个是应用平台层面,让应用平台以即方式提供服务;
  (供应商提高软件平台,平台可以开发、部署、管理、监控应用,提供开放的类APP商店;
  付费对象是:应用开发者。)
  一个是应用层面,让应用以即方式提供服务;
  (应用开放商,把应用部署在应用平台,用户可以去使用这些应用,按即方式享受服务和付费;
  付费对象是:终端消费者。)
  即方式服务:
  像水电一样,从你开始使用到你结束使用进行度量,你登录应用入口就可以直接使用应用,
  甚至不用在你本地安装应用,就像打开水龙头就可以用水一样,然后付费,它本质是一种推
  的服务、盈利模式。
  所以,云计算要学习就多方多面。
  不过,他们的根本基础还是计算机科学与技术,包括网络、硬件、软件等,
  只是硬件或平台会比较侧重虚拟机、网格计算、 分布式计算等方面的技术,
  而应用会比较在意用户体验、大众互联方面,应用主要技术还是软件开放技术,
  特别可能会热于android或ios或wm的WIFI移动应用的开发。
  下一波的IT浪潮就是云计算、物联网、人工智能、生物技术。
  目前云计算是新新事物,教学资源紧张是正常的,新新事物风险和机遇并存。
  请相信机遇的东西确实是过了这个村,没了这个店,云计算目前就像初期的计算机专业一样,
  等它成熟了,等你看到它的发展了,那时候你就落后,只能在前人后面捡烟头。
  网友提问
  未来3年国内的IaaS格局会怎样发展?阿里云、腾讯云、UCloud云计算、美团云谁能终究成为中国的AWS?
  未来3年国内的IaaS格局会怎样发展?阿里云、腾讯云、UCloud云计算、美团云谁能终究成为中国的AWS?阿里云于2012年初开始了大范围的推行和密集的运营活动,目前从市场份额上讲,是当仁不让的国内1哥;腾讯云依托腾讯强大的游戏运营能力,在没有进行大范围推行的情况下仍然取得了相当不错的市场份额;UCloud于近期取得国内IaaS领域最大投资千万美元,其在手游领域据传已有1000+团队入驻,势头很足;美团云虽然起步很晚,但在性能上也已有了不错的口碑,其技术团队和服务团队也取得了积极的反馈;那末,在未来,中国的IaaS格局究竟会怎样发展?谁能终究成为中国的AWS?而对觊觎国内的Amazon、微软、IBM,他们又会产生多大的影响?希望大家能够积极讨论!【2014-05-16】
  回答一:云计算中IaaS是基础也是最难的1层,IaaS的使命是替换传统的“硬件+IDC”的物理世界,让IT能力变成便宜可靠的资源,唾手可得,完全弹性使用,按需付费。IT资源应当对个人开发者和企业用户1视同仁,而不是被昂贵的硬件所绑架变成有钱人的游戏。IaaS终究会颠覆传统的IT交付情势,但条件是IaaS能够比肩硬件的性能,并足够稳定与安全。即:IaaS=传统IT架构的性能(含稳定与安全性)+敏捷性+弹性+便宜中国IaaS的前途在于产品本身,要用技术说话而不是商业炒作。挂羊头卖狗肉(拿VPS当IaaS)的两年已失去了庞大的企业客户的信任,接下来大家要做的是重建市场信心,由于IaaS服务只有得企业客户市场方能得天下。在这1点上来看AWS的进入是个好消息。国内的IaaS服务除青云外跟AWS都很不1样,最少VPS距离真实的IaaS还差好多,不管是虚拟化还是磁盘性能,更要命的是组网能力,安全性就更不用提了,因此不能满足企业客户的IT需求。但是青云也需要不断完善才能在功能方面不断接近和超出AWS。利益相干:我是QingCloud家人。
  回答二:AWS技术研发实力很强,有很多自主产品,不过在价格、性能(或说性价比)方面没有优势。其实我感觉,最主要的悬念在于,AWS能不能弄定政府,如果能,我支持AWS会在中国一样获得巨大优势,如果不能,google就是Amazon的前车之鉴。
    相关阅读:
   云计算概念详解:共享软硬件资源信息
   云平台详解:可分为三类 简单理解为仓库
  本文为 数据观原创精编,转载请注明来源 www.cbdio.com   百度一下“数据观”,获取更多大数据相关资讯
  微信搜索“数据观”,关注后有一大波大数据干货奉送
  扫码关注
产业观察
2015-10-10 16:06:28
云计算 分布式 并行计算概念区分
来源: 数据观 时间:2015-10-09 16:21:46 作者:
  云计算、分布式、并行计算等概念区分理解比较困难,小编在网上整理若干资料,希望能为你解答疑惑。
  云计算和分布式有什么区别
  “云是一个更上层、更抽象、更玄乎的概念。
  而分布式是一个很具体的概念。
  若没有分布式,云就无从谈起。但分布式计算却不一定都是云。”
  分布式是通过应用设计,将任务进行分解。
  云计算是通过类似网格的东西,由系统自动进行资源组合。
  什么是分布式计算?所谓分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。 最近的分布式计算项目已经被用于使用世界各地成千上万位志愿者的计算机的闲置计算能力,通过因特网,您可以分析来自外太空的电讯号,寻找隐蔽的黑洞,并探索可能存在的外星智慧生命;您可以寻找超过1000万位数字的梅森质数;您也可以寻找并发现对抗艾滋病病毒的更为有效的药物。这些项目都很庞大,需要惊人的计算量,仅仅由单个的电脑或是个人在一个能让人接受的时间内计算完成是决不可能的。
  分布式计算是利用互联网上的计算机的 CPU 的闲置处理能力来解决大型计算问题的一种计算科学。下面,我们看看它是怎么工作的:
  首先, 要发现一个需要非常巨大的计算能力才能解决的问题。这类问题一般是跨学科的、极富挑战性的、人类急待解决的科研课题。其中较为著名的是:
  1.解决较为复杂的数学问题,例如:GIMPS(寻找最大的梅森素数)。
  2.研究寻找最为安全的密码系统,例如:RC-72(密码破解)。
  3.生物病理研究,例如:Folding@home(研究蛋白质折叠,误解,聚合及由此引起的相关疾病)。
  4.各种各样疾病的药物研究,例如:United Devices(寻找对抗癌症的有效的药物)。
  5.信号处理,例如:SETI@Home(在家寻找地外文明)。
  从这些实际的例子可以看出,这些项目都很庞大,需要惊人的计算量,仅仅由单个的电脑或是个人在一个能让人接受的时间内计算完成是决不可能的。在以前,这些问题都应该由超级计算机来解决。但是, 超级计算机的造价和维护非常的昂贵,这不是一个普通的科研组织所能承受的。随着科学的发展,一种廉价的、高效的、维护方便的计算方法应运而生——分布式计算!
  随着计算机的普及,个人电脑开始进入千家万户。与之伴随产生的是电脑的利用问题。越来越多的电脑处于闲置状态,即使在开机状态下CPU的潜力也远远不能被完全利用。我们可以想象,一台家用的计算机将大多数的时间花费在“等待”上面。即便是使用者实际使用他们的计算机时,处理器依然是寂静的消费,依然是不计其数的等待(等待输入,但实际上并没有做什么)。互联网的出现, 使得连接调用所有这些拥有限制计算资源的计算机系统成为了现实。
  那么,一些本身非常复杂的但是却很适合于划分为大量的更小的计算片断的问题被提出来,然后由某个研究机构通过大量艰辛的工作开发出计算用服务端和客户端。服务端负责将计算问题分成许多小的计算部分,然后把这些部分分配给许多联网参与计算的计算机进行并行处理,最后将这些计算结果综合起来得到最终的结果。
  当然,这看起来也似乎很原始、很困难,但是随着参与者和参与计算的计算机的数量的不断增加, 计算计划变得非常迅速,而且被实践证明是的确可行的。目前一些较大的分布式计算项目的处理能力已经可以达到甚而超过目前世界上速度最快的巨型计算机。
  您也可以选择参加某些项目以捐赠的 Cpu 内核处理时间,您将发现您所提供的 CPU 内核处理时间将出现在项目的贡献统计中。您可以和其他的参与者竞争贡献时间的排名,您也可以加入一个已经存在的计算团体或者自己组建一个计算小组。这种方法很利于调动参与者的热情。
  随着民间的组队逐渐增多, 许多大型组织(例如公司、学校和各种各样的网站)也开始了组建自己的战队。同时,也形成了大量的以分布式计算技术和项目讨论为主题的社区,这些社区多数是翻译制作分布式计算项目的使用教程及发布相关技术性文章,并提供必要的技术支持。
  那么谁可能加入到这些项目中来呢? 当然是任何人都可以! 如果您已经加入了某个项目,而且曾经考虑加入计算小组, 您将在中国分布式计算总站及论坛里找到您的家。任何人都能加入任何由我站的组建的分布式计算小组。希望您在中国分布式总站及论坛里发现乐趣。
  参与分布式计算——一种能充分发挥您的个人电脑的利用价值的最有意义的选择——只需要下载有关程序,然后这个程序会以最低的优先度在计算机上运行,这对平时正常使用计算机几乎没有影响。如果你想利用计算机的空余时间做点有益的事情,还犹豫什么?马上行动起来吧,你的微不足道的付出或许就能使你在人类科学的发展史上留下不小的一笔呢!
  海量数据,分布式计算,并行计算 ,虚拟化与云计算的关系是怎样的?
  回答一:
  海量数据:我们对数据存储扩展性和高可用性,对数据进行分析的效率都提出了要求,第一点涉及到云存储和分布式存储。第二点涉及到分布式计算和并行计算。
  分布式计算和并行计算:并行计算偏科学领域,偏单用户,单请求,在配置多处理机的服务器下处理。分布式计算偏多用户,多请求,涉及多台服务器多个计算单元的分布式处理。分布式计算本身又分为两种,一种是单任务拆分,如mapreduce来实现;一种是多请求分布式调度,涉及到云计算paas层的核心能力。
  虚拟化和云计算:云计算重点是要有可调度的计算单元或存储单元,而且调度单元的粒度不能太粗,否则影响到资源利用,调度单元本身要相互隔离。而虚拟化作用则是对已有计算或存储能力进行拆分,形成标准化的,物理或逻辑上隔离的可调度单元。如果机器本身就是利旧,能力一般,那么虚拟化不是云计算的必备选择。
  回答二:
  分布式,并行和虚拟化是OS里面的传统概念。云计算或多或少的基于这三个,有点新瓶装旧酒的意思。
  回答三:
  半个门外汉,不懂装懂一下吧。
  我们来想象一个用户场景
  你是一个创业者,想开发一个移动应用,需要一个后台,于是自然想到了成本最低的云计算。
  云计算有很多种,典型的是PaaS,SaaS, IaaS.
  你的需求是想要发布自己的网站,自己定制后台的服务器,自己定制数据库。 PHP+MySQL,能用自己的移动应用API。
  云计算:
  于是找到一个云计算提供商,看了看价格,比如 $/cup*mem*hour, $/IO, $/storage. 算了算价格,发现按照你创业初期有1k个用户的预期,开销很小,假设没有用户,一个月内撤销这些机器也亏不了太多。于是下了订单,租用了几台机器。 这便是云计算。
  虚拟化:
  下了订单之后,云计算提供商的后台便开始为你调度机器, 按照你的要求,给你生成了3台RHEL6,1台Windows的机器。 其实这几台机器可能都是在同一宿主机上生成的虚拟机,这便是虚拟化的好处。
  随后,你便在这些环境中部署好了你的服务器和数据库,万事俱备,应用上线。
  海量数据:
  在这1000个用户使用了应用一个月后,产生了大量的用户数据,这才是最宝贵的资源。也许算不上海量,但也有几个G了。其中可以挖掘的包括用户的习惯,关注的热点,甚至能发现程序的瓶颈,等等。 但是这些数据必须被准备和分析后才能产生最直观的human-readable的数据。 于是你想到了用hadoop做一下大数据分析。
  分布式计算:
  你用现成的3台机器搭了一个hadoop集群,开始跑你的分析作业. 这个分析作业的任务是可以分而治之的,在3台机器上的效率将会大大提高。hadoop把这个作业调度到了3台机器上,这便是分布式计算。
  并行计算:
  分配在每一台机器上的子任务的多个进程在同步和通信上做的也很好,做到了很好的并发,这便是并行计算。
  最后,这个作业完成了分析和统计,得到了你想要的结果。
  不知道这样的回答有没有帮助你将这一系列的概念串了起来呢。
  分布式计算与云计算
  先说分布式计算和并行计算的异同:
  解决对象上:都是大任务化为小任务,这是他们共同之处。
  但是分布式的任务包互相之间有独立性,上一个任务包的结果未返回或者是结果处理错误,对下一个任务包的处理几乎没有什么影响。因此,分布式的实时性要求不高,而且允许存在计算错误(因为每个计算任务给好几个参与者计算,上传结果到服务器后要比较结果,然后对结果差异大的进行验证,我个人感觉这样有助于发现科学家们真正想要找的)!
  分布式要处理的问题一般是基于“寻找”模式的。所谓的“寻找”,就相当于穷举法!为了尝试到每一个可能存在的结果,一般从0~某一数值被一个一个的测试,直到我们找到所要求的结果。事实上,为了易于一次性探测到正确的结果,我们假设结果是以某个特殊形式开始的。在这种类型的搜索里,我们也许幸运的一开始就找到答案;也许不够走运以至于到最后才找到答案,这都很公平。
  这么说,并行程序并行处理的任务包之间有很大的联系,而且并行计算的每一个任务块都是必要的,没有浪费的分割的,就是每个任务包都要处理,而且计算结果相互影响,就要求每个的计算结果要绝对正确,而且在时间上要尽量做到同步,而分布式的很多任务块可以根本就不处理,有大量的无用数据块,所以说分布式计算的速度尽管很快,但是真正的“效率”是低之再低的,可能一直在寻找,但是永远都找不到,也可能一开始就找到了;而并行处理不同,它的任务包个数相对有限,在一个有限的时间应该是可能完成的。
  分布式计算提出了一个让工作站端能够在后台持许工作的方法,而用户完全不需关心任何东西。这种实现基于两个原则,其一是任务连续分配和空闲优先权,其二是写一个屏幕保护程序。现在的调度程序已经不错了,而空闲优先任务将在人们完全不用关心任何东西的情况下自动执行。利用屏幕保护程序可以利用计算机闲置的时间计算工作任务。
  分布式的编写一般用的是C++(也有用JAVA的,但是都是娱乐性质的项目了,不是主流),基本不用MPI接口。并行计算用MPI或者OpenMP。如果把网格计算算做分布式计算(网格计算是分布式计算的一种特例,但是有区别,区别仅仅在编程方法和实际应用的范围上),网格计算使用中间件!而且对联网的各台计算机的操作系统的要求比较特殊。
  相关阅读
   云计算概念详解:共享软硬件资源信息
  分布式系统的特点以及设计理念
  本文为 数据观原创精编,转载请注明来源 www.cbdio.com   百度一下“数据观”,获取更多大数据相关资讯
  微信搜索“数据观”,关注后有一大波大数据干货奉送
扫码关注
产业观察
2015-10-09 16:21:46
一文读懂机器学习,大数据/自然语言处理/算法全都有
来源:博客园 时间:2015-09-29 15:13:22 作者:计算机的潜意识
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。
在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?
我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一:
图1 机器学习界的执牛耳者与互联网界的大鳄的联姻
这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授,如今是Facebook人工智能实验室的主任。而左边的大家都很熟悉,Andrew Ng,中文名吴恩达,斯坦福大学副教授,如今也是“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛,被互联网界大鳄求贤若渴的聘请,足见他们的重要性。而他们的研究方向,则全部都是机器学习的子类--深度学习。
下图是图二:
图2 语音助手产品
这幅图上描述的是什么?Windows Phone上的语音助手Cortana,名字来源于《光环》中士官长的助手。相比其他竞争对手,微软很迟才推出这个服务。Cortana背后的核心技术是什么,为什么它能够听懂人的语音?事实上,这个技术正是机器学习。机器学习是所有语音助手产品(包括Apple的siri与Google的Now)能够跟人交互的关键技术。
通过上面两图,我相信大家可以看出机器学习似乎是一个很重要的,有很多未知特性的技术。学习它似乎是一件有趣的任务。实际上,学习机器学习不仅可以帮助我们了解互联网界最新的趋势,同时也可以知道伴随我们的便利服务的实现技术。
机器学习是什么,为什么它能有这么大的魔力,这些问题正是本文要回答的。同时,本文叫做“从机器学习谈起”,因此会以漫谈的形式介绍跟机器学习相关的所有内容,包括学科(如数据挖掘、计算机视觉等),算法(神经网络,svm)等等。
本文的主要目录如下:
1.一个故事说明什么是机器学习
2.机器学习的定义
3.机器学习的范围
4.机器学习的方法
5.机器学习的应用-- 大数据
6.机器学习的子类--深度学习
7.机器学习的父类--人工智能
8.机器学习的思考--计算机的潜意识
9.总结
10.后记
1.一个故事说明什么是机器学习
机器学习这个词是让人疑惑的,首先它是英文名称Machine Learning(简称ML)的直译,在计算界Machine一般指计算机。这个名字使用了拟人的手法,说明了这门技术是让机器“学习”的技术。但是计算机是死的,怎么可能像人类一样“学习”呢?
传统上如果我们想让计算机工作,我们给它一串指令,然后它遵照这个指令一步步执行下去。有因有果,非常明确。但这样的方式在机器学习中行不通。机器学习根本不接受你输入的指令,相反,它接受你输入的数据! 也就是说,机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法。这听起来非常不可思议,但结果上却是非常可行的。“统计”思想将在你学习“机器学习”相关理念时无时无刻不伴随,相关而不是因果的概念将是支撑机器学习能够工作的核心概念。你会颠覆对你以前所有程序中建立的因果无处不在的根本理念。
下面我通过一个故事来简单地阐明什么是机器学习。这个故事比较适合用在知乎上作为一个概念的阐明。在这里,这个故事没有展开,但相关内容与核心是存在的。如果你想简单的了解一下什么是机器学习,那么看完这个故事就足够了。如果你想了解机器学习的更多知识以及与它关联紧密的当代技术,那么请你继续往下看,后面有更多的丰富的内容。
这个例子来源于我真实的生活经验,我在思考这个问题的时候突然发现它的过程可以被扩充化为一个完整的机器学习的过程,因此我决定使用这个例子作为所有介绍的开始。这个故事称为“等人问题”。
我相信大家都有跟别人相约,然后等人的经历。现实中不是每个人都那么守时的,于是当你碰到一些爱迟到的人,你的时间不可避免的要浪费。我就碰到过这样的一个例子。
对我的一个朋友小Y而言,他就不是那么守时,最常见的表现是他经常迟到。当有一次我跟他约好3点钟在某个麦当劳见面时,在我出门的那一刻我突然想到一个问题:我现在出发合适么?我会不会又到了地点后,花上30分钟去等他?我决定采取一个策略解决这个问题。
要想解决这个问题,有好几种方法。第一种方法是采用知识:我搜寻能够解决这个问题的知识。但很遗憾,没有人会把如何等人这个问题作为知识传授,因此我不可能找到已有的知识能够解决这个问题。第二种方法是问他人:我去询问他人获得解决这个问题的能力。但是同样的,这个问题没有人能够解答,因为可能没人碰上跟我一样的情况。第三种方法是准则法:我问自己的内心,我有否设立过什么准则去面对这个问题?例如,无论别人如何,我都会守时到达。但我不是个死板的人,我没有设立过这样的规则。
事实上,我相信有种方法比以上三种都合适。我把过往跟小Y相约的经历在脑海中重现一下,看看跟他相约的次数中,迟到占了多大的比例。而我利用这来预测他这次迟到的可能性。如果这个值超出了我心里的某个界限,那我选择等一会再出发。假设我跟小Y约过5次,他迟到的次数是1次,那么他按时到的比例为80%,我心中的阈值为70%,我认为这次小Y应该不会迟到,因此我按时出门。如果小Y在5次迟到的次数中占了4次,也就是他按时到达的比例为20%,由于这个值低于我的阈值,因此我选择推迟出门的时间。这个方法从它的利用层面来看,又称为经验法。在经验法的思考过程中,我事实上利用了以往所有相约的数据。因此也可以称之为依据数据做的判断。
依据数据所做的判断跟机器学习的思想根本上是一致的。
刚才的思考过程我只考虑“频次”这种属性。在真实的机器学习中,这可能都不算是一个应用。一般的机器学习模型至少考虑两个量:一个是因变量,也就是我们希望预测的结果,在这个例子里就是小Y迟到与否的判断。另一个是自变量,也就是用来预测小Y是否迟到的量。假设我把时间作为自变量,譬如我发现小Y所有迟到的日子基本都是星期五,而在非星期五情况下他基本不迟到。于是我可以建立一个模型,来模拟小Y迟到与否跟日子是否是星期五的概率。见下图:
图3 决策树模型
这样的图就是一个最简单的机器学习模型,称之为决策树。
当我们考虑的自变量只有一个时,情况较为简单。如果把我们的自变量再增加一个。例如小Y迟到的部分情况时是在他开车过来的时候(你可以理解为他开车水平较臭,或者路较堵)。于是我可以关联考虑这些信息。建立一个更复杂的模型,这个模型包含两个自变量与一个因变量。
再更复杂一点,小Y的迟到跟天气也有一定的原因,例如下雨的时候,这时候我需要考虑三个自变量。
如果我希望能够预测小Y迟到的具体时间,我可以把他每次迟到的时间跟雨量的大小以及前面考虑的自变量统一建立一个模型。于是我的模型可以预测值,例如他大概会迟到几分钟。这样可以帮助我更好的规划我出门的时间。在这样的情况下,决策树就无法很好地支撑了,因为决策树只能预测离散值。我们可以用节2所介绍的线型回归方法建立这个模型。
如果我把这些建立模型的过程交给电脑。比如把所有的自变量和因变量输入,然后让计算机帮我生成一个模型,同时让计算机根据我当前的情况,给出我是否需要迟出门,需要迟几分钟的建议。那么计算机执行这些辅助决策的过程就是机器学习的过程。
机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。
通过上面的分析,可以看出机器学习与人类思考的经验过程是类似的,不过它能考虑更多的情况,执行更加复杂的计算。事实上,机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。经过计算机得出的模型能够以近似于人的方式解决很多灵活复杂的问题。
下面,我会开始对机器学习的正式介绍,包括定义、范围,方法、应用等等,都有所包含。
2.机器学习的定义
从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
让我们具体看一个例子。
图4 房价的例子
拿国民话题的房子来说。现在我手里有一栋房子需要售卖,我应该给它标上多大的价格?房子的面积是100平方米,价格是100万,120万,还是140万?
很显然,我希望获得房价与面积的某种规律。那么我该如何获得这个规律?用报纸上的房价平均数据么?还是参考别人面积相似的?无论哪种,似乎都并不是太靠谱。
我现在希望获得一个合理的,并且能够最大程度的反映面积与房价关系的规律。于是我调查了周边与我房型类似的一些房子,获得一组数据。这组数据中包含了大大小小房子的面积与价格,如果我能从这组数据中找出面积与价格的规律,那么我就可以得出房子的价格。
对规律的寻找很简单,拟合出一条直线,让它“穿过”所有的点,并且与各个点的距离尽可能的小。
通过这条直线,我获得了一个能够最佳反映房价与面积规律的规律。这条直线同时也是一个下式所表明的函数:
房价 = 面积 * a + b
上述中的a、b都是直线的参数。获得这些参数以后,我就可以计算出房子的价格。
假设a = 0.75,b = 50,则房价 = 100 * 0.75 + 50 = 125万。这个结果与我前面所列的100万,120万,140万都不一样。由于这条直线综合考虑了大部分的情况,因此从“统计”意义上来说,这是一个最合理的预测。
在求解过程中透露出了两个信息:
1.房价模型是根据拟合的函数类型决定的。如果是直线,那么拟合出的就是直线方程。如果是其他类型的线,例如抛物线,那么拟合出的就是抛物线方程。机器学习有众多算法,一些强力算法可以拟合出复杂的非线性模型,用来反映一些不是直线所能表达的情况。
2.如果我的数据越多,我的模型就越能够考虑到越多的情况,由此对于新情况的预测效果可能就越好。这是机器学习界“数据为王”思想的一个体现。一般来说(不是绝对),数据越多,最后机器学习生成的模型预测的效果越好。
通过我拟合直线的过程,我们可以对机器学习过程做一个完整的回顾。首先,我们需要在计算机中存储历史的数据。接着,我们将这些 数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”,处理的结果可以被我们用来对新的数据进行预测,这个结果一般称之为“模型”。对新数据 的预测过程在机器学习中叫做“预测”。“训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导 “预测”。
让我们把机器学习的过程与人类对历史经验归纳的过程做个比对。
图5 机器学习与人类思考的类比
人类在成长、生活过程中积累了很多的历史与经验。人类定期地对这些经验进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。
机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。通过这样的对应,我们可以发现,机器学习的思想并不复杂,仅仅是对人类在生活中学习成长的一个模拟。由于机器学习不是基于编程形成的结果,因此它的处理过程不是因果的逻辑,而是通过归纳思想得出的相关性结论。
这也可以联想到人类为什么要学习历史,历史实际上是人类过往经验的总结。有句话说得很好,“历史往往不一样,但历史总是惊人的相似”。通过学习历史,我们从历史中归纳出人生与国家的规律,从而指导我们的下一步工作,这是具有莫大价值的。当代一些人忽视了历史的本来价值,而是把其作为一种宣扬功绩的手段,这其实是对历史真实价值的一种误用。
3.机器学习的范围
上文虽然说明了机器学习是什么,但是并没有给出机器学习的范围。
其实,机器学习跟模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域有着很深的联系。
从范围上来说,机器学习跟模式识别,统计学习,数据挖掘是类似的,同时,机器学习与其他领域的处理技术的结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。因此,一般说数据挖掘时,可以等同于说机器学习。同时,我们平常所说的机器学习应用,应该是通用的,不仅仅局限在结构化数据,还有图像,音频等应用。
在这节对机器学习这些相关领域的介绍有助于我们理清机器学习的应用场景与研究范围,更好的理解后面的算法与应用层次。
下图是机器学习所牵扯的一些相关范围的学科与研究领域。

图6 机器学习与相关学科
模式识别
模式识别=机器学习。两者的主要区别在于前者是从工业界发展起来的概念,后者则主要源自计算机学科。在著名的《Pattern Recognition And Machine Learning》这本书中,Christopher M. Bishop在开头是这样说的“模式识别源自工业界,而机器学习来自于计算机学科。不过,它们中的活动可以被视为同一个领域的两个方面,同时在过去的10年间,它们都有了长足的发展”。
数据挖掘
数据挖掘=机器学习+数据库。这几年数据挖掘的概念实在是太耳熟能详。几乎等同于炒作。但凡说数据挖掘都会吹嘘数据挖掘如何如何,例如从数据中挖出金子,以及将废弃的数据转化为价值等等。但是,我尽管可能会挖出金子,但我也可能挖的是“石头”啊。这个说法的意思是,数据挖掘仅仅是一种思考方式,告诉我们应该尝试从数据中挖掘出知识,但不是每个数据都能挖掘出金子的,所以不要神话它。一个系统绝对不会因为上了一个数据挖掘模块就变得无所不能(这是IBM最喜欢吹嘘的),恰恰相反,一个拥有数据挖掘思维的人员才是关键,而且他还必须对数据有深刻的认识,这样才可能从数据中导出模式指引业务的改善。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。
统计学习
统计学习近似等于机器学习。统计学习是个与机器学习高度重叠的学科。因为机器学习中的大多数方法来自统计学,甚至可以认为,统计学的发展促进机器学习的繁荣昌盛。例如著名的支持向量机算法,就是源自统计学科。但是在某种程度上两者是有分别的,这个分别在于:统计学习者重点关注的是统计模型的发展与优化,偏数学,而机器学习者更关注的是能够解决问题,偏实践,因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。
计算机视觉
计算机视觉=图像处理+机器学习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。计算机视觉相关的应用非常的多,例如百度识图、手写字符识别、车牌识别等等应用。这个领域是应用前景非常火热的,同时也是研究的热门方向。随着机器学习的新领域深度学习的发展,大大促进了计算机图像识别的效果,因此未来计算机视觉界的发展前景不可估量。
语音识别
语音识别=语音处理+机器学习。语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,一般会结合自然语言处理的相关技术。目前的相关应用有苹果的语音助手siri等。
自然语言处理
自然语言处理=文本处理+机器学习。自然语言处理技术主要是让机器理解人类的语言的一门领域。在自然语言处理技术中,大量使用了编译原理相关的技术,例如词法分析,语法分析等等,除此之外,在理解这个层面,则使用了语义理解,机器学习等技术。作为唯一由人类自身创造的符号,自然语言处理一直是机器学习界不断研究的方向。按照百度机器学习专家余凯的说法“听与看,说白了就是阿猫和阿狗都会的,而只有语言才是人类独有的”。如何利用机器学习技术进行自然语言的的深度理解,一直是工业和学术界关注的焦点。
可以看出机器学习在众多领域的外延和应用。机器学习技术的发展促使了很多智能领域的进步,改善着我们的生活。
4.机器学习的方法
通过上节的介绍我们知晓了机器学习的大致范围,那么机器学习里面究竟有多少经典的算法呢?在这个部分我会简要介绍一下机器学习中的经典代表方法。这部分介绍的重点是这些方法内涵的思想,数学与实践细节不会在这讨论。
1、回归算法
在大部分机器学习课程中,回归算法都是介绍的第一个算法。原因有两个:一.回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。回归算法有两个重要的子类:即线性回归和逻辑回归。
线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据?一般使用“最小二乘法”来求解。“最小二乘法”的思想是这样的,假设我们拟合出的直线代表数据的真实值,而观测到的数据代表拥有误差的值。为了尽可能减小误差的影响,需要求解一条直线使所有误差的平方和最小。最小二乘法将最优问题转化为求函数极值问题。函数极值在数学上我们一般会采用求导数为0的方法。但这种做法并不适合计算机,可能求解不出来,也可能计算量太大。
计算机科学界专门有一个学科叫“数值计算”,专门用来提升计算机进行各类计算时的准确性和效率问题。例如,著名的“梯度下降”以及“牛顿法”就是数值计算中的经典算法,也非常适合来处理求解函数极值的问题。梯度下降法是解决回归模型中最简单且有效的方法之一。从严格意义上来说,由于后文中的神经网络和推荐算法中都有线性回归的因子,因此梯度下降法在后面的算法实现中也有应用。
逻辑回归是一种与线性回归非常类似的算法,但是,从本质上讲,线型回归处理的问题类型与逻辑回归不一致。线性回归处理的是数值问题,也就是最后预测出的结果是数字,例如房价。而逻辑回归属于分类算法,也就是说,逻辑回归预测结果是离散的分类,例如判断这封邮件是否是垃圾邮件,以及用户是否会点击此广告等等。
实现方面的话,逻辑回归只是对对线性回归的计算结果加上了一个Sigmoid函数,将数值结果转化为了0到1之间的概率(Sigmoid函数的图像一般来说并不直观,你只需要理解对数值越大,函数越逼近1,数值越小,函数越逼近0),接着我们根据这个概率可以做预测,例如概率大于0.5,则这封邮件就是垃圾邮件,或者肿瘤是否是恶性的等等。从直观上来说,逻辑回归是画出了一条分类线,见下图。

图7 逻辑回归的直观解释
假设我们有一组肿瘤患者的数据,这些患者的肿瘤中有些是良性的(图中的蓝色点),有些是恶性的(图中的红色点)。这里肿瘤的红蓝色可以被称作数据的“标签”。同时每个数据包括两个“特征”:患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上,形成了我上图的数据。
当我有一个绿色的点时,我该判断这个肿瘤是恶性的还是良性的呢?根据红蓝点我们训练出了一个逻辑回归模型,也就是图中的分类线。这时,根据绿点出现在分类线的左侧,因此我们判断它的标签应该是红色,也就是说属于恶性肿瘤。
逻辑回归算法划出的分类线基本都是线性的(也有划出非线性分类线的逻辑回归,不过那样的模型在处理数据量较大的时候效率会很低),这意味着当两类之间的界线不是线性时,逻辑回归的表达能力就不足。下面的两个算法是机器学习界最强大且重要的算法,都可以拟合出非线性的分类线。
2、神经网络
神经网络(也称之为人工神经网络,ANN)算法是80年代机器学习界非常流行的算法,不过在90年代中途衰落。现在,携着“深度学习”之势,神经网络重装归来,重新成为最强大的机器学习算法之一。
神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。机器学习的学者们使用神经网络进行机器学习的实验,发现在视觉与语音的识别上效果都相当好。在BP算法(加速神经网络训练过程的数值算法)诞生以后,神经网络的发展进入了一个热潮。BP算法的发明人之一是前面介绍的机器学习大牛Geoffrey Hinton(图1中的中间者)。
具体说来,神经网络的学习机理是什么?简单来说,就是分解与整合。在著名的Hubel-Wiesel试验中,学者们研究猫的视觉分析机理是这样的。
图8 Hubel-Wiesel试验与大脑视觉机理
比方说,一个正方形,分解为四个折线进入视觉处理的下一层中。四个神经元分别处理一个折线。每个折线再继续被分解为两条直线,每条直线再被分解为黑白两个面。于是,一个复杂的图像变成了大量的细节进入神经元,神经元处理以后再进行整合,最后得出了看到的是正方形的结论。这就是大脑视觉识别的机理,也是神经网络工作的机理。
让我们看一个简单的神经网络的逻辑架构。在这个网络中,分成输入层,隐藏层,和输出层。输入层负责接收信号,隐藏层负责对数据的分解与处理,最后的结果被整合到输出层。每层中的一个圆代表一个处理单元,可以认为是模拟了一个神经元,若干个处理单元组成了一个层,若干个层再组成了一个网络,也就是"神经网络"。
图9 神经网络的逻辑架构
在神经网络中,每个处理单元事实上就是一个逻辑回归模型,逻辑回归模型接收上层的输入,把模型的预测结果作为输出传输到下一个层次。通过这样的过程,神经网络可以完成非常复杂的非线性分类。
下图会演示神经网络在图像识别领域的一个著名应用,这个程序叫做LeNet,是一个基于多个隐层构建的神经网络。通过LeNet可以识别多种手写数字,并且达到很高的识别精度与拥有较好的鲁棒性。

图10 LeNet的效果展示
右下方的方形中显示的是输入计算机的图像,方形上方的红色字样“answer”后面显示的是计算机的输出。左边的三条竖直的图像列显示的是神经网络中三个隐藏层的输出,可以看出,随着层次的不断深入,越深的层次处理的细节越低,例如层3基本处理的都已经是线的细节了。LeNet的发明人就是前文介绍过的机器学习的大牛Yann LeCun(图1右者)。
进入90年代,神经网络的发展进入了一个瓶颈期。其主要原因是尽管有BP算法的加速,神经网络的训练过程仍然很困难。因此90年代后期支持向量机(SVM)算法取代了神经网络的地位。
3、SVM(支持向量机)
支持向量机算法是诞生于统计学习界,同时在机器学习界大放光彩的经典算法。
支持向量机算法从某种意义上来说是逻辑回归算法的强化:通过给予逻辑回归算法更严格的优化条件,支持向量机算法可以获得比逻辑回归更好的分类界线。但是如果没有某类函数技术,则支持向量机算法最多算是一种更好的线性分类技术。
但是,通过跟高斯“核”的结合,支持向量机可以表达出非常复杂的分类界线,从而达成很好的的分类效果。“核”事实上就是一种特殊的函数,最典型的特征就是可以将低维的空间映射到高维的空间。
例如下图所示:
图11 支持向量机图例
我们如何在二维平面划分出一个圆形的分类界线?在二维平面可能会很困难,但是通过“核”可以将二维空间映射到三维空间,然后使用一个线性平面就可以达成类似效果。也就是说,二维平面划分出的非线性分类界线可以等价于三维平面的线性分类界线。于是,我们可以通过在三维空间中进行简单的线性划分就可以达到在二维平面中的非线性划分效果。
图12 三维空间的切割
支持向量机是一种数学成分很浓的机器学习算法(相对的,神经网络则有生物科学成分)。在算法的核心步骤中,有一步证明,即将数据从低维映射到高维不会带来最后计算复杂性的提升。于是,通过支持向量机算法,既可以保持计算效率,又可以获得非常好的分类效果。因此支持向量机在90年代后期一直占据着机器学习中最核心的地位,基本取代了神经网络算法。直到现在神经网络借着深度学习重新兴起,两者之间才又发生了微妙的平衡转变。
4、聚类算法
前面的算法中的一个显著特征就是我的训练数据中包含了标签,训练出的模型可以对其他未知数据预测标签。在下面的算法中,训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签。这类算法有一个统称,即无监督算法(前面有标签的数据的算法则是有监督算法)。无监督算法中最典型的代表就是聚类算法。
让我们还是拿一个二维的数据来说,某一个数据包含两个特征。我希望通过聚类算法,给他们中不同的种类打上标签,我该怎么做呢?简单来说,聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。
聚类算法中最典型的代表就是K-Means算法。
5、降维算法
降维算法也是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。在这里,维度其实表示的是数据的特征量的大小,例如,房价包含房子的长、宽、面积与房间数量四个特征,也就是维度为4维的数据。可以看出来,长与宽事实上与面积表示的信息重叠了,例如面积=长 × 宽。通过降维算法我们就可以去除冗余信息,将特征减少为面积与房间数量两个特征,即从4维的数据压缩到2维。于是我们将数据从高维降低到低维,不仅利于表示,同时在计算上也能带来加速。
刚才说的降维过程中减少的维度属于肉眼可视的层次,同时压缩也不会带来信息的损失(因为信息冗余了)。如果肉眼不可视,或者没有冗余的特征,降维算法也能工作,不过这样会带来一些信息的损失。但是,降维算法可以从数学上证明,从高维压缩到的低维中最大程度地保留了数据的信息。因此,使用降维算法仍然有很多的好处。
降维算法的主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法,可以将具有几千个特征的数据压缩至若干个特征。另外,降维算法的另一个好处是数据的可视化,例如将5维的数据压缩至2维,然后可以用二维平面来可视。降维算法的主要代表是PCA算法(即主成分分析算法)。
6、推荐算法
推荐算法是目前业界非常火的一种算法,在电商界,如亚马逊,天猫,京东等得到了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购买率,提升效益。推荐算法有两个主要的类别:
一类是基于物品内容的推荐,是将与用户购买的内容近似的物品推荐给用户,这样的前提是每个物品都得有若干个标签,因此才可以找出与用户购买物品类似的物品,这样推荐的好处是关联程度较大,但是由于每个物品都需要贴标签,因此工作量较大。
另一类是基于用户相似度的推荐,则是将与目标用户兴趣相同的其他用户购买的东西推荐给目标用户,例如小A历史上买了物品B和C,经过算法分析,发现另一个与小A近似的用户小D购买了物品E,于是将物品E推荐给小A。
两类推荐都有各自的优缺点,在一般的电商应用中,一般是两类混合使用。推荐算法中最有名的算法就是协同过滤算法。
7、其他
除了以上算法之外,机器学习界还有其他的如高斯判别,朴素贝叶斯,决策树等等算法。但是上面列的六个算法是使用最多,影响最广,种类最全的典型。机器学习界的一个特色就是算法众多,发展百花齐放。
下面做一个总结,按照训练的数据有无标签,可以将上面算法分为监督学习算法和无监督学习算法,但推荐算法较为特殊,既不属于监督学习,也不属于非监督学习,是单独的一类。
监督学习算法:
线性回归,逻辑回归,神经网络,SVM
无监督学习算法:
聚类算法,降维算法
特殊算法:
推荐算法
除了这些算法以外,有一些算法的名字在机器学习领域中也经常出现。但他们本身并不算是一个机器学习算法,而是为了解决某个子问题而诞生的。你可以理解他们为以上算法的子算法,用于大幅度提高训练过程。其中的代表有:梯度下降法,主要运用在线型回归,逻辑回归,神经网络,推荐算法中;牛顿法,主要运用在线型回归中;BP算法,主要运用在神经网络中;SMO算法,主要运用在SVM中。
5.机器学习的应用--大数据
说完机器学习的方法,下面要谈一谈机器学习的应用了。无疑,在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络攻击防范,手写字符识别等等。但是,从2010年以后,随着 大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。
譬如,但凡你能找到的介绍大数据魔力的文章,都会说大数据如何准确准确预测到了某些事。例如经典的Google利用大数据预测了H1N1在美国某小镇的爆发。
图13 Google成功预测H1N1
百度预测2014年世界杯,从淘汰赛到决赛全部预测正确。
图14 百度世界杯成功预测了所有比赛结果
这些实在太神奇了,那么究竟是什么原因导致大数据具有这些魔力的呢?简单来说,就是机器学习技术。正是基于机器学习技术的应用,数据才能发挥其魔力。
大数据的核心是利用数据的价值,机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的。相反,对于机器学习而言,越多的数据会越 可能提升模型的精确性,同时,复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术。因此,机器学习的兴盛也离不开大数据的帮助。 大数据与机器学习两者是互相促进,相依相存的关系。
机器学习与大数据紧密联系。但是,必须清醒的认识到,大数据并不等同于机器学习,同理,机器学习也不等同于大数据。大数据中包含有分布式计算,内存数据库,多维分析等等多种技术。单从分析方法来看,大数据也包含以下四种分析方法:
1.大数据,小分析:即数据仓库领域的OLAP分析思路,也就是多维分析思想。
2.大数据,大分析:这个代表的就是数据挖掘与机器学习分析法。
3.流式分析:这个主要指的是事件驱动架构。
4.查询分析:经典代表是NoSQL数据库。
也就是说,机器学习仅仅是 大数据分析中的一种而已。尽管机器学习的一些结果具有很大的魔力,在某种场合下是大数据价值最好的说明。但这并不代表机器学习是大数据下的唯一的分析方法。
机器学习与大数据的结合产生了巨大的价值。基于机器学习技术的发展,数据能够“预测”。对人类而言,积累的经验越丰富,阅历也广泛,对未来的判断越准确。例如常说的“经验丰富”的人比“初出茅庐”的小伙子更有工作上的优势,就在于经验丰富的人获得的规律比他人更准确。而在机器学习领域,根据著名的一个实验,有效的证实了机器学习界一个理论:即机器学习模型的数据越多,机器学习的预测的效率就越好。见下图:

图15 机器学习准确率与数据的关系
通过这张图可以看出,各种不同算法在输入的数据量达到一定级数后,都有相近的高准确度。于是诞生了机器学习界的名言:成功的机器学习应用不是拥有最好的算法,而是拥有最多的数据!
在大数据的时代,有好多优势促使机器学习能够应用更广泛。例如随着物联网和移动设备的发展,我们拥有的数据越来越多,种类也包括图片、文本、视频等非结构化数据,这使得机器学习模型可以获得越来越多的数据。同时大数据技术中的分布式计算Map-Reduce使得机器学习的速度越来越快,可以更方便的使用。种种优势使得在大数据时代,机器学习的优势可以得到最佳的发挥。
6.机器学习的子类--深度学习
近来,机器学习的发展产生了一个新的方向,即“深度学习”。
虽然深度学习这四字听起来颇为高大上,但其理念却非常简单,就是传统的神经网络发展到了多隐藏层的情况。
在上文介绍过,自从90年代以后,神经网络已经消寂了一段时间。但是BP算法的发明人Geoffrey Hinton一直没有放弃对神经网络的研究。由于神经网络在隐藏层扩大到两个以上,其训练速度就会非常慢,因此实用性一直低于支持向量机。2006年,Geoffrey Hinton在科学杂志《Science》上发表了一篇文章,论证了两个观点:
1.多隐层的神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;
2.深度神经网络在训练上的难度,可以通过“逐层初始化” 来有效克服。
图16 Geoffrey Hinton与他的学生在Science上发表文章
通过这样的发现,不仅解决了神经网络在计算上的难度,同时也说明了深层神经网络在学习上的优异性。从此,神经网络重新成为了机器学习界中的主流强大学习技术。同时,具有多个隐藏层的神经网络被称为深度神经网络,基于深度神经网络的学习研究称之为深度学习。
由于深度学习的重要性质,在各方面都取得极大的关注,按照时间轴排序,有以下四个标志性事件值得一说:
2012年6月,《纽约时报》披露了Google Brain项目,这个项目是由Andrew Ng和Map-Reduce发明人Jeff Dean共同主导,用16000个CPU Core的并行计算平台训练一种称为“深层神经网络”的机器学习模型,在语音识别和图像识别等领域获得了巨大的成功。Andrew Ng就是文章开始所介绍的机器学习的大牛(图1中左者)。
2012年11月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译,以及中文语音合成,效果非常流畅,其中支撑的关键技术是深度学习;
2013年1月,在百度的年会上,创始人兼CEO李彦宏高调宣布要成立百度研究院,其中第一个重点方向就是深度学习,并为此而成立深度学习研究院(IDL)。
2013年4月,《麻省理工学院技术评论》杂志将深度学习列为2013年十大突破性技术(Breakthrough Technology)之首。
图17 深度学习的发展热潮
文章开头所列的三位机器学习的大牛,不仅都是机器学习界的专家,更是深度学习研究领域的先驱。因此,使他们担任各个大型互联网公司技术掌舵者的原因不仅在于他们的技术实力,更在于他们研究的领域是前景无限的深度学习技术。
目前业界许多的图像识别技术与语音识别技术的进步都源于深度学习的发展,除了本文开头所提的Cortana等语音助手,还包括一些图像识别应用,其中典型的代表就是下图的百度识图功能。
图18 百度识图
深度学习属于机器学习的子类。基于深度学习的发展极大的促进了机器学习的地位提高,更进一步地,推动了业界对机器学习父类 人工智能梦想的再次重视。
7.机器学习的父类--人工智能
人工智能是机器学习的父类。深度学习则是机器学习的子类。如果把三者的关系用图来表明的话,则是下图:
图19 深度学习、机器学习、人工智能三者关系
毫无疑问,人工智能(AI)是人类所能想象的科技界最突破性的发明了,某种意义上来说,人工智能就像游戏最终幻想的名字一样,是人类对于科技界的最终梦想。从50年代提出人工智能的理念以后,科技界,产业界不断在探索,研究。这段时间各种小说、电影都在以各种方式展现对于人工智能的想象。人类可以发明类似于人类的机器,这是多么伟大的一种理念!但事实上,自从50年代以后,人工智能的发展就磕磕碰碰,未有见到足够震撼的科学技术的进步。
总结起来,人工智能的发展经历了如下若干阶段,从早期的逻辑推理,到中期的专家系统,这些科研进步确实使我们离机器的智能有点接近了,但还有一大段距离。直到机器学习诞生以后,人工智能界感觉终于找对了方向。基于机器学习的图像识别和语音识别在某些垂直领域达到了跟人相媲美的程度。机器学习使人类第一次如此接近人工智能的梦想。
事实上,如果我们把人工智能相关的技术以及其他业界的技术做一个类比,就可以发现机器学习在人工智能中的重要地位不是没有理由的。
人类区别于其他物体,植物,动物的最主要区别,作者认为是“智慧”。而智慧的最佳体现是什么?
是计算能力么,应该不是,心算速度快的人我们一般称之为天才。
是反应能力么,也不是,反应快的人我们称之为灵敏。
是记忆能力么,也不是,记忆好的人我们一般称之为过目不忘。
是推理能力么,这样的人我也许会称他智力很高,类似“福尔摩斯”,但不会称他拥有智慧。
是知识能力么,这样的人我们称之为博闻广,也不会称他拥有智慧。
想想看我们一般形容谁有大智慧?圣人,诸如庄子,老子等。智慧是对生活的感悟,是对人生的积淀与思考,这与我们机器学习的思想何其相似?通过经验获取规律,指导人生与未来。没有经验就没有智慧。
图20 机器学习与智慧
那么,从计算机来看,以上的种种能力都有种种技术去应对。
例如计算能力我们有分布式计算,反应能力我们有事件驱动架构,检索能力我们有搜索引擎,知识存储能力我们有数据仓库,逻辑推理能力我们有专家系统,但是,唯有对应智慧中最显著特征的归纳与感悟能力,只有机器学习与之对应。这也是机器学习能力最能表征智慧的根本原因。
让我们再看一下机器人的制造,在我们具有了强大的计算,海量的存储,快速的检索,迅速的反应,优秀的逻辑推理后我们如果再配合上一个强大的智慧大脑,一个真正意义上的人工智能也许就会诞生,这也是为什么说在机器学习快速发展的现在,人工智能可能不再是梦想的原因。
人工智能的发展可能不仅取决于机器学习,更取决于前面所介绍的深度学习,深度学习技术由于深度模拟了人类大脑的构成,在视觉识别与语音识别上显著性的突破了原有机器学习技术的界限,因此极有可能是真正实现人工智能梦想的关键技术。无论是谷歌大脑还是百度大脑,都是通过海量层次的深度学习网络所构成的。也许借助于深度学习技术,在不远的将来,一个具有人类智能的计算机真的有可能实现。
最后再说一下题外话,由于人工智能借助于深度学习技术的快速发展,已经在某些地方引起了传统技术界达人的担忧。真实世界的“钢铁侠”,特斯拉CEO马斯克就是其中之一。最近马斯克在参加MIT讨论会时,就表达了对于人工智能的担忧。“人工智能的研究就类似于召唤恶魔,我们必须在某些地方加强注意。”
图21 马斯克与人工智能
尽管马斯克的担心有些危言耸听,但是马斯克的推理不无道理。“如果人工智能想要消除垃圾邮件的话,可能它最后的决定就是消灭人类。”马斯克认为预防此类现象的方法是引入政府的监管。在这里作者的观点与马斯克类似,在人工智能诞生之初就给其加上若干规则限制可能有效,也就是不应该使用单纯的机器学习,而应该是机器学习与规则引擎等系统的综合能够较好的解决这类问题。因为如果学习没有限制,极有可能进入某个误区,必须要加上某些引导。正如人类社会中,法律就是一个最好的规则,杀人者死就是对于人类在探索提高生产力时不可逾越的界限。
在这里,必须提一下这里的规则与机器学习引出的规律的不同,规律不是一个严格意义的准则,其代表的更多是概率上的指导,而规则则是神圣不可侵犯,不可修改的。规律可以调整,但规则是不能改变的。有效的结合规律与规则的特点,可以引导出一个合理的,可控的学习型人工智能。
8.机器学习的思考--计算机的潜意识
最后,作者想谈一谈关于机器学习的一些思考。主要是作者在日常生活总结出来的一些感悟。
回想一下我在节1里所说的故事,我把小Y过往跟我相约的经历做了一个罗列。但是这种罗列以往所有经历的方法只有少数人会这么做,大部分的人采用的是更直接的方法,即利用直觉。那么,直觉是什么?其实直觉也是你在潜意识状态下思考经验后得出的规律。就像你通过机器学习算法,得到了一个模型,那么你下次只要直接使用就行了。那么这个规律你是什么时候思考的?可能是在你无意识的情况下,例如睡觉,走路等情况。这种时候,大脑其实也在默默地做一些你察觉不到的工作。
这种直觉与潜意识,我把它与另一种人类思考经验的方式做了区分。如果一个人勤于思考,例如他会每天做一个小结,譬如“吾日三省吾身”,或者他经常与同伴讨论最近工作的得失,那么他这种训练模型的方式是直接的,明意识的思考与归纳。这样的效果很好,记忆性强,并且更能得出有效反应现实的规律。但是大部分的人可能很少做这样的总结,那么他们得出生活中规律的方法使用的就是潜意识法。
举一个作者本人关于潜意识的例子。作者本人以前没开过车,最近一段时间买了车后,天天开车上班。我每天都走固定的路线。有趣的是,在一开始的几天,我非常紧张的注意着前方的路况,而现在我已经在无意识中就把车开到了目标。这个过程中我的眼睛是注视着前方的,我的大脑是没有思考,但是我手握着的方向盘会自动的调整方向。也就是说。随着我开车次数的增多,我已经把我开车的动作交给了潜意识。这是非常有趣的一件事。在这段过程中,我的大脑将前方路况的图像记录了下来,同时大脑也记忆了我转动方向盘的动作。经过大脑自己的潜意识思考,最后生成的潜意识可以直接根据前方的图像调整我手的动作。假设我们将前方的录像交给计算机,然后让计算机记录与图像对应的驾驶员的动作。经过一段时间的学习,计算机生成的机器学习模型就可以进行自动驾驶了。这很神奇,不是么。其实包括Google、特斯拉在内的自动驾驶汽车技术的原理就是这样。
除了自动驾驶汽车以外,潜意识的思想还可以扩展到人的交际。譬如说服别人,一个最佳的方法就是给他展示一些信息,然后让他自己去归纳得出我们想要的结论。这就好比在阐述一个观点时,用一个事实,或者一个故事,比大段的道理要好很多。古往今来,但凡优秀的说客,无不采用的是这种方法。春秋战国时期,各国合纵连横,经常有各种说客去跟一国之君交流,直接告诉君主该做什么,无异于自寻死路,但是跟君主讲故事,通过这些故事让君主恍然大悟,就是一种正确的过程。这里面有许多杰出的代表,如墨子,苏秦等等。
基本上所有的交流过程,使用故事说明的效果都要远胜于阐述道义之类的效果好很多。为什么用故事的方法比道理或者其他的方法好很多,这是因为在人成长的过程,经过自己的思考,已经形成了很多规律与潜意识。如果你告诉的规律与对方的不相符,很有可能出于保护,他们会本能的拒绝你的新规律,但是如果你跟他讲一个故事,传递一些信息,输送一些数据给他,他会思考并自我改变。他的思考过程实际上就是机器学习的过程,他把新的数据纳入到他的旧有的记忆与数据中,经过重新训练。如果你给出的数据的信息量非常大,大到调整了他的模型,那么他就会按照你希望的规律去做事。有的时候,他会本能的拒绝执行这个思考过程,但是数据一旦输入,无论他希望与否,他的大脑都会在潜意识状态下思考,并且可能改变他的看法。
如果计算机也拥有潜意识(正如本博客的名称一样),那么会怎么样?譬如让计算机在工作的过程中,逐渐产生了自身的潜意识,于是甚至可以在你不需要告诉它做什么时它就会完成那件事。这是个非常有意思的设想,这里留给各位读者去发散思考吧。
9.总结
本文首先介绍了互联网界与机器学习大牛结合的趋势,以及使用机器学习的相关应用,接着以一个“等人故事”展开对机器学习的介绍。介绍中首先是机器学习的概念与定义,然后是机器学习的相关学科,机器学习中包含的各类学习算法,接着介绍机器学习与大数据的关系,机器学习的新子类深度学习,最后探讨了一下机器学习与人工智能发展的联系以及机器学习与潜意识的关联。经过本文的介绍,相信大家对机器学习技术有一定的了解,例如机器学习是什么,它的内核思想是什么(即统计和归纳),通过了解机器学习与人类思考的近似联系可以知晓机器学习为什么具有智慧能力的原因等等。其次,本文漫谈了机器学习与外延学科的关系,机器学习与大数据相互促进相得益彰的联系,机器学习界最新的深度学习的迅猛发展,以及对于人类基于机器学习开发智能机器人的一种展望与思考,最后作者简单谈了一点关于让计算机拥有潜意识的设想。
机器学习是目前业界最为Amazing与火热的一项技术,从网上的每一次淘宝的购买东西,到自动驾驶汽车技术,以及网络攻击抵御系统等等,都有机器学习的因子在内,同时机器学习也是最有可能使人类完成AI dream的一项技术,各种人工智能目前的应用,如微软小冰聊天机器人,到计算机视觉技术的进步,都有机器学习努力的成分。作为一名当代的计算机领域的开发或管理人员,以及身处这个世界,使用者IT技术带来便利的人们,最好都应该了解一些机器学习的相关知识与概念,因为这可以帮你更好的理解为你带来莫大便利技术的背后原理,以及让你更好的理解当代科技的进程。
10.后记
这篇文档花了作者两个月的时间,终于在2014年的最后一天的前一天基本完成。通过这篇文章,作者希望对机器学习在国内的普及做一点贡献,同时也是作者本人自己对于所学机器学习知识的一个融汇贯通,整体归纳的提高过程。作者把这么多的知识经过自己的大脑思考,训练出了一个模型,形成了这篇文档,可以说这也是一种机器学习的过程吧(笑)。
作者所在的行业会接触到大量的数据,因此对于数据的处理和分析是平常非常重要的工作,机器学习课程的思想和理念对于作者日常的工作指引作用极大,几乎导致了作者对于数据价值的重新认识。想想半年前,作者还对机器学习似懂非懂,如今也可以算是一个机器学习的Expert了(笑)。但作者始终认为,机器学习的真正应用不是通过概念或者思想的方式,而是通过实践。只有当把机器学习技术真正应用时,才可算是对机器学习的理解进入了一个层次。正所谓再“阳春白雪”的技术,也必须落到“下里巴人”的场景下运用。目前有一种风气,国内外研究机器学习的某些学者,有一种高贵的逼格,认为自己的研究是普通人无法理解的,但是这样的理念是根本错误的,没有在真正实际的地方发挥作用,凭什么证明你的研究有所价值呢?作者认为必须将高大上的技术用在改变普通人的生活上,才能发挥其根本的价值。一些简单的场景,恰恰是实践机器学习技术的最好地方。
最后,作者很感谢能够阅读到这里的读者。如果看完觉得好的话,还请轻轻点一下赞,你们的鼓励就是作者继续行文的动力。
对EasyPR做下说明:EasyPR,一个开源的中文车牌识别系统,代码托管在github。其次,在前面的博客文章中,包含EasyPR至今的开发文档与介绍。在后续的文章中,作者会介绍EasyPR中基于机器学习技术SVM的应用即车牌判别模块的核心内容,欢迎继续阅读。
版权说明:
来源:博客园
作者:计算机的潜意识
参考文献:
1.Andrew Ng Courera Machine Learning
2.LeNet Homepage
3.pluskid svm
产业观察
2015-09-29 15:13:22
大数据平台建设实践与探讨
来源:程序员杂志 时间:2015-09-28 10:35:47 作者:王锋
  “人类正从IT时代走向DT时代”,2014年三月在北京举行的一场大数据产业推介会上,阿里巴巴集团创始人马云在主题演讲中发表了他的这一观点。这个观念提法很快就被广泛传播开来,并被人们所接受。这里笔者不准备大谈DT时代,但是相信DT时代一定是以数据处理为核心的,因此 大数据技术在这里有至关重要的地位,很有幸笔者及各位看官正在这个领域努力。
  曾看到一篇文章,里面有个观点,“DT时代的骨骼——大数据处理平台”,反映了大数据处理平台在互联网或者移动互联网公司的重要性。大数据处理平台其实包含了整个大数据处理过程,它承载了从数据采集、传输、存储、分析挖掘(离线 OR、实时 OR、即席查询)、可视化、价值体现的整体流程。这些在大的互联网公司,尤其以BAT为首,已经逐步成熟,而且价值体现不断放大。而在初创公司或者具有一定规模的创业公司,大数据处理平台的基础设施或开始搭建,或处于较初始的状态,或者在逐步规范中。可能有人会有另外的想法:我们公司规模没有那么大,有必要整这么一套么?是的,如果数据量很小,每天新增数据(比如应用日志)都是MB级别,或者GB级别,而以后也不会有爆发式增长,也没必要太折腾。无论如何,有一个趋势非常明确,随着公司业务发展,数据量的爆发式增长,大数据处理平台的建设势在必行。
  大数据处理平台建设是对数据采集、数据传输、存储、分析挖掘(离线 OR 实时 OR 即席查询)、数据展现、价值体现的整体流程梳理。微店是目前全球领先的移动电商网络(在微店生态体系,公司旗下还有口袋购物、微店全球购、微店买家版、今日半价、YouShop等5大优势平台),创造了一个便利的手机购物环境,是全球年轻人喜爱的移动购物网络。目前有超过3000万的店主使用微店销售商品,在这样的背景下,技术部门开发部署的各种应用每天需要服务巨量日志数据,这些数据既包含用户的行为特征、兴趣爱好,也包含了应用的服务质量情况,这些都是要进行深度分析发掘的数据,重要性不言而喻。基于此,负责大数据基础设施建设的我们承担起了大数据处理平台的建设任务,为业务分析部门提供公共基础支撑。接下来,本文将重点描述大数据处理平台中数据采集、传输、存储、分析过程中的公共基础技术部分。
   什么是数据集
  随着业务的爆发式增长,公司部署了各种各样的应用服务,新的服务也不断被开发出来。日志数据由应用服务产生,应用服务由业务开发人员开发,由业务运维人员部署维护;分析挖掘这些数据的是 数据分析人员、推荐算法开发人员等等,在实际工作过程中,由于各方关注角度不同,带来很多不必要的沟通交流成本。数据集(DATASET)正是为了在数据采集、传输、存储、分析过程中,数据关联各方对目标数据有统一的称谓、同时规范数据的使用。
  图1显示了数据集的一些重要属性,原则上由业务开发部门申请创建新的数据集,申请者作为数据的owner,同时标识出其所属产品线、项目、数据类型,拟采用的数据收集方式、存储方式,数据规模情况预估以及要存储的时间。其中数据类型包含www日志(access log)、应用日志、错误日志、MySQL日志等等;数据收集包括:Agent实时收集、Rsync传输、HdfsClient上传、API推送;存储方式分为:HDFS、分布式消息队列Kafka、实时数据搜索Elasticsearch、第三方存储;数据规模预估可以对要收集的数据规模进行评估,传输层及存储层是否可以承载的一个初步判断。存储时间确定该数据集保存时间,到期后由平台方对数据集统一清理。
  在数据集创建后,由数据采集端采集,经由数据传输层进入数据存储层。在这个过程中,category是数据集的一个代名词。category最初是Facebook开源的scribe配置中一个很重要的属性,标识数据传输对象,这里我们沿用了这个单词,并从开始到存储落地全程被携带。
  数据集的划分是很重要的一个过程,决定了数据如何传输、存储,并被如何分析处理。一般由业务部门及分析部门确定。数据集内数据格式应一致,方便进行处理。但在实际场景下,尤其创业公司,单个业务部门内数据格式也未必统一,数据散落在多个日志文件中,单个体积相对较小,而分析人员也会关注这些数据,这种情况下为了方便处理,可以将这些划分到一个数据集下,同时在采集端对数据进行标注。典型方法,如在实时采集时日志行中加入header,由文件名或者其他特征区分数据。就像万事万物有其生命规律一样,数据集也不例外。图2描述了数据集的生命周期。
   数据采集层
  某一天,一个分析人员兴冲冲过来,“某某某,我要分析xxx服务打出的日志,xxx服务昨天上线了,这个需求非常重要,balabalabala......”。然后我们告诉他,让业务开发部门申请个数据集吧,数据集传输过来你就可以分析了:)。
  数据集在创建后,所属产品线、项目、数据类型,拟采用的数据收集方式、存储方式,数据规模情况预估以及要存储的时间一一确定。以Agent实时采集为例,数据采集流程如图3所示。
  由业务开发部门申请数据集
  大数据组发布DataAgent
  业务运维人员在业务机器部署DataAgent
  DataAgent采集数据并传输
  目前大部分业务的日志数据采用这种方式采集。DataAgent基于Flume实现,自开发Flume插件Tailsource支持多数据集、多文件实时tail,DataAgent具有以下特性:
  支持数据集(category)配置,支持同时tail多个数据文件
  支持checkpoint,定期(默认10s)将读出的文件offset写入本地磁盘
  开发限速模块,可配置,支持在特殊场景下的限速传输
  支持按照文件名tail文件,同时支持根据inode文件查找
  支持文件软连接,在软连接改变后读取源日志文件剩余内容
  修改Flume源码支持将Event Header写入原始数据中
  借鉴美团DualChannel,开发了我们自己的DualChannel,支持MemChannel FileChannel。
  支持Kafkachannel,并修改kafkachannel源码,支持将原始数据写入Kafka,对业务分析程序透明
  Agent自维护及智能升级
  Agent端将监控指标发到指定ganglia监控端口,统一由监控层收集,支持数据比对,并支持根据应用参数设置报警。
  DataAgent采集方式具体使用Flume,何种channel由数据类型、存储方式、数据量及业务场景综合确定。根据我们的测试,单个Agent,MemoryChannel在很多场景下,都可以达到6w /s;KafkaChannel可以到到2.5w-3w 每秒,而FileChannel最高在1w/s,有些场景下甚至在5000/s以下。对应用日志,我们需要保证数据的高可靠性传输,同时需要保证效率,所以目前大量采用tailsource Kafkachannel方式;而访问日志主要采用tailsource DualChannel AVROSink方式。
  一些业务数据也会采用Rsync方式(存储方式仅限于HDFS存储):在数据集确定后,大数据组分配rsync权限,由业务运维人员使用Rsync经过中间LVS层,将数据推送到databus指定的Rsync model(由category确定),最后由自开发的HADOOPLoader组件upload到HDFS。
  采集层支持API推送,一些少量数据场景下,业务端可以直接调用我们提供的数据API,将数据直接写入KAFKA。
  另外支持业务端直接使用HDFSClient写入HDFS,这种方式目前主要存在于以前遗留的一些数据收集上。因为Hadoop集群使用白名单方式对写入端IP进行授权,如果存在大量的这类客户端,会严重降低数据的传输效率,同时提高了客户端的维护成本。
   数据传输层
  业务运维人员部署DataAgent,或者其他收集方式后,数据集进入数据传输层。图4是数据传输层的整体架构。
  DataBus统一负责对数据集的中间层传输、数据流转及数据落地,数据从业务端机器发出后中间经过LVS负载均衡层,进入Databus。Databus由几部分组成,包括:
  基于Flume的Avro数据接收层,接收Agent端AvroSink发出的数据;
  使用KafkaChannel实时消费Kafka数据;
  接收syslog收集方式传入的数据,如交换机日志;
  HadoopLoader接收Rsync传入的数据写入HDFS;
  接收API post的数据
  支持的存储方式包括:
  HDFS存储集群
  Kafka分布式消息队列
  Elasticsearch集群
  第三方存储
  其中,数据写入Kafka的topic由数据集(或者category)唯一确定,分析开发人员在自己的kafka consumer端配置topic为category即可消费数据。
  对于向Elasticsearch的写入格式化数据需求,在Databus端,我们提供了具有较强通用性的支持。基于Flume ElasticsearchSink,修改源码,支持正则及分隔符的字段切割,并可配置,将Databus传输过来的数据集原始数据,根据配置的解析方式及字段,格式化数据为结构化数据适配Elasticsearch,写入ES集群。
  除访问日志及应用日志以外,Databus支持以syslog方式收集网络设备数据。交换机设备的稳定对业务服务至关重要。以前我们缺乏对交换机的监控,在6月底,我们专门对公司内各机房几乎所有交换机以syslog方式收集设备日志到Kafka,并对日志进行实时分析,发现异常及时报警。
  绝大部分数据需要写入HDFS数据长时间存储。我们使用改造后Flume HdfsSink写入HDFS。原生的HdfsSink有一些缺点,我们对部分源码进行改造:
  在我们的场景中,单个机器上多个HdfsSink进程有出现文件同名的风险,修改其源码,在目前filepath fileprefix 时间戳 filesuffix基础上,在时间戳及filesuffix之间增加4位随机数,使用过程中没有再出现文件同名情况。
  HdfsSink在解析filepath及fileprefix过程中使用正则matcher去匹配,并且在每个Event处理过程中都会走这个过程,效率很低(对正则解析代码段单独测试500w event,正则解析代码段耗时53s),因为我们写入HDFS时按照数据集统一存储规范写入,所以将路径解析重写优化,并增加自己的配置属性,优化后,写入HDFS效率提升40%以上(lzo压缩)。
  写入HDFS统一使用lzo方式写入,达到一定大小或者超过配置时间进行回滚。
  目前Databus写入HDFS或者Kafka配置比较繁琐,后面需要针对此进行优化。
  HadoopLoader是我们自行开发的组件,用以定期扫描Rsync推送过来的本地磁盘数据集存储目录,根据统一存储规范上传至HDFS。简单流程如下:
  对每个数据集在内存中维护一个uploadingQueue。扫描线程发现待上传文件后,验证文件是否完整(根据对应md5验证码确定),然后将此文件加入此Queue。
  上传线程从Queue中拿要上传的文件,从本地磁盘mv到uploading目录下,并上传。
  上传结束,将已上传文件mv到本地磁盘done目录下。同时将本次上传文件路径,所属数据集、大小、md5验证码、上传时间、HDFS路径等信息入库。
  客户端使用API post数据目前还在开发验证阶段,暂时不便透漏更多。Databus支持向第三方转发,基于Flume replica策略配置实现。
   数据存储及分析层
  上文已经提到,数据集在Databus中支持向HDFS、Kafka、Elasticsearch写入数据。这里主要对HDFS存储及公共分析平台搭建重点介绍。
  对于海量数据的分布式存储,Hadoop/HDFS已经成为事实标准,目前不仅在各大互联网公司,甚至在电信领域以及银行也都开始陆续落地。Hadoop2对比Hadoop1,无论在HA、namenode扩展性、权限控制、资源调度及分配、资源隔离等都有极大提升。目前我们使用Hadoop 2.6.0作为公司最新集群使用版本,并对已知的重要bug打了patch。
  相信在很多公司,尤其是创业型公司,初期业务快速扩张,为了方便,内部存在多个集群,且集群规模可能都不是很大,各业务使用的集群版本可能也不一样,相互依赖也很少。初期的散列部署结构,可以轻松应对业务的迅速发展。随着业务的逐步发展,各个业务部门数据共享需求越来越强烈,同时数据依赖关系也越来越复杂,分析数据中集群间数据来回搬动越来越多,同时随着数据量的迅速猛增,各集群存储空间压力加大,这时集群间资源整合就越来越必要,散列的集群部署结构阻碍了数据的共享,增加了数据处理过程外的许多数据迁移环节,降低了数据处理的性能,并且不利于集群资源的最大化利用,集群管理成本太高。曾见到有个业务每天将近20个TB的数据在多个集群间来回折腾的案例(并非多机房灾备),十分典型。
  在微店同样如此,单个机房内存在着若干个大大小小的集群,集群规模在几个节点到近百个节点不等,最小规模才4个节点,版本也不近相同。资源整合尤为重要,同时兼顾各业务部门的效率。为大家谋福利,才能更好的推进资源整合工作。在实际整合过程中,集群不同的业务处理类型,计算引擎,决定如何去资源整合。我们整合的原则是存储共享优先,计算类型分类,兼顾特殊业务需求。在此原则下,我们多个集群将共享统一的HDFS存储资源,解决数据来回搬运的问题,同时各个集群统一版本,方便集群管理;按照计算类型进行整合,整合后将会有:
  公共计算集群,负责MR、Hive、Pig、Streaming作业的处理;
  Spark集群,对内存资源需求大,专门跑Spark作业;
  GPU集群,负责高性能计算;
  UDC集群,专门处理领导关心的时间要求高的业务指标数据报表。
  整合后,集群使用统一的HDFS集群(规模300个节点),各计算集群物理隔离,服务器类型单独配置,有利于成本节约。
  存储共享后,数据的存储规范、 数据安全访问、读写权限规范等亟待建立。同时需要有统一的供数据分析开发人员使用的大数据处理平台Portal,作为唯一的用户授权、元数据访问、提交并管理作业、权限申请、集群资源使用情况查询、资源限额等等功能的入口。图5是对资源整合后的数据存储及分析处理流程简图。
  分析开发人员由统一Portal访问大数据基础资源,支持用户对有权限的数据集查询数据集属性信息、数据集数据;按条件查找数据集、权限申请;支持权限的精细化管理(如业务组内权限分配);作业管理(提交、运行、停止离线OR实时分析任务、Spark作业等等)、数据流转关系;查看资源使用情况报表等等。提交的作业由作业调度中心进行调度;支持公共UDF类库。元数据管理提供对业务数据仓库元数据的共享支持。
  当前情况下,存在着很多客户机(任务提交机),用来提交作业。客户机必须经过平台管理方授权才可访问集群。
  分析开发人员对数据集进行分析处理,需要经过数据集或Hive库表的授权,并提交到指定的队列(由集群管理房提前建立,对分析人员透明)。主要包括:
  客户机授权。访问Hadoop集群的服务器称为客户机,授权才能访问。
  用户及用户组。当前账号沿用Linux的user及group;将来会使用LDAP;用户组按照业务部门或产品线划分,灵活支持业务方的权限需求。
  数据集授权。对数据集有读/写权限才可进行相应操作(得益于hadoop2.4新增的acl特性)。
  3-1. 原始数据:Owner为超级管理员,业务部门只允许有读权限;生命周期由超级管理员统一管理。
  3-2. 归档数据:为老数据(>6month),统一使用LZMA压缩,提高压缩比。
  3-3. 结果数据:Owner为业务方,建议使用统一存储结构统一管理。
  3-4. 用户目录:Owner为业务方,采用容量配额管理。
  3-5. tmp目录:都可读写,存放临时数据,由管理方定时清理。
  4. Hive服务授权。统一的Hive MetaStore服务,按照业务部门或产品线对DB及表划分权限,并配合使用HDFS授权。
  5. 队列授权。按照业务组划分队列,并分配资源;支持队列嵌套。【注:Hive原生代码无法做到超级管理员角色,需要自行修改代码实现。】
   监控层
  大数据处理平台的最后一环无疑是监控。监控像是我们的眼睛,无时无刻盯着大数据平台的整个处理流程,当将要出现问题时触发报警,平台管理人员及时切入避免故障发生。我们统一使用Ganglia从采集端、传输层到存储层、分析层的基础资源指标、应用指标写入Ganglia,并使用Nagios进行报警。图6、图7分别是平台下各基础组件的监控布局及DataAgent端按业务分类监控。

  由于时间仓促,未能有更多的时间校对,文章中难免有纰漏,欢迎看官指正。另外微店正在面临数据爆发式增长,大数据技术、Hadoop相关开发人员急缺,有志于大数据方向,并且乐于深耕的技术人,欢迎将简历砸来,邮箱地址:wangfeng@weidian.com。
  作者简介:王锋。曾任职并负责新浪研发dip分析平台架构设计、开发工作,承载了新浪及微博各产品线的离线、实时等各类业务分析需求。目前任职微店大数据架构师,负责微店大数据(hadoop)基础技术架构及服务运营,并负责完成业务类及运维类指标分析需求,逐步构建微店的监控分析平台。
  ( 本文选自程序员电子版2015年9月A刊,未经允许不得转载,如需转载请注明出处。)
产业观察
2015-09-28 10:35:47
Storm概念解读以及特点分析
来源: 数据观 时间:2015-09-22 17:13:02 作者:
  Storm是什么如果只用一句话来描述storm的话,可能会是这样:分布式实时计算系统。按照storm作者的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。我们都知道,根据google mapreduce来实现的hadoop为我们提供了map, reduce原语,使我们的批处理程序变得非常地简单和优美。同样,storm也为实时计算提供了一些简单优美的原语。
   我们来看一下storm的适用场景。
  1.流数据处理。Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。
  2.分布式rpc。由于storm的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式rpc框架来使用。当然,其实我们的搜索引擎本身也是一个分布式rpc系统。
  Storm概念
  Storm是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.8.0,基本是用Clojure写的。
  Storm为分布式实时计算提供了一组通用原语,可被用于"流处理"之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于"连续计算"(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于"分布式RPC",以并行的方式运行昂贵的运算。 Storm的主工程师Nathan Marz表示:
  Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm用于实时处理,就好比 Hadoop 用于批处理。Storm保证每个消息都会得到处理,而且它很快--在一个小集群中,每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。
  Storm的主要特点如下:
  简单的编程模型。类似于MapReduce降低了并行批处理复杂性,Storm降低了进行实时处理的复杂性。
  可以使用各种编程语言。你可以在Storm之上使用各种编程语言。默认支持Clojure、Java、Ruby和Python。要增加对其他语言的支持,只需实现一个简单的Storm通信协议即可。
  容错性。Storm会管理工作进程和节点的故障。
  水平扩展。计算是在多个线程、进程和服务器之间并行进行的。
  可靠的消息处理。Storm保证每个消息至少能得到一次完整处理。任务失败时,它会负责从消息源重试消息。
  快速。系统的设计保证了消息能得到快速的处理,使用ØMQ作为其底层消息队列。
  本地模式。Storm有一个"本地模式",可以在处理过程中完全模拟Storm集群。这让你可以快速进行开发和单元测试。
   Storm与Hadoop、Spark对比
  Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。
   问题:为什么 Storm 比 Hadoop 快?是由哪几个方面决定的?
  回答(一)
  这里的快主要是指的时延。
  storm的网络直传、内存计算,其时延必然比hadoop的通过hdfs传输低得多;当计算模型比较适合流式时,storm的流式处理,省去了批处理的收集数据的时间;因为storm是服务型的作业,也省去了作业调度的时延。所以从时延上来看,storm要快于hadoop。
  说一个典型的场景,几千个日志生产方产生日志文件,需要进行一些ETL操作存入一个数据库。
  假设利用hadoop,则需要先存入hdfs,按每一分钟切一个文件的粒度来算(这个粒度已经极端的细了,再小的话hdfs上会一堆小文件),hadoop开始计算时,1分钟已经过去了,然后再开始调度任务又花了一分钟,然后作业运行起来,假设机器特别多,几钞钟就算完了,然后写数据库假设也花了很少的时间,这样,从数据产生到最后可以使用已经过去了至少两分多钟。
  而流式计算则是数据产生时,则有一个程序去一直监控日志的产生,产生一行就通过一个传输系统发给流式计算系统,然后流式计算系统直接处理,处理完之后直接写入数据库,每条数据从产生到写入数据库,在资源充足时可以在毫秒级别完成。
  当然,跑一个大文件的wordcount,本来就是一个批处理计算的模型,你非要把它放到storm上进行流式的处理,然后又非要让等所有已有数据处理完才让storm输出结果,这时候,你再把它和hadoop比较快慢,这时,其实比较的不是时延,而是比较的吞吐了。
  回答(二)
  首先要明白Storm和Hadoop的应用领域,注意加粗、标红的关键字。
  Hadoop是基于Map/Reduce模型的,处理海量数据的离线分析工具。
  Storm是分布式的、实时数据流分析工具,数据是源源不断产生的,例如Twitter的Timeline。
  再回到你说的速度问题,只能说Storm更适用于实时数据流,Map/Reduce模型在实时领域很难有所发挥,不能简单粗暴的说谁快谁慢。
  回答(三)
  “快”这个词是不明确的,专业属于点有两个层面:
  1. 延时 , 指数据从产生到运算产生结果的时间,题主的“快”应该主要指这个。
  2. 吞吐, 指系统单位时间处理的数据量。
  首先明确一点,在消耗资源相同的情况下,一般来说storm的延时低于mapreduce。但是吞吐也低于mapreduce。 @张云聪已经给了比较好的介绍,我再补充一下。storm是典型的流计算系统,mapreduce是典型的批处理系统。下面对流计算和批处理系统流程
  真个数据处理流程来说大致可以分三个阶段:
  1. 数据采集与准备
  2. 数据计算(涉及计算中的中间存储), 题主中的“那些方面决定”应该主要是指这个阶段处理方式。
  3. 数据结果展现(反馈)
  1)数据采集阶段,目前典型的处理处理策略:数据的产生系统一般出自页面打点和解析DB的log,流计算将数据采集中消息队列(比如kafaka,metaQ,timetunle)等。批处理系统一般将数据采集进分布式文件系统(比如HDFS),当然也有使用消息队列的。我们暂且把消息队列和文件系统称为预处理存储。二者在延时和吞吐上没太大区别,接下来从这个预处理存储进入到数据计算阶段有很大的区别,流计算一般在实时的读取消息队列进入流计算系统(storm)的数据进行运算,批处理一系统一般会攒一大批后批量导入到计算系统(hadoop),这里就有了延时的区别。
  2)数据计算阶段,流计算系统(storm)的延时低主要有一下几个方面(针对题主的问题)
  A: storm 进程是常驻的,有数据就可以进行实时的处理
  mapreduce 数据攒一批后由作业管理系统启动任务,Jobtracker计算任务分配,tasktacker启动相关的运算进程
  B: stom每个计算单元之间数据之间通过网络(zeromq)直接传输。
  mapreduce map任务运算的结果要写入到HDFS,在于reduce任务通过网络拖过去运算。相对来说多了磁盘读写,比较慢
  C: 对于复杂运算
  storm的运算模型直接支持DAG(有向无环图)
  mapreduce 需要肯多个MR过程组成,有些map操作没有意义的
  3)数据结果展现
  流计算一般运算结果直接反馈到最终结果集中(展示页面,数据库,搜索引擎的索引)。而mapreduce一般需要整个运算结束后将结果批量导入到结果集中。
  实际流计算和批处理系统没有本质的区别,像storm的trident也有批概念,而mapreduce可以将每次运算的数据集缩小(比如几分钟启动一次),facebook的puma就是基于hadoop做的流计算系统。
  相关阅读
   storm简介
  流式大数据处理的框架:Storm Spark Samza
  种基于Storm的可扩展即时数据处理架构思考
  本文为 数据观原创精编,转载请注明来源 www.cbdio.com   百度一下“数据观”,获取更多大数据相关资讯
  微信搜索“数据观”,关注后有一大波大数据干货奉送
扫码关注
产业观察
2015-09-22 17:13:02
手机上的大数据(六):手机大数据的挑战
来源:数据观 时间:2016-01-26 17:51:53 作者:
  通过、手机音乐上的用户行为,我们可以看到手机大数据在移动互联网应用上的威力,但同时,手机上的大数据也不是万能的,它的发展还面临着很多实际的问题和挑战。
   数据的稀疏性
  智能手机端的App应用数以十万计,但是每个应用中两个用户之间选择的重叠非常少,如果用用户和商品之间已有的选择关系占所有可能存在的选择关系的比例来衡量系统的稀疏性,在我们研究的几个App数据中,稀疏度均不超过4%,其实这些其实都是非常密的数据。想想一个具有千万级用户,百万级歌手的App,平均而言一个用户能听100首歌吗,估计不能,所以稀疏度应该在万分之一或以下的量级。
  这个问题本质上是无法完全克服的,但是有很多办法,可以在相当程度上缓解这个问题。比如扩散方法、随机缺省值方法、随机选择等
   冷启动问题
  在我们前面讨论的音乐APP中,我们发现歌曲的覆盖只有2%左右,这个是由于大量歌曲出于冷启动状态造成的。这是因为新商品由于被选择次数很少或没有,难以找到合适的办法推荐给用户结论。
  最近一个有趣的研究显示,新用户更容易选择特别流行的商品—这无论如何是一个好消息,说明使用热歌榜也能获得不错的结果。
   大数据处理与增量计算问题
  尽管数据很稀疏,大部分数据都包含百千万计的用户,与此同时新用户不停进入系统。数据量不仅大,而且数据本身还时时动态变化,如何快速高效处理这些数据成为迫在眉睫的问题。在这个大前提下,算法时间和空间的复杂性,尤其是前者,获得了空前重视。一般而言,一个高效的算法,要么自身复杂性很低,要么能够很好并行化,要么两者兼具。
  随着加入的信息量的增多,最终每过一段时间还是需要利用全局数据重新进行计算。更先进但也更苦难的办法,是设计出一种算法,能够保证其误差不会累积,也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升。
   用户行为模式的挖掘和利用
  深入挖掘用户的行为模式能更准确的抓住用户喜好,从而有希望做出更好的用户体验。譬如说在音乐APP中,新用户和老用户具有很不一样的选择模式:一般而言,新用户倾向于选择热门的歌曲,而老用户对歌曲的多样性关注更多。
  用户行为的时空统计特性也可以用于提高者设计针对特定场景的应用。举个例子,在进行手机个性化阅读推荐的时候,如果曾经的数据显示某个用户只在7点到8点之间有一个小时左右的手机阅读行为(可能是上班时在地铁或者公交车上),那么9点钟发送一个电子书阅读的短信广告就是很不明智的选择。从含时数据中还可以分析出影响用户选择的长期和短期的兴趣,通过将这两种效应分离出来,可以明显提高推荐的精确度。
   多维数据的交叉利用
  目前手机端的APP还出于孤立的状态,并没有真正的完成数据打通及数据共享的地步。想象如果能够把这些数据整合起来,特别是知道每个节点身份的对应关系(不需要知道你真实身份,只需要知道不同APP中存在的若干节点是同一个人),可以带来的巨大的社会经济价值。
  举个例子,你可能已经在新浪微博上关注了很多数据挖掘达人的微博,并且分享了很多算法学习的心得和问题,当你第一次上当当网购书的时候,如果主页向你推荐数据挖掘的最新专著并附有折扣,你会心动吗?所以多维数据挖掘是真正有望解决系统内部冷启动问题的法宝——只要用户在系统外部的其他系统有过活动。
  目前有很多技术方法可以实现这种多维数据挖掘,比如统计物理学的物质扩散、热传导方法,机器学习的迁移学习方法都有望解决这种多维数据挖掘。
   结论与展望
  由于 移动互联网的迅速崛起,让互联网大数据变得更为多样、丰富。它不但可以作为 互联网大数据的一个有益补充,而且还可以作为移动互联网新业务本身的行动指导。
  在市场营销领域,数据可以用来洞察客户,例如衡量他们的生命周期价值或者预测可能的购买行为。对于整个企业而言,利用数据进行分析和应对的能力,对于进行正确的决策并最终取得更好的业绩是至关重要的。
  真正实现“精准营销”需要底层海量的用户行为数据做支撑,网络营销追求的都不应是曝光率,而是用户转化率。而对用户转化过程进行有效的数据分析,可实现效果的优化。效果可从三个层面分解:目标是否清晰、向过程要效果,最终目标达成率就是效果。利用数据工具控制和优化营销过程,可不断提升ROI效率。
  这需要具体了解客户的业务发展目标和推广需求,可以考虑借助专业的第三方服务公司作有关于网络营销策略的效果评估。以制定出或调整有关于网络营销策略。
  一般来说,对于不同的营销平台会有不同的广告形式投放,从而产生的效果也多种多样,各家说各家的好。网络营销中,品牌认知、提升偏好、主动寻找、购买转化、分享/再购各阶段,分别对应广告管理、口碑、网站、电商、客户管理的营销策略。以“大数据”贯穿网络营销全过程,就可将有价值的数据转化为有意义的数据,让广告从效果监测变为效果预测、让传播更有效率、用户体验更佳,用户转化更清晰、可控。
  让我们一起随着手机上的大数据一起“爆发”吧。本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
  相关阅读
   手机上的大数据(一):移动互联网的入口
   手机上的大数据(二):手机大数据的特点
   手机上的大数据(三):手机上的阅读
  手机上的大数据(四):手机上的音乐
   手机上的大数据(五):手机上的APP推广
   手机上的大数据(六):手机大数据的挑战
 
责任编辑:陈卓阳
产业观察
2016-01-26 17:51:53
手机上的大数据(五):手机上的APP推广
来源:雷锋网 时间:2016-01-26 17:35:39 作者:
  无线应用的大数据有着重要的作用。但是对于以及手机音乐的大数据分析仅限于特定App,而现实情况中还存在另外一种应用,即App之间互相推广,此处我们将其命名为App互推联盟。
  APP互推是一种通过挖掘App之间的隐含关系,将一个App推送到另外一个相关类的App上,而整个移动端App的应用个数有好几十万,所以数据包含的信息是相当丰富。如果我们能有效利用这数据,则我们能够采用更有效的方法来实现App的互推,同时利用这些大数据,我们为移动广告找到了一个更有效的平台。
  Database Modeling是一个数据库的建模功能,任何庞大的数据都需要一个正确的分析机制
   大数据分析中的问题
  ① 全局数据打通
  当我们获取单独App数据时,这些数据都是孤立的小岛,我们不太会关心用户在其他App中有什么样的行为特征。当我们拥有数十万个APP时,如果能将各App数据进行打通,那我们能获得的利用将是无穷无尽的。
  在PC端,浏览器可以通过cookie、flash等方式记录一个用户的ID,而在手机端这种方法却欠妥,因为手机端的用户使用App的频率远高于浏览器的频率。
  但是我们仔细发现,每个用户所使用的手机MAC号一般情况下是唯一的(在极少情况下不唯一),所以我们可以通过MAC号来将用户进行打通。
  ② 信息补全
  在前一章节无线音乐应用中,我们遇到一个棘手的问题是,用户信息不完整,我们不能有效地给其推送恰当的歌曲。用户信息不完整的主要原因是因为在该APP中留下的信息量少,如果我们能利用用户在其他APP的信息来补全用户信息,则可以大大提供用户在该APP中听歌的体验。
   App的互推
  在没有打通App数据之前,App互推一般都是根据随机原则、热门App原则、相似相近原则来进行推荐。这些方法存在很多问题,如不同用户App推荐一样,推荐App被用户喜好的准备低等。
  当多个App数据打通后,原始App推送方法可以得到明显的改善。因为一方面我们可以获取用户的全局信息,利用这些信息我们可以更好的为用户做个性化的推荐,另一方面由于App的打通我们能更好的将用户、App进行 聚类分析,这样更加方便相似用户对相似应用的喜好。
   App中的广告应用
  在没有打通App数据之前,App的广告一般都是根据App的关键词原则进行投放,不同用户在登录同一个App时可能接受到同一个广告。这种投放方法存在一个明显问题就是只抓住了App的匹配性,并没有抓住App上具体人的匹配性。比如一个人刚浏览玩母婴类的App转入另外一个音乐类的App时,该音乐类App大多会为其投放音乐类广告,而不是母婴类的广告。
  App在设计之初就会针对广告位置和内容进行规划
  当我们把App数据打通后,因为全局信息的关系使得用户就有了记忆功能。所当上诉情况发生时,音乐网站可以根据用户带来的喜好为其投放与其喜好最接近的广告。这样才能更加准确的抓住用户的心理,让用户、公司以及广告达到三赢的好结果。本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
  相关阅读
   手机上的大数据(一):移动互联网的入口
   手机上的大数据(二):手机大数据的特点
   手机上的大数据(三):手机上的阅读
  手机上的大数据(四):手机上的音乐
   手机上的大数据(五):手机上的APP推广
   手机上的大数据(六):手机大数据的挑战
责任编辑:陈卓阳
产业观察
2016-01-26 17:35:39
手机上的大数据(四):手机上的音乐
来源:雷锋网 时间:2016-01-25 11:39:22 作者:
  无线音乐是用户利用手机等通信终端,以WAP、WEB、APP等接入方式获取以音乐为主题内容的相关业务的总称,具体包括彩铃、无线音乐俱乐部、及手机客户端软件等业务。可以说在智能手机时代,手机客户端音乐逐渐成为用户享受生活的主要方式。
  随着智能手机的不断普及,无线音乐行业成就了一些大头手机音乐客户端公司,这些公司拥有着上百万甚至千万级别规模的用户群体。
  手机客户端音乐的不断发展及用户群体的不断壮大,随之也带来了大量无线音乐数据的产生。这些数据看似杂乱无章、繁多冗余,但却隐藏着很多的秘密。如果能有效地对这些数据进行组织管理,并且利用相关技术进行挖掘、分析,少则可以揭示一个公司一次决策实施后的效果,发现公司现有存在的重大问题,多则发现潜在的高价值业务或需求,这些业务或需求很有可能为公司的发展提供战略性指导意见。
  下面以国内某著名手机客户端音乐公司的无线音乐数据为例,我们还是按照发现问题、解决问题、结果验证这三个方面来说明无线音乐数据的组织与应用。
   发现问题
  通过对该数据进行 分析挖掘,我们发现如下几个问题。
  (1) 用户、歌曲均存在长尾效应
  从数据中我们发现用户有两种行为,一种是下载、一种是试听,
  每种行为中,我们发现用户和歌曲均存在“长尾现象”,绝大部分用户只试听或下载系统中的少部分歌曲,而大部分歌曲出于闲置状态。具体信息如下图
  音乐的长尾问题
  说明:图中左子图横坐标表示用户的听歌,纵坐标表示对应用户所占比例。右子图横坐标表示歌曲的被多少人听过,纵坐标表示对应度歌曲所占比例。造成这方面的原因可能是:数据量大,信息过载严重用户找不到自己喜欢的歌曲。
  此时大多数用户直接转向流行榜或热歌榜歌曲,就会造成系统中热门歌曲越热门,冷门歌曲越冷门的现象。
  (2) 歌曲覆盖率低
  从数据中我们还发现歌曲的覆盖率很低,在整个抽样数据中歌曲
  覆盖率只有2.01%。绝大部门歌曲根本没有被用户听过或者下载过,这不仅造成系统资源的大量浪费,而且造成公司资金的无辜流失(因为每首歌曲都要付版权费,而系统中98%的歌曲处于浪费状态)。歌曲的覆盖率累计分布如下如图。
  歌曲覆盖率图
  说明:图中横坐标表示歌曲的被听歌人数(去重),纵坐标是不小于这个数目的歌曲所占的比例。
  造成这方面的原因可能是:大量歌曲处于冷启动状态,数据稀疏。作为冷启动作曲,系统不知道如何把他推送到适当的用户手里,而用户也不能通过有效方式找到他,就使得这类歌曲处理系统的暗处,不容易被发现。
  (3) 用户每天听歌时间呈间断性分布
  在给定的样本数据中,我们发现用户听歌行为并不是均匀分布,而是间断性分布,即在不同的时间用户听歌集中度不同。为了更好的看出效果,我们将一天分为8个时间段,每个时间段包括3个小时,在每个时间段内用户听歌活跃性如下图。
  用户活跃时间图
  说明:图中横坐标表示时间段,纵坐标是该时间段内用户的活跃性比。
  造成这方面的原因可能是: 下班、休息、乏困疲惫时间
  用户在无限端听歌的模式还是倾向于休闲与娱乐,主要是以休息碎片时间为主。
  (4) 不同用户对歌曲的属性依赖性不同
  在样本数据中,歌曲有专辑与歌手两种属性。我们从用户的长程关联显著性、短程关联显著性等方面对用户的听歌行为进行分析,分析具体结果如下表:
  说明:图中Strong null model、Weak null mode、Temporal null model分别表示系统中所有播放之间相似度值,所有歌曲之间的相似性值,相邻播放之间相似性值。Album表示专辑,Artist表示歌手。造成这方面的原因可能是:与专辑相比用户倾向于听同一个歌手的歌曲
  (5) 不同用户听歌行为不同
  从数据中我们分析还得出,不同活跃性的用户所听歌曲也不同。分析中我们从歌曲新颖性、歌曲在专辑上的相似性、歌曲在歌手上的相似性三个指标上对不同活跃性的用户所听歌曲进行分析。
  具体信息如下图
  歌曲的三个维度分析
  说明:图中横坐标表示用户的活跃性值,纵坐标表示对应活跃性用户所听歌曲的新颖性值、歌曲在专辑上的相似性值、歌曲在歌手上的相似性值
  造成这方面的原因可能是: 用户可能呈分群现象
  活跃性较低的用户可能是普通用户,这类用户根据自己的爱好来选择自己想听的歌曲。活跃性较高的用户可能是专业用户,这类用户根据自己的专业需要来选择自己想听的歌曲。
   解决方案
  从上面一小节的讨论中,我们已经知道无线音乐端大数据中可能隐藏的几个问题如下:
  ①用户、歌曲均存在长尾效应
  ②歌曲覆盖率低
  ③用户每天听歌时间呈间断性分布
  ④不同用户对歌曲的属性依赖性不同
  ⑤不同用户听歌行为不同
  当一个公司面对以上问题时应该采用怎样的解决方案来解决或者
  改善当前情况是另一个重要的问题。尤其是上述问题①、②,如果处理不恰当,可能会影响整个公司是否能正常运行,甚至影响公司的发展。
  因此,本部分从无线音乐数据出发,提出几种适合的解决方案。
  (1)用户、歌曲均存在长尾效应,我们可以采用以下技术
  采用信息过滤技术,一种方法可以对歌曲进行分类,将不同的用户映射到不同的歌曲类别中。另一种方法就是个性化推荐技术,系统自动的分析用户的偏好为不同用户过滤相应的歌曲。
  (2)歌曲覆盖率低,我们可以采用如下技术
  歌曲覆盖率低主要是因为用户找到不到音乐,造成这个问题的原因主要有两种:①音乐本身的信息不充足,②音乐有信息,但是用户找不到这些音乐。
  所以一方面我们可以给音乐打标签,使用标签信息来表示歌曲的具体属性;另一方面,我们可以采用推荐技术对歌曲进行个性化推荐。
  (3)用户每天听歌时间呈间断性分布,我们可以采用如下技术
  在不同的时间,我们设置不同的主题歌曲以适应不同的听歌场景,比如夜晚放舒缓、平滑的歌曲,上午上摇滚、重金属之类的歌曲。
  当然具体的场景还需要通过进一步的数据挖掘来获得,本文只是提出一种方法,对具体技术不做过多阐述。
  (4)不同用户对歌曲的属性依赖性不同,我们采用如下技术
  通过历史数据分析获取用户对歌曲属性的依赖性,从中我们能得知用户对哪种属性更加依赖。当发现用户对流派更依赖,则我们可以根据流派为其播放歌曲,当发现用户对歌手感兴趣,则我可以根据歌手为其播放歌曲。
  (5)不同用户听歌行为不同,我们可以采用如下技术
  根据用户特征将用户分群,这样可以将用户分为多个不同的群体。针对不同的群体我们给其播放的歌曲不同,比如普通用户可以热歌为主进行播放,而对于专业歌手,我们则以高多样的歌曲来为其播放。
   结果验证
  为了进一步说明上述解决方案的有效性,此处我们仅采用推荐算法来进行说明当系统采用该解决方案后,系统中出现的一些显著变化,具体的变化如下:
  l 用户更容易找到自己喜欢的歌曲
  用户找更容易找到歌曲
  该音乐网站目前采用热歌榜(GRM)来组织歌曲,通过此种方式用户找到其喜欢歌曲的概率是千分之一左右,当我们采用了3种推荐方法(分别是OCF、HC、MD)后,发现用户找到自己喜欢歌曲的概率明显增加,而且对于MD算法,其准确度提升了10倍之多。
  系统长尾的变化
  使用推荐算法前
  使用推荐算法后
  长尾效应的改善
  从上图明显的可以看出,系统的长尾效应有显著的变化。这样的结果应该是公司最想看的结果,不仅大大缩减了公司不必要的浪费,也为用户提供更好的用户体验。本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
  相关阅读
   手机上的大数据(一):移动互联网的入口
   手机上的大数据(二):手机大数据的特点
   手机上的大数据(三):手机上的阅读
  手机上的大数据(四):手机上的音乐
   手机上的大数据(五):手机上的APP推广
   手机上的大数据(六):手机大数据的挑战
责任编辑:陈卓阳
产业观察
2016-01-25 11:39:22
手机上的大数据(三):手机上的阅读
来源:雷锋网 时间:2016-01-14 11:24:11 作者:
  在移动互联网所覆盖的日常生活中,用户随时随地都在产生数据,数据的产生以及获取在现在的移动互联网上已经不是什么难以攻破的难题。需要我们面对的是从海量数据的分析中得到我们所需要的真正信息。
   手机大数据的组织与应用
  手机上的大数据对于移动互联网业务早期无疑具有非常大的指导意义,但并不是所有的手机上产生的大数据都会那么有意义。比如说社会媒体—微博,每天也会产生大量的数据,但多数都是没有意义的。
  手机大数据的组织与应用
  手机上产生的大数据需要重新组织方能揭示出有意义的信息。
  在现今的时代,大数据本身不是问题,你从各个渠道都可能获得海量的数据;我们每个人每天都要生产很大量的数据,关键的问题是如何处理、分析这些数据。数据不处理、不分析,就像Mary举的例子一样,就是一堆稻草,毫无价值。
  稻草堆里寻针
  数据处理、分析就是要从一大垛稻草堆里面挑出一根针。
  这句话有两层含义:
  无论我们从何种渠道,通过何种方式获得的数据,大量的数据是没有意义的,这其中只有少量的数据是有效地,可以从中得出一些有规律、有价值的信息的,原始数据需要清洗、整理;(这一点对于移动互联网更为明显,一般来说,几乎80%-90%的移动应用数据都是毫无价值的,只有不到10%-20%左右的数据才包含后续分析所需要的信息)
  我们需要通过后续的数据挖掘的工作,从杂乱无章的稻草堆里找出遗落在层层表象下面的一根针,而非一根稻草!这显然,不是简单通过统计就可以得出的;是比统计分析更为复杂的算法,去从简单关联过度复杂逻辑的层面。
  从上一章中,我们知道手机上的大数据的来源多种多样,不同的移动互联入口、不同的应用都会导致不同数据的产生,而这些不同的数据又支撑不同的业务,并且不同的业务之间还可能存在一些交叉应用。所以针对这些特点,下面我们根据这些特点来对大数据的组织做一个简单介绍,手机大数据的组织方式可以采用如下图的结构。
  手机大数据的组织方式
  从上面的结构可以看出,手机大数据的组织主要分为以下三个部分:原始数据存储层,计算层和业务数据存储层
  原始数据存储层
  主要存储不同入口产生的数据,而不同入口不同数据域也分开并存此时各个数据集是彼此独立,数据集之间没有任何联系方式。这样做的好处就是能最大限度的保证原始数据的完善性,正确性。
  计算层
  该层的主要任务是对原始数据存储层存取的数据进行挖掘处理,并将挖掘结果按照不同业务进行分类。挖掘处理的大致分为以下两点:① 对不同数据域进行内部分析,挖掘。② 对不同数据域之间进行关联分析挖掘。结果分类主要是将挖掘出的结果进行分类,比如音乐、餐饮、广告等应用。
  业务数据存储层
  业务数据存储层主要是对计算层产出的数据进行分开存储,以为上层应用提供更明确的数据接口。
  当我们对数据进行有效地存储管理后,我们就可以利用这些大数据进行一些有意义的工作,尤其是对于移动互联网业务早期无疑具有非常大的指导意义,下面我们以手机阅读为例,对手机上的大数据如何应用做一个说明。
   手机上的阅读
  手机阅读作为 移动互联网目前为数不多还算有一定共性和沉淀应用之一,是我们早期手机应用研究的对象。所谓“共性”和“沉淀”,就是针对手机应用“碎片化”而言。手机阅读虽然也有大量的碎片时间,但已经逐渐形成了一早一晚宝贵的“床上”连片时间,有相对比较完整时间片上呈现的行为习惯,有相对比较完整的用户在移动互联网上体现出来的偏好信息。
  尽管很多报告都显示,用户在互联网与移动互联网上的表征有着巨大的差异,但我依然相信,人们在面对一段文字,一个图片上的喜好、感觉是不会变的。因为人性是不会轻易改变的。互联网和移动互联网的用户行为之所以不同,那是因为应用本身使用场景的不同,解决问题的不同所导致的。并不是一个人在互联网上是一个性格,而到了移动互联网上就是另外一个人生了。
  这是我们研究手机阅读上大数据的初衷。
  下面,我们以一个曾经做过的手机阅读项目为例,主要从发现问题、解决问题、结果验证三个方面来为大家展开。
   发现问题
  通过对手机阅读数据的挖掘分析,我们发现了如下几个问题:
  (1) 城市与城市之间的阅读行为相似
  我们统计过杭州、广州、深圳在某一时间段内用户的阅读数据,得到了这三个城市这三个月热门前二十的数据。
  下表统计的是杭州与广州深圳这两个城市在该时间段内的热门阅读图书重合数数。
   三月 四月 五月
杭州VS深圳 杭州VS广州 杭州VS深圳 杭州VS广州 杭州VS深圳 杭州VS广州
前十
前二十
9
13
9
10
4
8
4
8
2
9
8
14
  从表中,我们可以猜测,杭州与深圳、广州这两个城市之间确实存在着一定程度上的阅读相似性。
  计算公式为:Sim(A,B) = Same(A,B)*2/[Count(A) Count(B)]
  Sim(A,B)表示的是城市A,B的阅读相似性。Same(A,B)表示的是城市A,B在某时间段内共同阅读过的图书的本书,Count(A)表示的是城市A在某时间段内阅读过的图书的本书。
  从表中我们可以发现杭州与深圳广州的阅读相似性都很高。也就是说杭深或者杭广城市间阅读是比较相似的,我们可以考虑用他们来作为阅读风向标的参考城市。
  所以,如果考虑要做风向标分析的话,更倾向于选择广州作为杭州的阅读风向标,杭州作为深圳的风向标,杭州跟广州可以互相参考。
  (2) 移动阅读的“长尾”现象严重
  在我们的数据统计中发现,手机阅读市场基本上靠热榜和主观推荐来运营。这就造成了我们所常见的“长尾”效应,而且随着书籍的增多,这种效应更为严重!
  (3) 不同行为模式的用户表现相差比较大
  我们通过kmeans聚类算法(一种常见的数据挖掘算法),说明各类用户之间表现的特征差异还是比较明显。
  不同行为模式的用户表现相差比较大
   解决方案
  我们针对历史数据进行了分析,对于不同的问题,我们觉得可以采用如下方法进行解决。
  (1) 数据聚类推荐送
  通过对用户进行聚类推送图书,我们发现有如下结果:
  数据聚类推荐送
  第一类:人群比例接近60%。这类人群一直有阅读推荐书的行为(平均约e^1),在6月14号当天PV量并没有提升,而在后面几天提到较明显的提升,6月20号之后似乎又回到了之前的PV水平。
  第二类:人数较少,仅57人。在推荐前基本无阅读推荐书行为,而在推荐后阅读推荐书PV量较大(平均e^2),且后续也有较好的保持,可以认为被推送激发了阅读推荐书的兴趣。
  第三类:人群比例接近40%。这类人群在6月13-17号之间阅读推送书籍的PV量提升非常明显,但是在这个时间段之外,比较沉默,前期(6月13号前)阅读推荐书很少,后期(6月17号)阅读量有些提升,但是还是回归到比较沉默状态。
  (2) 个性化推送
  由于手机的推送方式,目前大多数是通过流行榜来推荐,这就造成了这些被推送的书籍越流行,后面越推送他。反复的循环下去,就造成了系统长尾现象,数据覆盖率等问题。所以最好是根据不同的用户设置不同的推荐方法。这样可以大大改善系统中这些状况。
   结果验证
  通过我们对 数据的挖掘处理,然后用户实际应用,最后得到了如下的反馈结果:
  (1) PV量的增加

  首日PV比较
  从实验分析中,我们得出:总的一周反馈率,实验组是对照组的1.30倍。
  推荐成功用户首日推荐书籍PV总量,实验组是对照组的8.17倍;人均推荐书籍PV量,实验组是对照组的15.19倍。
  推荐成功用户首日总激发PV量,实验组是对照组的9.62倍;人均全部书籍PV量,实验组是对照组的17.88倍。
  推荐成功用户中,实验组的一周推荐书籍PV总量约为对照组的5.45倍;人均推荐书籍PV量,实验组是对照组的4.88倍。
  推荐成功用户中,实验组的一周总激发PV量是对照组的7.01倍;人均全部书籍PV量,实验组是对照组的6.28倍。
  综上所述,经过数据挖掘、分析、推荐等算法的处理,手机阅读的各项指标得到了大幅的提升,其效果已经不是百分之几十的提高,而是成倍地增加了!这就是大数据应用的魅力!
  【编者按】本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
  相关阅读
   手机上的大数据(一):移动互联网的入口
   手机上的大数据(二):手机大数据的特点
   手机上的大数据(三):手机上的阅读
  手机上的大数据(四):手机上的音乐
   手机上的大数据(五):手机上的APP推广
   手机上的大数据(六):手机大数据的挑战
责任编辑:陈卓阳
产业观察
2016-01-14 11:24:11
手机上的大数据(二):手机大数据的特点
来源:雷锋网 时间:2016-01-06 11:17:40 作者:
  随着移动设备的功能越来越强大,移动互联网与传统互联网之间的差异愈发不容忽视。新型的技术以及数据分析方案都展现一个全新的网络模式。我们需要打破一些固有的思维,重新审视手机上的大数据。
  移动互联网具有互联网的很多特征,但移动互联网作为一个新生事物,也有其自身的“不同”。
   用户在互联网和移动互联网上表征的不同
   移动互联网的“碎片化”
  互联网造就了宅男宅女,把人们拴在了电脑桌前;而 移动互联网又解放了宅男宅女,把他们又重新放回了现实世界中去。
  在车站等车时,拿着手机在翻阅小说;站在商圈里,拿着手机搜寻热点商家;或者是在睡觉前,拿着PAD看看有什么娱乐信息,看看喜欢的文章,既拉长了用户们覆盖的范围,也拓宽了其使用网络的时间。
  无疑,相对于成熟互联网应用而言,移动互联网的应用主要还是在填补上下班、办事途中,晚上睡觉前等碎片化时间。因此,“打发时间”类应用也跻身三大类主要应用之一,而且受众面极广。
  手机上的碎片化
  虽然受众面广,时间占比高,但由于“碎片”的特点,目前还没有一个很好的盈利模式将其利用起来。当然,这也是一个市场发展必然要经历的过程。先让尽可能多的用户用起来吧,暂时先不要去考虑如何盈利,为时尚早。
  手机阅读的使用时间
  手机视频时间
  可以看到,在晚上十点至十一点手机阅读和手机视频都达到了高峰,典型的睡觉前时间,从一个侧面反映了手机应用时间与互联网应用的不同。
   移动互联网带来的复杂形势
  移动互联网绝不仅是有线的业务延展到无线那么简单。势必会产生一些呈几何图形增长的业务,充分发挥移动互联网的特点,比如LBS,比如O2O。
  移动互联网的发展使得一些本来看似不相关的东西串了起来,我隐隐有种感觉。元芳,你怎么看?
  所以,移动互联网的数据处理巨绝不简单是统计分析,而是多种更为先进的算法来找到隐藏在层层迷雾下面的真相。
   互联网分析与移动互联网分析上的差异
  Web Analytics(网站分析)已经被各种互联网企业、电子商务企业、以及传统行业的企业网站广泛使用。而Mobile Analytics却还是一个新鲜的事物。它和Web Analytics有继承的关系,但是又有明显的区别。
  (通常所说的Mobile Analytics主要指Mobile Application Analytics,也就是各种移动设备上的原生应用的 数据统计分析。)
  在Web Analytics中,绝大部分情况下用户是基于浏览器的cookie进行统计的。
  也就是说,其实使用同一台电脑的同一个浏览器上网的两个人会被计为一个独立用户(Unique Visitor),而同时使用同一台电脑的IE和Chrome浏览器的同一个人却会被计为两个独立用户。Mobile Analytics的对象却不同,它是按照移动设备(例如手机)来统计的,绝大部分情况下每个移动设备的使用者是唯一的。所以它比Web Analytics更能精确到人,这意味着可以在此基础上提供更个性化的服务和更精准的营销。
  手机上的数据分析
  这还不是Mobile Analytics唯一让人着迷的地方。浏览器的Cookie很容易被清除或覆盖,但是基于设备的统计相对更为稳定和长久。这使得用户细分(Segmentation)和断代分析(Cohort Analytics)可以更加准确和实用。我们可以通过某种条件(例如当年3月份的新增用户并且使用时长超过20分钟的)筛选出一批用户,分析他们的行为模式。
  Mobile Analytics和Web Analytics还有个很大的区别是,前者统计数据时,有可能是离线或者信号不好、网络不稳定的状态,导致统计数据无法立即上传。等到数据能上传时,可能已经隔了几小时到几天不等。而Web Analytics则不会出现这种情况,不能上网就无法访问网站,如果能上网站但是不能连接到统计服务器,这部分统计数据也不会被重新发送。这使得Mobile Analytics需要更复杂的数据补偿策略。
  从数据量上来说,Mobile Analytics一点都不比Web Analytics少。它需要统计很多Web Analytics所没有的数据,例如设备型号、应用版本、推广渠道、甚至位置信息,同时还有很多开发者自定义的事件。而移动设备(含平板电脑)总量的增长率远远大于PC(含笔记本电脑)总量的增长率,每个移动设备上的移动应用个数的增长也非常快。所以提供公共服务的Mobile Analytics平台都是典型的大数据应用场景。原文发表于2012-10-25
  本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
  相关阅读
   手机上的大数据(一):移动互联网的入口
   手机上的大数据(二):手机大数据的特点
   手机上的大数据(三):手机上的阅读
  手机上的大数据(四):手机上的音乐
   手机上的大数据(五):手机上的APP推广
   手机上的大数据(六):手机大数据的挑战
责任编辑:陈卓阳
产业观察
2016-01-06 11:17:40
手机上的大数据(一):移动互联网的入口
来源:雷锋网 时间:2015-12-23 11:03:15 作者:
  【编者按】本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
  随着移动互联网的的发展,一些在传统互联网上已经被解析无数次的“观念”也在移动互联网上出现。例如,互联网的入口,在目前,移动互联网并没有一家独大的情况出现,似乎也没有这种情况出现的可能。那么,是否大家都有机会在这个领域找到自己的立足点呢。
  近来,一部业内热炒的书—《爆发》,就在人们对大数据的热度将要冷却的时候,就在人们对大数据走向茫然彷徨的时候,再次点燃了公众对大数据的热情。《爆发》的作者巴拉巴西教授为大家打开了一扇从未见有过的窗户,让人们看到了另外一个世界,一个和谐、有序、美丽的世界。这个世界,是我们之前从未想过,也从不敢想的世界。这个世界,就是掩藏在表象之下,被数据所揭示的世界!
   手机大数据市场—加速
  在苹果亚洲大会上,令人印象最深的主题就是大数据。移动互联网虽然发展较晚,但其速度要远比互联网当年的发展要快很多。
  移动互联网用户发展情况
  年初的各种报告就显示,全球的移动互联网流量已经占到整个互联网流量的10%!而北美用户的互联网访问时间已经跟移动互联网访问时间接近持平;在印度,互联网的流量已经跟移动互联网持平!
  全球移动互联网流量已经达到整体互联网流量的10%
  印度互联网及移动互联网流量变化
  Facebook,Twitters等主要应用相继证明了这点。Facebook还因此导致广告收入的下滑,因为他们没有准备好在移动互联网上如何承载品牌广告。
   手机大数据的产生—移动互联网入口
  移动互联网的入口自然会产生大量的数据(可以产生手机大数据的却不只是移动互联网入口,比如社会化媒体,但显然它不适合做入口)。那么什么才能算是移动互联网的入口呢?
  借用DCCI的定义,所谓“移动互联网入口”就是用户接入移动互联网的第一站,通过移动网络获取信息、解决问题的第一接触点。
  在传统的商业领域,只要控制了渠道,也就离成功不远,在移动互联网时代,得入口者得天下的观点也同样适用。
  这也是众多互联网巨头斥巨资争夺移动互联网入口的根源。他们希望保持自己在互联网搜索、浏览器等方向上取得的入口优势,延续自身的垄断。
  一般而言,目前大家一般公认的可能的移动互联网入口有:搜索、移动浏览器、移动应用商店、移动广告等。(有的还包括操作系统,但个人认为这种方法不合理,操作系统距离应用太远,无法通过其影响到具体应用或者跟应用发生关联。)
  移动互联网入口
   搜索
  作为互联网中很主要的一个入口,搜索在移动互联网市场还没有形成规模,用户还没有形成搜索的习惯。
  形成这种局面的问题主要有几个:
  1、 市场不成熟,用户还没养成在移动互联网做很多事情的习惯;
  2、 应用的碎片化,用户在做一些事情的时候,都有专用的APP,只需点击,无需搜索;
  3、 输入困难,使用的场景、时间、网速慢以及手机键盘本身的局限,导致了在手机上人们不愿意或者尽可能地少输入信息。
  在移动互联网市场,个人倒是更看好“基于位置LBS搜索”的未来。手机之于PC,增加了一个很重要的元素就是GPS,或者说是位置信息。当搜索又增加一个条件时,使用者得到的便利将会非线性地增加。
  例如:“我的车没油了,搜索加油站,可能有很多对我毫无意义的信息;而如果搜索离我最近的加油站,那就非常有用了。从某种意义上来说,基于位置的搜索,也是一种个性化的推荐。”
  基于位置的搜索
  对于普通搜索市场,并不是没有价值和意义。随着移动互联网市场的普及,深入,移动电商,移动支付等应用的多样化,势必会造成信息的过载,也就有了搜索的客观需求。
  DCCI调研发现,移动互联网用户对移动搜索的需求也日益旺盛,而且,移动搜索是在拥有移动互联网WAP流量大占比的情况下仍保持高速增长的领域。随着WAP的逐渐淡出,手机WEB、APP的进一步成熟,这一市场将会进入加速期。
  另外,移动电商的崛起,为搜索也带来了新的机会。商品信息的移动搜索,线上比价搭配线下购物都将促进商品信息移动搜索的发展。
   手机浏览器
  由于移动应用的“碎片化”表征,导致了手机浏览器并不像互联网浏览器那样风光。每个应用都在做自己独立的APP,而无需像互联网那样通过浏览器才能访问网站。
  即便如此,手机浏览器随着市场的成熟,智能机的普及,移动网民的增加,还是在逐渐增多。根据91助手提供的数据显示,手机浏览器的周下载量很长一段时间在下降,直到今年3月才出现明显回升,并超过去年10月初的水平,周下载量接近100万,颓势逆转。随着HTML5技术的引入,手机浏览器的用户体验将有很大的提升。
  移动手机浏览器下载量
  自带浏览器方面,与WebKit的逐步扩张相反,MTK自带浏览器和诺基亚自带浏览器都呈下滑趋势,MTK自带浏览器从上季度的12.5%下降至8.9%,诺基亚自带浏览器从上季度的5.7%下降至5.2%。第三方浏览器方面,UC浏览器仍以30.3%的市场份额雄踞首位。QQ浏览器增幅明显,环比增长2.5%,同比增长7%。
  2012Q2百度移动互联网分析报告数据显示,UC浏览器继续以30.3%的市场份额领跑众手机浏览器,其次WebKit自带浏览器、QQ浏览器旗鼓相当,市场份额分别为19.7%、19%。其它浏览器份额分布如下图所示:
  2012年Q2手机浏览器市场占比
  手机浏览器占比变化
  从上图可以看出:
  手机浏览器市场又恢复了上升势头
  手机浏览器市场TOP3有进一步集中的趋势
  虽然,手机浏览器的未来还是不错的,但短期内显然也无法充当移动互联网入口的角色;而且即便将来市场发展,手机浏览器的占比增大,但由于前面提到的移动互联网“碎片化”的特点,还是难以达到其在互联网PC市场中的高度。
   应用商店
  人们最初认为,应用商店是最可能演变成移动互联网入口的节点。因为所有的APP应用都需要通过应用商店的发布才能送达最终用户的手机上。
  但是,在发展的过程中,由于准入的门槛低,鱼龙混杂。目前国内大大小小的应用商店市场要有成百上千家。现在还处于一个大浪淘沙的阶段。比较有规模的如:91助手,机锋,安致开发市场等。
  但即便是这几家有些规模的应用商店市场,由于早期缺乏广告主,而应用商店市场又呈“碎片化”,让本来就僧多粥少的应用商店市场无法靠外来的广告去维持运营,只能靠帮助店内的APP做一些推广来维持运营。
  让我想起葛爷的一部电影《气喘吁吁》,折腾了半天,原来是两个穷人在算计对方,都指着挣对方的钱,而无法帮对方赚钱。
  开发者不得不自谋出路,自己去寻找外部无线广告投放者,从而也造就了另一个层级的机会—无线广告平台。
   无线广告平台
  既然地主家没有余粮,那就只能自力更生。开发者有需求,就会有“好事者”来满足需求,无线广告平台就这样诞生了。
  架势、哇棒、百分通联、有米、多盟、力美,一个个前仆后继。如果说对无线广告市场贡献最大的是谁?那一定是投资方。因为对于这样一个早期市场,用户的成熟行为习惯还没有转移到手机上来,市场需要培育,需要等待。
  现在的无线广告市场,表面上看是品牌广告上迟迟不进入,或者干脆不认可手机承载品牌广告的价值;但实质上,个人认为是整个市场的不成熟,网民们并没有将“变现”的行为转移到移动互联网上。尽管传统媒体的广告价值在日益下降,他们的受众人群在老龄化,广告主需要寻找新的替代品,但这一市场的成长还有待时日,尤其是移动互联网。手机上去承载品牌广告,还需要时间和机遇。如果要用一个词语来形容现在无线广告平台的经营策略,那么我想是“活着”。市场在某种程度上可以催熟,但也仅是某种程度。放下身段,面对现实,真正深入到移动互联网行业中去,去寻找移动互联网广告的必然和现今的变现方式,开源节流,等待曙光的到来,是这个细分市场中每一个玩家比较现实的做法。
  对于现在的无线广告市场,各家都有自己的广告主资源,但这显然会造成本就不多的资源分散的问题,狼多肉少。开发者跟无线广告平台的合作是松散的,没有忠诚度可言,来这里就是为了赚钱,这一群体对价格的敏感最终造就了另一个层级的产生—无线广告聚合平台。
   无线广告聚合平台
  对于纯朴的开发者们而言,赚钱才是硬道理。集成一个广告平台一天赚100块钱,集成多个广告平台一天赚150,那他一定选择后者。这就是赚钱效应。
  而这个集成多个广告平台的角色,就是无线广告聚合平台。它的最主要任务就是把移动互联网早期本就微薄的资源聚敛起来,形成一定得规模再重新分配。
  赚钱效应,也直接导致了流量和资源的重新分配。
  一个实际的移动互联网“入口”已经悄然形成。不能说它一定是未来成熟之后的移动互联网世界的唯一“入口”,但起码可以肯定的是,它将在未来的移动互联网世界中扮演一个很重要的角色!它的角色,甚至可以与互联网中谷歌、百度的地位相媲美。
  想想,无论任何一个领域,有那家公司可以做到日PV过亿?每天仅文本格式保存的数据就超过几百个G?这是否算大数据呢?
  从数据的种类上,它囊括了几乎早期至现在几乎所有类型应用,游戏、阅读、有声读物、音乐、SNS、工具等等;透过这些纷繁复杂的数据,依稀看到了掩藏在如“杂草堆”一般海量移动大数据下的真实的早期移动互联网世界。在那里,很多移动互联网市场上早期的人的行为,他们的真实想法等等。原文发表于2012年
  相关阅读
   手机上的大数据(一):移动互联网的入口
   手机上的大数据(二):手机大数据的特点
   手机上的大数据(三):手机上的阅读
  手机上的大数据(四):手机上的音乐
   手机上的大数据(五):手机上的APP推广
   手机上的大数据(六):手机大数据的挑战
责任编辑:陈卓阳
产业观察
2015-12-23 11:03:15
Spark概念解读以及与Hadoop技术对比
来源: 数据观 时间:2015-09-22 15:28:32 作者:
  Spark概念
  Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
  Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
  Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
  尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。
  Spark生态系统
  Shark: Shark基本上就是在Spark的框架基础上提供和Hive一样的HiveQL命令接口,为了最大程度的保持和Hive的兼容性,Shark使用了Hive的API来实现query Parsing和 Logic Plan generation,最后的PhysicalPlan execution阶段用Spark代替HadoopMapReduce。通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。同时,Shark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起,最大化RDD的重复使用。
  基本原理
  Spark Streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+),虽然比不上专门的流式数据处理软件,也可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。
  计算方法
  Bagel: Pregel on Spark,可以用Spark进行图计算,这是个非常有用的小项目。Bagel自带了一个例子,实现了Google的PageRank算法。
  当下Spark已不止步于实时计算,目标直指通用大数据处理平台,而终止Shark,开启SparkSQL或许已经初见端倪。
  Spark与Hadoop技术对比
  下面是小编在网上搜集的部分资料,如有不足,还请减料
  问题:与 Hadoop 对比,如何看待 Spark 技术?
  网友答复
  回答一:
  我本人是类似Hive平台的系统工程师,我对MapReduce的熟悉程度是一般,它是我的底层框架。我隔壁组在实验Spark,想将一部分计算迁移到Spark上。
  年初的时候,看Spark的评价,几乎一致表示,Spark是小数据集上处理复杂迭代的交互系统,并不擅长大数据集,也没有稳定性。但是最近的风评已经变化,尤其是14年10月他们完成了Peta sort的实验,这标志着Spark越来越接近替代Hadoop MapReduce了。
  Spark the fastest open source engine for sorting a petabyte
  Sort和Shuffle是MapReduce上最核心的操作之一,比如上千个Mapper之后,按照Key将数据集分发到对应的Reducer上,要走一个复杂的过程,要平衡各种因素。Spark能处理Peta sort的话,本质上已经没有什么能阻止它处理Peta级别的数据了。这差不多远超大多数公司单次Job所需要处理的数据上限了。
  回到本题,来说说Hadoop和Spark。Hadoop包括Yarn和HDFS以及MapReduce,说Spark代替Hadoop应该说是代替MapReduce。
  MapReduce的缺陷很多,最大的缺陷之一是Map + Reduce的模型。这个模型并不适合描述复杂的数据处理过程。很多公司(包括我们)把各种奇怪的Machine Learning计算用MR模型描述,不断挖(lan)掘(yong)MR潜力,对系统工程师和Ops也是极大挑战了。很多计算,本质上并不是一个Map,Shuffle再Reduce的结构,比如我编译一个SubQuery的SQL,每个Query都做一次Group By,我可能需要Map,Reduce+Reduce,中间不希望有无用的Map;又或者我需要Join,这对MapReduce来说简直是噩梦,什么给左右表加标签,小表用Distributed Cache分发,各种不同Join的Hack,都是因为MapReduce本身是不直接支持Join的,其实我需要的是,两组不同的计算节点扫描了数据之后按照Key分发数据到下一个阶段再计算,就这么简单的规则而已;再或者我要表示一组复杂的数据Pipeline,数据在一个无数节点组成的图上流动,而因为MapReduce的呆板模型,我必须一次一次在一个Map/Reduce步骤完成之后不必要地把数据写到磁盘上再读出,才能继续下一个节点,因为Map Reduce2个阶段完成之后,就算是一个独立计算步骤完成,必定会写到磁盘上等待下一个Map Reduce计算。
  上面这些问题,算是每个号称下一代平台都尝试解决的。
  现在号称次世代平台现在做的相对有前景的是Hortonworks的Tez和Databricks的Spark。他们都尝试解决了上面说的那些问题。Tez和Spark都可以很自由地描述一个Job里执行流(所谓DAG,有向无环图)。他们相对现在的MapReduce模型来说,极大的提升了对各种复杂处理的直接支持,不需要再绞尽脑汁“挖掘”MR模型的潜力。
  这是Hadoop峰会上Tez的材料,第九页开始有描述Hive on Tez和传统MR Hive的区别,这些区别应该也适用于MR Hive和Spark SQL,也很清楚的体现了为何MR模型很笨重。
  相比Tez,Spark加入了更多内存Cache操作,但据了解它也是可以不Cache直接处理的,只是效率就会下降。
  再说Programming Interface,Tez的Interface更像MapReduce,但是允许你定义各种Edge来连接不同逻辑节点。Spark则利用了Functional Programming的理念,API十分简洁,相比MR和Tez简单到令人发指。我不清楚Spark如果要表现复杂的DAG会不会也变得很麻烦,但是至少wordcount的例子看起来是这样的
  处理大规模数据而言,他们都需要更多proven cases。至少Hadoop MapReduce是被证明可行的。
  作为Data Pipeline引擎来说,MapReduce每个步骤都会存盘,而Spark和Tez可以直接网络发送到下一个步骤,速度上是相差很多的,但是存盘的好处是允许继续在失败的数据上继续跑,所以直观上说MapReduce作为pipeline引擎更稳健。但理论上来说,如果选择在每个完成的小步骤上加CheckPoint,那Tez和Spark完全能和现在的MapReduce达到一样的稳健。
  总结来说,即便现在不成熟,但是并没有什么阻碍他们代替现有的MapReduce Batch Process。
  对Tez而言,似乎商业上宣传不如Spark成功。Databricks头顶Berkley的光环,商业宣传又十分老道,阵营增长极快。光就系统设计理念,没有太大的优劣,但是商业上可能会拉开差距。Cloudera也加入了Spark阵营,以及很多其他大小公司,可以预见的是,Spark会成熟的很快,相比Tez。
  但Tez对于Hortonworks来说是赢取白富美的关键,相信为了幸福他们也必须努力打磨推广tez。
  所以就算现在各家试用会有种种问题,但是毕竟现在也就出现了2个看起来有戏的“次世代”平台,那慢慢试用,不断观望,逐步替换,会是大多数公司的策略。
  回答二:
   1. spark 是hadoop mapreduce 的不断改进,同时又兼容并包了很多数据库里面的一些基本思想来实现和发展。没有什么怪力乱神,什么内存计算,什么下一代之类的花哨说法的。spark 是站在hadoop and database 这两个巨人肩膀上的。
  举个spark 处理迭代计算的Example
  2. Spark 版本的PageRank 比Hadoop 快的不是一点点。根本原因就是在每一步迭代的时候,需要做两个big table euqi-join。hadoop mr 的算法是要做data shuffle,同时需要把需要计算的数据从hdfs 多次读出写入。回溯到5年前,最先发现Hadoop 在处理迭代计算,存在i/o 读写浪费的瓶颈的是 vldb10 的 LoopHadoop 的论文,其中的一作是一个中国哥们,现在citation 已经超过400多了。解决的方法就是把多个迭代中不变的数据,cache 下来,下一步计算就不需要从disk 里面读写了,Spark 也是根据类似的idea 可以把需要反复计算的数据, cache 下来。
  3. 接着上面的问题,数据cache 下来之后,why spark 在迭代的时候不需要shuffle 了阿? 因为spark 定义了rdd 之间的dependence 关系,这个关系决定了是否需要shuffle. 比如一个spark 有多个partition, 如果一个rdd 到另外一个rdd 是 全依赖关系,就是说一个partition 的数据,始终在local 计算,或者只是需要去取指定的一个partition 的数据的话,那么shuffle 就是不需要了。我们可以看到,所有计算的依赖关系都是在计算之前就定义好了。有了 rdd 之间的依赖关系,就是可以得到计算的 logical plan and physical plan, 然后去执行计算. 这就是典型的数据库的思想。当然rdd 也就是数据库view 的思想的实现,因为rdd 和view 都是需要的时候再计算的模式,这样就可以有了计算的pipeline,也完全是数据库pipeline 的实现的吗。大家如果看到spark rdd code 里面到处的iterator,就更明白了 。
    4. 回到page rank 的列子,两个大表(A,B)之间的join, 因为数据已经按照hash patitioner 把数据分块划好了。就是A B 数据的key 在一个范围的已经分入到具体的partition 里面了,那join的时候,就只是需要对应的partition 作对应的join 就可以的。这样就避免了数据的shuffle 了的。
    5. 其实spark 是一点点一点点的工程和学术的结合基础上做出来的, 本质就是Hadoop mapreduce 的增强版本。大家可以看到,在理论上都没有太多新的东西。 所以人家马铁大神当年论文也是被拒了好多遍的。但是系统就是这一点点的改进的基础上做出的。马铁的老板之一是Franklin,F的老板是 UCI 的大牛Carey, Carey 的老板大家自己google 吧。UCB的人的确是牛!
  6. 最后我觉得比较hadoop vs spark 不是一个很好的比较方式,因为他们都是一个流派的。比较合适的,是比较 MapReduce Vs MPI,因为在MPI 的计算模式和MapReduce 有大的区别。如果在计算传输数据量不大的时候,比如单纯的numerical 计算的时侯,MPI 都要甩 MapReduce 几条街。最简单就是你想想人家超算做了几十年了,在大的计算集群上的计算上则几万核啊,经典的 one to all, all to all, all to one, data grid 都是很妙的方法好吧。但是如果在处理文本啊之类的数据的时候,一个单词可能出现了很多次,需要大量的数据传输,这时候MapReduce shuffle 机制就显示出优势来了。当然MPI 没有考虑 fault tolerance,也是在cloud 环境下,MapReduce 更有效的原因之一。
  回答三:
   我们公司现在Spark和Hadoop都在用,从我的感受来看,虽然Spark目前还不够成熟,但是今后一定会代替Hadoop。
   1. 相同的算法,Spark比Hadoop快数倍,如果是一些迭代或者要对数据反复读取的算法,Spark比Hadoop快数十倍至上百倍
  2. Spark对于数据的操作种类更多,对于一些比较特殊的计算需求,比如求两个集合的交集并集,Spark都有函数直接计算,而Hadoop实现这样的计算无比繁琐
  3. Spark的开发效率比Hadoop高很多
  当然也不是说Spark就是完美的,目前来看Spark还有很多bug,而且可以看的资料也不多。而且据说另一个分布式计算平台Graphlab运行效率比Spark还要高,我最近正准备学一下。
  Spark成为大数据分析领域新核心的理由
  依赖于Hadoop的企业需要借助一系列分析型基础设施与流程以找到与各类关键性问题相关的结论与解答。企业客户需要数据准备、描述性分析、搜索、预测性分析以及机器学习与图形处理等更为先进的功能。与此同时,企业还需要一套能够满足其实际需求的工具集,允许他们充分运用目前已经具备的各类技能及其它资源。就目前而言,并没有哪种标准化单一处理框架足以提供这样的效果。从这个角度出发,Spark的优势恰好得到了完美体现。
  尽管Spark还仅仅是个相对年轻的数据项目,但其能够满足前面提到的全部需求,甚至可以做得更多。在今天的文章中,我们将列举五大理由,证明为什么由Spark领衔的时代已经来临。
  Spark让高级分析由理想变为现实
  尽管多数大型创新型企业正在努力拓展其高级分析能力,但在最近于纽约召开的一次大数据分析会议上,只有20%的与会者表示目前正在企业内部部署高级分析解决方案。另外80%与会者反映其仍然只具备简单的数据准备与基本分析能力。在这些企业中,只有极少数数据科学家开始将大量时间用于实现并管理描述性分析机制。
  Spark项目提供的框架能够让高级分析的开箱即用目标成为现实。这套框架当中包含众多工具,例如查询加速、机器学习库、图形处理引擎以及流分析引擎等等。对于企业而言,即使拥有极为杰出的数据科学家人才(当然这一前提同样很难实现),他们也几乎不可能通过MapReduce实现上述分析目标。除此之外,Spark还提供易于使用且速度惊人的预置库。在此基础之上,数据科学家们将被解放出来,从而将主要精力集中在数据准备及质量控制之外的、更为关键的事务身上。有了Spark的协助,他们甚至能够确保对分析结果做出正确的解释。
    相关阅读:
     Spark与Hadoop计算模型的比较分析
    Hadoop技术全解析 深度挖掘大数据背后的秘密
    通过可视化来了解你的Spark应用程序
  本文为 数据观原创精编,转载请注明来源 www.cbdio.com   百度一下“数据观”,获取更多大数据相关资讯
  微信搜索“数据观”,关注后有一大波大数据干货奉送
扫码关注
产业观察
2015-09-22 15:28:32
GFS概念解读:可扩展的分布式文件系统
来源: 数据观 时间:2015-09-17 10:51:27 作者:
  GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务。
  GFS 也就是 google File System,Google公司为了存储海量搜索数据而设计的专用文件系统。
  GFS运行原理
  GFS文件系统其实就是一个网络日志文件系统,通常被用作为多台计算机共享一存储设备,而GDS文件系统本身的相关信息可以存储在服务器中或者在一个存储区域网络中。
  图19.3是GFS文件系统的一个拓展图。
  此图是GFS与GNBD通过SAN网络的一个构架,总共分为4个组成部分,从下到上依次为共享数据存储层、GNBD Server、GFS文件系统和应用程序层。
  共享数据存储层
  共享数据存储区域一般由专业的磁盘阵列设备组成,然后通过SAN网络连接到每个GNBD Server上。
  GNBD是Global Netword Block Device的简称,它通过将存储的数据块导出到以太网上,进而提供了通过TCP/IP协议访问Red Hat GFS是方法。GNBD由两个主要部分组成:一个GNBD客户端,一个GNBD服务器端。GNBD服务器端运行于GNBD Server上,主要用于导出本地存储。GNBD客户端运行在使用GFS文件系统的每个节点上,主要用于导入从GNBD服务器端导出的磁盘设备。GNBD Server 可以有一个或者多个,并且多个GNBD客户端可以同时访问由一个GNBD服务器端导出的磁盘设备。
  GFS文件系统运行在集群的每个节点上,通过共享GNBD Server 导出的数据,实现营业程序的访问,完成服务器集群技术存储的功能。
  位于最上层的应用程序主要用于提供集群服务。集群服务运行在每个节点上,共用同一的数据文件,从而对外提供一致性的访问功能。
  为了保证文件系统的完整性,GFS使用锁管理器来管理I/O。当一个节点在GFS上修改数据时,改变可以立即在其他使用此文件系统的节点上可见。GFS通过多个节点在块级别上共享存储,实现了资源的节点共享和统一管理。
  GFS架构分析
  Google文件系统(Google File System,GFS)是构建在廉价的服务器之上的大型分布式系统。它将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。
  GFS是Google云存储的基石,其它存储系统,如Google Bigtable,Google Megastore,Google Percolator均直接或者间接地构建在GFS之上。另外,Google大规模批处理系统MapReduce也需要利用GFS作为海量数据的输入输出。
  系统架构
  GFS将整个系统的节点分为三种角色:GFS Master(总控服务器),GFS Chunkserver(数据块服务器,简称CS)以及GFS Client(客户端)。
  GFS文件被划分为固定大小的数据块(Chunk),由Master在创建时分配一个64位全局唯一的Chunk句柄。CS以普通的Linux文件的形式将Chunk存储在磁盘中。为了保证可靠性,Chunk在不同的机器中复制多份,默认为三份。
  Master中维护了系统的元数据,包括文件及Chunk名字空间,GFS文件到Chunk之间的映射,Chunk位置信息。它也负责整个系统的全局控制,如Chunk租约管理,垃圾回收无用Chunk,Chunk复制,等等。Master会定期与CS通过心跳的方式交换信息。
  Client是GFS提供给应用程序的访问接口,它是一组专用接口,不遵守POSIX规范,以库文件的形式提供。Client访问GFS时,首先访问Master节点,获取与之进行交互的CS信息,然后直接访问这些CS,完成数据存取工作。
  需要注意的是,GFS中的客户端不缓存文件数据,只缓存Master中获取的元数据,这是由GFS的应用特点决定的。GFS最主要的应用有两个:MapReduce与Bigtable。对于MapReduce,GFS客户端使用方式为顺序读写,没有缓存文件数据的必要;而Bigtable作为云表格系统,内部实现了一套缓存机制。另外,如何维护客户端缓存与实际数据之间的一致性是一个极其复杂的问题。
  下面讨论GFS架构中的几个关键问题。
  Lease机制
  GFS数据追加以记录为单位,每个记录的大小为几十KB到几MB,如果每次记录追加都需要请求Master,那么Master显然会成为系统的性能瓶颈,因此,GFS系统中通过Lease机制将chunk写操作授权给Chunk Server。获取Lease授权的Chunk Server称为Primary Chunk Server,其它副本所在的Chunk Server称为Secondary Chunk Server。Lease授权针对单个chunk,在Lease有效期内,对该chunk的写操作都有Primary Chunk Server负责,从而减少Master的负担。一般来说,Lease的有效期比较长,比如60秒,只要没有出现异常,Primary Chunk Server可以不断向Master请求延长Lease的有效期直到整个chunk写满。
  假设有Chunk A在GFS中保存了三个副本A1,A2,A3,其中,A1是Primary。如果副本A2所在Chunk Server下线后又重新上线,并且在A2下线的过程中,副本A1和A3有新的更新,那么,A2需要被Master当成垃圾回收掉。GFS通过对每个chunk维护一个版本号来解决,每次给Chunk进行Lease授权或者Primary Chunk Server重新延长Lease有效期时,Master会将Chunk的版本号加1。A2下线的过程中,副本A1和A3有新的更新,说明Primary Chunk Server向Master重新申请Lease并增加了A1和A3的版本号,等到A2重新上线后,Master能够发现A2的版本号太低,从而将A2标记为可删除的chunk,Master的垃圾回收任务会定时检查,并通知Chunk Server将A2回收掉。
   BigTable和GFS有什么不同?
  BigTable是一个key/value分布式数据库,而GFS主要是一个分布式文件系统。bigTable存储结构化数据,GFS存储的是非结构化数据。另外BigTable的数据是存储在GFS上的。
  云计算关于GFS的问题
  问题:我刚接触云计算,老师给了我一个课题,要求是 构造一个体现搜索/存储技术特征的应用案例的GFS功能框架和工作流,有没有人可以指导一下。。。
  回答:
  提供给个思路:比如时下流行的网络网盘,客户的需求是注册、登陆、上传、下载、存储、访问、分享到某空间,这些可以归为工作流程中,另外做些加密解密和交互(比如输入验证码、忘了密码通过邮箱找回等),其中重点就在于你的课题中提出的“搜索/存储”,因为用GFS,它是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。所以可以很容易的实现课题需求。
  至于GFS的功能框架要根据工作流确定,仿照GFS的标准框架构造即可。
  如何利用Linux和GFS打造集群存储?
  负载均衡是一项困难的任务。我们经常需要通过NFS(网络文件系统)或其他机制来为数据提供中心地址,从而共享文件系统。虽然你的安全机制可能可以让你免于Web服务器节点的故障,但是你仍然需要通过中央存储节点来共享数据。 通过GFS(全局文件系统)——Linux的一个免费集群文件系统——你可以创建一个不需要依赖其他服务器的真正稳定的集群。在这篇文章中,我们将展示如何正确地设置GFS. 从概念上来说,一个集群文件系统可以允许多个操作系统载入同一个文件系统并可以在同一时间内向同一文件系统写入数据。现在有许多集群文件系统,包括Sun的Lustre,Oracle的OCFS(Oracle集群文件系统),以及Linux的GFS. 有许多方法可以让一个块设备同时被多个服务器所使用。你可以分区出一个对多个服务器都可视的SAN(存储局域网...
  相关阅读
  在Linux系统环境下使用GFS文件系统
  gfs采用了哪些容错措施来确保整个系统的可靠性
  本文 数据观原创精编,转载请注明来源 www.cbdio.com   百度一下“数据观”,获取更多大数据相关喜讯
  微信搜索“数据观”,关注后有一大波大数据干货奉送
扫码关注
产业观察
2015-09-17 10:51:27
大数据概念:史上最全大数据解析
来源: 数据观 时间:2015-04-02 17:52:56 作者:
  现如今,我们身边很多人对一些热门的新技术、新趋势往往趋之若鹜却又很难说得透彻,比如大数据,如果被问大数据和你有什么关系,估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然,在聊天时不会显得很“土鳖”;二是在工作和生活环境中,真正能参与实践的大数据案例实在太少了,所以大家没有机会花时间去知其所以然。
  我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆积起来形成毫无价值的转述或评论,我很真诚的希望进入事物探寻本质。
  如果你说大数据就是数据大,或者侃侃而谈4个V,也许很有深度的谈到BI或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起Hadoop和Cloud Computing,不管对错,只是无法勾勒对大数据的整体认识,不说是片面,但至少有些管窥蠡测、隔衣瘙痒了。……也许,“解构”是最好的方法。
   怎样结构大数据?
  首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
  其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:
  第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
  第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
  第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
   和大数据相关的理论
   特征定义
  最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
  业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。
  其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。
  古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。
  那么,什么是大数据思维?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。
  阿里巴巴的王坚对于大数据也有一些独特的见解,比如,
  “今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。”
  “非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。”
  “你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”
  特别是最后一点,我是非常认同的,大数据的真正价值在于创造,在于填补无数个还未实现过的空白。
  有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
   价值探讨
  大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。
  如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
  Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。
  Target的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。
  不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
  从大数据的价值链条来分析,存在三种模式:
  1- 手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。
  2- 没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。
  3- 既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。
  未来在大数据领域最具有价值的是两种事物:1-拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。
  Wal-Mart作为零售行业的巨头,他们的分析人员会对每个阶段的销售记录进行了全面的分析,有一次他们无意中发现虽不相关但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有大幅增加,于是他们做了一个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。
  还有一个有趣的例子,1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。
  这些例子真实的反映在各行各业,探求数据价值取决于把握数据的人,关键是人的数据思维;与其说是大数据创造了价值,不如说是大数据思维触发了新的价值增长。
   现在和未来
  我们先看看大数据在当下有怎样的杰出表现:
  大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;
  大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;
  大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;
  大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;
  大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;
  大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;
  大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;
  大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。
  其实,这些还远远不够,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。
  比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”
  Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。
  而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。
  未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。
  比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用:
  医疗机构将实时的监测用户的身体健康状况;
  教育机构更有针对的制定用户喜欢的教育培训计划;
  服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务;
  社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;
  政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生;
  金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;
  道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;
  ……
  当然,上面的一切看起来都很美好,但是否是以牺牲了用户的自由为前提呢?只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如,在手机未普及前,大家喜欢聚在一起聊天,自从手机普及后特别是有了互联网,大家不用聚在一起也可以随时随地的聊天,只是“病菌”滋生了另外一种情形,大家慢慢习惯了和手机共渡时光,人与人之间情感交流仿佛永远隔着一张“网”。
   大数据隐私
  你或许并不敏感,当你在不同的网站上注册了个人信息后,可能这些信息已经被扩散出去了,当你莫名其妙的接到各种邮件,电话,短信的滋扰时,你不会想到自己的电话号码,邮箱,生日,购买记录,收入水平,家庭住址,亲朋好友等私人信息早就被各种商业机构非法存储或贱卖给其它任何有需要的企业或个人了。
  更可怕的是,这些信息你永远无法删除,它们永远存在于互联网的某些你不知道的角落。除非你更换掉自己的所有信息,但是这代价太大了。
  用户隐私问题一直是大数据应用难以绕开的一个问题,如被央视曝光过的分众无线、罗维邓白氏以及网易邮箱都涉及侵犯用户隐私。目前,中国并没有专门的法律法规来界定用户隐私,处理相关问题时多采用其他相关法规条例来解释。但随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据,是进行大数据分析时必须遵循的原则。
  说到隐私被侵犯,爱德华斯诺登应该占据一席之地,这位前美国中央情报局(CIA)雇员一手引爆了美国“棱镜计划”(PRISM)的内幕消息。“棱镜”项目是一项由美国国家安全局(NSA)自2007年起开始实施的绝密电子监听计划,年耗资近2000亿美元,用于监听全美电话通话记录,据称还可以使情报人员通过“后门”进入9家主要科技公司的服务器,包括微软、雅虎、谷歌、Facebook、PalTalk、美国在线、Skype、YouTube、苹果。这个事件引发了人们对政府使用大数据时对公民隐私侵犯的担心。
  再看看我们身边,当微博,微信,QQ空间这些社交平台肆意的吞噬着数亿用户的各种信息时,你就不要指望你还有隐私权了,就算你在某个地方删除了,但也许这些信息已经被其他人转载或保存了,更有可能已经被百度或Google存为快照,早就提供给任意用户搜索了。
  因此在大数据的背景下,很多人都在积极的抵制无底线的数字化,这种大数据和个体之间的博弈还会一直继续下去……
  专家给予了我们一些如何有效保护大数据背景下隐私权的建议:1-减少信息的数字化;2-隐私权立法;3-数字隐私权基础设施(类似DRM数字版权管理);4-人类改变认知(接受忽略过去);5-创造良性的信息生态;6-语境化。
  但是这些都很难立即见效或者有实质性的改善。
  比如,现在有一种职业叫删帖人,专门负责帮人到各大网站删帖,删除评论。其实这些人就是通过黑客技术侵入各大网站,破获管理员的密码然后进行手工定向删除。只不过他们保护的不是客户的隐私,而大多是丑闻。还有一种职业叫人肉专家,他们负责从互联网上找到一个与他们根本就无关系用户的任意信息。这是很可怕的事情,也就是说,如果有人想找到你,只需要两个条件:1-你上过网,留下过痕迹;2-你的亲朋好友或仅仅是认识你的人上过网,留下过你的痕迹。这两个条件满足其一,人肉专家就可以很轻松的找到你,可能还知道你现在正在某个餐厅和谁一起共进晚餐。
  当很多互联网企业意识到隐私对于用户的重要性时,为了继续得到用户的信任,他们采取了很多办法,比如google承诺仅保留用户的搜索记录9个月,浏览器厂商提供了无痕冲浪模式,社交网站拒绝公共搜索引擎的爬虫进入,并将提供出去的数据全部采取匿名方式处理等。
  在这种复杂的环境里面,很多人依然没有建立对于信息隐私的保护意识,让自己一直处于被滋扰,被精心设计,被利用,被监视的处境中。可是,我们能做的几乎微乎其微,因为个人隐私数据已经无法由我们自己掌控了,就像一首诗里说到的:“如果你现在继续麻木,那就别指望这麻木能抵挡得住被”扒光”那一刻的惊恐和绝望……”
   和大数据相关的技术
   云技术
  大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。
  云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能力作为一种像水和电一样的公用事业提供给用户。
  如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。
  业内是这么形容两者的关系:没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。
  那么大数据到底需要哪些云计算技术呢?
  这里暂且列举一些,比如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等。
  云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。
  如果将云计算与大数据进行一些比较,最明显的区分在两个方面:
  第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。
  第二,大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的、是业务层的产品,而大数据的决策者是业务层。
   分布式处理技术
  分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。
  以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。
  而MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式,在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。
  再来看看Hadoop的特性,第一,它是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。其次,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
  你也可以这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相关) HBase(数据库) MapReduce(数据处理) ……Others
  Hadoop用到的一些技术有:
  HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (HadoopDistributed File System)
  MapReduce:并行计算框架
  HBase: 类似Google BigTable的分布式NoSQL列数据库。
  Hive:数据仓库工具,由Facebook贡献。
  Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。
  Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
  Pig:大数据分析平台,为用户提供多种接口。
  Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。
  Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。
  说了这么多,举个实际的例子,虽然这个例子有些陈旧,但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制:
  如上图所示,淘宝的海量数据产品技术架构分为五个层次,从上至下来看它们分别是:数据源,计算层,存储层,查询层和产品层。
  数据来源层。存放着淘宝各店的交易数据。在数据源层产生的数据,通过DataX,DbSync和Timetunel准实时的传输到下面第2点所述的“云梯”。
  计算层。在这个计算层内,淘宝采用的是Hadoop集群,这个集群,我们暂且称之为云梯,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进行不同的MapReduce计算。
  存储层。在这一层,淘宝采用了两个东西,一个使MyFox,一个是Prom。MyFox是基于MySQL的分布式关系型数据库的集群,Prom是基于Hadoop Hbase技术的一个NoSQL的存储集群。
  查询层。在这一层中,Glider是以HTTP协议对外提供restful方式的接口。数据产品通过一个唯一的URL来获取到它想要的数据。同时,数据查询即是通过MyFox来查询的。
  最后一层是产品层,这个就不用解释了。
   存储技术
  大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。
  提到存储,有一个著名的摩尔定律相信大家都听过:18个月集成电路的复杂性就增加一倍。所以,存储器的成本大约每18-24个月就下降一半。成本的不断下降也造就了大数据的可存储性。
  比如,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断的扩大计算能力和存储能力,其中很多的扩展都是基于在廉价服务器和普通存储硬盘的基础上进行的,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。
  以Amazon举例,Amazon S3 是一种面向 Internet 的存储服务。该服务旨在让开发人员能更轻松的进行网络规模计算。Amazon S3 提供一个简明的 Web 服务界面,用户可通过它随时在 Web 上的任何位置存储和检索的任意大小的数据。此服务让所有开发人员都能访问同一个具备高扩展性、可靠性、安全性和快速价廉的基础设施,Amazon 用它来运行其全球的网站网络。再看看S3的设计指标:在特定年度内为数据元提供 99.999999999% 的耐久性和 99.99% 的可用性,并能够承受两个设施中的数据同时丢失。
  S3很成功也确实卓有成效,S3云的存储对象已达到万亿级别,而且性能表现相当良好。S3云已经拥万亿跨地域存储对象,同时AWS的对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。这些企业用户遍布190多个国家,几乎世界上的每个角落都有Amazon用户的身影。
   感知技术
  大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,都会产生海量的数据信息。
  而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛的应用外,一些新的感知手段也开始登上舞台,比如,最新的”iPhone 5S”在home键内嵌指纹传感器,新型手机可通过呼气直接检测燃烧脂肪量,用于手机的嗅觉传感器面世可以监测从空气污染到危险的化学药品,微软正在研发可感知用户当前心情智能手机技术,谷歌眼镜InSight新技术可通过衣着进行人物识别。
  除此之外,还有很多与感知相关的技术革新让我们耳目一新:比如,牙齿传感器实时监控口腔活动及饮食状况,婴儿穿戴设备可用大数据去养育宝宝,Intel正研发3D笔记本摄像头可追踪眼球读懂情绪,日本公司开发新型可监控用户心率的纺织材料,业界正在尝试将生物测定技术引入支付领域等。
  其实,这些感知被逐渐捕获的过程就是就世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。
  就像一句名言所说,“人类以前延续的是文明,现在传承的是信息。”
   大数据的实践
   互联网的大数据
  互联网上的数据每年增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。据IDC预测,到2020年全球将总共拥有35ZB的数据量。互联网是大数据发展的前哨阵地,随着WEB2.0时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享以及记录并回忆。
  互联网上的大数据很难清晰的界定分类界限,我们先看看BAT的大数据:
  百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。
  阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。
  腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。
  在信息技术更为发达的美国,除了行业知名的类似Google,Facebook外,已经涌现了很多大数据类型的公司,它们专门经营数据产品,比如:
  Metamarkets:这家公司对Twitter、支付、签到和一些与互联网相关的问题进行了分析,为客户提供了很好的数据分析支持。
  Tableau:他们的精力主要集中于将海量数据以可视化的方式展现出来。Tableau为数字媒体提供了一个新的展示数据的方式。他们提供了一个免费工具,任何人在没有编程知识背景的情况下都能制造出数据专用图表。这个软件还能对数据进行分析,并提供有价值的建议。
  ParAccel:他们向美国执法机构提供了数据分析,比如对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。他们是犯罪的预言者。
  QlikTech:QlikTech旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。
  GoodData:GoodData希望帮助客户从数据中挖掘财富。这家创业公司主要面向商业用户和IT企业高管,提供数据存储、性能报告、数据分析等工具。
  TellApart:TellApart和电商公司进行合作,他们会根据用户的浏览行为等数据进行分析,通过锁定潜在买家方式提高电商企业的收入。
  DataSift:DataSift主要收集并分析社交网络媒体上的数据,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。这家公司还和Twitter有合作协议,使得自己变成了行业中为数不多可以分析早期tweet的创业公司。
  Datahero:公司的目标是将复杂的数据变得更加简单明了,方便普通人去理解和想象。
  举了很多例子,这里简要归纳一下,在互联网大数据的典型代表性包括:
  1-用户行为数据(精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等)
  2-用户消费数据(精准营销、信用记录分析、活动促销、理财等)
  3-用户地理位置数据(O2O推广,商家推荐,交友推荐等)
  4-互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)
  5-用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等)
   政府的大数据
  近期,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。
  在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。
  具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。
  另外,作为国家的管理者,政府应该有勇气将手中的数据逐步开放,供给更多有能力的机构组织或个人来分析并加以利用,以加速造福人类。比如,美国政府就筹建了一个data.gov网站,这是奥巴马任期内的一个重要举措:要求政府公开透明,而核心就是实现政府机构的数据公开。截止目前,已经开放了有91054 个datasets;349citizen-developed apps;137 mobile apps;175 agencies and subagencies;87 galleries;295 Government APIs。
1 2 显示全文
产业观察
2015-04-02 17:52:56
阿里云给出云计算和大数据药方 保障G20峰会网络空间安全
来源:钱江晚报 时间:2016-09-08 11:26:33 作者:钱冰冰 陈婕
  G20杭州峰会期间,网络空间的安保上升到与实体空间的安保同等重要的地位,两个维度齐头并进,共建杭州全方位立体化的安全防护网。
  在云安全领域,阿里旗下的阿里云计算有限公司积极贡献技术力量,不仅以崭新的中国方案保证G20组委会、官网、全国重点保护网站以及浙江省数百家政务、民生类网站稳定传递资讯,零业务中断与零安全事件,更为未来进一步提升全球网络空间安全,提供了新药方。
   提前三个月,演练近十次
  据透露,阿里云的G20护航工作始于今年7月。当时经相关部门授权,阿里云专家对云上217家重点政府网站做了一次全方位“体检”,找出网站可能存在的漏洞,并出具优化、容灾建议,做到了安全不留死角。
  据悉,到8月30日还陆续有网站找到阿里云寻求技术支持。通过云盾安全SaaS(软件即服务的简称)服务,阿里云实现了让安全能力像水、电一样,能够让政府、事业单位网站快速远程接入,并提供弹性扩容能力,极大提升了保障工作的便利性和响应速度。
  阿里云还和相关兄弟部门实战演练近10次,并制定出紧急事件60秒响应机制。这些实战演习类似双11之前的技术压测,模拟峰会期间可能遇到的各种问题,提前准备应对策略。
   峰会期间零安全事件
  阿里云官网显示,阿里云每天实时保护全中国35%的网站,使得这家企业具备国内最丰富的攻防对抗数据和样本。G20期间,安全经验辅以强大的人工智能、机器学习和计算能力,阿里云安全专家能及时从海量数据中抓取到高价值信息,并进行分析预警,遇到问题第一时间联动相关部门进行应急响应。
  云计算加 大数据的这剂药方效果如何?请看一组官方数据:G20期间,阿里云为全国99个重保用户及浙江省217个政务业务系统提供安全防护,实现峰会期间零业务中断与零安全事件,同时协助云上政府、事业单位网站拦截了超过1亿次攻击,封禁了3.16万个针对政府网站攻击的恶意IP。此外,为保证网络空间清朗,帮助百万网站自动防御拦截247亿次攻击,检测并封禁44.5万个恶意IP,切断了798个僵尸成员和其僵尸网络的联系,屏蔽了394个恶意后门。
  “阿里云的技术能力,代表了中国的技术能力。我们要做的,就是把技术能力变成产品、变成服务,不仅帮助中国的企业、中国的政府管理者、中国的创新者,未来还要输送给国际,帮助更多的全球创新者。”胡晓明说。(钱冰冰 陈婕)
   推荐阅读:
   《读懂G20四大主题:洞悉数据时代经济发展动向》报告(完整版PPT)
 2016年9月1日,阿里研究院在北京发布了G20主题新经济系列研究报告,包括《读懂G20四大主题:洞悉数据时代经济发展动向》和《贸易的未来:跨境电商连接世界——2016中国跨境电商发展报告》。在G20 峰会召开之际,这两份重磅研究成果再次吹响了新经济的号角。
 全球G20领导人第11次峰会于2016年9月4日至5日在中国杭州召开,本届G20峰会的主题为“构建创新、活力、联动、包容的世界经济”。阿里研究院指出,以互联网为代表的新经济业态,无论从推动持续创新、增强经济活力,还是加强世界联动、实现包容性增长方面,都发挥着日益举足轻重的作用,成为全球经济增长的新增长点。
☞点击进入 阿里云 在数据观的企业栏目>>>
责任编辑:陈近梅
产业观察
2016-09-08 11:26:33
案例丨大规模大数据的有效利用,阿里参数服务器设计理念与实践(附完整版PPT)
来源:云栖社区 时间:2016-09-08 10:10:36 作者:周俊
零距离观察蚂蚁+阿里中的大规模机器学习框架
[导读] 本文根据蚂蚁金服的资深技术专家周俊在蚂蚁金服&阿里云在线金融技术峰会上《大规模机器学习在蚂蚁+阿里的应用》的分享整理而成。在分享中,周俊详细介绍了阿里巴巴大规模机器学习框架——参数服务器的设计理念以及优化方法,并结合支付宝、阿里妈妈直通车搜索广告等具体场景详解了参数服务器在蚂蚁金服和阿里内的应用;分享最后,他对大规模机器学习的未来发展做了展望。
▌ 以下为整理内容:
设计理念
┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉
图一 大数据时代
当今我们正处于一个大数据时代,Google每天产生30亿查询、300亿Served广告、30万亿indexed网页;FaceBook目前全球超过14亿用户,每天分享43亿内容;推特每天产生4.3万亿Tweets;Apple Store每天App下载量达到1亿左右。国内的互联网公司,阿里巴巴一年产生86亿包裹,平均每天2356万个;蚂蚁金服/支付宝在2015年双十一当天共产生7.1亿笔支付。
这么多数据如何才能有价值地将其利用起来呢?
图二 如何利用大数据
用户在不同场景下有不同的响应,结合这些数据通过机器学习得到模型,然后进行智能决策,如个性化推荐、搜索个性化等。上图中显示的监督学习的案例,监督学习通过搜集大量用户的日志、用户行为,然后抽取成特征,然后将特征送入机器学习系统中,系统通过一定的方式得到相应的模型。一个用户到来之后,对用户特征进行提取,将用户特征送入模型中,得到预测结果。例如记录用户的点击。购买、收藏等行为,经过模型的预测,根据用户之前的偏好,进行个性化推荐。
图三 大数据带来的挑战
大数据 给机器学习带来机遇的同时也带来了相应的挑战。第一个挑战是模型会非常大,谷歌的大型机器学习系统Sibyl,五年前的训练数据在1T到1P左右,特征级别达到百亿到千亿级别;样本同样是百亿到千亿级别。
图四 大数据与大规模模型结合
如此大的数据和如此大的模型如何进行结合呢?思路是采用分布式学习系统,结合算法和系统两方面入手。
正如上文所提到的,在大数据上,利用机器学习从中学习到知识,是人工智能取得突破的主要手段,也是系统架构师面临的重要挑战之一。很多的模型和抽象先后用于解决这一任务,从最早期的MPI,到后来的MapReduce,再到当前使用较多的Graph、Spark等。
分布学习系统包括两大模块:模型和分布式系统。其中模型需要解决训练和正确率的问题,分布式系统需要考虑并行、网络、慢机、故障处理、调度。
图五 分布式学习系统
如上图所示,分布式学习系统将两者的复杂度结合起来。每一个维度和算法都有融合、交叠。在网络方面,需要考虑网络的通信效率,因为模型非常大,如果直接预发会造成网络的巨大负担,如果有些流量不发,又会影响训练和模型的正确率。
慢机方面,在数千台机器中,肯定会存在机器处理速度的差异,如果采用完全同步的方法,迭代的速度是取决于最慢的机器,这就造成了资源的巨大浪费。第三故障处理,数千台机器中一定会出现机器挂掉的现象,机器挂掉之后如何让训练继续进行,获得正确的训练模型这也是一个非常大的挑战。
图六 工业界现有的系统的不足
首先看一下现有工业界系统的缺点:
• MapReduce:迭代式计算低效,节点之间通信效率不高;
• MPI:无法支撑大数据,任意节点挂掉,任务就失败;
• Graph:用图来做抽象,类似深度学习无法高效求解,只能同步,不支持异步;
• Spark:通用框架,高维度和稀疏数据支持不够;
综合考虑模型训练正确率、故障处理、慢机等因素,性价比高的选择是参数服务器(Parameter Sever)。
大规模机器学习框架-参数服务器
┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉
图七 大规模学习框架——参数服务器
参数服务器是机器学习的核心竞争力和技术壁垒之一,之所以这么说是因为:首先,它需要使用大数据(1T-1P)快速训练、快速迭代优化;同时需要考虑failover、通信/计算效率、收敛速度等多个特性。
在之前的分析中,阿里巴巴的ODPS中的MPI为例,统计了MPI中的Job的成功率(上图所示),当Work数超过1000时,成功率低于30%,从而导致稳定性很差,浪费大量的资源和费用。由于存在稳定性和成功率等问题,我们自己设计了一套参数服务器框架。
图八 参数服务器框架图
框架的大致结构如上图所示,包括三大模块:Server Node、Worker Node、Coordinator,分别用于模型分片存储、数据分片存储和总体流程控制。该结构相对于MPI的优势在于:
1.内置Failover机制,稳健性大大提升;
2.架构中有多个Server,模型的可扩展性非常强;
3.完美支持同步和异步,可以达到更快的收敛速度,同时不影响模型的精度;
4.同时在稀疏性的上支持,让worker和server节点在通信效率上大幅度提升。
图九 参数服务器具体框架
具体来讲,Coordinator主要进行迭代控制,同时完成Failover管理,当Worker或Server挂掉时,由Coordinator进行处理;当Worker、Server和整个Job都失败的情况下,通过Checkpoint机制,在下一次启动时从上一次保存的中间结果继续前进。
Sever本质上是分布式Key-value存储系统,它将一个非常大的模型,通过一致性Hash切成多片,在多个Server上分担压力,进行模型分片。
Worker是将数据源的不同行加载到不同的Worker上,实现数据分片,同时通过计算接口完成梯度计算。
图十 参数服务器抽象接口
Worker和server通过Pull和Push两个接口进行通信,完成模型的迭代更新。Push主要是将worker上的Weight推到server上,从而节省大量的流量,提高网络利用率;server更新之后,worker通过Pull动作从server上拉去Weight到本地。
Sever更新策略
┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉
Server有三种更新策略。
• 完全同步更新策略
图十一 完全同步更新策略
第一种完全同步更新,图中所示的机器1和机器3虽然很早就完成了Iteration,但由于机器2是慢机,所以机器1、机器2、机器3需要等待最慢的机器完成iteration,才可以与server进行通信,这中间存在大量的资源浪费,但也有一定的优点:收敛性很好,多次运行后模型差别不大,同时还便于调试。
• 完全异步更新策略
图十二 完全异步更新策略
第二种更新机制完全与第一种更新机制相反:完全异步更新。完全异步是说机器1、机器2、机器3随到随走,三者之间互相不可见,唯一的交互点是Parameter Server。这种更新策略的效率非常高,各机器之间没有任何等待。同时也会带来一些问题,收敛很困难。
• 有界异步更新策略
图十三 有界异步更新策略
第三种更新策略介于完全同步和完全异步之间,称之为有界异步。有界异步可以从机器1和机器2上看出,最快的机器不能比最慢的机器快太多,两者之间有一定的界限。通过这种机制提高模型的稳定性。
参数服务器在算法上的优化
┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉
图十四 参数服务器与逻辑回归算法结合
逻辑回归是一种线性回归模型,在分类上应用广泛,通过logit函数将线性回归的值限制在[0,1]范围内,增强了模型的鲁棒性。在工业界应用较多的是稀疏逻辑回归,通过L1正则化构造稀疏模型,具有简单、实用、可扩展、特征操作性强等特点,适合大规模问题,同时应用场景非常丰富(如点击率估算),是应用非常广泛的机器学习模型。
如何结合Parameter Server对逻辑回归进行改进呢?
目前,我们实现了超大规模的CTR预估算法,结合Server的更新动作,实现同步/异步的控制。在算法优化方面:
• 应用Proximal算法,进行二阶、异步Filter,提高了效率;
• 开发增量学习,提升模型利用更长历史窗口数据的能力。
全链路优化方面:
• 稀疏化、特征序列化加速、慢机处理、次要特征过滤(screen rule)等。
通过上述机制,最终实现提速超500%,支持千亿级别样本跟特征的效果。
图十五 逻辑回归与在线学习结合
在线学习是工业界常用的另一类算法。在线学习是指每来一个(批)训练样本,就用该样本的梯度对模型迭代一次,时效性较好。
那如何通过Parameter Server对在线学习进行改进呢?
目前,我们实现了超大规模在线机器学习算法(异步FTRL)。通过有界异步ASGD提高效率,同时模型的收敛性有较强的保证;同时基于mini batch的稀疏通信,在百亿特征下,每个mini batch通信为毫秒级别;此外,在模型中加入类似Trust region的方式,提高模型稳定性。
最终达到100亿/100亿样本几十分钟内就可以收敛的效果。
图十六 其他扩展算法
除了在线和离线之外,还有一些大规模的算法扩展:
• 深度学习,通过在参数服务器上支持深度学习,形成了通用的深度学习框架,扩展性很强,例如,通过从大量click log中学习,提高搜索相关性的DSSM模型加DNN语义模型。
• 其他常用算法,包括LTR的GBDTLambdaMART、GBRank和NLP的LDA、Word2Vec等等。
• 提供了通用SDK,用于降低门槛,便于开发各类算法。
典型应用场景
┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉
图十七 典型应用一:支付宝钱包
第一个应用场景是支付宝钱包内的刮刮卡业务,蚂蚁会员在支付宝客户端内转账到卡、缴费、余额宝转入、信用卡还款等场景下,使用支付宝支付,都能获得一次刮奖机会。
这其中的实现过程是基于大规模学习平台,通过协同过滤、监督学习、特征迭代优化,来满足用户个性化需求,提升用户体验。
图十八 典型应用二:阿里妈妈直通车搜索广告
在阿里妈妈的应用主要是阿里妈妈直通车搜索广告。计算广告学的核心问题就是在给定的环境下,用户与广告的最佳匹配。它的传统实现方法是通过机器学习和历史数据,进行精准的CTR预估。
结合上图来看,当搜索鲜花时,界面右侧和下侧会显示掌柜热卖的广告,通过采集大量的用户特征、广告特征和场景特征等交叉特征,通过加大特征和样本规模,同时算法和系统协同提升,基于大规模机器学习平台,提升CTR。
未来展望
┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉ ┉
不论是 人工智能 还是其他前沿技术,都离不开高质量的数据和强大的计算平台以及高效的算法平台,需要三者协同提升。未来的发展方向主要集中在以下三个方面:
1.支持更多的通用模式,如Graph及其升级版。
2.正确率和效率的折中,是否可以进行采样丢弃部分数据?是否可以通过更好的异步算法充分利用数据?是否可以简化算法本身,更好的适配参数服务器框架?
3.是否需要更加通用化的DataFlow,支持多种软硬件平台,降低大规模机器学习的门槛。
☞点击进入 阿里云 在数据观的企业栏目>>>
▌ 以下为完整版PPT:(翻页查看)
1 2 显示全文
责任编辑:王培
产业观察
2016-09-08 10:10:36
贵州航天云网科技有限公司获评为国家工信部2019年工业互联网试点示范
来源:天眼新闻 时间:2020-02-27 11:03:14 作者:杨唯
  2月19日,工业和信息化部办公厅正式公式了2019年工业互联网试点示范名单,大数据企业贵州航天云网科技有限公司“贵州工业互联网平台安全监测与防护系统”项目成功入选,是贵州省唯一成功入选的安全集成创新应用项目。
  国家工信部工业互联网试点示范旨在遴选出一批围绕网络化改造集成创新应用、标识解析集成创新应用、“5G+工业互联网”集成创新应用、平台集成创新应用、安全集成创新应用等5个方向的工业互联网试点示范项目,通过试点先行、示范引领,总结推广可复制的经验做法,推进工业互联网创新发展。
  贵州航天云网科技有限公司的“贵州工业互联网平台安全监测与防护系统”基于贵州工业互联网平台,以平台云安全服务为切入点,通过安全硬件与安全技术,构建工业互联网平台整体安全防护体系,实现工业信息安全,以及对网络实时、历史数据进行全面的监测与分析,精准感知工业网络与控制系统整体安全态势,为企业用户提供“线上+线下”的网络安全事件预警监测、应急响应、风险评估、安全审计等服务,以安全促登云,以登云促应用,以应用促发展,为企业及产业转型升级提供安全保障。
  该项目落地应用以来,运营人员可实时全面的监控贵州工业互联网平台安全状况,提升平台威胁监测、防护及溯源追踪能力,保障用户系统安全、数据安全和设备安全,提高区域工业信息安全服务水平,促进工业企业登云用云。
  截至2019年底,“贵州工业互联网平台”提供工业软件204个,工业APP1303个,连接主要生产设备3058台,注册企业用户超过17万户,深度登云用云企业数643户。同时,该平台于2019年7月正式通过我国唯一针对云计算的权威认证体系——可信云认证,获得可信云企业级SaaS服务证书。
  2020年,贵阳高新区大数据发展办公室将进一步强化企业精准服务,积极协助支持我区大数据企业参与到国家、省、市各类大数据、互联网应用试点示范项目中,加快大数据与实体经济深度融合。(记者 杨唯)
责任编辑:张薇
产业观察
2020-02-27 11:03:14
航天云网:AI助力战胜疫情
来源:航天云网贵州公司 时间:2020-02-26 13:41:34 作者:蒲雪琴
  当下新冠肺炎疫情防控正处于关键期。为响应疫情联防联控工作,助力疫情防控工作科学有序开展,航天云网基于INDICS工业互联网平台推出航天云网AI体温精准筛查系统,助力各级政府部门、大中小企业落实重点场所体温检测排查、预警及追踪措施的落实,助力打赢疫情狙击战。
  随着各地企业复工复产的推进,人员大量流动、人群聚集给疫情防控体温筛查工作带来不小考验。通过传统体温枪测温,测量精度不高、误差大,且核查效率不高,存在人传人风险。航天云网AI体温精准筛查系统,运用红外热成像、人脸识别、AI技术等先进技术,基于航天云网疫情大数据防控平台,实现非接触快速体温筛查、高精度检测、智能报警、数据追溯,降低交叉感染风险,有效提升疫情防控效率和防控质量。
  系统针对机场、车站、学校、门店等人流量密集、需要远距离大范围监控的公共场所,可实现快速无接触测温;针对工厂、写字楼、企业等人流量相对固定的重点出入口,可实现人脸识别测温。
   产品一:快速无接触热成像测温仪(黑体
  红外非接触式测温
  高精度检测:测温精度±0.3°C(加黑体后)
  大范围高效率监测:覆盖10米*2米通道,多人快速通行
  异常报警:异常体温、不戴口罩、黑白名单报警
  数据追溯查询,排查密切接触史
  黑体+红外热成像双光摄像头+人体测温快速筛查系统软件针对人流量密集、需要远距离大范围监控的场所
   产品二:人脸识别测温终端
  测温距离≥0.5m 测温精度±0.2°C
  测温速度≤300ms 识别速度<0.5s
  识别率99.9% 人脸库3Wmax
  异常报警 开放API接口
  德国原装进口红外体温探测仪+双目摄像头活体检测+温度实时显示语音播报+八寸高清屏
  针对人流量相对固定的重点出入口
   应用场景
  场景1:在门口、楼道或内部各主要通道布控
  测温方式:红外线非接触式体温检测测温精度:±0.3℃(加黑体后)测温距离:最远10m,默认2m数据留存:测温数据及图片在线式灵活布控:可在主要出入口监控系统基础上升级改造,支持人脸抓拍
  场景2:针对原有通道、闸机实施智能化改造
  
闸机通道+人脸识别一体机+AI大数据监管平台
  测温方式:非接触人脸识别测温精度:±0.2℃测温距离:距离1.2-2米,宽度0.6-1米数据留存:人脸抓拍照片实时上传扩展兼容:可在用户原有闸机基础上加装使用
  场景3:移动智能人脸测温人员通道
人员通道+人脸识别一体机+AI大数据平台
  测温方式:非接触人脸识别测温精度:±0.2℃;测温距离:距离1.2-2米,宽度0.6-1米数据留存:人脸抓拍照片实时上传
手持智能人体体表温度筛查仪
  测温方式:红外线非接触式体温检测测温精度:±0.5℃测温距离:1m以内数据留存:测温数据及图片
责任编辑:张薇
产业观察
2020-02-26 13:41:34
航天云网贵州公司入选贵州省强化疫情防控灵活复工复产优惠云服务应用推荐名录,助力贵州省企业复工复产
来源:航天云网贵州公司 时间:2020-02-17 16:21:21 作者:
  当前,新型冠状病毒肺炎疫情防控工作正处于关键时期,对各行各业,特别是对中小微创业企业的生产经营活动产生了很大的冲击。为加强疫情防控,有序推进全省大数据企业项目复工复产,经贵州省大数据管理局择优评选,编制形成《强化疫情防控灵活复工复产优惠云服务应用推荐名录(第一批)》,共计20家云服务商、197款优惠云服务应用,希望通过云服务能够帮助企业尽快复工复产。航天云网贵州公司积极响应,并凭借过硬的云产品服务与应用解决方案成功入选名录。
  航天云网贵州公司围绕广大中小微企业研发生产、经营管理等方面需求,基于贵州工业云平台,提供工业互联网金融、云检测平台、智慧物流园管理系统、标准云服务平台、电子签章服务、航天云邮、云企助平台服务;人脸识别疫情监测解决方案提供人脸识别通行系统、人脸识别布控系统、智能高清预警系统服务;同时,还提供PC端、移动H5防疫医药物资保障统计平台及通道型热成像测温仪、黑体系统等多样服务,支撑企业实现远程办公,服务企业灵活快速复产。
  下一步,航天云网贵州公司将深入挖掘贵州省内广大中小微企业生产经营各方面需求,持续梳理云服务产品,有针对性的对企业提供定制服务及优惠活动,帮助企业共同攻克疫情期间生产经营难关。
责任编辑:张薇
产业观察
2020-02-17 16:21:21
贵州大数据企业 争先行动投身抗疫第一线
来源:天眼新闻 时间:2020-02-12 11:33:28 作者:曾帅
  2月11日,记者从贵州省大数据局获悉,自贵州新冠肺炎疫情发生以来,社会各界纷纷伸出援手,千方百计防控疫情、切断病毒传播途径,力争早日打赢这场防疫战。贵州大数据企业争先行动,纷纷依托各自的技术储备和资源,主动为疫情防控作积极贡献。
  满帮集团成立应急专班,与爱德基金会合作,调动平台运力,持续免费向湖北运送应急物资。截至2月10日,满帮集团义务运输消毒液、医用面罩、呼吸机等应急物资累计16批次290吨,物资价值320万元,其中包含支持贵阳市政府抗击疫情所需临时房建材,目前应急物资运输工作仍在持续进行中。
  贵阳朗玛信息技术股份有限公司依托互联网输出云抗疫服务。公司旗下39互联网医院、39健康网等联合推出新型冠状病毒24小时免费视频问诊和图文问诊服务,并得到来自全国三级医院以上数百名志愿医生的大力支持。自1月25日上线以来,吸引了来自包括湖北、贵州、广西等31个省、市、自治区以及15个海外国家和地区的患者和群众共50余万人次上网浏览,完成视频问诊超过8000余例。
  贵州医渡云技术有限公司联合旗下的因数健康平台面向全国用户推出了免费视频问诊服务,汇集全国上千名权威公立医院的专业医生,覆盖所有科室,7×24小时在线解答关于新型冠状病毒肺炎疫情和其他健康方面的问题。
  中声科技(贵州)有限公司自1月23日起,接到贵阳市政府、市应急管理局疫情相关紧急发布任务5件,通过公司“贵阳应急科普宣教和预警信息发布系统”及终端设备,以每条6000余台次,每条每日240频次滚动播放。不计代价暂停17家合作企业业务视频播放,全天候为应急服务。目前累计产生价值近千万元。
  贵州力创科技发展有限公司接贵州省公安厅疫情防疫相关单位应援要求,派驻骨干力量进驻贵州省公安厅,协助开展疫情高危地区入黔人员排查。同时,在疫情防控期间,力创科技还迅速组织公司研发人员,研究大数据支撑服务疫情防控相关工作,加班加点设计完成了“疫情临时通行证管控小程序”,目前正与相关疫情管理机构密切沟通,紧锣密鼓进开展小程序开发工作,确保精准助力疫情防控。
  贵州数据宝网络科技有限公司利用自身优势,基于全国高速公路、铁路、民航、银联、运营商等大数据,通过互联网+权威国有大数据+AI技术为全国搭建了一个流动人员疫情防控大数据管理系统——疫控宝,共涵盖流动人员信息管理、疫情风险预警筛查、医疗物资发放管理、疫情信息监督举报、领导智能分析决策和疫情车速查6大功能模块。目前,该系统已正式上线运行,使用者通过扫码或拨打热线电话即可提供服务。
  贵州海誉科技股份有限公司主动提出,希望利用公司自主研发的医疗云桌面软件和技术支持服务,免费为我省疫情防控定点单位贵州省职工医院和贵阳市公共卫生救治中心以及其他疫情防控机构信息化建设提供服务。(记者 曾帅)
责任编辑:张薇
产业观察
2020-02-12 11:33:28
大数据有温度:农民工精准发薪无忧愁
来源: 数据观 时间:2020-02-03 15:21:15 作者:汤德正
  早上九点,41岁的李仕(化名)早早地出现在桐木坪乡的市集上,他兴兴致勃勃地从商家的货架上取下一袋糖果,放在手中掂了掂后对店铺老板说到:“就这个样式的,另外再多给我拿两包”。付完账后,李仕带着糖果转身走入声鼎沸的集市街道中,3个小时后,李仕驼着大大小小的包裹意犹未尽地走出集市。“都是些年货,工地今年在放假前就结清了所有工资”,李仕笑得合不拢嘴,“如今政府通过大数据监管,让我们农民工拿了工资再回家过年,心里觉得很踏实。”
图为贵州省铜仁市碧江区桐木坪乡桐木坪村 来源:一个村
  在李仕置办年货的时候,贵州省铜仁市劳动保障综合行政执法支队的支队长杨激文已经做足了准备工作。他接到通知,今天将有一批特殊的客人造访,作为执法支队的支队长,杨激文是此次接待工作的具体负责人。在以往的工作生涯中,杨激文长期从事劳务关系和农民工薪酬纠纷的执法工作,他已经记不清自己接待过多少到访农民工及其他劳动者,但是像今天这样特殊的客人,以往却并不常见。
  “两年前,我们支队接待的客人,几乎全是农民工和劳动者,他们中的多数人过来都是带着问题,来找我们帮忙解决问题的。但今天要接待客人却是兄弟省份的政府工作人员,他们过来的目的既不是为了解决劳动关系,也不是为了讨薪,而是为了到铜仁市交流和学习大数据技术在处理劳动关系和农民工薪资的优势。”杨激文表示。
  农民工工资的发放问题一直是一项重要的社会民生问题,对于建筑施工行业等劳务用工密集型行业而言,一旦出现工资拖欠问题,不仅极大损害民工的个人利益,更容易导致一系列严重的“农民工讨薪”事件发展,造成恶劣的社会影响。每到年底,农民工工资支付问题就会再次成为社会焦点,这也是政府职能部门的痛点。“铜仁市曾经是贵州省民工欠薪问题最突出的地区之一,民工欠薪问题深刻困扰着铜仁市各级政府。”杨激文继续说到,“2018年以前,很难看到像现在这么安静的办公区,那时候我们这里总是聚集着被拖欠工资的农民工。”
  2017年,铜仁市开始探索通过技术的手段来解决讨薪难问题,多次实践过后,大数据成为了解决根本问题的最佳工具。随后,铜仁市联合贵州人和物联数据有限公司(简称“人和物联”)以建设工程领域监督为重点,通过搭建大数据监管平台,推行农民工工资保障金、用工实名制管理和银行代发工资制度,实现了对辖区农民工工资发放的自动化监管,使拖欠农民工工资问题得到有效遏制。
  在铜仁市406家建设工程企业的项目施工现场,均安装有人脸识别考勤系统,其中记录的工人进出施工项目的考勤数据联通着铜仁市大数据监管平台。在平台里,建筑企业向银行缴纳保证金,保证工人工资正常发放,通过系统检测用工量、发放工资情况、项目建设进度的情况,及时对企业欠薪行为进行报警,监管部门通过大数据监管平台可视化大屏,就能精准了解与掌握铜仁地区建设工程领域内实时工地用工总数、合同签订情况以及工资发放等相关情况。
  铜仁市人力资本数据服务平台是以建筑工地实名制大数据管理和就业培训帮扶为主线,易地搬迁和贫困户数据管理以及社保卡制卡数据采集为辅的全程信息化平台,由铜仁市人力资源和社会保障局牵头实施,人和物联进行运营。该平台汇聚了全市建筑工地的农民工实名制和工资发放数据,用工企业数据、人社、住建及其他部门数据,对农民工考勤登记、合同签订、工资造册、劳资专户、项目款拨付相关数据进行实时监控,及时对企业欠薪行为进行报警,结合发包数据、税务数据、注册数据等,利用大数据AI技术实现对企业欠薪风险的预测与分析,从源头防范欠薪行为发生,从而形成欠薪事前预警、事中监控、事后监督的全面治理格局,有效保障农民工的合法权益。
  该平台上线运营以来,实现了对碧江、万山、大龙、石阡共380多个在建和新建工地,约4.4万名农名工的实名制信息和工资发放数据的管理。2018年已保障了全市农民工正常发放工资10亿元,2019年该平台有效保障了150亿元以上的农民工工资的正常发放,最大程度上降低讨薪事件出现的概率。
  “大数据是提升人力资本价值的核心,具有极大的联动效用,随着社会发展的进步,大数据将会有更大的应用空间,铜仁市通过大数据监管平台,构建出新的农民工工资发放监督体系。自平台正式运行以来,铜仁市累计有73659名劳务工人通过平台及时领取到足额工资,大数据监管平台的应用不仅实现了农民讨薪有证据,还实现了用工企业有维权依据,同时也实现了政府监管有数据,达到了多方共赢。”正如人和物联的总经理胡杰说的那样,大数据在助推实体经济发展、产业融合创新和改善民生服务方面取得的丰硕成果,正推动着社会各领域产业实现智能化、高效化、绿色化的发展。
责任编辑:张薇
产业观察
2020-02-03 15:21:15
云端上的舌尖——大数据打造校园营养餐智慧云
来源: 数据观 时间:2020-02-03 15:02:21 作者:汤德正
   【前言】大数据的兴起,为人类提供了重新审视社会问题的新视角,使众多依靠传统方式无法根治的行业症结得以积极改善,其中就包括广受社会关注的校园食品安全问题。自《农村义务教育学生营养改善计划》实施以来,校园食品安全事件频发,学生家长深为忧虑,校园营养餐安全始终牵动着3700余万受益学生家庭的心,国务院高度重视,多次作出重要批示。
  2015年9月,贵州碧江经济开发区智慧产业园落户了一家总投资1.2亿元,致力于学生营养餐智慧云综合服务平台的大数据企业——贵州山久长青智慧云科技有限公司(以下简称“山久长青”)。至此,铜仁市率先实现了义务教育阶段学校和幼儿园学生营养餐信息化建设全覆盖,该平台先后入驻全国6783所学校,覆盖115.6万学生,目前已成为全国最大的学生营养餐信息化管理大数据服务平台。
  “国家实施营养餐计划其本意是要让学生吃上免费的营养餐,以改善学生自身的营养状况和身体素质。传统的营养餐计划实施管理,是在学籍管理平台的基础上,增加了营养改善计划监管的部分功能。它可以精确统计享受营养餐的学生数量,但是学生是否足额享受营养餐、营养餐从哪里来、餐食是否安全可靠、相关执行部门有没有挪用专项资金从孩子嘴里‘抠利润’,监管部门耗费巨大心力却见效甚微,校园食品安全问题层出不穷。”山久长青董事长杨伶近日接受数据观记者采访时说道。
  经过长期开展学校食堂信息化管理调查研究后,杨伶认为,校园食品安全事件之所以频发,归根结底还是由于信息获取和流通不顺畅,从导致的“食品安全监督难”和“资金安全管理难”。如果能有效获取营养餐计划实施全过程中的各项真实数据,利用数据对养餐计划实施全过程进行监督管理,校园食品安全问题或许就能得到根治。顺着这条思路,杨伶在2014年创立了山久长青,寄希望于运用大数据技术来解决校园食品安全问题。
  山久长青成立之后,公司逐步确立了以大数据为手段,专注于学生营养餐信息化管理、学校食堂资金应用、校农结合大数据分析、科学健康营养体系等问题的研究。2015年3月,山久长青联合铜仁市教育局共同打造的学生营养餐农业物联众创空间公共服务平台——“学生营养餐智慧云+校农云大数据平台(简称‘校农云’)”正式上线运行,为解决学生营养餐计划实施和管理过程中的问题提供了解决方案。
  “校农云”平台以大数据为纽带,打通农户、生产企业、流通配送企业、学校、学生家长以及各级政府监管部门等涉及营养餐供给全过程各个节点之间的联通阻碍,建立从种植、采购、配送流通、烹饪、销售等涉及学校食品安全的整个过程进行实时且全面的监督,建立了一个透明的“学校厨房”,从而使大数据成为保障保证学校食品安全与资金安全的“智能武器”,从技术角度确保了学生将每一分补助都安全地吃到嘴里。
  从种植生产到加工,从采购到流通物流,从入库到出库,“校农云”平台可以详细地跟进食材从种子到筷子的全过程,并对每一个环节进行实时监控。通过近年来的实践表明,利用这种大数据可视化的监管方式,不仅有效解决了营养餐实施和管理中难题,更是为地区农业发展提供数据支撑,帮助解决地方农业生产、就业以及扶贫等问题。
  
山久长青“学生营养餐智慧云综合服务平台”所获知识产权
  “校农云”的建设为有效解决校园食品安全提供新的思路,经过多年的不断完善,“校农云”已完成省、市、县、乡、校、配送商、合作社、种养殖户等多级数据资源互联互通及信息共享,基本实现农产品从生产、配送到餐桌全过程溯源,有效解决学生营养餐的食品安全、资金安全、科学营养和农校结合难题,因而得到社会各方的欢迎。目前,“校农云”平台在全国范围内已经覆盖11360所中小学及幼儿园近200万学生群体,平台入驻的近千个企业和合作社、种养殖户和多个配送中心,带动数万人就业,平台产生的农产品累计交易额已超过31亿元。在保障校园食品安全的同时,还推动了校园餐食与农业融合、数据资源集聚、农产品产销对接、带动贫困户脱贫等成效。
  杨伶表示:“在大数据时代里,数据既是人类生产活动的基础又是生产活动的检验标准,它还有巨大的潜力尚未发挥,下一步,山久长青将在持续完善‘校农云’的学校营养餐监管闭环的同时,通过汇集更多的数据和进一步唤醒沉睡的数据,利用数据从事从改善国民身体健康到改善体质健康到智力开发的国民大健康管理研究。”
责任编辑:张薇
产业观察
2020-02-03 15:02:21
提升政府治理大数据应用技术国家工程实验室:突显智慧施政 助推政府治理能力提升
来源: 数据观 时间:2020-01-21 10:58:52 作者:陈骏佼
  【前言】 国家大数据(贵州)综合试验区展示中心(简称:展示中心)是贵州、贵阳大数据产业发展的微缩景观,依托国家大数据(贵州)综合试验区和中国国际大数据产业博览会两个载体,为全面实施国家大数据战略贡献“贵州智慧”和“贵州方案”,推动行业企业充分了解全国乃至世界大数据发展的前沿方向和核心价值,推动形成更高层次、更广范围和更宽领域的交流合作。
  目前,展示中心共包含“数字中国 贵州方案”展区、“数化万物 智在融合”展区、“云上筑梦 躬身耕云”展区、“未来已来”展区和“智慧体验厅”五个展区,分别就贵州大数据发展的历程和顶层设计以及综合试验区七项试验情况、贵州·中国南方数据中心示范基地建设情况、大数据与实体经济、民生服务、社会治理、精准扶贫和乡村振兴等领域融合情况以及工业互联网、AI人工智能、区块链、5G发展情况、大数据企业创新发展、创新产品、国际合作方面的发展情况和数博大道建设等情况进行展示。
  为更好展示贵州以大数据为引领守好两条底线、推动后发赶超的探索实践和创新成果,以及展示中心作为全国乃至世界重要的大数据展示交流、共享开放的平台作用,国家大数据贵州综合试验区展厅特别策划系列报道,走近展示中心重点展项,呈现贵州大数据产业创新发展成果。今天的文章,主要聚焦于展示中心“云上筑梦 躬身耕云”展区的提升政府治理能力大数据应用技术国家工程实验室。
  近年来,贵阳高新区紧紧围绕引领大数据技术创新、加快大数据产业集聚,全力打造创新型中心城市示范区的目标定位,大力发展实体经济和数字经济,吸引了众多企业及科研单位相继落户,大数据产业集聚度持续提升。其中,坐落于此的提升政府治理能力大数据应用技术国家工程实验室(简称“国家工程实验室”)作为国家电子信息产业的主力军,是全国首个大数据领域的国家工程实验室,也是贵州省唯一的国家级大数据研究平台。
  国家工程实验室于2016年11月23日正式获得国家发展和改革委员会批复组建,2017年5月正式揭牌成立,是由中电科大数据研究院有限公司(简称“中电科大数据院”)作为建设主体,联合电子科技大学、国信优易数据有限公司、贵阳信息技术研究院、贵阳块数据城市建设有限公司等11家单位共同参与建设的协同创新平台。目前,国家工程实验室确立了政务数据融合与分析、政务数据共享与开放、政务数据安全与隐私保护、面向政府廉洁高效的大数据应用研究、面向政府科学决策的大数据应用研究、面向政府社会管理的大数据应用研究、面向政府公共服务的大数据应用研究等七大研究方向,着力发展政府治理大数据应用研究,以进一步助推政府治理能力提升,赋予政府治理新动能、新发展,推进国家治理体系和治理能力现代化。
  在过去,提及政府治理,人们总是会想到繁复的流程、政府公共服务效能不高、科学化决策程度较低以及政府数据开放不足等诸多问题。随着大数据渗透到各行各业,如今大数据与社会治理之间的融合也变得日益紧密,政府治理借助这一新兴技术,已然焕发出新的生机。
  随着政府内外生态环境的变化,国家工程实验室充分运用自身在助力政府治理改革与创新方面的优势,有意识地在结构、功能、行为、政策等方面为其提供帮助,为政府需求探索新的治理途径与方式。例如,“面向政府社会管理的大数据应用”这一研究方向,就旨在为政府部门提供解决管理粗放、监管不力的问题,充分利用海量数据处理、多源异构数据关联分析与挖掘等技术优势,将其应用于公共安全管理、网络空间舆情监管、城市生态治理等方面;“公共安全管理”则旨在帮助政府加强对公共领域突发事件的处理能力,在面对紧急事件时,通过跨域协同指挥调度、对特定人物和事件展开分析的预测、预警等方式,帮助政府及时发现、准确判断、快速处理突发事件。
  在2018年数博会上,成立一年的国家工程实验室,亮出了优异的“成绩单”:发布《网络社会安全风险指数研究报告》、“网络社会安全风险态势系统”、《贵阳“数据铁笼”研究报告》及2018-2019年度“大数据+政府治理”系列开放基金项目指南,并正式启动了“中电慧治”杯政府治理大数据应用算法大赛。
   2019年数博会上,国家工程实验室联合中国电科集团其他成员单位发布了 由电科云、“一网通办”大数据政务服务平台、智能媒体大数据云服务平台、司法大数据资源共享平台及异构政务大数据承载与挖掘分析平台共同组成的“一云四平台”,这也是国家工程实验室基于构建一体化网上政务服务的体系。随后,国家工程实验室举办了第二届“中电慧治”杯政府治理大数据应用算法大赛,吸引众多高校、企业人才投入政府治理领域大数据研究。同年7月,国家工程实验室举办“基于大数据的政府治理体系”研究专项研讨会,会上形成的研究成果对大数据技术在政府治理中的应用具有重要参考价值。
  作为一个政府治理应用大数据的开放合作平台,国家工程实验室未来还将继续致力于成为贵州大数据发展的引擎,充分利用大数据、人工智能、区块链等新一代信息技术,提升政府公信力和执行力,推进政府内部以及政府与社会的高效协同和智慧治理,为政府治理大数据应用及其相关产业发展提供强有力的技术支撑。
责任编辑:张薇
产业观察
2020-01-21 10:58:52
高登世德联合创始人王康:选择贵州是大数据创业的关键变量
来源: 数据观 时间:2020-01-20 15:06:22 作者:汤德正
【前言】国家大数据(贵州)综合试验区展示中心(简称:展示中心)是贵州、贵阳大数据产业发展的微缩景观,依托国家大数据(贵州)综合试验区和中国国际大数据产业博览会两个载体,为全面实施国家大数据战略贡献“贵州智慧”和“贵州方案”,推动行业企业充分了解全国乃至世界大数据发展的前沿方向和核心价值,推动形成更高层次、更广范围和更宽领域的交流合作。
目前,展示中心共包含“数字中国 贵州方案”展区、“数化万物 智在融合”展区、“云上筑梦 躬身耕云”展区、“未来已来”展区和“智慧体验厅”五个展区,分别就贵州大数据发展的历程和顶层设计以及综合试验区七项试验情况、贵州·中国南方数据中心示范基地建设情况、大数据与实体经济、民生服务、社会治理、精准扶贫和乡村振兴等领域融合情况以及工业互联网、AI人工智能、区块链、5G发展情况、大数据企业创新发展、创新产品、国际合作方面的发展情况和数博大道建设等情况进行展示。
为更好展示贵州以大数据为引领守好两条底线、推动后发赶超的探索实践和创新成果,以及展示中心作为全国乃至世界重要的大数据展示交流、共享开放的平台作用,国家大数据贵州综合试验区展厅特别策划系列报道,走近展示中心重点展项,呈现贵州大数据产业创新发展成果。今天的文章,主要聚焦于展示中心“数化万物 智在融合”展区的贵阳高登世德金融科技有限公司。
  作为贵州大数据的对外交流和展示的重要窗口,在国家大数据(贵州)综合试验区展示中心的展厅里,陈列与展示着近百项贵州发展大数据以来开发与建立的最具代表性的大数据技术和应用案例,其中也包括“中国金融科技竞争力百强企业”贵阳高登世德金融科技有限公司(以下简称“高登世德”)。相对于展厅中的行业独角兽“货车帮”以及互联网百强企业“朗玛信息”等长期笼罩于聚光灯下的明星企业而言,这家于2015年生长在贵州大数据土壤上的本土企业显得更加低调。
  2015年是国内创新创业风潮兴起的一年,这一年里,大众创业、万众创新成为一种新的风向受到社会大众的追捧,从文娱产业到电子商务,从共享经济到人工智能领域,创新创业项目此起彼伏,包括ofo小黄车、熊猫直播、嗨家网、斯凯无人机、安个家等创业项目如雨后春笋般出现,这些项目与生俱来的创新性一定程度上改变了人们的传统认知,得到了全社会的关注。
  “然而,4年后的今天,多少诞生于创业风潮下的项目都落得个惨淡出局的下场,当然也包括那些曾经风头无两、吸‘金’无数的项目。”站在位于国家大数据(贵州)综合试验区展示中心的高登世德展台前,创始合伙人王康感慨道:“高登世德能取得如今的成就,我感到很幸运。因为单就创业这件事而言,成功是个百万里挑一的小概率事件。”
高登世德在国家大数据(贵州)综合试验区展示中心。
  澳大利亚悉尼大学国际金融硕士研究生毕业之后,王康在澳大利亚第二大银行西太银行总行供职,长期从事银行大资产负债表管理相关技术工作,工作期间他结识了同在西太银行供职的杜衡等5人。 所谓“树高千尺,叶落归根”, 长期客居他乡的人总是难免对故土的眷恋,归国的念头一直在王康等人心中萦绕不去,但是真正促使他们踏上回国之旅的,是他们深埋于心的创业激情。于是,当国内创业风潮的兴起,对远在澳洲的王康等人产生巨大的吸引力,让他们迫不及待地踏上归国创业的路程。
  2015年初,杜衡、王康联合其他4名合伙人组建了高登世德创始团队,并在深圳参加创业之星比赛,寄望获得投资人青睐拿到天使轮投资。然而,一组数据的出现让他们警惕起来,数据显示,2015年上半年,全国范围内新注册企业总量为600万,新增企业数值几乎与2014年整年新增企业数值持平。但600万新增企业中只有不到3%的企业融资成功,获得进一步发展的机会,这让他明白,创业风尚的盛行让所有投资机构都开始谨慎起来。
  “生存是所有初创企业都必须面对的头等大事,企业的价值与理想的实现都要建立在活下去的基础之上。”王康深知初创企业如果在初期控制成本,将面临无边的生存压力。
  按照事先的谋划,高登世德团队回国初期希望在北上深三个城市中,选定一个作为创业根据地。“理论上,北上深这样的国际大都市是非常不错的创业首选地,它们拥有相对公平创新土壤与创业环境,拥有极大影响力和相对较好的配套设施。在创业准备阶段,几乎所有团队成员都对将这三个城市作为创业立足点抱有很高的期望,但事实上,这样的城市对创业公司在能力、资本以及商业模式和变现能力等多方面具有极高的要求。此外,初创企业选择在这样的地方创业,其创业成本将会非常高,前期现金流压力较大。”王康继续道,“尤其是在2015年这样创业热潮下,创业企业只有先保证活下来,才有机会去争取未来与可能。”
  彼时的贵州大数据产业发展才刚刚起步,但贵州发展大数据所展现出的决心和胸怀已经受到业界广泛的称赞,并因此吸引了大量创新公司和创业人才奔赴贵州逐梦。
  “贵州举全省之力发展大数据,对创新、创业企业的扶持无论是在政策空间还是在试错容错环境方面都具有无可比拟的优势,甚至于在创业创新氛围、生存成本等方面也具有相当大的吸引力。基于创业方向与贵州发展大数据发展战略的契合,我们细致地对贵州进行考察,随着对贵州了解得越深入就越发认定贵州的优势和潜力,决定选择在贵州创业。”
  2015年7月,高登世德在贵州省贵阳市正式成立,并落地于一个名叫“启林创客”的创业小镇。“筚路蓝缕以启山林,创业之艰辛若非置身其中则难以体会其中滋味,可当你全身心投入创业中后,却也很难能再找到合适的时机静下心来去细细品味创业的艰辛。因为所有的创业,就是找准方向后拼命向前跑,否则将不得不面临淘汰的最坏结局。”王康说到。
  “高登世德的发展证明,我们决定将高登世德落地在贵州是明智且幸运的选择,贵州的竞争优势的最终成为高登世德创业成功关键变量。”王康表示,同样拿到千万级融资规模的初创公司,如果落地在北上深,资金可能在一年内就烧完,但在贵州大数据产业的优惠政策下,高登世德赢得了生存和发展的空间和时间,通过4年多的发展积累,高登世德依托金融工程和量化金融等技术的应用,成为国内资产证券化行业的主要技术提供商,其产品和服务赢得了包括银行、券商、资管、信托和评级公司在内的头部核心客户的高度认可。
  截至当下,高登世德已经同招商银行、民生银行、富民银行、华泰证券、京东数科、小米金融,众安保险等近四十家资产证券化头部金融机构建立深度合作关系,从而构建出覆盖了发起方、承做方、评级方、资金方的资产证券化业务全链条,实现了银行,保险,信托,券商,基金,保理,租赁,交易所等金融机构的系统支持。服务资产类型涵盖消费类,房贷,车贷,信用卡,供应链,应收账款,不良资产等,每日处理资产能力超过一亿笔,成为国内唯一实际支持千万级以上资产数量的系统服务商。据王康介绍,在金融科技的零售资产管理信息系统细分领域中,高登世德占据60%的市场份额,市场占有率居全国第二,成为大数据与金融科技融合的行业翘楚。
  王康表示,高登世德将进一步拓展市场,尤其在西南市场高铁经济圈,希望北上深头部金融机构使用的高登世德产品,也能供西南地区金融机构客户使用。同时,期待也将持续立足于贵州大数据土壤之上,积极与更多的国际金融服务巨头开展竞争,壮大中国金融科技力量。
责任编辑:张薇
产业观察
2020-01-20 15:06:22
星力集团打造“线上商场”,尝试“直播带货”等新模式
—— 新零售带来全新业务增长点
来源:贵阳日报 时间:2020-05-06 12:07:01 作者:庭静 樊成琼
这个“五一”假期,在贵州星力百货集团有限公司旗下的荔星名店A馆二楼,一间临时设置的黄色“荔星直播间”引人注目。
5月1日,两名贵州本地主播便在“荔星直播间”进行了一场长达5小时的不间断“带货直播”,向数千名观看直播的网友推荐运动、美妆、出游、家居、护肤5大类的48种商品,销售额超过18万元。
这是“五一”小长假期间,星力集团搭乘节日消费快车、促进线上消费的一次特别策划。
“线上是增加消费的新渠道,我们依托‘星力乐购’线上平台,积极发展线上消费、‘直播带货’等新零售模式。” 荔星名店A/B馆副店长徐汐说,新冠肺炎疫情对百货商场带来较大冲击,星力集团加快发展线上购物的步伐,仅用了12天时间,就于2月22日推出“星力乐购”微信购物小程序,将星力集团旗下的线下品牌、货品搬到“线上商场”,通过直播、秒杀、拼团等形式,让消费者足不出户就能“云逛街”,吸引消费者在线购物。
“我们‘星力乐购’上有超过10万件商品,3月份的销售额将近400万元,4月份将近1000万元,增长速度非常快。”徐汐说,虽然第一天的线上直播销售额仅有1万多元,但最成功的一场直播一个小时实现销售额近20万元,“‘直播带货’已成为我们拉动线上消费最主要的方式,占了线上销售业绩的一半以上。”
将线下商场搬到云端打造“线上商场”,只是星力集团的新零售“1.0版本”。现在, 星力还把服务、旅游、民宿、农特产品等融入线上,升级打造集购物、旅游、服务等为一体的一站式体验消费“2.0版本”。
荔星名店A座商品部经理杨萍说,“星力乐购”除了满足消费者的一般购物需求外,还增加了手表维修、停车预约、洗车预约、推荐体验式旅游线路规划等服务。点开“星力乐购”微信小程序,进入“星力乐游”板块,贵州各地的特产美食、特供餐饮、旅游资源等信息就一一展示在页面上。
同时,星力集团建立企业微信群、品牌微信群等,每日推送新闻、时尚资讯、节日问候和活动提醒等信息;针对高等级会员,专门建立大客户部,开展“一对一”高端定制服务等。目前,星力集团已拥有上百万会员。
“线上新型消费方式不断涌现,在一定程度上弥补了线下消费的不足,起到了扩内需、促消费的作用。”杨萍说。
数据显示,新零售为星力集团带来了全新的业务增长点:自“星力乐购”微信小程序上线以来,线上总销售额超过1000万元。目前,随着疫情防控形势向好、消费复苏和线上销售的带动,星力集团的线下销售也恢复到往年同期水平的七八成。
责任编辑:陈近梅
产业观察
2020-05-06 12:07:01
“绿丝带”联合爱心企业—— 向大学城各高校捐赠大数据防疫平台软件
来源:贵阳日报 时间:2020-05-06 11:13:57 作者:张鹏
4月29日,一场针对大学城各高校的定向捐赠仪式在贵州电子科技职业学院进行。捐赠仪式上,贵阳广播电视台“绿丝带”公益品牌联合中国电信贵安分公司等爱心企业,向各高校捐赠了大数据防疫平台软件及相关防疫物资。
为切实帮助高校做好疫情防控工作,确保教学活动安全有序,贵阳广播电视台“绿丝带”公益品牌发起此次“守望相助、战疫情、助开学”公益行动。
活动得到中国电信贵安分公司等爱心企业的大力支持,该公司向高校捐赠的大数据防疫平台软件,实现学生、教师、校方的三维联动,可有效助力校园疫情防控工作。
目前,这一防疫平台软件已经在多所高校进行部署和安装。活动中,还有爱心消杀企业为各高校提供了免费的公共环境消杀服务。
责任编辑:陈近梅
产业观察
2020-05-06 11:13:57
贵安新区大数据企业全力复工复产
来源:贵州日报 时间:2020-04-30 14:22:33 作者:赵旭婉婷
今年自4月以来,随着全国全省疫情防控工作取得阶段性成果,贵安新区一手抓防疫,一手抓生产,大数据企业积极创新,化危为机,在研发及营销领域都取得新突破。
在疫情形势严峻时期,贵州数据宝网络科技有限公司及时调整产品研发方向,开发了 “疫控宝·车速查” 和 “疫控宝·人速查” 疫情防控大数据管理系统。
目前,随着这些平台的上线运营,该公司产能有序恢复,极大鼓舞了员工的信心。
同时,自疫情发生以来,在贵安新区,还有不少像“数据宝”这样的大数据企业依托自身技术优势,开发和催生了一系列基于疫情防控大环境下的新产品、新服务。
“疫情发生以来,通过电商平台购买食品的人不断增多,作为一家主营贵州特色食品的电商企业,我们面临挑战但也看到了机遇。” 贵州猫呗电子商务有限公司总经理莫远航说,公司迅速将重心转移到自身平台建设上,吸引了大量顾客加入平台会员。
此外,记者在贵安华为云数据中心A区项目工地看到,大型机械轰鸣,工程车辆穿梭,一片繁忙的景象。贵安华为云数据中心A区项目是集数据中心、生产交付中心、员工休息楼于一体的综合建筑群。自项目分批复工以来,已于3月初实现100%复工,每天有上千名工人在紧张地施工,按照目前的施工进度来看,相关负责人表示工程有望提前完工。
责任编辑:陈近梅
产业观察
2020-04-30 14:22:33
贵州首个自动驾驶科研项目助力智慧出行
来源:贵州日报 时间:2020-04-29 16:12:44 作者:赵旭婉婷
从2019年12月至今,由贵州智诚科技有限公司牵头,联合行业内贵州翰凯斯智能技术有限公司、奇瑞万达贵州客车股份有限公司、贵州大学、长安大学等11家优势单位参与的省科技厅重大专项地标项目《智能网联汽车(基于城市道路车路协同的无人驾驶车路)关键技术研究与示范》(以下简称“项目”)在软件技术方面,已完成车路协同自动驾驶系统中控平台设计;在硬件制造方面,自动清扫车底盘、无人驾驶客车样车设计已完成,正在特定区域进行封闭测试。
省科技厅评估中心重大专项项目调度会
项目立足贵州省车联网产业实际情况,基于车路协同的理念,从终端整车产品带动层面出发,瞄准“新基建”下不同应用场景的需求,实施智能网联汽车重大科技计划项目,引导全省智能网联汽车产业发展。预计到2022年将建成总里程不少于3.5公里的智能车路协同系统集成应用示范路段,为我省下一步智能网联汽车的推广作示范,共同助力贵州省车路协同自动驾驶技术的发展,提升贵州省“新基建”的研发与产业布局能力,成为我省“经济发展的新动能”,实现安全、舒适、节能、高效的智慧出行体验。
无人驾驶客车样车
大型客车正在进行自动驾驶演示
“新基建”市场前景已从几万亿元一路攀升到了50万亿元。5G车联网作为新基建下5G技术最重要的落地场景之一,将是未来的风口产业之一。近期根据工业和信息化部办公厅发布的《关于推动工业互联网加快发展的通知》和《贵州省先进装备制造千亿级产业振兴行动实施方案》《贵州省人民政府关于加快推进5G建设发展的实施意见》等文件精神,我省正积极开展智能网联汽车驾驶测试,发展车联网,推动人、车、路、平台智慧化,探索“新基建”下车联网的技术及产业发展模式。
责任编辑:陈近梅
产业观察
2020-04-29 16:12:44
易鲸捷国产数据库:摒弃“拿来主义” 守住金融安全底线
来源: 数据观 时间:2020-04-27 16:03:52 作者:石煜倩
  2014年的“棱镜门”事件让国人意识到国家信息安全的重要性,2018年的中兴事件又让国人认识到中国高新技术产业“缺芯少魂”、大而不强的生存现状。操作系统、芯片、中间件、数据库作为中国数字底座的重要组成部分,其自主化、国产化程度对于国家IT产业的发展及国家信息安全都至关重要。
  随着我国IT产业以及大数据应用的进一步发展,国内数据库市场基于对信息安全、成本、技术服务等多方面的综合考量,对国产数据库的需求愈发迫切。
  “相较于操作系统、芯片等的自主研发,数据库的国产化、自主化之路相对更难已经是业内人士公认的事实。一方面,数据库市场已经形成的以Oracle、IBM、Microsoft等为代表的强势垄断格局,使得国产自研数据库在数据库市场话语权不高;另一方面,国产数据库起步时间晚,数据库核心研发人才稀缺,国内数据库研发人才大多是在应用Oracle等海外数据库产品过程中成长起来的,很少人有机会接触到数据库核心技术研发工作。虽然我国数据库产品不断进步、市场应用也不断取得单点突破,但大多处于非核心应用,现阶段国产数据库想与国际主流数据库展开直接的市场抗衡,其难度可想而知。”贵州易鲸捷信息技术有限公司(以下简称“易鲸捷”)董事长李静接受数据观采访时说到。
易鲸捷董事长李静
  作为国产数据库发展的参与者,李静对国产数据库的发展感触颇深。“在我国数据库发展初期,‘拿来主义’是比较严重的,当时的国内数据库厂商要么基于一个现有的开源系统改进,要么从其他厂商购买源码授权,虽然起点比较高,但是产品架构几乎不可能调整,短期内也不可能掌握其核心技术。数据库是很复杂的,代码之间是有逻辑性的,单纯买走别人的知识产权并不代表就理解其代码,对代码进行解剖、分析最终实现自主应用的难度非常大,几乎不能实现。”
  正是由于缺乏对数据库核心基础架构的自主掌控,国内很多数据库即使发展多年,也没能真正应用在核心交易领域。不掌握数据库产品的底层技术,没有自主的架构,就无法对客户的新需求进行及时、快速的响应。“拿来主义”绝对不可能成为国产数据库的发展主流,这是业内人士达成的一个共识。近年来,一大批国产数据库企业已经实现了数据库核心技术的突破,推出了一批成熟可用、产品化程度、功能和性能上接近国外产品的国产数据库产品,已经具备了走向市场的产业化发展基础。
  在我国互联网起步之初,对国外数据库依赖性较强,这一点无可避免,但业内无论是谁都清楚地明白那些终归不是自己的东西,中国作为一个大国,应该也必须拥有自己自主、完整的软件产业体系。因此,我国数据库发展从来不敢停下来,在数十年的努力下,国产数据库不再只有传统“老四家”——人大金仓、达梦、南大通用、神舟通用,阿里巴巴、腾讯、百度等互联网巨头,巨杉数据库、易鲸捷等创业公司在近些年也都积极参与进来,其市场份额也在逐年增加。如果说市场份额增速体现的是市场大盘的增长,那么在复杂场景下实现自主可控考验的就是真实的技术实力。
  这里有一个标志性的事件,4月1日,基于易鲸捷国产分布式金融数据库钱库搭建的贵阳银行核心交易“沙箱”系统成功上线,并与贵阳银行现有核心系统并行运行处理业务,在保持银行现有核心业务系统正常运行的同时,将所有核心交易业务1:1实时写入沙箱系统同步运行,系统联机交易平均成功率高达99.99%。贵阳银行核心交易沙箱项目是国产数据库在银行核心交易领域应用的首例试点项目,是国产数据库在该领域的重大突破。据了解,钱库在贵阳银行2000万的账户量下,核心业务系统日处理交易峰值近400万笔,交易成功率高于99.99%,账务类平均交易响应时间小于300ms,非账务类的平均交易响应时间小于200ms,压力测试TPS峰值达20000。
  据李静介绍,传统数据库按照处理的业务类型分为两大类,一类是事务交易型数据库,需要在其中进行写入、删除和读取等操作,一类是数据分析型数据库,从数据库中取出数据进行分析及可视化展现。在企业传统的IT架构下,通常需要建立两套数据库系统来分别处理事务交易与数据分析的需求,数据需要在两套系统之间迁移,无法满足实时分析的需求。易鲸捷融合型分布式数据库将分析与交易融合在一个平台上,使用分布式架构动态扩容,从而大大简化银行、运营商等企业由于业务增长停机升级的过程,同时还可以通过实时分析提升数据的实效性,进而从大数据中获取更多的价值。
  之所以说“沙箱”系统成功上线是一个标志性事件,不仅是因为其是国产数据库在银行核心交易领域的一次突破,更是因为金融行业的特殊性。金融领域核心业务对数据库要求极高,对于数据处理性能、稳定性、一致性以及安全性的要求都远高于其他行业,被称为数据库领域皇冠上的明珠,能够满足银行核心交易需求的数据库意味着能同时满足其他诸多行业的核心交易需求。
  “特别是在5G的推动下,我国短连接、高频的交易将呈现爆发式增长的趋势。从银行系统的角度来看,所承担的业务量将是海量式的增长,同时也不可避免带来金融行业数据安全、业务安全方面的风险,而金融行业一旦出现问题,其带来的破坏效应肯定是多层次的。”贵阳农商银行副总经理徐黔说到。贵阳农商银行是目前易鲸捷融合型分布式数据库核心技术的试点单位之一,其试点项目基于易鲸捷国产分布式数据库核心系统,涵盖核心业务系统、前端图形系统、统一支付系统三大核心模块。
  徐黔的观点与李静的想法不谋而合,这也是易鲸捷选择金融行业这么高难度的领域作为数据库国产化替代的切入口的重要原因。“金融活,经济活;金融稳,经济稳。金融安全是国家安全的重要组成部分,银行金融机构核心交易系统是金融业务正常稳定运行的根基,其安全性尤为重要,但我国2000多家银行核心交易系统的底层数据库均被甲骨文、IBM等国际科技巨头长期垄断,致使我国金融行业的核心数据脉长期掌握在跨国巨头手中,这对我国国家信息安全、金融安全来说都是非常危险的。”李静告诉数据观记者,作为数据库企业,最应该要做的是要守住国家金融交易的安全,这是使命级的任务。
  在贵州省人民政府、贵阳市人民政府的统一领导下,在贵阳银行、贵阳农商行的大力支持下,易鲸捷现已在这两家银行核心数据库国产化试点进行应用。贵阳农商行副总经理徐黔告诉记者:“易鲸捷国产分布式数据库相较于传统数据库更能支撑5G时代的物联网、人工智能、区块链等新兴技术对于实时海量数据的融合管理需求,其在银行领域开创实时的双库并行(传统数据库为主库,易鲸捷数据库为辅库)架构建设,可以说为我国加速在金融领域以及其他各领域全面实现数据库国产化替代提供了可行模式和范本。”
  数据库技术是大数据产业发展的“引擎”,贵阳发展大数据离不开数据库等基础设施技术的支撑,而数据库的国产化替代更是当前自主可控背景下大数据产业发展的必然要求。大力推行数据库的国产化替代,不仅将重塑各行业的运行逻辑,更将为贵阳大数据产业的发展开辟一条崭新的赛道。
责任编辑:张薇
产业观察
2020-04-27 16:03:52
贵阳朗玛信息技术股份有限公司:打造问诊新平台助力抗疫“云战场”
来源:贵阳日报 时间:2020-04-22 17:36:36 作者:杨婷
  4月20日,记者从贵阳朗玛信息技术股份有限公司(以下简称朗玛信息)获悉,自新冠肺炎疫情爆发后,朗玛信息集结全公司力量,运用“互联网医疗”技术,用两天时间紧急打造了39健康抗击(新冠肺炎)问诊平台,为老百姓提供免费远程问诊服务。
  据悉,该平台1月26日正式上线,全国2200余名中国志愿医生响应号召加入,其中呼吸科类专家500余名。医生通过视频问诊和图文问诊的方式,为居家群众提供专业的咨询和就医建议,有效减轻了实体医疗机构就诊压力,也减少了群众实地就医交叉感染的风险。
  目前,平台已累计视频问诊10000余次、图文问诊60000余次,累计浏览量超过500万人次,浏览用户覆盖国内31个省市自治区,以及海外15个国家。
  疫情期间,朗玛信息还积极组织力量,发挥自身优质医疗资源优势,通过旗下39健康网、贵健康、39健康——IPTV、39互联网医院,联合中国志愿医生、中国心血管健康联盟、中国医师协会心内科医师分会、中华医学会泌尿外科学分会、中国研究型医院协会互联网医院分会等,共同发起了抗击新冠肺炎疫情和其他疾病的远程专家义诊活动,实现专家与病人、专家与医护人员之间异地“面对面”会诊,取得了良好的防控效应。
责任编辑:张薇
产业观察
2020-04-22 17:36:36
“贵阳预约旅游”平台正式上线 宏立城智慧科技大数据为抗疫赋能
来源: 数据观 时间:2020-04-20 16:22:17 作者:王婕
  4月15日,贵阳市文化和旅游局官方微信公众号“爽游贵阳”发布公告:“贵阳预约旅游”平台正式上线,凡需进入贵阳市29家景区景点的市民和游客,均要提前在“贵阳预约旅游”平台进行预约。
  只需扫一扫二维码,或进入微博、官网的特定菜单栏,登陆预约旅游平台,就可以在线上随心选择想去的景区和时间,整个过程仅需不到1分钟。这项往日里并未成为主流的应用,如今正在成为疫情危机尚未完全解除的新形势下旅游行业的首选。
  习近平总书记此前在考察杭州西溪湿地景区后曾做岀重要指示:“今天我到西溪湿地去了,那里是预约。预约旅游,现在一律要求在定额的30%,我觉得这些还都是需要的,这也是一个国家治理水平的表现。”根据贵州省应对新冠肺炎疫情防控领导小组于3月25日发布的《关于调整有关生产生活服务业疫情防控措施的通告》,贵阳市文化和旅游局通过“互联网+旅游”的智慧旅游新形式推出“贵阳预约旅游”平台,其目的正在于确保市民、游客安全入园,景区景点科学有序管理,达到科学分配旅游资源,实现复工复产和防疫工作两不误的工作目标。
  据了解,“贵阳预约旅游”平台是贵阳市文化和旅游局面向全体市民出游贵阳的公共服务平台,由贵州宏立城智慧科技集团有限公司自主开发并运营,可根据不同游玩场景实施要点,实现分时预约、灵活配置,满足不同景区多环境、多元素、多业态的应用需求,主要由“四个端”组成。
  在游客用户端,市民、游客可通过贵阳市文化和旅游局官网、“爽游贵阳”微信公众号和贵阳旅游官方微博等多渠道进行预约;在景区核销端,广大市民、游客到达景区景点,需扫描景区核销二维码进行核销,并向工作人员出示核销成功界面,方能免费或购票入园;在景区管理端,入驻平台的景区、景点将通过平台实时发布景区预约情况,市民、游客可根据景区的预约情况合理选择出游时间和游览景点;在大数据决策端,当日预约总数、游客来源地TOP10、景区配比状况等详细数据实时汇总于贵阳旅游预约出行大数据平台,将有力帮助运营方进行每日数据分析、客流趋势预测并及时对异常情况进行预警等。
  宏立城集团副总裁、宏立城智慧科技集团执行董事岳梅樱在接受数据观记者采访时表示:“预约旅游能够促进游客出行前养成合理规划行程、理性旅游的良好习惯,同时通过互联网+旅游模式,能有效解决景区人流分时分类管控的难题,并协助政府有效化解疫情防控与旅游业复工复产的矛盾点。”
  据介绍,随着预约旅游平台运行数据的逐步丰富以及后续景区门票购买、停车预约、游客评论等功能的陆续上线,届时可根据游客来源、历史到访情况、季节、交通信息等多维度数据实现游客数量的预测预警,并通过景点与游客的深度数据分析,实现景区票务、住宿、餐饮、娱乐、交通等要素的有机整合,将预约信息应用于旅游市场细分、旅游营销诊断、景区动态监测、旅游舆情监测等方面,可有效提升旅游行业协同管理和公共服务能力,推动旅游服务、旅游营销、旅游管理、旅游创新等变革。
  可以预见,在受疫情影响,国内旅游业受到重创的当下,“预约旅游”的兴起将在保障疫情防控的同时,对这一行业的发展起到有效的提振作用,让旅游更“智慧”。
  根据日前携程发布的《国内景区“预约旅游”报告》,截止至4月6日,恢复开园并可在携程预约的景区数量已超过3400家,清明期间国内景区门票预约人数环比增长超过300%。庞大的数据量表明,我国正大跨步进入“预约旅游”时代。随着贵州“互联网+旅游”的智慧旅游发展模式日渐丰富,贵州文旅产业振兴步伐将进一步加快。
责任编辑:张薇
产业观察
2020-04-20 16:22:17
航天“云订单”赋能数字经济
来源:科技日报 时间:2020-03-31 15:06:13 作者:付毅飞
  记者3月30日从中国航天科工集团所属航天云网公司获悉,该公司近日在多领域屡签“云订单”,发力赋能数字经济,积极助力疫情防控及复工复产。
  据悉,面对新冠肺炎疫情“大考”,该公司从聚合疫情需求入手,充分发挥工业互联网公共服务平台大数据技术优势,打出科技抗疫组合拳。
  在智慧医疗领域,航天云网成功中标“大专家.COM”智慧医疗平台基础云平台项目。该平台由钟南山院士领衔的75位院士和数千位医学专家发起,以大数据、人工智能技术驱动医学知识数字化,连接卫健委、医院、医生、百姓、药企等全产业链要素,提供AI助诊、分级诊疗、医生再教育、健康自查、药品再研究等智慧医疗服务,还将为政府的卫生健康管理以及应急事件的响应调度提供决策依据。据航天云网公司相关负责人介绍,该公司将打造安全可靠、稳定运行、快速迭代,而且具备PB级数据处理以及亿万级用户并发支撑能力的平台,为“大专家.COM”业务快速发展奠定了良好技术基础。
  在四川省,航天云网为成都市工业互联网平台提供基础云资源建设、云安全与云计算应用、云生态构建、安全可控产品及云运营等服务,积极助推区域工业互联网发展。同时,该公司基于“互联网公证”战略目标,利用一套定制完善的互联网 系统,正为成都市律政公证处打造国内首家“全无纸化”公证业务办证系统。
  在辽宁省,航天云网进军光伏行业,与大连久卉科技有限公司签约某液压系统项目,将开展百余台(套)液压系统的设计与制造,为世界最大的单晶硅提供单晶炉配套附件,积极推进光伏行业复工复产。
责任编辑:张薇
产业观察
2020-03-31 15:06:13
工业互联网推进建材业转型升级
来源:贵州日报 时间:2020-03-23 15:51:48 作者:方亚丽
  贵州工业互联网推进建材行业的转型升级,效果正在显现:
  2月12日,贵州兴达兴建材股份有限公司在接到贵阳市白云区医院发来急需混凝土改扩建发热门诊的公函后,次日便完成了混凝土生产供应任务。
  2月28日,受贵州桥梁集团委托,兴达兴负责花渔洞大桥钢管拱浇筑,从原材料生产到运输再到现场施工等各环节,兴达兴仅用了6小时。
  疫情期间,兴达兴能够迅速克服各种复工难题,确保贵州多个项目高效的施工建设,主要得益于兴达兴自主研发高性能混凝土大数据云平台——砼智造平台。
  砼智造平台是一个包含电子商务系统、制造执行系统、智能配送系统的综合性行业平台,通过使用砼智造可实现高性能混凝土产业智能制造和大规模个性化定制,全年节约人工成本近200万元,产品不良品率从0.8%降至0.27%,能源利用率从27.8%提升到35.5%。  
  目前,砼智造已成为国内首个高性能混凝土大数据项目,正引领贵州建材行业的高质量发展。
   数字化管理 企业提质增效
  55、50、53、22、52……3月9日,在兴达兴砼智造的调度中心大屏上,编好号的混凝土搅拌车正有序排队进行混凝土装车,之后将运输到贵阳市轨道交通2号线工程以及贵阳万科翡翠公园项目施工现场进行浇筑,整个生产过程仅需两个工作人员即可完成。
  “混凝土生产出来后必须三小时以内完成施工,疫情期间,我们能很快恢复生产,砼智造平台功不可没。”兴达兴行政总监刘富慧告诉记者,与大多数企业一样,兴达兴同样面临着员工受交通限制难以返厂复工的难题,而砼智造平台的优势恰好暂时弥补人员缺口。
  谈及砼智造的诞生,要追溯到2015年。“那一年,国家和贵州省相继下发文件,加快推进智能制造及‘互联网 ’协同制造,这给企业带来了思考和机遇,那时起我们就开始着手规划砼智造,让生产工艺粗放的混凝土实现精密化生产、精细化管理。”兴达兴董事长倪文勇说。
  经过4年的发展,兴达兴通过砼智造智能工控系统,建立起了无人化工厂,3条混凝土搅拌生产线实现集成化远程操控,单班生产操作人员由项目实施前的15人减少至2人,实现了生产作业的本质安全并减少人员聚集。
  自2月13日正式复工以来,兴达兴运用砼智造平台,在最大限度控制人员聚集的情况下快速恢复了生产能力,向贵阳市宾阳大道、贵阳万科翡翠公园、碧桂园等多个工程项目提供了混凝土产品,支撑了各工程建设的复工复产,充分发挥了现代信息技术对企业生产的促进作用,提高了企业精细化管理水平,促进了企业的提质、降本、增效。
  信息化服务 全产业链参与
  在砼智造大数据监控中心平台上,打开全省地图,当混凝土的搅拌罐车装满混凝土从生产线上出发后,此搅拌罐车的运行轨迹会实时在地图上显示。同样,在施工方的端口,打开砼智造手机APP,也能实时监控自己下单后的混凝土生产、运输情况。
  “我们希望构建汇聚建材行业全产业链的生产、销售、市场、检测、设计、服务、管理、咨询等环节的结构性和非结构性信息的数据仓库,运用云计算和大数据技术为建材行业提供全产业链的信息化服务”倪文勇说。
  为推动贵州省建材行业快速发展和促进产业“两化融合”,2019年1月,由贵州省建筑材料科学研究设计院、贵州省新技术研究所等单位共同培育和打造的“贵州建材产业云”平台正式上线,并与砼智造进行项目融合、数据接入,进一步打造建材行业全产业链的数据库,两者融合不仅能够覆盖省内的混凝土行业企业,也正逐步向国内行业企业以及政府监管、科学研究、行业统筹提供服务。
  “贵州建材产业云”平台由云平台门户、政府行业监管系统、云情报系统、咨询设计与技术交流系统等9个子系统组成,连接政府、企业和消费者,并全面整合贵州省建材产业资源。
  “未来,通过以实时生产数据为基础建立产业大数据库,利用‘砼智造’打造省内混凝土产业区块链,通过数据分析,优化产业布局和产业结构,形成混凝土产业智能制造一站式解决方案。”倪文勇说。
  绿色化发展 行业转型升级
  去年12月底,兴达兴就定下来年的发展目标:继续加大砼智造平台的推广应用,完成100家省内外混凝土企业的砼智造平台升级改造。疫情给推广带来一定难度,但兴达兴的管理层仍表示有信心完成。
  “粉尘大、噪声大、环境差”,这是大众对于建材行业的普遍印象,而今,通过智能化建设,贵州各大新型建材生产基地正呈现出绿色的环境、安静的厂房、环保型的产品等一系列改变行业传统印象的新景象。
  位于毕节的贵州磐石高科新材有限公司是专业从事绿色环保高性能混凝土研发、生产、销售、服务为一体的新型建材企业。从建筑固废到资源化利用,贵州磐石正向绿色化发展转型。
  “我们今年的方向是利用城市建设和基础设施建设开采废弃渣石生产机制砂,变废为宝,推动混凝土行业的转型升级。”贵州磐石总经理吴道义说,为更好地推行项目建设,他在去年与兴达兴签约成为砼智造平台的使用商,近期兴达兴将派砼智造科技公司技术人员帮助贵州磐石建立数据端口。
  大数据 新型建材的全新模式将有效促进行业向着绿色发展转型。
  “贵州建材产业由最初的产能严重过剩、污染环境,到如今的绿色生产、智慧开发,走出了一条属于自己的高质量发展之路。”倪文勇认为,在贵州工业稳健发展,新兴产业不断壮大,内生动力不断增强的环境下,贵州新型建材产业未来可期。
  目前,兴达兴已与贵州省内外30多家企业完成砼智造平台使用的签约。
责任编辑:张薇
产业观察
2020-03-23 15:51:48
图集|防疫有道,开工有序,“中国数谷”精准按下“复工键”
来源: 数据观 时间:2020-03-16 11:37:17 作者:王崇荣
  为深入学习贯彻习近平总书记在统筹推进新冠肺炎疫情防控和经济社会发展工作部署会议上的重要讲话精神,坚持一手抓疫情防控,一手抓经济社会发展,贵阳市大数据局严格按照全市疫情防控工作的总体安排及市领导工作要求,有序推进我市大数据企业复工复产。
  随着新冠肺炎疫情走势渐好,贵阳市大数据企业自2月下旬开始陆续复工,伴随而来的是一场硬核防疫复工“双线”战役。日前,数据观记者深入复工复产的大数据企业,拍摄全市各区企业在疫情防控和复工复产期间的精彩瞬间,展现“中国数谷”在“抢时间”“保安全”“补损失”上的新时代精神风貌。
  疫情防控是抓好复工复产的前提和保障。3月9日下午14:00,贵州大迈科技有限公司地面交通事业部正在会议室召开线上例会。记者观察到,防疫意识贯穿会议全程,参会员工之间均间隔一个座位的距离,佩戴口罩,同时注意保持室内开窗通风。
  贵州巨人峰科技有限公司工作人员宋昱婵正在登记到访人员信息。据了解,该公司已于2月24日正式复工,工作人员告诉记者,“复工前,公司就为员工提前准备了充足的口罩、消毒液等防疫物资,并向主管部门提交复工复产备案信息登记”。
  3月9日下午,在贵阳市云岩区,贵阳思普信息技术有限公司项目交付部和研发中心的40余名工作人员正在繁忙之中。在做好疫情防控的前提下,该公司于2月17日起全面复工。据公司负责人介绍,为疫情后的业务有序开展,该公司从2月3日至复工日,期间曾为公司员工先后组织了近百场线上业务培训。
  为避免交叉传播的风险,贵州航天金穗科技有限公司严格按疫情防控标准复工复产。3月9日复工后,为确保安全,该公司全部员工按要求佩戴口罩,同时员工工位保持着适当间距。据了解,该公司自2月3日起开启远程办公,通过线上的方式与客户维持联系,并向员工传播了疫情防控的相关知识。
  贵阳朗玛信息技术股份有限公司是贵州创业板上市的高科技企业,这家以互联网医疗为主要产品的高科技企业2月24日便按下“复工键”。图为该公司旗下39互联网医院医生黄达巍正在远程问诊,“这段时间在线问诊的人数有所下降,平均每天有50至80位病人不等”。
  据了解,在新冠肺炎疫情这段特殊时期,该公司基于39健康抗击NCP(新冠肺炎)问诊平台以移动端图文、视频及IPTV的方式,为老百姓特别提供了4大科室远程问诊的免费服务。截至3月13日,该平台累计医生2200名已为6万余人提供了远程问诊服务。
  数据观记者了解到,贵州力创科技发展有限公司早在2月17日就已全员复工。复工期间,该公司制定了严格的防疫制度,2月19日,公司内部还特别组织成立了一支由8名党员组成的防疫督查小组,负责监督和检查公司内部疫情防护相关事项,该小组成员告诉记者,“员工上下班都需要测量体温,还要进行消毒检查”,员工用实际行动诠释共产党员的初心使命。
  结束了2月10日以来的远程办公,位于观山湖区的贵州小爱机器人科技有限公司于2月24日已实现全员复工。图为该公司产品研发部员工胡远,正在监测某项目平台的各项数据,“这段时间,公司办公区域每天都会进行消毒,防疫这块做得完善。业务上,这两天我们都还比较忙,技术研发相关的工作也在正常推进”。
  在贵州华为云软件开发云创新中心,记者发现贴在公司门口的宣传单页上写有“扫扫贵州健康码,精准防控快通行”,员工及到访人员需扫码显示无异常情况才能进入公司。同时,为避免鞋底可能携带病毒进入人员相对密集的办公区域,进门处还专门设置了一块洒满酒精的“地毯”,每日倒入一定量的消毒液,凡进出办公楼人员均需经过踩踏消毒池才能通过。这样能对鞋底进行消毒,有效地避免鞋底携带病毒的输入传播。据了解,该公司已于2月14日已实现全员复工。
  3月11日上午,按照公司在疫情期间的惯例,中电科大数据研究院有限公司党群部门员工正在公司前台接受当日上班前的体温测量。该公司从2月10日起以“线上+线下”的方式开始逐步复工,于2月24日实现全员返岗复工。
  图为贵州易鲸捷信息技术有限公司行政部员工朱女士正在为该公司办公区域消毒,“公司每天都至少有2次消毒,一次是由保洁阿姨完成,一次是我们自己来做,勤消毒,多通风,这样我们也放心得多”。据了解,在复工期间,公司实施了职工错峰就餐,并安排行政部门流动检查公司内部的疫情防护。
责任编辑:张薇
产业观察
2020-03-16 11:37:17
科技服务农业发展 贵州迈步智慧农业
放下锄头“慧”种地
来源:贵州日报 时间:2020-08-12 09:40:48 作者:
  机械化播种、移栽、采收,农机旋耕、起垄、覆膜,大型农用无人机喷施,水肥一体化灌溉系统,农机物联网作业信息系统实时监控……前不久,在威宁自治县召开的贵州省“农业4.0”技术集成及应用示范中期评估会上,智慧农业的一项项集成创新技术,让人们看到了贵州农业种植模式转变的未来。
  科技兴农,数字技术是当前攻关焦点。7月22日至23日召开的省委十二届七次全会提出,要强化资金支持、科技服务、农业设施三个保障,为农业发展提供有力支撑。其中强调的科技服务保障,是提升贵州农产品竞争力、影响力的重要基础。
  “贵州生态环境好、作物品种多,但种植区域间差异大,遍布喀斯特地貌形成的梯田、小田块,使得同样一种作物在不同地区种植模式截然不同,难以进行大面积推广。”负责“农业4.0”项目机械化研究的贵州大学机械工程学院农机系教授张富贵告诉记者,“这种差异化特点,使贵州机械化种植需要完成大量个性化工作,需要依靠定制化的模式和技术,尽量减少单位面积内资金、人工等投入,增加单位面积的产出、提高土地的利用效益,这是我们发展智慧农业的核心目标。”
  作为贵州智慧农业的先行试点,威宁山地特色现代农业科技示范样板田里,耕地、收割的农机上安装有北斗、GPS双模机载定位,传感器等装置,可以对耕地深度、割茬高度、作业轨迹、现场图像等信息进行采集。通过农机物联网技术,这些农情信息将发回系统,用于农机路线、面积、耕深、割茬高度等作业情况的在线远程监控。
  通过系统,管理员可以制定农机调度计划,将任务直接派送至农机手的手机APP,内附有任务时间、地址导航、作业内容等详情,并可随时上报任务执行情况,供管理员了解进度情况,使大规模农业生产管理更加科学高效。
  “智慧农业系统如果是人的大脑,基于物联网技术的机械化农情信息采集就相当于人的眼睛和四肢。没有眼和手脚,再先进的大脑也没办法发挥作用。”张富贵说,智慧农业是农业产业信息化的高级阶段,需要历经机械化、自动化、智能化、智慧化的过程。
  通过现有机械和技术的集成应用,把现代信息技术与农业生产、经营、管理和服务进行全产业链的“生态融合”,将从根本上改变农业管理模式,促进农业生产力和资源利用率大幅度提升。
  “智慧农业是一次跨专业、跨行业、跨领域的深度合作。”“农业4.0”项目总主持人、贵州省农业科学院园艺研究所所长孟平红说,通过农艺栽培技术与机械化、自动化、智能化的工业技术进行结合,才能共同确定机械化种植的技术参数,在最需要机械化的环节实现突破,减轻务农劳动强度的同时,保证土地的产量。
  孟平红介绍,农业的机械化应用需要根据不同作物品种的开张度,设置栽培密度、株距、行距等,从而配合机械化种植与采收。无人机喷洒时间、用药种类、浓度配比等,也需要符合农艺栽培技术的要求,在省药省工、节约成本的同时,减少农药残留。
  通过机械化设备对植株生长的状况、温湿度、病虫害等农情监测,农艺专家将利用监测信息,对作物生长过程中出现的问题进行诊断,配合绿色综合防控技术制定防治措施,为农业发展提供科技支撑。
  去年底印发的《贵州省人民政府关于加快推进农业机械化和农机装备产业发展的实施意见》提出,以农机农艺融合、机械化信息化融合、农田建设与机械化需求相适应为路径,补短板、强弱项、促协调,助推贵州农业机械化和农机装备产业发展,将为实现农业农村现代化提供有力支撑。
  根据规划,到2020年,贵州农用地“宜机化”试点面积将逐步扩大。全省主要农作物耕种收综合机械化率将达到40%,水稻和马铃薯生产全程机械化取得明显进展,茶菜果药等重点特色经济作物薄弱环节“无机可用”问题初步改善。
  到2025年,贵州将力争主要农作物耕种收综合机械化率达到55%、茶菜果药等重点特色经济作物薄弱环节机械化实现新突破、水稻耕种收综合机械化率达到70%、坝区水稻生产基本实现全程机械化、马铃薯耕种收综合机械化率达到40%。
责任编辑:姚治
产业观察
2020-08-12 09:40:48
服务贸易创新发展试点 贵阳贵安在列
来源:贵阳晚报 时间:2020-08-12 09:34:14 作者:游红 庭静
  日前,国务院下发《关于同意全面深化服务贸易创新发展试点的批复》,同意商务部提出的《全面深化服务贸易创新发展试点总体方案》,同意在北京、天津、上海、重庆(涪陵区等21个市辖区)、贵阳、河北雄安新区、贵州贵安新区等28个省、市(区域)全面深化服务贸易创新发展试点。
  贵阳市、贵安新区作为国家内陆开放型经济试验区先行区,一直把扩大对外开放作为加快发展的战略之举,正在融合推进服务贸易创新发展。据统计,2019年,贵州数字经济增速连续5年位居中国第一,贵阳市以软件和信息服务为主的服务外包接包合同执行额突破2亿美元;贵安新区新增离岸服务外包接包合同执行额3631万美元,同比增长30.85%。2020年1月至5月,贵阳市以软件和信息服务为主的服务外包接包合同执行额1.78亿美元。
  据了解,以国务院下发《关于同意全面深化服务贸易创新发展试点的批复》为契机,贵阳市将把城市资源、城市价值优势与贵安新区的战略空间、政策机制创新优势相互叠加、相得益彰,把贵阳贵安融合发展带来的战略机遇转化为追赶超越的强大动能,大力推进服务贸易创新发展,努力把贵阳、贵安打造成为全省服务贸易高质量创高新发展的试验区、示范区。加强服务贸易高质量发展促进机制创新,将贵安新区纳入贵阳市服务贸易和服务外包的发展战略当中,研究部署发展方向和路径。
  同时,提升本地服务业的发展质量,制定有针对性的支持措施,推动传统产业在与大数据融合发展中找到转型升级的路子,积极培育和壮大疫情防控期间催生的远程教育等新型服务业。
责任编辑:姚治
产业观察
2020-08-12 09:34:14
贵州与泰国携手 合作共建数字经济
来源:贵阳晚报 时间:2020-08-12 09:29:56 作者:王杰
  8月11日,“深化共建·开创泰国EECD新未来”视频对话会议在贵阳举行。此次会议中,中泰双方分别介绍了各自发展数字经济的情况、成效、优势和未来发展愿景。双方还探讨了未来合作共建数字经济的路径、模式。

责任编辑:姚治
产业观察
2020-08-12 09:29:56