[曲奇饼的寓言故事]五种虚拟化力量将推动大数据技术的云端化
时间: 2016-09-06来源:数据观
前景提要
[曲奇饼的寓言故事]五种虚拟化力量将推动大数据技术的云端化
来源: 数据观-企业 时间:2016-09-06 11:47:16 作者:亚信数据-DataHub胡嘉琪
【摘要】 现今,大数据及数据科学技术并未与云计算取得紧密结合,对于传统企业而言,上一套大数据平台的投入与风险,不亚于当年上一套ERP。对于任何大数据应用的建立,需要设施、平台、数据、技术(或团队)及应用封装五种核心资源,而云计算技术已实现了设施、平台与应用三点的虚拟化,但只有完成数据与技术的虚拟化,才能组成完整的“数据生产流水线”,降低全社会使用 大数据技术 的TCO。而这也是企业数据资产化运营的核心过程。
【关键词】 数据应用云架构,数据流通,数据资产化运营
在开篇之前,不妨先来看看一个轻松寓言故事。
曲奇饼的寓言故事: 在北方的云端镇,居民们都非常沉迷于曲奇,每到阳光明媚的下午,云端镇居民们都会拿出一盘曲奇享用,曲奇成为了小镇不可划缺的美食。之前居民们都是自己烘焙曲奇的,除了面粉、黄油、鸡蛋的基础原料以外,还需要专门的烤箱。决定曲奇美味程度的最大因素是烤箱,然而能烘焙出最美味曲奇的高端烤箱价格非常昂贵。这时一位老板看到商机,推出了一个“烤箱即服务”的创业计划:在一个名叫“小云工坊”的舒适店铺里,放上几个这种高端烤箱,让顾客们带着自己制作曲奇的原材料来店烘焙,烤箱们已经过严格的调试,顾客不需要理会烤箱的设置和管理,直接使用即可。(好吧,聪明的你已经心里面揭穿我的寓言,知道这种将烤箱等“硬件”外包给别的地方去的服务,分明就是云计算中的IaaS“基础设施即服务”)。
由于无需购买昂贵的高端烤箱也能吃到美味的曲奇,“小云工坊”非常受欢迎,然而商人并未就此而停止了创新的脚步,因为虽然通过低廉的价格就能使用到好烤箱,但制作曲奇的过程仍然还是麻烦事情,需要打蛋器打蛋、模具成型等一系列工序才能完成。因此老板又推出了“桌子即服务”的额外创意:商人在店铺准备了很多的长方形桌子,上面放好了打蛋器、碟子、曲奇模具等制作曲奇的必要工具。更为重要的是,顾客无需考虑这些工具使用前的消毒和更为麻烦的用后清洁,只需按需使用就是,其他都由店铺搞定(这时候你又指着我说,你这种中间件和工具的外包,不就是想比喻云计算中的“平台即服务”PaaS嘛,快点把SaaS也放出来)。
随着“好曲奇,小云做”的口碑传得家喻户晓,“小云工坊”的老板看到了更大的商机,对于那些烘焙技术小白以及懒人来说,上面这些服务都仍然麻烦,能直接把曲奇送到口边就最好了。Bingo!老板真推出了“小云牌”曲奇外卖服务,吃货们可以直接把自己家里所有的曲奇工具都扔掉,只要打一个电话,曲奇外卖就会送到家门口,正可谓“曲奇即服务”。(当然,你也掌握了这个故事的套路,知道这就是SaaS“软件即服务”)。
既然I/P/SaaS都出来了,云端小镇的云故事就此结束了吗?还没!
其实曲奇的美味,另外一个最重要因素是黄油的质量,没有最上等的黄油即使设备再好也是白搭。但很遗憾,在云端镇好黄油是稀缺资源,几乎都被几个大佬给垄断了,这时候“小云工坊”的老板又看到了商机,开始和这些大佬们合作。大佬们也发现,几乎没有比“小云工坊”更好的销售渠道了,因此“小云工坊”就有了“黄油即服务”计划,顾客可按量使用这些优质黄油,做多少曲奇用多少,也无需担心存储黄油的冰箱环境。同时更为重要的是,顾客再也不需要把整块昂贵高级黄油买回去,一切都按需使用。
最后,老板为了照顾那些明明对制作曲奇一窍不通,但又非要来“小云工坊”制作曲奇的技术小白,又推出了“技术即服务”计划,店里配了几个精通曲奇做法的师傅,按小时收费指导技术小白们做出香喷喷的美味曲奇。
从烤箱、桌子、外卖,到原材料与技术,“小云工坊”的商业模式终于圆满啦!
聪明的你,相信一定也猜到了,上述的“黄油”指的就是数据。在传统的云计算架构中,很少甚至并没有考虑到数据的核心定位,大数据与云计算也远没有达到良好的结合。但我认为,大数据与云计算是一对非你莫属的绝配基友,数据也能像硬件一样实现虚拟化,从而结合云计算创造更为强大的大数据应用开发和部署能力。当然与此同理的还有数据科学团队的技术。
第一部分:从运营商案例谈云端的数据科学
云计算由于众所周知的资源弹性使用、隔离性、可扩展性、安全性、资源可充分利用等特点,在低成本快速搭建企业级应用的效率有目共睹,通过云平台可快速搭建起一个个网站、移动APP、容灾备份中心甚至小型电商平台。但相比这些传统应用,针对于企业拥有的、越来越庞大的数据资源,以数据导向去利用云服务迅速低成本高效率低部署大数据应用,则没有如此简单了。
核心原因在于目前云计算仍没有与大数据深度耦合,如何利用云架构迅速降低大数据应用乃至数据科学的部署成本,是一个非常有趣且具备现实意义的问题。我相信以后的大数据应用研发,一定是类似本文开篇的寓言故事一样,从数据采集、存储、治理、计算、应用到流通,都会有一条标准化的云端“数据生产流水线”去帮助企业实现低成本高效率部署,使得普通企业也能用得起各类重型大数据技术。
谈起数据应用,在过去,数据应用的种类单一,基本围绕BI、管理驾驶舱、交互分析与报表系统、可视化等小量应用,适合通过各类通用解决方案去满足需求。但随着数据的急剧爆发,大数据领域的应用则丰富得多,如人流预测、推荐引擎、征信模型、甚至无人驾驶等,各个领域均会基于自身业务逻辑衍生出个性化的大数据应用场景,其应用具备典型的长尾特征,无法通过标准化方案去满足需求。“千人千面”的大数据应用模式,意味着定制化开发成为主流,但我们都清楚知道,让每个企业都部署一个 大数据平台 ,既不现实,又不经济,如何用云架构去承载这些长尾大数据应用是未来的爆发点。
为免枯燥,接下来我们先从一些电信运营商的数据应用开放案例,看如何利用云架构推动大数据应用生态的搭建。
电信运营商拥有异常丰富的数据资源,而由于众所周知的原因运营商近年来的日子不太好过,其大数据能力除了内部应用以外,运营商还将部分数据通过有序的加工后,开放给各个行业的外部客户使用。
运营商对外数据应用开放的类型上,主要包括了客户标签应用、基于运营商大数据的征信应用、地理标签应用及实时人流分析应用等几类。例如征信应用方面的用户身份核实、二次卡清理应用当前非常受金融机构及互联网公司的欢迎。而部分运营商甚至更多走出了一步,甚至允许第三方合作伙伴走入运营商IT环境之中,使用运营商大数据,开发基于合作伙伴自身业务场景需求的大数据应用,这里最典型的就是个性化客户标签定制,以及区域人流分析,一下以个性化客户标签说明。
虽然目前运营商已经定制了海量的客户标签,但对于众多垂直行业来说这些标准化的标签应用并不足够,因为归根到底标签是为了带来sales leads的,有效的客户标签需要紧贴业务场景去设计,运营商也不太可能做这么多不同行业的专家,所以好的做法,就是拉上合作伙伴进入到自身大数据基础IT环境中开发标签应用。下图是这个流程的示例,当然这个图仅仅作为参考,实际业务层面的做法要比这个图复杂。

具体流程上,运营商在自身云架构的大数据平台中,对第三方合作伙伴单独开放了一个私有PaaS环境,企业根据自身业务场景在上面开发标签应用(目前这步的开发工作基本由运营商代劳),数据采取“可用不可见”的方式提供给企业部署算法模型,最终通过私有的标签调用出口提供给合作伙伴使用,并完成了运营商数据的深度开放。
第二部分:基于五种虚拟化力量的云生态
对上一章节的案例流程进行抽象及延展,实质上我们可以发现存在5个层面的虚拟化:
1.设施的虚拟化:非常容易理解,运营商的基础设施组成了本次应用的IaaS层,对于任何云架构来说,设施的虚拟化都是基础;
2.平台的虚拟化:运营商部分大数据平台能力虚拟为提供给合作伙伴的PaaS平台,业态上将来也会涌现越来越多的以数据应用为导向的aPaaS平台,除了数据库和中间件以外,还集成了大量容器化的重型大数据应用,如Spark、流式处理等,以及交互性更强的数据科学工具箱;
3.数据的虚拟化:上述流程中,实际上运营商是采取数据虚拟化的方式,将数据提供给第三方使用。第三方只能使用到有限的数据,而且也不用关注这些数据是如何治理的,按需使用数据就可以,虚拟化的数据是可用而不可见的;
4.技术的虚拟化:为了简便上述案例并未涉及这点,但如果第三方实质上并不具备标签建模的技术能力,但仍希望得到标签应用,那该怎么办呢?答案大家肯定也能想到,那就是技术外包。鉴于大数据技术的专业性,除了大型公司以外,任何公司单独维持一支数据科学团队肯定是不经济的,专业技术服务提供商生态将逐渐被建立起来。而事实上现在 阿里云 也初步建立了“云市场”生态,云计算需求方可以在“云市场”上通过SLA方式按需购买到大量的标准化服务,比如环境预装、APP定制开发等,具体可参考下面阿里云的截图。将来在大数据应用领域中,也肯定会出现这样的专业技术服务提供商生态,如专门做数据可视化的、专门做复杂事件处理的。

5.应用的虚拟化:这点非常传统,最终标签结果通过SaaS方式提供给外部用户使用,在软件市场,SaaS的巨大优势让众多传统软件提供商收益,在大数据应用时代,SaaS也将会是主流形态(或应该称为DaaS);
基于上述设施、平台、数据、技术及应用的五种虚拟化力量,才能构筑完整的数据应用云生态,使得专业大数据技术能力不再是BAT等巨头的专利,任何企业都能按需使用大数据技术。其中我觉得最为关键的是技术和数据的虚拟化。再谈一下技术的虚拟化,毫无疑问以后会有越来越多没有太多数据资产但技术过硬的大数据技术公司,风口在于构筑一个平台生态大幅降低信任成本,让他们服务于数据拥有方,取得数据和技术的共赢;而数据的虚拟化则是一个更为有趣的问题,多方的大数据应用合作实质就是一个数据流通和共享的问题,如何通过一个云平台,让多个数据拥有方的数据产生碰撞并形成应用,将涉及更多的信任和交易成本的问题,让多方产生信任,同态加密、多方安全计算等技术也许必不可少。

上图是基于五种虚拟化力量的数据应用云生态构想,不一定成熟,但希望有参考价值。而这个应用生态实质也是数据资产化运营的总体框架,将来企业需要将数据视为一种来未可带来预期收益的资源,再通过这套标准化的云端“数据生产流水线”去铸造各类数据应用。当然,这个框架还隐含了一点假设,就是企业的数据已通过良好的数据治理,否则质量低下的数据,通过数据生产线后也只会是“垃圾进垃圾出”。
第三部分:数据流通的两个流动层次
数据交易与流通如今是炙手可热的话题,虽然数据在未来会打破主体孤岛,实现全社会的广泛流通已经成为了一种共识,但数据流通的标准至今仍没事实标准,而这个标准相信短期内也不会有。
我在另外一文《数据API经济与大规模数据流通:从水的寓言说起》中谈到了数据API经济,即完善的数据应用产品将交易与流通会如“拧水龙头”一样的使用方式通过API去调用,并能很好解决数据流通中“挑数据”、“开箱即用”以及降低交易成本与门框等问题,这实质上就是通过类似SaaS的方式(应该称为DaaS更适合)去虚拟化使用各种数据应用。
但原始数据成为数据应用之前,可能还经历了一次基础数据能力流通,即多方主体通过平台合作,将互补性的数据共享到一起,再基于此通过“数据生产流水线”输出数据应用。如最典型的案例就是互联网大数据征信应用,征信机构将来源于金融机构、运营商、互联网及用户自身披露等大量数据作为风控模型的输入,最终形成征信评分,以征信数据产品的形式再度流通出去。

在此前的架构图上,我们可以清晰地看到数据这两个流通层次,一个是汇聚底层基础数据能力的“地底河”,而另外一条是围绕数据生产线所输出的数据应用产品流通的“地表河”。值得注意的是,这两条河流有完全不一样的数据流通逻辑,甚至需要有两套不同的数据流通标准去承载这两种流通需求。
我觉得对于承载底层基础数据能力的“地底河”而言,重点在于通过一个生态环境连接起社会中的多方数据,通过技术及业务手段去降低数据连接的信任成本,同态加密、多方安全计算等未来大数据安全技术将能大展身手;而对于承载数据应用产品流通的“地表河”而言,则是以市场为导向的互联网运营,强调数据应用的客户体验、价格促销等,带有强烈的数据应用商店性质。对于国内所有从事数据交易的交易机构来说,千万要搞清楚自己是走在哪条河边,如果用“地底河”的流通逻辑去运营成熟数据应用产品的话,会闹出不少笑话。
写到结尾了,呼应一下开篇寓言,在忙碌于准备类似“小云工坊”这样的事业时候,我们不能忘记把原材料和专业技术团队也纳入到生态之中。对于数据应用云生态来说,只有设施、平台、数据、技术及应用的五种虚拟化力量在一起,才能创造完整的“数据生产流水线”,利用云计算的力量,像工厂一样输出 大数据应用 能力,当然最后的归宿,就是数据的流通。
作者丨亚信数据-DataHub胡嘉琪

☞点击进入 亚信数据 在数据观的企业栏目>>>

责任编辑:王培

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行