科技资讯_数据资讯

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

Excel到底有多厉害？ – 何明科的回答 | 数据分析网首页分类阅读行业资讯大数据统计�

你做的那些坏事，大数据全知道 | 数据分析网首页分类阅读行业资讯大数据统计学数�

APP数据分析：用户增长和留存的秘密 | 数据分析网首页分类阅读行业资讯大数据统计学

机器人和大数据成为行业潮流，4大初创公司将改革2018年电商局势 | 数据分析网首页分类�

OFweek 2017（第二届）中国医疗科技大会成功举办 | 数据分析网首页分类阅读行业资讯大�

最牛的数据可视化分析神器双十一疯狂大促，错过了就不再有 | 数据分析网首页分类阅读

汽车之家发布“车智云”，大数据+AI发展汽车生态圈 | 数据分析网首页分类阅读行业资�

影视大数据公司“艾漫”获B站5000万元投资 | 数据分析网首页分类阅读行业资讯大数据 �

从1到N 数据中心变革向纵深发展 | 数据分析网首页分类阅读行业资讯大数据统计学数�

世界杯要来了，AI预测冠军哪家强？ | 数据分析网首页分类阅读行业资讯大数据统计学

编译 | Debra 编辑 | Natalie 微信公众号 | AI 前线（ID：ai-front）
不同方法得出结果不同：德国 vs 巴西
和往年一样,大家预测的冠军不尽相同,但目前争论的焦点集中在德国和巴西谁会夺冠上。
据媒体报道,几天前俄罗斯彼尔姆国立研究大学的大四学生制造的神经网络,预测德国队将在 2018 年世界杯中夺冠,而世界杯前三名将是德国队、巴西队和阿根廷队。据说,这项预测的准确度超过 80%。
而瑞银则由一支 18 名分析师和编辑组成分析师团队,运用计量经济学,在衡量了球队实力,资格记录和往年世界杯表现等因素后,对比赛进行了 10000 次计算机模拟,预测了比赛的可能胜者。根据其 5 月 17 日发布的报告, 瑞银预测今年世界杯冠军将花落德国,获胜可能性为 24％,其次是巴西 19.8％,西班牙 16.1％,而常年失利的英格兰以 8.5％的成绩排名第四,法国、比利时和阿根廷也被视为黑马。
搞笑的是,瑞银全球财富管理部门首席投资官 Mark Haefele 仍然坚持认为英国有成为冠军的潜力。2014 年世界杯,瑞银的预测团队中因为有英国队铁杆球迷的存在,把数据分析结果排名第十的英国队硬生生拗成了冠军。看来真的是英国队的死忠粉啊。
然而,也有人用机器学习得出截然相反的预测结果—— 巴西将赢得冠军。肯尼亚投资银行 Genghis Capital Investment Bank 的投资银行分析师 Gerald Muriuki,日前在 Medium 上公布了他使用机器学习预测 FIFA 2018 的结果。
逻辑回归方法
Muriuki 使用逻辑回归的方法,利用两个 Kaggle 数据集（https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017/data ）,以及 1930 年以来所有的参赛队伍的赛事数据结果,来进行赛事预测。
环境和工具：jupyter notebook、numpy、pandas、seaborn、matplotlib 和 scikit-learn。
首先,将需要的库和数据加载至数据框。
经过加载库、数据集、探索分析和特征工程、范围缩小至参加世界杯的球赛、创建数据框部署模型等步骤之后,这个模型就可以进行预测了。
这是小组赛的部分预测结果：

这是 16 强的预测结果：
它还对四分之一决赛进行了预测：
半决赛预测：
总决赛预测：巴西战胜德国
但 Muriuki 坦诚这个模型还有改进的空间,如通过评测球队队员素质提高数据质量、用混淆矩阵分析模型预测问题所在,或者使用多个模型提高准确率。
统计学方法
KDnuggets 上一位球迷借鉴了 FiveThirtyEight 预测 2014 年世界杯的方法（https://fivethirtyeight.com/features/how-fivethirtyeights-world-cup-predictions-compare-to-other-ratings/ ）,通过统计学得出了相反的预测结果：德国战胜巴西。 FIFA 世界排名（https://www.fifa.com/fifa-world-ranking/ranking-table/men/index.html ）：所有 211 支国家足球队的排名系统,得分基于 FIFA 认证过的所有国际赛事成绩。这不是最好的系统,但已经够用了。 Elo 排名：由 Dr. Arpad Elo 创建,原为 FIDE 国际象棋比赛而设计。这个复杂的矩阵基于比赛类型计分,并考虑到双方的目标分数差距,与 FIFA 的最大不同在于它考虑了友好比赛。 TransferMarkt 球队价值：这个总部位于德国的网站提供关于足球的所有信息,包括每个知名球员的价值,并列出了参赛国家球队及其价值。据该网站估计,所有在列表中的球队总价值约 106.4 亿欧元。投注赔率：使用投注比较网站 OddsChecker,采用每个国家最大赔率。
收集完这些信息之后,该球迷进行了预测：
四种方法预测 2018 世界杯结果
KDnuggets 预测结果
如果 KDnuggets 的预测准确,以下就是本届世界杯赛程的最终结果：德国、巴西、西班牙分别为前三名。
人肉预测
英国《电讯报》进行的一项调查显示,大多数人还是看好德国赢得冠军。
Sporting life 没有预测谁会赢得冠军,但猜测了一把参赛国家队将在什么时候 out,比如认为英格兰会在四分之一决赛被淘汰。
机器学习、大数据 … 预测有准头吗？
不管是用了什么方法,看起来多么复杂,预测结果准不准还得另当别论。因为事实证明,很多看起来靠谱、头头是道的预测结果往往抓瞎得很。比如华尔街最靠谱的高盛,预测 2014 年世界杯时便被啪啪打脸。当时高盛由大名鼎鼎高盛经济学家凯文·戴利（Kevin Daly）带领的量化分析师团队建立了自 1960 年以来正式国际足球比赛数据的模型,对其进行回归分析,通过一个叫“elo”的动态模拟系统“掷骰子”分析赛果,同时根据泊松模型（一种概率模型,用于预测进球而非预测胜负）预测小组赛的比分。结果呢,八强预测错了三个（哥斯达黎加、比利时和哥伦比亚）,四强错了一个（西班牙）,小组赛的赛果正确率只有 37.5%,还铁定押宝巴西会夺冠,让人哭笑不得。
彭博社的方法与高盛类似,是在各国国家队 FIFA 积分的基础上,模拟了 1 万次比赛结果,结果也与高盛类似,认为西班牙会在和阿根廷打平后点球进入决赛,最终输给巴西。然而尴尬了,西班牙早就在之前的比赛中已经 out 了……
德银的模型更离谱,它的模型据说综合了 FIFA 排名、历史战绩、球员构成和赌球赔率等因素,算出的夺冠概率前四名是巴西、德国、西班牙、法国,但是德银的分析师在建立模型时,综合了一个据说是“历史夺冠轮回”的理论,最终,他们计算出的结果是巴西无缘 8 强,而英格兰将夺冠。然而,英格兰也早早打铺盖回家了……
一众大佬在 2014 年世界杯预测中被无情打脸,然而,百度的预测却出乎意料地相对准确。据说,当时这家公司的数据科学家团队搜索了距当时 5 年内全世界 987 支球队（含国家队和俱乐部队）的 3.7 万场比赛数据,同时与中国彩票网站乐彩网、欧洲必发指数数据供应商 Spdex 进行数据合作,导入博彩市场的预测数据,建立了一个囊括 199972 名球员和 1.12 亿条数据的预测模型,并在此基础上进行结果预测。在大多数人预测巴西将夺冠的情况下,仍然坚持德国将胜出。结果巴西意外爆冷,奖杯被德国拿走。
根据以上分析来看,今年无论是机器学习还是大数据的方法,或多或少都借鉴了以往所使用过的方法,2014 年世界杯预测的结果大家也有目共睹。所以说,世界杯冠军到底将花落谁家将受到很多因素的影响,比如天气、球员状态、场地情况、任何意外事故,等等,如果真能料事如神,赌球的网站早就关门大吉了。而这也是世界杯的魅力和球迷为之疯狂的原因所在,不到最后一刻,谁也不知道会不会发生惊天逆转。
安静吃瓜看球的诸位球友们,你最看好哪支队伍夺冠呢？
参考链接：
https://www.kdnuggets.com/2018/06/football-world-cup-predictions.html
https://medium.com/@itsmuriuki/predicting-fifa-world-cup-2018-using-machine-learning-dc07ad8dd576
本文为专栏文章,来自：AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/55815.html 。

数据分析

2018-06-14 08:10:00

傅志华：保护用户隐私，人工智能才能更好的发展 | 数据分析网首页分类阅读行业资讯 �

亚马逊的Alexa在国外是非常热门的智能音箱 ,只需你说出它的唤醒词,比如“Alexa”、“Echo”或“Computer”,它就能对你的声音指令作出响应,比如帮你播放音乐、开灯、关灯等等。但现在这一特性也让人们开始担心自己的隐私。据西雅图当地媒体报道,亚马逊旗下智能音箱产品Echo可能会秘密记录你的谈话内容,某些情况下,还可能将其发送给其他人。上周,这种事情就发生在位于美国俄勒冈州波特兰市的一个家庭中,放置在室内的Echo记录了用户在家中的谈话,并将此对话发送到了该用户电话联系人列表中的某随机联系人。事发后,该名女子联系了亚马逊,亚马逊回应称该公司“非常重视隐私”,并表示该情况“极其罕见”。在一份声明中,亚马逊把该事件原因归结为其智能语音助手Alexa误判了用户的指令,以为该用户是想发送一段语音给某联系人。
而在今年4月份, 来自安全公司Checkmarx的研究人员发现了一种方法,可以让Alexa窃听、记录并发送用户的谈话记录。 Checkmarx说他们在4月初通知了亚马逊这个漏洞,亚马逊向CNET的记者证实,目前已经解决了这个问题。在亚马逊的智能音箱Echo产品介绍页面上可以看到这些信息：总是会变得越来越聪明；使用Echo越多,Echo越会适应你的声音模式、词汇以及个人喜好。亚马逊提交的相关专利描述中近一步还提到,未来智能语音设备可识别相关兴趣语句,并针对喜好进行精准广告推送。
国内的智能硬件也越来越普及,尤其是智能家居相关的产品,包括智能音箱、智能摄像机、智能电视、智能空调等等, 尤其是最为敏感的智能音箱和智能摄像机,相当于家里装了智能“耳朵”和“眼睛”,如果使用不当,个人隐私会有泄漏的风险。谷歌提交过相关的专利描述：未来智能家居系统能够监视家庭的一切活动场景,并通过设备获取多种信息,无论是家庭成员对电视节目的喜好,还是他们的卫生习惯,都可以通过这项相关新技术获取。物联网技术和人工智能技术在给用户带来极大的方便的同时,因其持续的收集相关的个体行为数据,也会给用户的隐私带来潜在的风险。
在物联网技术和人工智能时代,如何有效的保障数据安全和个人隐私尤为重要。个人认为,数据收集和使用方,应该做好大数据全生命周期安全与隐私保护等相关举措：
（1）数据采集与传输安全。大数据在采集的过程中需要从源头保证数据采集的安全。数据采集时对数据的安全性进行分级处理以实施不同等级的保护,同时敏感数据要进行加密处理。数据加密技术是最基本的安全技术,是信息安全的核心。它通过变换和置换等各种方法会被保护信息置换成密文（如用哈希函数加密）,然后再进行信息的存储或传输,即使加密信息在存储或者传输过程为非授权人员所获得,也可以保证这些信息不为其认知,从而达到保护信息的目的。数据传输的完整性通常通过数字签名的方式来实现。传输安全指在数据的生成、传输和访问过程中,确保数据的完整性、准确性及排他性。
（2）数据存储安全。数据存储安全指在数据保存上确保完整、可靠、保密、有效调用,通常包括三层含义：一是存储设备自身的高靠性和高可用性,高靠性指设备故障时,在降级状态下依然能够完成数据存储工作；高可用性是指设备故障时,系统可便利恢复容错能力,走出降级状态。二是保存在存储设备上数据的逻辑安全。三是静态和动态数据加密,对大数据中需要保密的敏感数据,静态数据一般是先加密再存储,动态数据加密常见的一种方法是同态加密。
（3）数据挖掘安全。大数据挖掘是从海量数据中提取和挖掘知识,机器学习是大数据挖掘的一种常见应用。大数据挖掘安全也需要做好隐私保护。目前数据挖掘中的隐私保护方法按照策略分为三种,包括数据扰乱法、查询限制法和混合策略法。基于隐私保护的数据挖掘主要集中关联规则挖掘、隐私保护分类挖掘和聚类挖掘、隐私保护的序列模式挖掘等方面。另外,大数据挖掘安全技术方面还需要加强第三方挖掘机构等身份认证和访问管理,以确保第三方在进行数据挖掘等过程中不植入恶意成熟,不窃取系统数据,确保大数据安全。
（4）数据发布与应用安全。
数据分布与应用安全关键技术包括用户管控安全技术和数据溯源安全防护技术。
第一方面,用户管控安全技术：在数据应用过程中需要对数据用户进行管理和控制,对他们进行身份认证和访问控制,并对他们的安全行为进行审计。在身份认证方面,随着身份认证技术的发展,融合动态口令认证和生物识别技术的强用户认证、基于Web应用的单点登录技术得到广泛应用。大数据用户管控采取的访问控制主要根据访问策略或权限限制用户对资源的访问,通常采用自主访问控制、强制访问控制和基于角色访问控制的组合策略。大数据用户管控的安全审计主要是记录用户一切与系统安全有关的安全活动,通过审查分析发现安全隐患。
第二方面,数据溯源即对数据应用生命周期的各个环节的操作进行标记和定位,在发生数据安全问题是可以准确的定位问题的环节和责任,以便对数据安全问题制定更好的安全策略和安全机制。数据溯源需要在多个分布式系统之间进行数据追踪,通常采用数字水印技术。
（5）隐私数据安全。
隐私数据包括个人身份信息、人口特征、财产状况、通信内容、社交信息、位置信息等,隐私保护的研究主要集中在如何设计隐私保护原则和算法,既保证数据应用过程中不泄漏隐私,同时又能更好的利用数据的应用。数据匿名化技术是隐私保护技术中的关键技术。包括k-匿名、l-diversity匿名、t-closeness匿名、个性化匿名、m-invariance匿名、基于“角色构成”的匿名和Differential Privacy差分用户隐私等方法,由于篇幅所需,在此重点介绍Differential Privacy差分用户隐私。
苹果在2016 年6 月份的WWDC 大会上就提出了一项名为Differential Privacy 的差分隐私技术。苹果公司软件工程高级副总裁克雷格·费德里吉在WWDC的主题演讲上称,“为了让软件更加智能,我们必须找出不同用户的相同设备使用风格。作为统计学和数据分析领域的研究主题,差分隐私利用了哈希、二次抽样和噪声注入等方式,使在完全匿名的前提下解析个人信息一事成为了可能。 ”苹果公司的差分隐私技术值得借鉴,因此,我们重点展开,具体包括：
第一、局部抽样。相对于完整的上传所用用户的资料,苹果公司通过抽样技术采集一部分用户的数据,而不是全部。其假设是某一群用户的行为相对稳定,预期性更强,与其分析每个用户,不如分析典型群体来做行为预测。
第二、哈希加密。如对用户的某些敏感数据,可以先用哈希函数加密。
第三、注入噪音。在采集用户对数据前,向其随机注入一些噪音,如注入符合拉普拉斯分布的数据,那么在对总体数据进行分析时,这些噪音并不影响结果。
现今,法律也对用户隐私的保护极为重视。 2018年5月25日,《通用数据保护规范》GDPR将正式生效。所有收集欧盟（EU）国家公民数据的企业,将必须在明年正式执行有关用户数据保护的严格新规—《通用数据保护规范》（GDPR）。GDPR的目标是保护欧盟公民免受隐私和数据泄露的影响,同时重塑欧盟的组织机构处理隐私和数据保护的方式。根据普华永道的调查数据显示,68%的美国公司预计将花费100万到1000万美元的投入来满足GDPR的合规性要求；另有9%的企业预计将花费超过1000万美元。如果企业没有满足GDPR的合规性要求将导致什么后果？每一单GDPR违规行为将受到高达2000万欧元的严重处罚,或者上一年全球年营业额的4％,以较高者为准。Facebook今年大规模数据泄露事件,就是未经用户允许擅自将收集的到大量用户个人数据提供给了剑桥分析数据公司,Facebook因此事件也受到了法律的制裁。
为了应对GDPR,将欧洲作为重要市场的华为,为了确保有效的落实隐私保护各项要求,华为将通过成立已久的“全球网络安全与用户隐私保护委员会”的保护官,直接向CEO汇报。华为所有业务单元均设置有专职的隐私相关的角色和（或）组织。同时根据GDPR的要求,华为还任命了欧盟数据保护官。
最后,个人建议数据采集和使用企业,一定认真的研究数据安全和保护用户隐私,这样,大数据和人工智能才能更良性的发展。
参考文献：
（1）NIST Big Data Public Working Group. Big Data Security and pirvacy [R]. Gaithersburg: NIST, 2015:5
（2）吕欣,韩晓露,大数据安全和隐私保护技术架构研究,信息安全研究,2016年3月
（3）关于《通用数据保护规范》GDRP详见https://www.eugdpr.org
本文为专栏文章,来自：傅志华,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/55136.html 。

数据分析

2018-06-03 22:53:00

从机器学习先驱到最坚定的AI反对派：一个大师的复杂内心戏 | 数据分析网首页分类阅读

大数据文摘作品编译：张南星、傅一洋、郑璇真
Judea Pearl帮助 AI 在概率计算上取得了巨大进步,但是仍然叹息道：AI在因果关系计算上无能为力。
AI得以发展到今天的聪明才智,离不开Judea Pearl的功劳。20世纪80年代,他带领一批人实现了机器的概率推导。
而现在,他却成为了AI领域最坚定的反对派之一。在他最新的一本书《疑问之书：因果关系的新科学》（ T he Book of Why: The New Science of Cause and Effect ）中,他指出AI进步最大的一个掣肘在于,对“智能”到底意味着什么的基本性认识不足。
三十年前,AI研究最大的挑战在于,如何通过编程让机器学会将潜在的原因与所观察到的现状进行联系。Pearl通过一个叫做贝叶斯网络的方法解决了这个问题。
贝叶斯网络让机器能够将现象与可能的原因联系起来：比如有一个病人刚从非洲回来,有发热和头痛的症状,那么最可能的解释就是他感染了疟疾。Pearl也因为这项成就获得了2011年的图灵奖——计算机科学界的最高荣誉。
但正如Pearl所看到的那样,AI领域陷入了概率关联的泥沼。如今,社会被各种吹捧机器学习和神经网络最新研究突破的文章所淹没。我们总是能读到诸如机器掌握了传统游戏的玩法、学会了驾驶汽车之类的文章。Pearl对此无动于衷,在他看来,如今的AI只不过是上一代机器的加强版：从一大堆数据中找到隐藏的规律。
“所谓深度学习所取得的重大成就,加起来不过就是曲线拟合,”他说道。
81岁的Pearl在他的新书中详细阐述了真正拥有智能的机器的思考方式。他认为机器真正拥有智能的关键在于能够使用因果推论,而非通过相关关系推论。
例如,仅仅做到将“发热”和“疟疾”联系起来是不够的,机器还要能推导出“疟疾会导致发热”。一旦这种因果的框架建立起来,机器就有可能提出一些反事实问题——如果施加某种干预,那么因果关系将会发生什么变化——Pearl视之为科学思考的里程碑。
同时,Pearl还提出了一套实现这种思考方式的形式语言——21世纪版本的贝叶斯框架,让机器能够概率性的思考。
Pearl期望因果推理能够赋予机器人类级别的智能。他解释说,在这种级别的智能下机器能够与人类更有效地沟通,甚至进行道德层面的交流,因为它们已经具备了自由意志——当然,也会有罪恶念头。
Quanta 杂志社最近在圣地亚哥的一个会议上与Pearl取得了联系,并在会议后对他进行了电话采访。以下是删选过的采访内容：
Kevin Hartnett ：为什么给新书起名叫作《疑问之书》？
Judea Pearl ：这本书涵盖了我过去25年所做的关于因果关系的工作,即因果关系在一个人的生命中意味着什么,因果关系的应用,以及我们会如何根据固有的因果关系来答问。奇怪的是,这些问题都被科学界抛弃了,我在此就是想弥补科学界对于因果关系的忽视。
H：科学界舍弃了因果关系这种说法还挺让人惊讶的。这不正是科学的全部吗？
P：当然,但是你没法通过科学方程式实现这个愿望。代数语言是具有相称性的：如果x能推导出y,那么y就能推导出x。我是在说必然关系。但是我们没法使用数学语言描述一些简单的事实——比如,即将到来的暴风雨会让气压表的读数下降,而不是上升。
数学中不存在描述不对等关系的语言,诸如如果x导致了y,并不意味着y一定会导致x。我知道反对科学听起来非常可怕,如果我对我妈这样说,她可能会奖励我一巴掌。
但是科学是非常宽容的：当注意到我们缺少描述不对称关系的演算之后,科学会鼓励我们去创造一个。这时数学就发挥了很大的作用。当我意识到一个很简单的因果关系演算就能解决问题时,我整个人都惊呆了,当今最厉害的统计学家都会认为这个方法非常糟糕或者根本无法解决问题。但其实,所有这些我们能很轻松的在高中几何学中找到证明。
H：几十年前,您曾通过指导机器进行概率推导而在AI领域取得了盛名。能解释一下当时AI界发生了什么吗？
P：在20世纪80年代早期出现的问题是人们对于预测和分析诊断本质的思考。当医生观察一个病人的一系列症状时,他会得出这个病人罹患疟疾或者其他疾病的概率。我们希望自动化系统、专家系统能够代替专家——不论是医生、是矿物探寻者、还是别的什么需要付钱聘请的专家。在那个时候,我就想着能不能用概率的方式解决这个问题。
不幸的是,标准的概率计算模型需要巨量的空间和时间。我想出了一个叫做贝叶斯网络的算法,只需要多项式时间,并且过程非常透明。
H：另外,在您的新书中,您称自己为当今AI界的叛徒。这是什么意思呢？
P：事实上,在创造出了帮助机器对不确定性进行推导的工具之后,我给这个领域引入了一个更具挑战性的任务：对因果关系进行推导。许多AI界同事还在执着于不确定性研究,许多研究还在以分析诊断为核心,无需考虑问题的因果关系。他们想做的就是得到好的预测结果和分析诊断结果。
我可以举一个例子。现在所有我们看到的机器学习的研究都是以诊断模式执行的——即,给事物打上“猫”或“老虎”的标签。他们不在乎“例外情况”,他们想要的只是识别物体,以及预测时间序列下物体的变化。
当我创造出预测和诊断分析强有力的工具的时候,我就觉得自己像个叛徒,因为我知道这只是人类智能的冰山一角。如果我们想要机器能够对某些干预下的“例外情况”进行推导（例如,如果我们禁烟会怎么样？）,或者进行反省性思考（例如,我高中毕业后会做什么？）时,我们必须使用随机模型。相关关系是远远不够的——这是因为数学本身的客观缺陷导致的,而不是个人主观想法。
H：人们都对AI未来可以做到的事情充满了希望,而你不是？
P：当我看到越来越多深度学习的研究之后,我觉得他们都在相关关系的层级上停止前进了,譬如曲线拟合。虽然这听起来有点残酷,但所有令人印象深刻的深度学习研究成就加起来,实质上不过就是把曲线拟合到数据上。从数学层级的角度来看,无论在处理数据、分析数据时多么熟练,都不过只是一个曲线拟合练习,尽管这个过程复杂且繁琐。
H：你谈论曲线拟合的方式,让人觉得机器学习的成就并没有怎么打动你。
P：不,我印象很深,因为我们原本并没有期望能够通过简单的曲线拟合能够解决很多问题,但事实上它做到了。我抱有怀疑的是关于未来的发展——接下来我们能期待什么？我们是否能创造出一个机器人科学家,做出试验计划,找到未解决科学问题的新答案？这是我们接下来要做的事情。
我们同样希望能够与机器进行有意义的沟通,而有意义则意味着符合我们的直觉。如果你没法让机器人具备因果关系的直觉力,那么就无法与之进行有意义的沟通。机器人不会说出：“我原本可以做的更好”这样的话,而这是你我天生就能做的。这样,我们就失去了沟通的一个重要渠道。
H：那么对于机器掌握了因果关系直觉力的未来,我们可以期待什么？
P：我们需要给机器部署环境模型。如果机器没有现实模型,那么我们就无法期待机器在现实中表现得很智能。首先第一步,也许是10年之内会发生的事情,就是人类给机器部署现实概念模型。
下一步,机器将基于这些模型,自行基于历史经验验证或定义新的模型。这也就是科学界的工作方式,例如,我们从由圆形及本轮组成的地心说模型开始,最后以椭圆轨道的日心说结束。
同样,机器人也能彼此交流,并能把这个假想的、野蛮的世界,转为隐喻式的模型。
H：当你和正在AI领域工作的人说起这些想法的时候,他们是什么反应？
P：AI界如今各分天下。如果给那些沉醉于机器学习、深度学习以及神经网络成就的人说我这些想法的话,他们并不会理解我。他们只想继续曲线拟合。但如果和那些在AI界中非统计学习领域工作的人讲,他们很快就会领会我的意思。过去这两个月,我已经读到了几篇关于机器学习局限性的论文。
H：你的意思是不是说,在机器学习之外有一些别的趋势呢？
P：不是趋势,而是一个严肃的意志探索之旅,我们需要不断地自我拷问：我们要去哪？下一步要做什么？
H：这正好是我最想问你的。
P：我很高兴你没问我关于自由意志的问题。
H：那么,你是怎样看待自由意志的？
P：我们未来一定会创造拥有自由意志的机器人,这点毫无疑问。我们需要思考的是怎么实现这一点,以及我们希望从中获得什么。由于某些原因,进化让自由意志之感知在计算机层面变得可实现。
H：怎么说？
P：进化让我们具备了自由意志的感知。显而易见,进化遵从于一些计算函数。
H：如果机器人拥有了自由意志,会有很明显的特征和信号吗？
P：我认为第一个特征就在于,机器人开始出现一些反事实的交流,譬如说：“你本应该做的更好”。如果一队正在踢足球的机器人开始以这样风格的语言进行交流了,那么我们就知道它们某种程度上拥有了自由意志。“你应该把那个球传给我的——我在等你,但是你没这样做！”“你本应该……”意味着你本可以做到一些冲动和欲望之下你想做的事情,但是你没能做到。所以第一个信号会是交流形式的变化,第二个会是行动上的改进。
H：现在你已经谈了很多关于自由意志的内容,也许是时候问一下你关于罪行的问题了。罪行往往建立在有能力做选择的基础之上。什么是罪恶？
P：罪恶就是当你的贪婪或者不满超过了所有常规社会标准时,你内心存在的意念。譬如说,一个人内心有类似于软件模块的定义说：“你饿了,因此你被准许采取一些行动来满足你的贪婪或不满。”但同时,有别的模块规定你需要遵守社会规章制度,其中一个叫做同理心。当你把你的不满提升到这些通常意义上的社会规章制度之上时,罪恶便随之产生。
H：所以我们如何得知AI具备了犯罪能力？
P：一个征兆就是机器人持续地忽略部分软件组件,或者当机器人开始遵从一些组件的指令而忽略掉别的组件,尤其是当它们忽略了那些让它们遵守基本行为准则的组件,而这些组件或者已经被部署在它们内部,或者本来是希望它们基于历史学习进行获取的。而机器人却不再遵从。
相关报道：
https://www.theatlantic.com/amp/article/560675/from=singlemessage&isappinstalled=0
本文为专栏文章,来自：大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/54984.html 。

数据分析

2018-06-02 14:56:00

机器学习算法的优点和缺点 | 数据分析网首页分类阅读行业资讯大数据统计学数据分�

从Logistic回归开始,然后尝试Tree Ensembles和/或Neural Networks。
奥卡姆的剃刀原理：使用最简单的算法,可以满足您的需求,并且只有在严格需要的情况下才用更复杂的算法。
根据我自己的经验,只有神经网络和梯度增强决策树（GBDT）正在工业中广泛使用。我目睹Logistic回归和随机森林被弃用不止一次（这意味着它们是好的开始）。从来没有人听说有人在公司中讨论SVM。
优点和缺点
这里讨论最流行的算法。有关机器学习算法的完整列表,请查看 cheatsheet 。
朴素贝叶斯超级简单,只是做了一堆计数。如果NB条件独立假设实际成立,那么朴素贝叶斯分类器将比逻辑回归等区分性模型更快地收敛,因此您需要更少的训练数据。即使NB假设不成立,NB分类器在实践中仍经常表现出色。如果你想做某种半监督式的学习,或者想要一些令人尴尬的简单表现很好的话,这是一个很好的选择。没有分布要求, 适合少数类别变量计算独立分布的乘积受到多重共线性
Logistic回归
逻辑回归仍然是使用最广泛的, 了解更多一个相当好的分类算法,只要你期望你的特征大致是线性的,并且问题是线性可分的,就可以进行训练。可以做一些特征工程,将大多数非线性特征很容易地转化为线性特征。它对噪声也很稳健,并且可以避免过度拟合,甚至可以使用l2或l1正则化来进行特征选择。逻辑回归也可以用于大数据场景,因为它非常高效并且可以使用例如ADMM（请参阅logreg）进行并发。输出可以被解释为一个概率：您可以将其用于排名而不是分类。运行一个简单的l2正则化LR来提出一个基线无分布要求用少数类别分类变量表现良好计算logistic分布适合少数类别变量容易解释计算CI 遭受多重共线性很多方法来调整你的模型不需要担心相关的特征,就像朴素贝叶斯一样。轻松更新模型以接收新数据（使用在线梯度下降法）如果您需要一个概率框架（例如,轻松调整分类阈值,说出何时不确定,或获得置信区间）还是希望在将来能够接收更多的训练数据迅速融入您的模型。
Lasso 没有分布要求计算L1损失具有变量选择特点遭受多重共线性
Ridge 没有分布要求计算L2损失不具有变量选择不受多重共线性
何时不用如果变量是正态分布的且分类变量都有5个以上类别：使用线性判别分析如果相关性大部分是非线性的：使用SVM 如果稀疏性和多重共线性是一个问题：具有Ridge（权重）的自适应Lasso + Lasso
线性判别分析
LDA：线性判别分析,不是潜在的Dirichlet分布需要正态分布不适合少数类别变量计算叠加的多元分布计算CI 遭受多重共线性
支持向量机
SVM vs LR：支持向量机（SVM）使用与LR不同的损失函数（Hinge）。他们也有不同的解释（最大边缘间隔）。然而,实际上,具有线性内核的SVM与Logistic回归没有太大区别（如果您好奇,可以看看Andrew Ng如何从他的Coursera机器学习课程中的Logistic回归中推导SVM）。您希望使用SVM而不是Logistic回归的主要原因是您的问题可能不是线性可分的。在这种情况下,您将不得不使用具有非线性内核的SVM（例如RBF）。事实是,逻辑回归也可以用于不同的内核,但在这一点上,出于实际原因,您可能更适合使用SVM。使用SVM的另一个相关原因是如果您处于高维空间。例如,据报道支持向量机可以更好地用于文本分类。高准确度,在考虑过拟合时有很好地理论保证。使用合适的内核,即使数据在基本特征空间中不能线性分离,它们也可以很好地工作。在非常高维空间是常态的文本分类问题中尤其受欢迎。没有分布要求计算铰链损失灵活选择非线性相关的核不受多重共线性很难解释
缺点：训练可能会很痛苦。不推荐有很多实例的任何问题。不推荐大多数“工业规模”应用的SVM。除了玩具/实验室问题之外的任何事情可能会更好地用不同的算法来处理。尽管如此,内存密集型和烦人的运行和调优,所以我认为随机森林正在开始抢夺冠军。
决策树易于解释非参数化的,所以你不必担心异常值或者数据是否可线性分离他们的主要缺点是他们很容易过拟合,但这就是像随机森林（或提升树）这样的集成方法进来的地方。另外,随机森林往往是分类问题的赢家（通常在SVM上略微领先一些,我相信）,它们快速且可扩展,并且您不必担心像SVM那样要调整一堆参数,所以他们现在似乎很受欢迎。没有分布要求启发式适合少数类别变量不受多重共线性（通过选择其中之一） Bagging, boosting, 集成方法通常优于单一算法。
树集成：随机森林和梯度提升树。
Tree Ensembles vs LR。他们并不期望线性特征,甚至线性相互作用的特征。 LR中没有提到的一点是,它很难处理分类（二元）特征。 Tree Ensembles,因为它们不过是一堆决策树的组合,可以很好地处理这个问题。另一个主要优点是,由于它们使用装袋或提升构成的,这些算法可以非常好地处理高维空间以及大量的训练实例。两者都是快速和可扩展的,随机森林往往会在准确性方面击败逻辑回归,但逻辑回归可以在线更新并为您提供有用的概率。
随机森林
随机森林使用数据的随机样本独立训练每棵树。这种随机性有助于使模型比单个决策树更稳健,并且不太过拟合训练数据。 RF中通常有两个参数 – 树数量和被选择的每个结点的特征数目（列抽样）。 RF适用于并行或分布式计算。几乎总是比决策树具有更低的分类错误和更好的f分数。几乎总是表现出与SVM相同或更好的效果,但对于人类来说更容易理解。非常适合具有缺失变量的不均匀数据集。给你一个关于你的数据集中的哪些特征是最重要的免费的好主意。通常训练速度比支持向量机要快（尽管这显然取决于你的实现）。
梯度提升决策树
GBDT一次构建一棵树,每棵新树有助于纠正先前训练过的树造成的错误。每添加一棵树,该模型就会变得更具表现力。通常有三个参数 – 树的数量,树的深度和学习速率,每棵树的建立一般都很浅。容易过拟合 GBDT通常表现比RF好,但它们很难达到正确。更具体地说,GBDT具有更多的超参数要调整,并且更容易出现过拟合。 RF几乎可以“开箱即用”,这也是他们非常受欢迎的原因之一。 GBDT训练通常需要更长的时间,因为树是按顺序构建的。
神经网络
优点很好地拟合具有大量输入特征的非线性数据广泛应用于工业许多开源实现
缺点神经网络仅适用于数值输入,具有常数值的向量和具有非缺失数据的数据集。分类边界难以直观地理解,并且ANN在计算上昂贵。黑盒子,使他们很难与之合作,就像试图通过审查人类潜意识来解释我们的意识行为背后的原因。难以训练：训练结果可能是非确定性的,并且主要取决于初始参数的选择当他们不像您期望的那样工作时,他们很难排除故障,当他们工作时,您将永远不会确信自己会很好地归纳未包含在您的训练集中的数据,因为从根本上说,您不了解你的网络如何解决问题多层神经网络通常很难训练,并且需要调整大量参数神经网络不是概率性的,不像其他统计学或贝叶斯统计学。一个神经网络可能会给你一个连续的数字作为它的输出（例如一个分数）,但是把它转换成一个概率往往是困难的。具有更强大理论基础的方法通常会直接为您提供这些概率。
深度学习不是通用的分类技术。擅长图像分类,视频,音频,文字。
概要
考虑的因素训练例子的数量,（你的训练集有多大？）如果训练集很小,高偏差/低方差分类器（例如朴素贝叶斯）比低偏差/高方差分类器（例如,kNN或逻辑回归）具有优势,因为后者会过度拟合。但是随着训练集的增长（它们具有较低的渐近误差）,低偏差/高方差分类器开始赢得胜利,因为高偏差分类器的功能不足以提供准确的模型。您也可以将其视为生成模型与判别模型的区别。特征空间的维度我希望问题是线性可分的吗？特征是否独立？期望的特征将与目标变量呈线性关系吗？过度拟合是否会成为问题？在速度/性能/内存使用方面,系统的要求是什么……？它需要变量满足正态分布吗？它是否遭受多重共线性问题？用分类变量做作为连续变量是否表现好？它是否计算没有CV的CI？它是否可以不要stepwise而进行变量选择？它适用于稀疏数据吗？
从Logistic回归等简单的事情开始,设置一个基线,并且只在需要时才会使其更加复杂。此时,树集成,特别是随机森林,因为它们很容易调整,可能是正确的路。如果你觉得还有改进的空间,试试GBDT或者更有兴趣去尝试深度学习。原文链接：https://www.hackingnote.com/en/machine-learning/algorithms-pros-and-cons/
编译：数据人网
链接：http://shujuren.org/article/591.html
本文为专栏文章,来自：数据人网,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/54870.html 。

数据分析

2018-06-01 23:37:00

国内外 AI 芯片发展现状看这一篇就够了 | 数据分析网首页分类阅读行业资讯大数据统�

国产人工智能芯片的发展,一如早年间国产通用处理器和操作系统的发展,过份地追求完全独立、自主可控的怪圈,势必会如众多国产芯片一样逐渐退出历史舞台。
国外：技术寡头,优势明显
由于具有得天独厚的技术和应用优势,英伟达和谷歌几乎占据了人工智能处理领域80%的市场份额,而且在谷歌宣布其Cloud TPU开放服务和英伟达推出自动驾驶处理器Xavier之后,这一份额占比在2018年有望进一步扩大。其他厂商,如英特尔、特斯拉、ARM、IBM以及Cadence等,也在人工智能处理器领域占有一席之地。
当然,上述这些公司的专注领域却不尽相同。比如英伟达主要专注于GPU和无人驾驶领域,而谷歌则主要针对云端市场,英特尔则主要面向计算机视觉,Cadence则以提供加速神经网络计算相关IP为主。如果说前述这些公司还主要偏向处理器设计等硬件领域,那么ARM公司则主要偏向软件,致力于针对机器学习和人工智能提供高效算法库。
注：上述表格中所给为截止到2017年各研制单位公开可查的最新数据。
独占鳌头——英伟达
在人工智能领域,英伟达可以说是目前涉及面最广、市场份额最大的公司,旗下产品线遍布自动驾驶汽车、高性能计算、机器人、医疗保健、云计算、游戏视频等众多领域。其针对自动驾驶汽车领域的全新人工智能超级计算机Xavier,用NVIDIA首席执行官黄仁勋的话来说就是“这是我所知道的 SoC 领域非常了不起的尝试,我们长期以来一直致力于开发芯片。”
Xavier 是一款完整的片上系统 (SoC),集成了被称为 Volta 的全新 GPU 架构、定制 8 核 CPU 架构以及新的计算机视觉加速器。该处理器提供 20 TOPS（万亿次运算/秒）的高性能,而功耗仅为 20 瓦。单个 Xavier 人工智能处理器包含 70 亿个晶体管,采用最前沿的 16nm FinFET 加工技术进行制造,能够取代目前配置了两个移动 SoC 和两个独立 GPU 的 DRIVE PX 2,而功耗仅仅是它的一小部分。
而在2018年拉斯维加斯CES展会上,NVIDIA又推出了三款基于Xavier的人工智能处理器,包括一款专注于将增强现实（AR）技术应用于汽车的产品、一款进一步简化车内人工智能助手构建和部署的DRIVE IX和一款对其现有自主出租车大脑——Pegasus的修改,进一步扩大自己的优势。
产学研的集大成者——谷歌
如果你只是知道谷歌的AlphaGo、无人驾驶和TPU等这些人工智能相关的产品,那么你还应该知道这些产品背后的技术大牛们：谷歌传奇芯片工程师Jeff Dean、谷歌云计算团队首席科学家、斯坦福大学 AI 实验室主管李飞飞、Alphabet董事长John Hennessy和谷歌杰出工程师David Patterson。
时至今日,摩尔定律遇到了技术和经济上的双重瓶颈,处理器性能的增长速度越来越慢,然而社会对于计算能力的需求增速却并未减缓,甚至在移动应用、大数据、人工智能等新的应用兴起后,对于计算能力、计算功耗和计算成本等提出了新的要求。
与完全依赖于通用CPU及其编程模型的传统软件编写模式不同,异构计算的整个系统包含了多种基于特定领域架构（Domain-Specific Architecture, DSA）设计的处理单元,每一个DSA处理单元都有负责的独特领域并针对该领域做优化,当计算机系统遇到相关计算时便由相应的DSA处理器去负责。而谷歌就是异构计算的践行者,TPU就是异构计算在人工智能应用的一个很好例子。
2017年发布的第二代TPU芯片,不仅加深了人工智能在学习和推理方面的能力,而且谷歌是认真地要将它推向市场。根据谷歌的内部测试,第二代芯片针对机器学习的训练速度能比现在市场上的图形芯片（GPU）节省一半时间；第二代TPU包括了四个芯片,每秒可处理180万亿次浮点运算；如果将64个TPU组合到一起,升级为所谓的TPU Pods,则可提供大约11500万亿次浮点运算能力。
计算机视觉领域的搅局者——英特尔
英特尔作为世界上最大的计算机芯片制造商,近年来一直在寻求计算机以外的市场,其中人工智能芯片争夺成为英特尔的核心战略之一。为了加强在人工智能芯片领域的实力,不仅以167亿美元收购FPGA生产商Altera公司,还以153亿美元收购自动驾驶技术公司Mobileye,以及机器视觉公司Movidius和为自动驾驶汽车芯片提供安全工具的公司Yogitech,背后凸显这家在PC时代处于核心位置的巨头面向未来的积极转型。
Myriad X就是英特尔子公司Movidius在2017年推出的视觉处理器(VPU,vision processing unit),这是一款低功耗的系统芯片(SoC),用于在基于视觉的设备上加速深度学习和人工智能——如无人机、智能相机和VR / AR头盔。Myriad X是全球第一个配备专用神经网络计算引擎的片上系统芯片（SoC）,用于加速设备端的深度学习推理计算。该神经网络计算引擎是芯片上集成的硬件模块,专为高速、低功耗且不牺牲精确度地运行基于深度学习的神经网络而设计,让设备能够实时地看到、理解和响应周围环境。引入该神经计算引擎之后,Myriad X架构能够为基于深度学习的神经网络推理提供1TOPS的计算性能。
执“能效比”之牛耳——学术界
除了工业界和厂商在人工智能领域不断推出新产品之外,学术界也在持续推进人工智能芯片新技术的发展。
比利时鲁汶大学的Bert Moons等在2017年顶级会议IEEE ISSCC上面提出了能效比高达10.0TOPs/W的针对卷积神经网络加速的芯片ENVISION,该芯片采用28nm FD-SOI技术。该芯片包括一个16位的RISC处理器核,1D-SIMD处理单元进行ReLU和Pooling操作,2D-SIMD MAC阵列处理卷积层和全连接层的操作,还有128KB的片上存储器。
韩国科学技术院KAIST的Dongjoo Shin等人在ISSCC2017上提出了一个针对CNN和RNN结构可配置的加速器单元DNPU,除了包含一个RISC核之外,还包括了一个针对卷积层操作的计算阵列CP和一个针对全连接层RNN-LSTM操作的计算阵列FRP,相比于鲁汶大学的Envision,DNPU支持CNN和RNN结构,能效比高达8.1TOPS/W。该芯片采用了65nm CMOS工艺。
相比较于鲁汶大学和韩国科学技术院都针对神经网络推理部分的计算操作来说,普渡大学的Venkataramani S等人在计算机体系结构顶级会议ISCA2017上提出了针对大规模神经网络训练的人工智能处理器SCALLDEEP。
该论文针对深度神经网络的训练部分进行针对性优化,提出了一个可扩展服务器架构,且深入分析了深度神经网络中卷积层,采样层,全连接层等在计算密集度和访存密集度方面的不同,设计了两种处理器core架构,计算密集型的任务放在了comHeavy核中,包含大量的2D乘法器和累加器部件,而对于访存密集型任务则放在了memHeavy核中,包含大量SPM存储器和tracker同步单元,既可以作为存储单元使用,又可以进行计算操作,包括ReLU,tanh等。
而一个SCALEDEEP Chip则可以有不同配置下的两类处理器核组成,然后再组成计算簇。论文中所用的处理平台包括7032个处理器tile。
论文作者针对深度神经网络设计了编译器,完成网络映射和代码生成,同时设计了设计空间探索的模拟器平台,可以进行性能和功耗的评估,性能则得益于时钟精确级的模拟器,功耗评估则从DC中提取模块的网表级的参数模型。该芯片仅采用了Intel 14nm工艺进行了综合和性能评估,峰值能效比高达485.7GOPS/W。
国内：百家争鸣,各自为政
可以说,国内各个单位在人工智能处理器领域的发展和应用与国外相比依然存在很大的差距。由于我国特殊的环境和市场,国内人工智能处理器的发展呈现出百花齐放、百家争鸣的态势,这些单位的应用领域遍布股票交易、金融、商品推荐、安防、早教机器人以及无人驾驶等众多领域,催生了大量的人工智能芯片创业公司,如地平线、深鉴科技、中科寒武纪等。尽管如此,国内起步较早的中科寒武纪却并未如国外大厂一样形成市场规模,与其他厂商一样,存在着各自为政的散裂发展现状。
除了新兴创业公司,国内研究机构如北京大学、清华大学、中国科学院等在人工智能处理器领域都有深入研究；而其他公司如百度和比特大陆等,2017年也有一些成果发布。
注：上述表格中所给为截止到2017年各研制单位公开可查的最新数据。
全球AI芯片界首个独角兽——寒武纪
2017年8月,国内AI芯片初创公司寒武纪宣布已经完成1亿美元A轮融资,战略投资方可谓阵容豪华,阿里巴巴、联想、科大讯飞等企业均参与投资。而其公司也成为全球AI芯片界首个独角兽,受到国内外市场广泛关注。
寒武纪科技主要负责研发生产AI芯片,公司最主要的产品为2016年发布的寒武纪1A处理器(Cambricon-1A),是一款可以深度学习的神经网络专用处理器,面向智能手机、无人机、安防监控、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。目前已经研发出1A、1H等多种型号。与此同时,寒武纪也推出了面向开发者的寒武纪人工智能软件平台 Cambricon NeuWare,包含开发、调试和调优三大部分。
软硬件协同发展的典范——深鉴科技
深鉴科技的联合创始人韩松在不同场合曾多次提及软硬件协同设计对人工智能处理器的重要性,而其在FPGA领域顶级会议FPGA2017最佳论文ESE硬件架构就是最好的证明。该项工作聚焦于使用 LSTM 进行语音识别的场景,结合深度压缩（Deep Compression）、专用编译器以及 ESE 专用处理器架构,在中端的 FPGA 上即可取得比 Pascal Titan X GPU 高 3 倍的性能,并将功耗降低 3.5 倍。
在2017年10月的时候,深鉴科技推出了六款AI产品,分别是人脸检测识别模组、人脸分析解决方案、视频结构化解决方案、ARISTOTLE架构平台,深度学习SDK DNNDK、双目深度视觉套件。而在人工智能芯片方面,公布了最新的芯片计划,由深鉴科技自主研发的芯片“听涛”、“观海”将于2018年第三季度面市,该芯片采用台积电28nm工艺,亚里士多德架构,峰值性能 3.7 TOPS/W。
对标谷歌TPU——比特大陆算丰
作为比特币独角兽的比特大陆,在2015年开始涉足人工智能领域,其在2017年发布的面向AI应用的张量处理器算丰Sophon BM1680,是继谷歌TPU之后,全球又一款专门用于张量计算加速的专用芯片（ASIC）,适用于CNN / RNN / DNN的训练和推理。
BM1680单芯片能够提供2TFlops单精度加速计算能力,芯片由64 NPU构成,特殊设计的NPU调度引擎（Scheduling Engine）可以提供强大的数据吞吐能力,将数据输入到神经元核心（Neuron Processor Cores）。BM1680采用改进型脉动阵列结构。2018年比特大陆将发布第2代算丰AI芯片BM1682,计算力将有大幅提升。
百家争鸣——百度、地平线及其他
在2017年的HotChips大会上,百度发布了XPU,这是一款256核、基于FPGA的云计算加速芯片,用于百度的人工智能、数据分析、云计算以及无人驾驶业务。在会上,百度研究员欧阳剑表示,百度设计的芯片架构突出多样性,着重于计算密集型、基于规则的任务,同时确保效率、性能和灵活性的最大化。
欧阳剑表示：“FPGA是高效的,可以专注于特定计算任务,但缺乏可编程能力。传统CPU擅长通用计算任务,尤其是基于规则的计算任务,同时非常灵活。GPU瞄准了并行计算,因此有很强大的性能。XPU则关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似CPU的灵活性。在2018年百度披露更多关于XPU的相关信息。
2017年12月底,人工智能初创企业地平线发布了中国首款全球领先的嵌入式人工智能芯片——面向智能驾驶的征程（Journey）1.0处理器和面向智能摄像头的旭日（Sunrise）1.0处理器,还有针对智能驾驶、智能城市和智能商业三大应用场景的人工智能解决方案。“旭日 1.0”和“征程 1.0”是完全由地平线自主研发的人工智能芯片,具有全球领先的性能。
为了解决应用场景中的问题,地平线将算法与芯片做了强耦合,用算法来定义芯片,提升芯片的效率,在高性能的情况下可以保证它的低功耗、低成本。具体芯片参数尚无公开数据。
除了百度和地平线,国内研究机构如中国科学院、北京大学和清华大学也有人工智能处理器相关的成果发布。
总结——对国产人工智能芯片的一点愚见
正如前文所述,在人工智能芯片领域,国外芯片巨头占据了绝大部分市场份额,不论是在人才聚集还是公司合并等方面,都具有绝对的领先优势。而国内人工智能初创公司则又呈现百家争鸣、各自为政的纷乱局面；特别是每个初创企业的人工智能芯片都具有自己独特的体系结构和软件开发套件,既无法融入英伟达和谷歌建立的生态圈,又不具备与之抗衡的实力。
国产人工智能芯片的发展,一如早年间国产通用处理器和操作系统的发展,过份地追求完全独立、自主可控的怪圈,势必会如众多国产芯片一样逐渐退出历史舞台。借助于X86的完整生态,短短一年之内,兆芯推出的国产自主可控x86处理器,以及联想基于兆芯CPU设计生产的国产计算机、服务器就获得全国各地党政办公人员的高度认可,并在党政军办公、信息化等国家重点系统和工程中已获批量应用。
当然,投身于X86的生态圈对于通用桌面处理器和高端服务器芯片来说无可厚非,毕竟创造一个如Wintel一样的生态链已绝非易事,我们也不可能遇见第二个乔布斯和苹果公司。而在全新的人工智能芯片领域,对众多国产芯片厂商来说,还有很大的发展空间,针对神经网络加速器最重要的就是找到一个具有广阔前景的应用领域,如华为海思麒麟处理器之于中科寒武纪的NPU；否则还是需要融入一个合适的生态圈。
另外,目前大多数国产人工智能处理器都针对于神经网络计算进行加速,而能够提供单芯片解决方案的很少；微控制器领域的发展,ARM的Cortex-A系列和Cortex-M系列占据主角,但是新兴的开源指令集架构RISC-V也不容小觑,完全值得众多国产芯片厂商关注。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-05-30 16:01:00

AI领域当中，也存在非理性繁荣！！ | 数据分析网首页分类阅读行业资讯大数据统计学

随着人工智能不断炒热,根据MoneyTree全球风险投资报告,2017年 AI 相关公司的融资总额达50亿美元,投资交易总数更达444笔,创出新纪录。投资分布于AI基础技术、汽车、金融服务、医疗保健和制药及零售等行业。大部分专家都认为,2018年AI领域融资将继续炽热。
一项研究显示,在调查的260家公司中,80%有投资AI。这些受访公司表示,希望通过AI协助开发产品、改善客户服务及提高经营效率。有人认为,AI已经走向主流,并期待从投资这项技术中获得短期和长期的收益。话虽如此,经验告诉我,AI距离实现全面落地还需要诸多的考虑,其中普遍有以下关注点：
一、可用性：提供易用的方式,通过直观的交互界面,让人们更轻松地接受新功能。只有出色的使用体验才可提升普及率。
二、可扩展性：采用可扩展的设施（包括软硬体及数据资源）,支持不断增长的需求。在敏捷开发的同时,必须考虑一些隐性成本,例如重复建设、技术切换、数据治理的花费。
三、勿忘安全性：要在数据安全方面大力投入,视之为人工智能的基础部分。作为「新石油」的大数据 ,被盗用及泄漏后的风险也很高。
四、提升性能：若性能跟不上,功能再好的应用也会被用户抛弃。而且数据体量愈大,性能提升会愈困难。功能与性能之间的取舍永远存在,也不会因为更强的计算能力而消失。
五、保障个性化：给予用户全方位的控制权,这将促进更大范围普及,因为只有当用户可以按照自己的需求来使用有价值的应用,才是真正的个性化。
六、检查完整性：稳定的人工智能服务背后,要有数据质量机制作为支撑。这包括数据、算法、IT工程的准确性、一致性和完整性等。
资金正大量流入AI领域,当中也存在一定程度的非理性繁荣。随着当前的人工智能牛市接近第十个年头,风险投资市场目前偏爱规模较大的公司,以及超过一亿美元的超大规模融资轮。跟前几年相比,早期阶段的风险投资活动有所回落。人工智能何去何从,最关键还是用户说了算,且看2018年获入股投资的公司业绩再说后话。
本文为专栏文章,来自：车品觉,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/54598.html 。

数据分析

2018-05-30 09:49:00

傅志华：人工智能可以预防“吵架”？ | 数据分析网首页分类阅读行业资讯大数据统计

近日,Google旗下的科技孵化器Jigsaw、康奈尔大学和维基媒体基金会合作,联合开发了一个预测谈话走向的AI系统。这个系统能从一开始就能预测谈话是否会失控 ,想在对话能被挽救的情况下,尽早预防不必要的争吵甚至是攻击行为。
这个AI系统的算法和论文发表在Association for Computational Linguistics conference收录的论文《Conversations Gone Awry: Detecting Early Signs of Conversational Failure》中。论文的作者Lucas Dixon、Nithum Thain、YiqingHua和Dario Taraborelli 通过分析维基百科中的讨论页面,收集了大量的讨论板块中大量的网友讨论数据（我们可以称之为帖子）,利用自然语言处理技术进行语义分析,并收集人类标注的标签作为数据集作为训练数据,建立预测模型,识别开始谈话中,具有什么样特征的句子会导致谈话会失控甚至是攻击行为（论文中提到：In this work we aim to computationally capture linguistic cues that predict a conversation’s future health）。
论文中提到的例子是是关于“Dyatlov Pass Incident” 的两组维基百科的网友讨论（Dyatlov事件是指1959年2月2日晚发生在乌拉尔山脉北部的9位滑雪登山者离奇死亡的事件。这个团队的队长叫做Dyatlov,他们在登“死亡之山”的东脊时发生事故,10人9死）。其中A1和A2为一组（见下图）,分别为两位不同的网友；B1和B2为一组,也是两位不同的网友。A1开始交流,A2用另一个问题反问。相反,B1更温和,用“似乎”提出了意见,B2实际上解决问题,而不是搪塞。这两组讨论中有一组讨论导致对话失控,一个对话者开始进行个人攻击。
一些保持礼貌的谈话指标包括任何一位幼儿园老师都会认可的基本礼貌如“谢谢”,用礼貌的问候开头,并用语言表达一种合作的愿望。在这些谈话中,人们更倾向于用自己的观点来表达他们的观点,比如“我认为”,这似乎表明他们的想法并不一定是最终的结论。
另一方面,直接提问或用“你”这个词开头的对话更有可能使得谈话产生差异甚至是争执,如A2的说话方式。研究人员在论文中提到：“这种影响与我们的直觉相一致,即直接性暗示了来自对话发起人的潜在敌意,也许加强了有争议的强制的有力性（This effect coheres with our intuition that directness signals some latent hostility from the conversation’s initiator, and perhaps reinforces the forcefulness of contentious impositions）”。
以上只是数据集中的一个样本的简要分析。以上过程我们可以通过自然语言处理技术,开始分析这些对话中“最初的评论和回答”的关键词有怎样的特征,并进一步通过机器学习算法构建结果（最终是否有敌意）和“最初的评论”的关联关系,从而建立通过“最初评论”的特征预测对话变成敌意的可能性。
论文的算法结果显示,一台经过训练以识别这些特征的计算机,能够根据最初的评论和第一次回答,以61.6%的准确率预测产生敌意的对话。而人类在72%的时间内是正确的。该论文的机器预测的准确率比人类要低,但算法还有很大的提升空间。这个结果目前还是可以测试使用的。而且机器可以不厌其烦的24小时无休的判断对话是否会恶化,在恰当的时机可以做出一定的提醒和友情干预,而人类则不可能持续大规模的做此类监测。
在中国,这个对话预测模型也许可用于有管理员的论坛和微信群。以微信群为例,如果微信群主赋予了这个对话预测模型的能力,群主可以快速的提前预警群里可能要变坏的讨论。
更进一步的,自然语言处理技术（NLP）和机器学习（Machine Learning）技术是通用的,我们也可以预测更多,比如预测一开始对话中出现什么特征的对话的用户,更有可能买某个商品。如果这个用户及时的被发现,我们的版主或者群主可以接收到及时的提醒,群主便可以及时的把用户喜好的商品或者服务的促销信息发给该用户。甚至,整个过程中,在微信允许的情况下,没有人介入,全通过机器自动推荐,这就是先进的微信群智能营销了。当然还有更多的应用,就看您的脑洞了。
参考文献：
Conversations Gone Awry: Detecting Early Signs of Conversational Failure. Lucas Dixon,Nithum Thain,YiqingHua and Dario Taraborelli.
论文下载：https://arxiv.org/pdf/1805.05345.pdf
关于作者：傅志华先生为中国信息协会大数据分会理事,北京航空航天大学软件学院大数据专业特聘教授,中科院管理学院MBA企业导师、首都经贸大学统计学兼职教授、研究生导师。曾为360公司大数据中心总经理以及腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长,在腾讯前为互联网数据分析公司DCCI互联网数据中心副总裁。目前在某集团企业负责人工智能研究院。
本文为专栏文章,来自：傅志华,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/54442.html 。

数据分析

2018-05-29 00:12:00

轻松看懂什么是以太坊 | 数据分析网首页分类阅读行业资讯大数据统计学数据分析数�

作者 Mohit Mamoria 编译 Mika
虽然”比特币”和” 以太坊 ”这两个术语常常一起出现,但实际上这两者有很大的区别。以太坊与比特币的唯一联系在于,两者均为成功的区块链技术应用。
以太坊不像比特币仅仅是作为加密货币,它还具备一些特性,从而让其具有大型去中心化计算机的功能。
要了解以太坊,首先必须了解区块链的工作原理。
区块链是什么
简单地说, 区块链就是一个数据库。它是包含特定数据,并不断增长的数据库。区块链具有很强大的性能：
1. 一旦数据存储在数据库中,就永远不会被修改或删除。区块链上的每条记录都是永久不变的。
2. 维护该数据库的不是个人或组织; 而是数千人在维护,并且每个人都有自己的数据库副本。
那么,怎样保持每个人的数据库副本同步呢假设网络中有十个人,每个人都有空文件夹和一个空白页面。每当有人在网络中进行了重要操作,比如转移资金等,他们就会将此广播给网络中的每个人。
每个人都在页面上进行记录,直到页面填满。当填满时,每个人需要通过解决数学难题来对页面内容进行确认。解决数学难题可以确保每个人的页面都具有相同的内容,并且永远不会被修改。率先完成的人将获得一定数量的加密货币。
一旦页面被确认就会被添加到文件夹中,接着出现新的页面,继续持续这个过程。
区块链
随着时间的推移,包含着重要记录(交易)的页面(块)会被添加到文件夹(链),从而形成数据库(区块链)。
区块链存储着什么
区块链可用于存储任何类型的数据,当中的数据具有一定价值。比特币的区块链存储着金融交易记录,比特币的作用和美元等货币类似,而以太坊就不同了。
以太坊不仅仅是美元、英镑、比特币之类的货币。
可以把以太坊视为大型计算机。但是其运行速度特别慢,大约比普通计算机慢5到100倍,而且成本非常昂贵。“以太坊计算机”与90年代罕见的智能手机的功能差不多,因此它的能力是有限的。
这听起来似乎并不理想,那么为什么以太坊受到大量的关注呢？作为全球性的去中心化计算机,以太坊正在席卷全球。
为什么说以太坊是全球性计算机呢？让我们来看到它的运行原理。
以太坊如何运作
像其他区块链一样,以太坊需要数千人在他们的计算机上运行软件,从而驱动整个网络。网络中的每个节点(计算机)都运行着以太坊虚拟机(EVM) 。可以把EVM视为一种操作系统,用于理解并执行以太坊特定编程语言编写的软件。以太坊虚拟机执行的软件或应用被称为“智能合约”。
要在这台全球性计算机上进行操作,你需要付费。但是,并不是使用美元、英镑等常规货币进行支付。而是使用网络原生的加密货币进行支付,即以太币(ether)。以太币与比特币几乎完全相同,除了前者还可以用于在以太坊执行智能合约的支付。
个人和智能合约都被视为以太坊的用户。无论人类用户做什么,智能合约也可以做。
智能合约与网络中的其他人类用户一样,两者都能发送或接受以太币。
但是与人类用户不同的是,智能合约还可以执行预定义的计算机程序,从而进行各种操作。下面让我们看到智能合约能做些什么。
智能合约能做些什么
假设我们对明天的天气打赌。我打赌明天是晴天,你打赌是雨天。我们约定输的人必须给赢家100美元。那么我们如何确保失败者会遵守诺言呢？常见的有以下三种方式：
1. 相互信任
最简单方法是相互信任。如果我们是多年的好友,彼此间十分了解,那么相互信任是很容易的。但如果我们是陌生人,那就麻烦了,我们间难以互相信任。
2. 签订法律协议
另一种方法是针对我们的赌注签订相关协议。当中详细规定赌注条款,包括如果失败方违反协议会怎么样。
该协议能够确保失败方对赢家进行支付,但这是不现实的,因为通过法律途径达成协议比赌注的成本更高。
3. 求助共同的朋友
我们还可以找到一个彼此都信任的朋友,让朋友代为保管100美元。在答案揭晓时将100美元支付给赢家。但是如果这个朋友拿着钱跑了怎么办？
现在我们有三种不同的方法,但各有缺点。陌生人难以相互信任；法律协议成本昂贵；求助共同朋友还可能存在信任方面的问题等。
这时,以太坊的智能合约就派上用场了。智能合约相当于双方的共同朋友,而且是用代码编写的。以太坊能让我们编写相关软件,让双方支付价值100美元的以太币,并在第二天用天气API检查天气,接着将价值200美元的以太币转交给获胜者。
一旦编写好智能合约,就无法进行编辑或修改。因此,无论合约中制定了什么内容,它都将被执行。
但是,智能合约是如何执行的呢？它与区块链有什么关系？
智能合约与区块链有什么关系
当执行智能合约时,它会将执行信息作为交易记录到区块上。以太坊上的交易就像这样：
当中,“数据”用于记录智能合约的创建和执行,这被称为交易。以太坊区块链上的任何区块都可以包含以下三种交易：
1. 用户间的以太币交易
这是网络中的常规比特币式交易。如果你将以太币发送给你的朋友,数据字段将被清空。
2. 没有接收方的以太币交易
如果交易中没有接收方,这意味着交易的目的是,使用”数据”字段的内容在网络中创建智能合约。“数据”字段包含的软件代码将与网络中的其他用户一致。
3. 用户与智能合约间的以太币交易
当用户或智能合约想要执行智能合约时,都必须与智能合约进行交易,并将执行指令放在’数据’字段中。
就像其他区块链一样,只要发送以上任何一种交易均会广播给整个网络,从而让每个节点进行记录。除此之外,每个节点还会执行指示的智能合约,从而让其EVM状态与网络的保持同步。
每个节点执行一个软件,从而使整个网络成为大型(但速度很慢)的分布式计算机。然后,每次执行都会永久存储在区块链中。
Gas 是什么
在上文我提到过,用户在执行智能合约时必须支付一定费用。该部分费用将支付给消耗内存、电力,进行存储和计算的节点,成本的单位称为Gas。最终,根据交换率将gas转换成以太币。
当你执行智能合约,你都必须定义要消耗的最大gas量。当完成执行或达到gas值时,执行将停止。这样是为了避免智能合约中的无限循环,防止程序被卡住而无法继续执行。
程序员的粗心会导致这种情况。每次重复将使用指定的gas,从而让无限循环成为有限循环。gas的概念有效地解决了这个问题。
结语
以太坊不仅仅是一种可交易的加密货币,其真正的价值在于它的目的。以太坊的目的是让所有者能够使用由数千个节点驱动的全球分布式计算机。
当然,因为每个操作都必须由网络中的每个节点执行,从而也导致去中心化计算机运行缓慢且成本昂贵。
相比起来,集中式计算机成本更低,但是一旦集中式计算机(服务器)发生故障或遭到黑客入侵,那么所有连接的客户端都会受到影响。去中心化计算机就不同了,只有当每个节点都出现故障才会崩溃,因此让其一直都可以使用。只要有网络,就有以太坊。
原文链接：
https://hackernoon.com/wtf-is-ethereum-c65e0d67ac09
本文为专栏文章,来自：CDA数据分析师,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/53642.html 。

数据分析

2018-05-24 09:26:00

应用机器学习时被遗忘的两个步骤 | 数据分析网首页分类阅读行业资讯大数据统计学 �

译者 | 郝毅编辑 | Vincent 文章来源 | AI 前线公众号（ID：ai-front）,转载请联系公众号负责人取得授权
AI 前线导读：对于某些应用,人类设计的 AI 系统会表现的无能为力。但是对于另一类应用,专家则可以设计一些智能系统并保证其正确性；这些 AI 应用是节省成本和提高性能的最佳解决方案（例如,在某些安防应用中）。因此,保证机器学习决策结果的正确性是一个关键问题,本文针对该问题提出三点关键步骤。
如何入门机器学习 (ML)
关于人工智能（AI）和机器学习（ML）如何改变商业实践的故事越来越多,数据科学从业者被要求仅用模糊的或高层次的商业目标来“应用机器学习”。在实施人工智能和从数据中创造商业价值方面存在很大差距,数据科学中的许多尚未解决的问题是导致这些差距的原因。本文试图展示 AI 从业人员和企业管理人员如何弥合这一差距。入门 AI 的顺序不同于大多数人所想的,应该遵循以下步骤：设立目标分析数据定义模型
大多数人都会忽略前两个步骤,而急于求成的同时往往会适得其反。通过仔细地分析需求、应用和商业约束之后,你将得到非常详细的问题描述。这样,就可以使用机器学习的知识来更好地解决问题。
1. 设立目标
如果没有一个正确的目标问题,机器学习不一定能得到好的结果。使用机器学习前,需要明白自己追求的目标是什么,并给它一个明确的定义。为了使用机器学习,在实际的商业案例中,需要做许多方面的评估和考察,但是首先,需要搞清楚的就是你期望的结果是什么：
定义问题
目标结果需要足够的详细,你应当先问自己几个这样的问题：机器学习模型应该输出什么？它是对观察到的数据的预测,还是在某种情况下的行动建议？例如,你需要一个模块来帮助一个骑自行车的机器人在一条滑坡上保持平稳。那么你是否需要一个模型来预测自行车在给定情况下的行驶状态？或者是能够最快调整自行车运行轨迹的模型？模型的预期计算速度应该是多少？使用的软硬件能否为机器学习模型的准确预测提供良好的平台？模型的可扩展性如何？回到上面关于自行车机器人的例子：你的模型是只在某个特定型号的自行车上工作就行还是在多个不同的自行车上都能良好运行？
测量问题
假设有人给你一个预训练的模型。我们需要先对其性能进行评估,比如对于给定的输入,模型应当能输出预期的结果,并且应当测量对于大量的输入预训练模型的预测成本是多少。
你还应该考虑如何向机器发出信号,说明结果是好的。这可以像使用真伪机一样简单（例如,某个项目是否成功）,或者更复杂的方法是由应用程序决定。
使用问题
从商业角度来看,这个问题值得解决吗？消费者会乐意为 ML 技术买单吗？或者 ML 能降低制造成本吗？也许,使用 ML 只会提供额外的营销优势？（想想苹果的 Siri）
应用 ML 需要在 ML 工程专业进行投资,以及基础设施的设置和维护。因此一定要确认 ML 带来的回报是否能够支撑得起其成本。
训练与测试
当你训练一个模型时,你的目标是提高它的性能。在测试过程中,你只需使用一个预训练模型来生成预测结果,但是模型不会学到任何新的东西。
重要的是要记住,测试的计算要求明显小于训练。要训练一个模型,你需要访问你所有的训练数据,耗费很久的训练时间。根据你的 ML 任务,一个更好的游戏计算机可能提供足够的计算能力来训练你的模型；而在某些情况下,则可能需要一个计算集群。一旦模型被训练,你通常可以删除大部分的训练数据,并将模型保存为一个小文件。许多 ML 模型只需要很少的资源,例如嵌入式设备或手机来测试。这已经暗示了训练和测试的分离。
对于训练过程,软件基础设施所需的复杂性和敏捷性比测试过程高得多。这种分离提供了训练作为服务的商业模型（也称为订阅模型）。
2. 分析数据
AI 不能学到所有的东西,因此训练过程需要大量的数据。主要考虑因素包括设计数据、数据可防卫性、数据采集、数据结构、数据清洗以及隐私和法律问题。良好数据的标准如下：可量化：数据应当是可以量化的,可以使简单的是或否的,或者是更详细的测量结果。同分布：训练数据应该服从独立同分布。通常,这意味着确保你正在使用的数据集是一致测量和记录的。当你收集更多的数据,你需要确保一致的测量。多样性：你应该有一个足够大的样本大小以覆盖整个空间的潜在结果。这应包括足够的覆盖范围的罕见的事件,模型应当能够区分随机错误和罕见事件。例如,如果你想建立一个爱预测未来股票市场的崩溃,仅使用 2009 年至 2017 年的数据会限制太多。捕获额外数据：一些额外数据会影响到模型的预测结果,因此需要采集这些信息以产生良好的预测。打个比方,如果想要一辆汽车的价格,仅知道方向盘的大小和油箱容量是远远不够的,如果知道里程和车型将更好预测它的价格。
3. 成功建模
这是管理人员希望使用 AI 的最初原因。在机器学习中,模型是非常重要的部分,机器学习研究者通常会在这方面积累很多。然而,机器学习的成功实施需要从一开始就将深层的战略和设计整合起来。
简而言之,在目标结果和数据限制未知时,不能盲目的设计一个机器学习模型。一个好的模型应该具备以下几点：可行性和可用性：在给定的数据、技术约束和设计约束的情况下,目标问题是否有可能被解决？在没有测试的情况下,很难解决先验问题。可扩展性：这决定了模型的计算效率。当增加数据大小时,应当考虑到计算和训练成本的增加。考虑到模型的扩展,基础设施的成本是不可忽视的。
人工智能的实现面临的主要问题是商业和产品策略。这并不是说技术部分容易实现,而是技术约束往往是已知问题,是可以解决的。对于 AI,我们知道其能力,也知道它能够完成哪些工作。
AI 和 ML 的未来仍存在一些不确定性。一般来说,即使是经验丰富的数据科学家也不可能预测需要多少数据来训练模型。此外,模型训练过程中的微调也需要依靠丰富的经验,以及训练过程中模型对数据中的异常值敏感程度也难以掌握。
最后,将一个训练过程从早期的原型移植到成熟的产品所需的时间具有高度的不确定性。这种情况下,需要记住大多数机器学习算法具有很强的随机性。即使在相同的数据集上训练,模型的模型的表现也会有所差异,而在不同的数据集上训练,这种差异会更大。一般来说,获取数据需要巨大的时间成本,而自动化的模型训练方法则在获得一个成熟化的产品过程中起着不可或缺的作用。这就需要在最开始的原型阶段由机器学习专家的人为的设定一些过程：数据清洗、对特定数据集的训练过程的调整和自动模型选择。
因此,将每个机器学习项目都是视为一个具有高风险和潜力的研究项目是明智的。机器学习不是魔法——它是一个非常强大的工具,但只有在一些需要它的应用上才能发挥作用。
查看英文原文：
https://medium.com/axiomzenteam/the-two-steps-people-forget-to-take-when-applying-machine-learning-dc0e3797442b
本文为专栏文章,来自：AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/52560.html 。

数据分析

2018-05-17 22:15:00

微软AI面试题有多难？这里有一份样卷 | 数据分析网首页分类阅读行业资讯大数据统计�

大数据文摘作品
编译：张南星、卫青、钱天培
究竟什么样的 AI 人才能被微软这样的巨头聘用呢？
是不是要码力超群,上来就能徒手写个AlphaGo呢？还是要眼光毒辣,当场就能构想出未来20年AI发展前景呢？
当然不是！
今天,文摘君就淘来了几道微软AI 面试题,同时给出了最基本的解答。（注意是最基本解答哦,欢迎在文末留言给出你认为更好的答案。）
神秘的微软AI面试题,其实非常平易近人。一起来答答看！合并k个数列（比如k=2）数列并进行排序
代码如上。最简单的方法当然就是冒泡排序法啦。虽然不是最有效的,但却容易描述和实现。 L1/L2正则度量有什么区别？
L1范数损失函数也叫做最小一乘法（LAD）以及最小绝对误差（LAE）。它主要在于最小化目标值（y_i）同预测值（f(x_i)）之间的绝对差值之和。
公式一
L2范数损失函数也叫做最小平方误差（LSE）。它主要在于最小化目标值（Yi）以及预测值[f（xi）]之间差值平方之和。
公式二
对于较大的误差误差,L2比L1给出的惩罚更大。此外,加入L2正则后,模型系数会向0聚拢,但不会出现完全为0的情况,而L1损失函数则能使部分系数完全为0。如何寻找百分位数？
就拿上面这道题目为例吧：过去12小时内共有1000人来过这个购物中心,请估测,截止至何时,购物中心刚好达到30%的总客流量？
我们可以通过多项式线性回归（polynomial regression）或者平滑样条（spline smoothing）等技巧作出下图。
即为30%的客流量对应3000人
从Y值为3000的点画一条水平线,当与曲线相交时,画一条垂直线在横轴上找到对应的时间值就可以啦。怎么区分好的可视化与坏的可视化？
针对这个问题,我们会有很多不同的答案。比如,一个不能很好地处理异常值（outliers）的可视化,就不是一个好的可视化。
比如说我们有一个数组,在一系列小数字中有一个很大的数据（[1,2,3,4,7777,5,6,9,2,3]）,当我们可视化这个数组的时候,会产生如下的图：
右图→原始图片；中间图→规范化值；左图→标准化值
怎样才能更好地可视化这组数据呢？正如上图所示,即使我们对分析值进行了标准化或者规范化,产生的折线图依然不能很好地表示这组数组。究竟要怎么做呢？欢迎留言发表看法。怎样更快地计算出逆矩阵？
比如,可以考虑Gauss-Jordan法。
如果是一个2×2的矩阵就很简单了。
逆矩阵是：
ad-bc≠0
只需要交换a和b,取b和c的负值,然后除以方阵ad-bc。
定义方差
方差是每个数据点与整个数据集平均值之间差值的平方和。换而言之,就是数据的变化性。下面这张图就很好地解释了什么是方差。
首先我们计算出每只狗和平均身高的差值；为了计算方差,将每个差值平方后加总,再求平均值。
最后,献上本文出现的所有代码：
https://colab.research.google.com/drive/1DYimC5CEKeXdT15tbptifYL2v5MPkyHj
相关报道：
https://towardsdatascience.com/my-take-on-microsoft-ai-interview-questions-with-interactive-code-part-1-c271388af633
本文为专栏文章,来自：大数据文摘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/52320.html 。

数据分析

2018-05-14 22:19:00

机器学习太难了！AI大佬们给你指条明路 | 数据分析网首页分类阅读行业资讯大数据统�

译者｜无明编辑｜Debra 文章来源| AI前线公众号（ID：ai-front）,转载请联系公众号负责人取得授权
与机器学习博士相关的工作职位不仅创下了薪水的新高,而且对世界产生了巨大的影响。80000 小时（YC S15）提供了一个综合指南（https://80000hours.org/career-reviews/machine-learning-phd）, 用于指导如何开始你的机器学习博士学位之旅。80000 小时（https://80000hours.org）是一个非营利组织,负责研究具有社会影响力的职业,并提供在线咨询。该指南基于与六名机器学习研究人员的讨论而总结而来,其中有两名来自 DeepMind,一名来自 OpenAI,还有一名是某机器人初创公司创始人。以下是该指南的主要内容。
机器学习博士的职业路径是怎样的？
通常,我们必须告诉计算机要做什么,它们才能按照我们的指令一步一步地执行任务。如果我们没有事先给出步骤,它们就无法执行任务。
相比之下,在机器学习领域,程序员制定规则,监督软件如何进行学习,而不是直接通过编程指定它们的行为。我们因此可以构建出能够自动改进体验的系统。
机器学习博士需要学习如何设计和实现这些算法。博士研究工作可能包括以下主题：开发一个能够标记视频中正在发生的事件的程序,通过改进技术来理解为什么机器学习系统能够做出预测,或者对在线文本进行分析,以便了解社交过程,例如网络流行语是如何传播的。
机器学习是计算机科学的一个分支,与统计学密切相关。统计学和机器学习都从数据中学习,它们之间有很多相通的概念和公用的数学工具。
但是,与统计数据不同,机器学习倾向于强调构建软件来进行预测,通常应用于较大的数据集,而且它使用的技术对数据本身或数据是如何收集的并没有多做假设。
机器学习博士日常都做些什么？
在美国,拿到博士学位通常需要 5 到 6 年。在头两年需要上课,在剩下的几年里从事研究工作。英国的博士学位时间较短,通常为 4 年,因为只需要做研究工作。与美国博士不同,他们一般要求你先拿到硕士学位,不过不同的大学也有不同的要求。
你需要为你的研究工作写一篇论文,对某个特定主题进行深入的探讨,或者（更常见的是在美国）发表一系列相关主题的论文。你的研究将经历几个阶段,首先完善你的主题,然后研究与之相关的研究项目,最后写出你的论文。
你将花费大部分时间进行编程、数学演算、阅读论文,并与合作者一起思考和讨论想法。
为什么要攻读机器学习博士学位？
1. 了解那些可能是未来十年最重要的技术
机器学习在过去十年中取得了飞速的发展,这要得益于理论上的突破、数据可用性的提升、投资的增加以及处理能力的提升。它已经被应用于很多以前未能完成的任务,包括自动驾驶、图像识别、游戏、直升机飞行、语音合成和电影推荐。
如果技术不断进步,我们将能够实现越来越多的劳动力自动化,并解决以前难以解决的问题。最终,我们可以通过软件来完成大多数任务,甚至比人类做得更好。
这种进步将会彻底改变我们的世界。我们将看到自动驾驶汽车交通事故造成的死亡人数大幅下降、医疗诊断费用更低、诊断更准确,以及具有危险性或繁琐的工作被自动化。
但它也可能导致出现自动化武器、大量的失业以及政治和经济权力集中在少数人手中。
更令人感到担忧的是,如果我们开发的软件具备了高度智能,却与我们的想法相左,那么就有可能产生灾难性的后果。
我们认为机器学习是未来几十年最重要的领域之一。尽管近来人们对这个领域的兴趣在增长,但仍然只有少数人能够掌握这些技能。
2. 积极促进人工智能发展
积极促进人工智能发展是我们最关注的问题,我们需要更多拥有机器学习专业知识的人才来解决这些问题。因此,我们认为,对于机器学习博士生来说,尝试解决这些问题才是他们应该做的事情。在这个问题领域,主要有两条途径。
技术安全研究
我们缺少能够通过技术研究来减少人工智能给社会带来风险的人才,而机器学习博士可以为此做好准备,迎接挑战。
政策和策略研究
人工智能政策可帮助政府、企业和非营利机构的决策者设计和实现有助于人工智能发展的政策。与政策相关的角色包括制定政策的研究人员以及倡导和实现政策的从业人员。
机器学习博士是很好的人才储备库,因为他们不仅拥有技术背景,而且其他政策角色还赋予了他们信誉。
3. 将机器学习应用于社会重要问题上
在美国,脓毒症和感染性休克占所有重症监护病房住院人数的 10％以及所有医院死亡人数的 20-30％。约翰斯霍普金斯大学的科学家已经开发出一种名为 TREWScore 的机器学习系统来帮助解决这个问题。它可以在使用标准筛查方法之前识别发生感染性休克的高风险患者,从而加快治疗速度。
机器学习可以用在很多紧迫性问题上：
健康：改善诊断,预测登革热暴发,减少不恰当的抗生素使用
全球性贫困：为现收现付的太阳能电力找到合适的客户,使用卫星图像找到收款方所在的村庄
动物福利：预测哪种植物蛋白最适合制作植物性肉类
要从事这类工作,你需要了解你的技能可以应用在哪些社会问题上。你可以通过参与到公司或相关研究项目中,与其他人一起探讨,来加深对这些问题的理解。你可能会在一家成熟企业工作,也可能创办自己的公司,或者进行学术研究。
4. 高收入职业
对机器学习专业知识的需求,导致该职位薪水一路走高：考虑到这些数据包括只需要硕士或学士学位的职位,我们预计博士的收入应该处于较高的范围。
由于发展迅速以及在解决问题方面的实用性,机器学习具备很高的盈利潜力（我们预计它在未来十年仍将保持高位）。然而,由于有很多感兴趣的人进入该领域,存在薪水逐步下降的风险。
机器学习技能在科技初创公司中非常受待见,近来,机器学习初创公司也不断涌现。 Y Combinator 首次增加了对 AI 初创公司的追踪。大型公司近年来一直在收购人工智能创业公司,而且收购的价值通常取决于团队本身,而不是一般的收入指标。
据业内人士透露,拿到机器学习博士学位,就很有可能在量化对冲基金中获得一份高收入的工作。
5. 具备自主性的智力工作
你需要和世界上最能干的人一起工作,并且会对你的领域有一个令人满意的深刻理解,而且你可以自由选择做什么以及什么时候做。
如何开始博士学位？
首先,你需要具备扎实的量化技能,通常是通过攻读计算机科学、数学、工程学、数量经济学或物理学等本科学位而获得的。至少,你应该掌握概率和统计、多变量微积分和线性代数。我们知道那些已经被机器学习硕士录取的人可能没有量化背景,所以他们需要在数学预备课程中进行自学或参加课程学习（如开放大学）。
在英国和欧洲其他国家,通常要求拥有机器学习硕士学位或相关学科（如计算机科学或数学）学位,不过也取决于各个大学的具体要求。在美国、加拿大和澳大利亚,通常没有这种要求,虽然如果拥有相关硕士学位有助于申请博士学位,也有助于在开始攻读博士学位之前进行兴趣和研究能力测试。
不要求硕士学位的博士学位通常比其他的要长 1 到 2 年时间。如果你打算攻读硕士学位,那么两年的学位会更好,因为你有更多的时间来做研究,这是开始顶尖博士学位的关键。
基于在线指南以及与正在攻读机器学习博士学位的人的交谈,我们发现,能不能获得认可完全取决于你如何展示好你的研究能力。
应该研究哪些主题？
深度学习
虽说不同的机器学习方法适用于不同的应用,不过深度学习确实在过去十年中取得了很大的成功。这项技术受我们大脑网络结构的启发,虽然它们之间有很多不同之处。
深度学习帮助我们解决了以前人工智能技术无法解决的问题,其中包括图像识别、预测潜在药物分子的活性、分析粒子加速器数据、重建大脑回路、预测非编码 DNA 突变对基因表达和疾病的影响。
由于深度学习的成功应用,对应的专业知识对于在机器学习方面处于领先地位的公司以及致力于促进 AI 发展的人来说都是很有价值的。
强化学习
在强化学习中,软件会在其环境中做出一些动作,以便最大化由程序员定义的奖赏。
强化学习非常重要,因为它是一种很有前途的创建软件的方法,与人类一样,它具有长期目标,并通过试错来学习在其环境中最有效的方法。
考虑到深度学习目前广受关注,强化学习博士学位可能不像深度学习那么难。当然,你也可以攻读深度强化学习博士学位。
应用
如果你要开发特定的机器学习应用,例如视觉或语音识别,需要记住一些事项。只要你使用的是底层的机器学习方法,那么选择哪种应用就变得无关紧要。不过,仍然值得花点时间在选择应用上,最理想的应该是那些正在取得进展但尚未定型的应用。
如何知道你是否适合这项工作？
如果不去尝试,就很难知道你是不是适合做机器学习研究。为了测试你的适应性,以下是可以采取的一些步骤,按照时间顺序排列：与正在攻读机器学习博士学习的人交谈,更多地了解机器学习以及是否适合自己。参加机器学习在线课程,例如 Coursera 的机器学习课程或所在大学的机器学习课程。参加在线比赛。参加更多的课程,阅读更多的教科书。阅读研究论文并尝试复制其结果。我们采访了来自 OpenAI 的 Dario Amodei,他详细地介绍了如何做到这一点。以下是一些参考论文：一些重要的深度学习论文
（https://github.com/ChristosChristofidis/awesome-deep-learning）
一些重要的强化学习论文
（https://github.com/aikorea/awesome-rl#papers–thesis）来自顶级会议的论文（https://80000hours.org/ai-safety-syllabus/#conferences）参加夏季研究实习。攻读一个包含研究项目的硕士学位。
加入哪个研究小组或机构？
基于在线指南和我们与该领域人士的交谈而得出的参考标准：研究小组的声望。你希望加入一个能够不断把论文带入顶级机器学习会议的团队。你的潜在导师是什么样的人。不要只关注大学或学院的声望,你的导师对你的成功至关重要。选择一位能与你一起工作并且支持你的导师。与其他学生交谈,看看他们是否对你正在考虑的导师感到满意。确保他们的研究兴趣与你的研究兴趣保持一致。如果前两项标准得到满足,那就选择有声望的成功导师。著名的研究人员,比如负责大型实验室的研究人员,往往拥有更好的资金和人脉,但可能很难与之合作,因为他们往往太忙而无法对你的工作提供反馈。不太出名的导师反而可以更好地支持你,比如一位即将上任的初级教授。另外,如果你感兴趣的领域有多个导师,这样也不错。导师和实验室的稳定性与资源。寻找确保能够让你呆在那里工作的实验室和导师。另外,奖学金（如来自 NSF 和 NSERC 的奖学金）有助于你与资金较少的导师合作。请确认你的潜在导师是否想在你攻读博士学位期间更换实验室。如果导师在中途离开,对你来说可能是灾难性的,因为你可能发现很难找到另一位具有同等专业知识的导师。教学负担。有些学院会要求你做很多教学工作,这样会占用你太多的研究时间。实验室气氛和包容性。你将与其他学生和博士后一起合作和学习,所以请确保他们愿意帮助你。如果可能的话,在实验室会议上或通过与当地在校学生交谈,看看实验室是否有友好的气氛。一个让你感到开心的地方。找到大家庭的感觉对你来说很重要,因为到了一个语言不通的地方,你会感到孤独。有与你感兴趣主题相关的研究人员。例如,如果你想从事与人工智能安全相关的工作,那么就应该与拥有人工智能安全研究小组的大学合作,这样就可以在博士学习期间开展这方面的工作,并建立与其他研究人员的联系。当地行业。如果你知道拿到博士学位后要做什么,那么就选择周边有相关行业的大学。也就是说,如果你对初创公司或大型科技公司感兴趣,可以去旧金山湾区的大学,如斯坦福大学和伯克利大学,如果你想与 DeepMind 建立更好的联系,就去英国的大学。整体机构声望。如果你要留在机器学习领域工作,那么机器学习研究组的声望比整个大学的声望要重要得多。原文链接：
https://80000hours.org/career-reviews/machine-learning-phd
https://blog.ycombinator.com/a-guide-to-machine-learning-phds/

本文为专栏文章,来自：AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/52192.html 。

数据分析

2018-05-13 23:09:00

人工智能摧毁的不是工作岗位，而是商业模式 | 数据分析网首页分类阅读行业资讯大数�

人工智能摧毁的不是工作岗位,而是商业模式
在最近的一项调查中,53%的高管表示,他们所在的行业“已经被 AI 颠覆”。绝大多数（86%）的受访高管表示,他们的公司做了“中期”或“后期”AI部署,把AI视作未来商业运营的一个主要促进因素。讽刺的是,作为AI的实现者,IT部门的工作岗位反而受到AI的影响最大。61%的受访者表示,在未来五年,IT将继续成为受影响最大的岗位职能。近半数（49%）的IT决策者表示,他们的公司不能部署他们想要的AI技术,因为他们的数据无法满足AI技术的要求。
原文翻译：
人工智能（AI）是真的,而且已经来了。但成功地将AI投入应用并非易如反掌,而是需要彻底反思商业实践。压力很大——在最近的一项调查中,53%的高管表示,他们所在的行业“已经被AI颠覆”。零售行业可能被AI颠覆的一个例子是西雅图的Amazon Go无人便利店。Amazon Go利用AI经营,没有收银员,无需排队。顾客只要从货架上取走商品,其购买行为就会被记录下来。
除了颠覆的征兆以外,Infosys最近委托进行的对1,000名商业和IT高管的一项调查发现,我们现在所知的AI已经脱离实验阶段,正在带来实实在在的好处。绝大多数（86%）的受访高管表示,他们的公司做了“中期”或“后期”AI部署,把AI视作未来商业运营的一个主要促进因素。此外,73%的受访高管认为或强烈认为,他们的AI部署已经改变了他们开展业务的方式。90%的C级高管表示,AI给他们的公司带来了显著的好处。
不管你信不信,AI不只是自动化那么简单。大多数（66%）的受访企业最初利用AI来实现日常工作和低效率流程的自动化,但随着时间的推移和经验的累积,AI成为创新和差异化的一个因素。例如,在处于AI部署后期的公司中,80%的IT决策者表示,他们正利用AI来改善现有的解决方案,或者制定新的业务关键解决方案和服务,以优化洞见和消费者体验。同样比例的C级高管表示,他们未来的企业策略“将通过AI技术带来的机会获取市场信息”。42%的高管预计,在未来五年,AI将对研发产生重大影响。
Infosys总裁莫希特·乔希（Mohit Joshi）在这份调查报告的前言中写道：“迄今为止,AI的轨迹倾向于赋能,给予人类必要的工具,实现冗余任务的自动化,发现和分析数据中的隐藏模式,使人们有可能提出革命性的洞见,让生活变得更加美好。”
正如上文所述,AI已经变成一股颠覆性力量。三分之二的通信行业高管表示,AI正在颠覆他们所在的行业。63%的银行和保险业高管也有此感受。大多数（54%）的零售业者也感受到了AI带来的影响。（Amazon Go只是其中的一个例子。）唯一一个没有这种感觉的行业是公共部门和政府机构。
如果说AI是一股颠覆性力量,那么它将像其他任何颠覆性力量一样,使行动迟缓、跟不上竞争步伐的企业面临生死存亡的威胁。由此来看,AI确实会摧毁工作岗位。但同时,它也为高瞻远瞩的企业、创业公司及其所有员工提供了新的机遇,帮助他们迅速、坚定地采取新的思考方式,更好地满足客户需求。
令人意想不到的是,当AI接管基本的决策职能之际,大多数企业似乎正在采取行动,保障其员工的就业前途。不少于53%的受访者表示,对于受AI影响最大的岗位职能,他们的公司已经加强了相关培训。更多的企业甚至乐观地认为,AI将增加而不是取代工作岗位。77%的受访者相信,他们公司的员工经过培训后,可以胜任AI技术创造的新岗位。
讽刺的是,作为AI的实现者,IT部门的工作岗位反而受到AI的影响最大。61%的受访者表示,在未来五年,IT将继续成为受影响最大的岗位职能。不过,AI也开始对营销传播（32%）、人力资源（29%）和法务部门（15%）产生越来越大的影响。AI事务负责人将成为公司上下不可或缺的人物,跻身C级高管行列。在处于数字化转型后期的公司中,绝大多数（95%）的IT决策者表示,他们的公司计划建立一支由AI行家组成的专业团队。
商业领袖乐观地认为,AI技术创造的工作岗位最终将超过它摧毁的工作岗位。C级高管普遍表示,AI技术将有益于他们的劳动者（70%）,同样有益于客户（45%）和员工（43%）。
69%的C级高管表示,其公司的员工担心AI技术会抢走他们的饭碗。但48%的人相信,AI增强了人类的技能,使员工可以更好地完成工作。45%的人表示,AI让员工可以腾出时间,从事更有价值的工作。
大多数（80%）的商业领袖相信,在采用AI技术后,他们的管理团队能够适应领导方式的改变。企业仍然需要对管理人员进行培训。四分之三的IT决策者认为,他们的管理人员将受益于有关AI技术将带来哪些影响的正式培训。
人力资源服务公司德科集团（Adecco Group）首席执行官阿兰·德哈兹（Alain Dehaze）喜欢把AI称为“增强智能”。他说,AI一旦与人力结合,就会让人们“更深入地关注人类与生俱来的本领——批判性思维、情商和价值判断。在平台经济中,技术将各种背景、各种能力的人联系起来,创造出更多的机会。在数字化转型时代,技术也促进了熟练工人和非熟练工人的就业,使这个世界为所有人服务”。
是什么阻碍AI驱动型企业迈向这种美好的未来？数据,或者说是不恰当的数据。近半数（49%）的IT决策者表示,他们的公司不能部署他们想要的AI技术,因为他们的数据无法满足AI技术的要求。AI的内部运作晦涩难懂,这令高管们困扰不已。大多数（52%）的高管担心他们的公司失去透明度。
原文: Artificial Intelligence Isn’t Killing Jobs; It’s Killing Business Models
来源: https://www.forbes.com/sites/joemckendrick/2018/01/25/artificial-intelligence-isnt-killing-jobs-its-killing-business-models/#64dd220b5ea0
本文为专栏文章,来自：车品觉,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/52173.html 。

数据分析

2018-05-12 22:57:00

数据指标 | 网站数据分析体系 | 数据分析网首页分类阅读行业资讯大数据统计学数据�

一、总论
1. 概念网站流量统计,是指对网站访问的相关指标进行统计。
网站访问分析（有时也使用“网站流量分析”、“网站流量统计分析”、“网站访问统计分析”等相近的概念）,是指在获得网站流量统计基本数据的前提下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。
2. 意义
(1) 了解网站的目标人群特征,为产品设计提供重要依据
(2) 了解网站关注行业用户量的潜在规模
(3) 对比行业平均指标,作为评估自身网站发展的指标
(4) 分析网站与竞争对手之间的用户重合度
(5) 分析自身网站内部各栏目间的用户重合度
3. 分析报告
网站统计分析通常按日、周、月、季度、年或围绕营销活动的周期为采集数据的周期。当然单纯的网站访问统计分析是不够的,我们在分析报告中需根据网站流量的基本统计和可采集的第三方数据的基础上,对网站运营状况、网络营销策略的有效性及其存在的问题等进行相关分析并提出有效可行的改善建议才是网站访问统计分析报告的核心内容。
应该包括以下几方面的内容：
(1) 网站访问量信息统计的基本分析
(2) 网站访问量趋势分析
(3) 在可以获得数据的情况下,与竞争者进行对比分析
(4) 用户访问行为分析
(5) 网站流量与网络营销策略关联分析
(6) 网站访问信息反映出的网站和网站营销策略的问题诊断
(7) 对网络营销策略的相关建议
二、关键绩效指标（KPI）
1.常用指标红色标记的指标是最为必要的KPI,对网站的统计分析有很大的意义和作用。
1.1. 网站流量KPI
网站流量统计KPI常用来对网站效果进行评价, 主要的统计指标包括：
访问量（Page View）：即页面浏览量或者点击量,用户每次对网站的访问均被记录1次。用户对同一页面的多次访问,访问量值累计。
日均访问量：指对应时间范围内,网站每日的平均访问量。
最高日访问量：指对应时间范围内,网站在某天获得最高访问量。
PV%：指选择时间范围内,某个类别的PV占总PV的比例。
独立IP：指在一天之内（00:00-24:00）,访问网站的独立IP数。相同IP地址只被计算1次。
独立访客（Unique Visitor）：将每台独立上网电脑（以cookie为依据）视为一位访客,指一天之内（00:00-24:00）访问您网站的访客数量。一天之内相同cookie的访问只被计算1次。
UV%：指选择时间范围内,某个类别的UV占总UV的比例。
重复访客（Repeat Visitor）：某个cookie的再次访问计为一个重复访客,它的数目即为重复访客数量。
重复访客百分比：重复访客占全部访客的比例。
重复访问数量：是指某个cookie除第一次访问之后,又访问您网站的次数。
人均访问页面数：指对应时间范围内,每个访客访问网站的平均页面数。
1.2. 用户行为KPI
用户行为KPI主要反映用户是如何访问网站的、在网站上停留了多长时间、访问了哪些页面等,主要的统计指标包括：
访问深度（Depth of Visit）：在一次完整的站点访问过程中,访客所浏览的页面数。访问页面越多,深度越高,访问深度可以理解为是平均页面访问数的另一种形式,也是衡量网站粘度的指标。
新访客：某个cookie的首次访问计为一个新访客。最近访客：最新访客统计,最近一段时间内（5分钟内）访问您网站的100个独立访客,按“进入时间”倒序排列。
同时在线人数： 15分钟（时间范围可自己定）内在线访问的UV数。
最高小时在线人数：指对应时间范围内,网站在某一小时内最高同时在线的唯一访客数。注：“天”以24小时（00:00-24:00）为单位。
访问入口：每次访问过程中,访客进入的第一个页面,此页面可以显示网站对外或搜索引擎的一些链接入口。
访问出口：每次访问过程中,访客结束访问,离开前点击的最后一个页面,此页面可以显示网站对外或搜索引擎的一些链接入口。
访问最多的页面：访客访问最多的页面。进入最多的页面：作为访客访问站点的访问入口中最多的页面。
退出最多的页面：作为访客访问站点的访问出口中最多的页面。到达最多的目标：通过点击链接到达的最多的目标页面。
首页访问数：首页的游览量。
站点覆盖（点击密度分析）：通过覆盖在Web页面上方的点击,可以直接显示访客在Web页面上点击了哪里。
访客所用搜索引擎：分析网站访客访问网站所使用的搜索引擎。
访客所用关键字：分析网站是通过哪些关键字搜索带来的流量,并分析每个关键字是由哪些搜索引擎带来的。
最频繁的关键字：使用最多的关键字的比例。
访客停留时间（访问时长）：访客访问网站的持续时间。
访客平均停留时间：所有访客的访问过程,访问持续时间的平均值。
来源分析：
分析网站访客的来源类型,来源页面统计。
来源类型分为：
搜索引擎：由搜索引擎的链接访问网站。
其他网站：由非搜索引擎的其他网站链接访问网站。
直接输入网址和标签：访客通过在地址栏、收藏夹、书签等方式直接访问网站。
站内跳转：访客在网站内部的页面之间进行跳转,产生的流量。
总数据：网站自开通盘点系统之日起至今的各数据量总和。
访问量变化率：指对应数据项在当前时间段,与上一个时间段相比较,访问量的同比变化率。例如,上周（7天）的访问量变化率为 ↓21.1% ,表示上周的访问量比上上周的访问量下降了21.1%。又如,今日10:00-11:00的访问量变化率为 ↑1.3% ,表示今日10:00-11:00比昨日10:00-11:00的访问量上升了1.3%。
被访页面：分析网站中各个页面的流量分布,以及其随时间的变化趋势。
当前访客活跃度：是指您网站上当前访客的多少,它在一定程度反应了您网站在当前时间的受欢迎程度。
访问路径：每个访问者从进入您的网站开始访问,一直到最后离开您的网站,整个过程中先后浏览的页面称为访问路径。
访问频度：指您网站上访问者每日访问的频度,用于揭示您网站内容对访问者的吸引程度。
点击次数：是指用户点击页面上链接的次数。
1.3. 用户访问方式KPI
用户访问方式KPI主要反映用户访问网站的地域、设备、浏览器名称和版本、操作系统等,主要的统计指标包括：
地理位置：网站的访客来源于哪个省、市、自治区或国外。
网络服务提供商：网站的访客所处的网域,是电信用户还是网通用户。
IP段：网站的访客所在的IP段。
浏览器：网站的访客所使用的浏览器类型。
屏幕分辨率：网站的访客所使用的各种屏幕分辨率。
操作系统：网站的访客所使用的操作系统类型。
语言环境：网站的访客使用的哪国语言的操作系统。
插件类型：网站的访客安装的各种插件情况。
Cookie支持：网站的访客所使用的浏览器是否支持cookie。
终端类型：网站的访客所使用什么类型的终端上网。
2. 重要指标
关键指标是网站访问统计中最为重要的参考指标,分为如下两类：
2.1. 用户和流量增长KPI
用户增长百分比：即UV的增长百分比（一般是同上个月或上一周来比较）。
流量增长百分比：即PV的增长百分比（同上）。
从搜索引擎而来的流量百分比：从搜索引擎而来的PV占总PV的比例。
新访客比例：新访客占全部访客的比例。
2.2. 内容效率KPI
每次访问的平均页面数：总访问量/访问人次。平均页面访问数代表了网站的粘度,粘度越高,用户看的页面越多,平均页面访问数也就越高。
每个独立访客的平均访问次数
回访率：回访访客占所有访客的比例,用于揭示网站访问者对网站的忠诚度。新访客同回访客的比例网站访问者在不同逗留时间（0—30秒,30秒—2分钟等）的数量不同访问深度的访客数量
跳出率（Page Bounce Rate）：指仅浏览了该页面（一个页面）就离开网站的用户比例。
3. 特殊指标
如果网站有全站搜索,才用得到这部分,不过很多统计工具不提供这种统计。
3.1. 内部搜索效率KPI
使用搜索的用户百分比每次访问的平均搜索次数得到”0结果”的搜索百分比从搜索结果中得到”0点击”的百分比
4. 营销类指标
4.1. 营销效率的KPI
每个访客的平均成本每个访客的平均收益新访客和回头客的收益比较新客户同旧客户的收益百分比每个购物车的平均商品数量每次转换的订单平均价值和平均成本
4.2. 购物车的KPI
购物车放弃率：指在购物过程中途放弃的比例。
开始购物率：指添加第一个商品到购物车的访客数量除以总的访客数量。
开始结帐率：指点击了结帐按钮的访客数除以总的访客数。
完成结帐率：总的完成付款购物的用户数目/点击了结帐按钮的用户总数。
4.3. 转换KPI
转换率（Conversions Rates）：进行了相应的动作的访问量/总访问量。
新访客的转换率
回访客的转换率
三、数据的分析方法
1、聚类分析
相应的算法分析K-means算法,统计学上的原理等
2、用户细分
(1) 大部分访问者从哪里来—分析网站流量来源
(2) 访问者最关注哪些栏目—分析访问者的浏览路径
(3) 访问者从哪里流失得最多—分析网站流量流失的原因
(4) 分析访问来源的差异性—分析不同访问渠道对流量的贡献程度
四、访问统计分析工具
1. 分类
1.1. 服务器端软件通过直接读取网站访问Log文件,来做统计分析。
优点：
可以从任何地方都可以访问；
速度快,因为通常这些统计分析都是通过Cron任务来定时执行的；
可靠度高,因为是直接读取Log文件,当然所有访问服务都有记录；
隐私问题,因为是使用自己的分析工具,当然没有被第三方获得的机会；
网站访问错误统计,同样是因为基于Log日志的统计,所有的访问记录都有,也包括404错误等各类错误统计；
搜索引擎的蜘蛛访问统计
1.2. 桌面软件
这种软件通常都是商业软件,极少免费的,比如Web Trends,Sawmill等。一般这种软件是安装在用户的桌面电脑上,然后定期下载网站的Log文件,在本地进行分析统计,无需上网都可以使用。
1.3. 在线统计服务
这种服务现在很流行,目前使用最多的就是Google Analytics。要使用在线统计服务的话,需要在你的网站的所有页面中,都加入一段统计代码。而统计的过程中,是不会统计到那些404错误的。
2. 统计服务商对比
2.1. CNZZ站长统计
优点：后台栏目设置分类比较清晰,统计的数据比较详细。
缺点：没有统计访客的停留时间和跳出率；没有深入的分析报告。
2.2. 51啦统计
优点：后台界面比较清晰,顶部栏目设置很不错。
缺点：没有统计访客的停留时间和跳出率；没有深入的分析报告。
2.3. 51yes统计
优点：客户地理位置统计用地图显示。
缺点：后台功能的归类比较零散,不方便统计,没有深入的分析报告。
2.4. 量子恒道统计
优点：界面比较清晰,比较简洁。
缺点：数据不是很详细,没有深入的分析报告。
2.5. Google Analytics
优点：对访客停留时间和跳出率都有统计,功能是其中最为复杂强大的。
缺点：没有什么明显缺点。
2.6. 百度统计
优点：基于搜索引擎关键字分析。
缺点：很难申请到。
3. 免费工具
3.1. Woopar站在业界尖端的统计系统。
Woopra的客户端可以运行在目前99%的平台,包括Windows、Mac和Linux,界面非常华丽。除了可以实时查看访问流量、搜索关键字、访问来源等常规信息外,还可以进行搜索、查看实时分析数据及图表、创建事件提醒等功能。
非常有特色的一个地方就是,你可以通过客户端自带的IM系统同正在访问你的网站的用户实时沟通。这个功能是目前的统计系统都没有的功能。可以对特别的用户用tag来表示,并且可以查看历史上他所访问的记录。还有很多很多的特别的功能。
丰富的界面
实时通讯
实时统计Tips：需下载客户端,是基于JAVA开发的平台,注册是免费的。
地址： http://www.woopra.com/
3.2. 维度统计
一个类似Woopra的统计系统,也有客户端,还有IM,但不是基于Java。它的客户端界面不够漂亮,效率也不够高,数据同步较慢。
地址： http://www.vdoing.com/
3.3. Analog
需要下载的一个站点统计工具,非常的专业。
地址： http://analog.cx/
3.4. AwstatsAwstats
除了可以分析Web,还可以分析FTP,Email Log文件。地址： http://www.awstats.org/
3.5. OneStatFree
提供免费的点击统计和网站分析。同时提供高级的付费服务。地址： http://www.onestatfree.com/
3.6. CrazyEgg
具有追踪、评估功能,可以根据访客点击的位置对网站进行优化。CrazyEgg有一个非常有特色的地方,就是heat map,就像一张红外线照片,用红色橙色蓝色的不同区域在你的网页上表示出哪些部分是热区。
最基本的服务是免费的,每月可以统计5000个Visits,同时可以统计4个页面。作为一种尝试,也是不错的。
地址： http://crazyegg.com/
3.7. PiwikPiwik
是一个开放源代码的网站分析应用,它使用PHP和MySql开发。
Piwik有一个允许你任意延伸和自定义的“插件”系统。你可以选择仅仅安装你需要的插件,或者全部安装。Piwik插件系统,和你想象的一样,它也给你一个创建你自己的定制扩展应用的可能,并且Piwik是个轻量级的应用,下载包只有 1.9MB。
地址：
http://piwik.org/ http://piwik.org/demo/index.phpmodule=CoreHome&action=index&idSite=1&period=day&date=yesterday#module=Dashboard&action=embeddedIndex&idSite=1&period=day&date=yesterday （在线演示地址）
3.8. FireStatsFireStats
是一个简单和直接的网站分析应用,使用PHP和MySql开发。它支持多种平台,包括C#站点,Django站点等,以及Wordpress和其他的一些平台。FireStats 还有一个优秀的API[应用程序接口,它可以协助你创建你自己的基于你的FireStats数据的特制应用程序或发布平台组件。
地址： http://firestats.cc/
3.9. Snoop
轻量级的站点统计服务商reinvigorate推出的一个桌面工具,能够让你实时查看自己站点发生的各种事件,比如用户注册,留言,访问等,常规的站点统计服务,便于在一定时间后对各种累积数据的统计分析,而Snoop的功能则在于事件的动态展现,能够让Blogger即时了解自己的Blog状况,提供实时访客追踪,具有姓名标签合并等高级功能。Snoop 是一个基于桌面,运行在 Mac OS X 和 Windows XP/Vista 平台的web分析工具。它运行后,会驻留在你的系统状态栏或系统托盘中,当一些事件发生的时候,会有声音来提醒你。另外一个显著的Snoop特色就是Name Tags 选项,允许你使用“标记”来更容易的识别访客。
地址： http://report.reinvigorate.net/snoop
3.10. Clicky
这是一款功能全面的分析套装软件,服务主要针对于小网站和博客,易于使用,包括实时访客追踪、深度内容分析等高级服务。
地址： http://getclicky.com/
3.11. Enquisite
尤其擅长搜索引擎访问和PPC访问。提供地域数据、页面位置等深度统计。
地址： http://www.enquisite.com/
3.12. 103bees
是一款实时搜索引擎分析和统计工具,高度关注搜索引擎访问量,擅长为网站SEO分析关键词。
地址： http://103bees.com/
3.13. Measure Map
为博客提供容易理解的统计数据,目前该网站不接受新帐号,但是可以输入电子邮件获取未来通知,该网站归Google所有。
3.14. whos.amung.us
实时访客计数器,能显示任何一个时刻网站的总访问人数,不需要注册,很容易安装。
地址： http://whos.amung.us/
3.15. FeedBurner
全球最大的RSS托管服务网站。针对博客,界面简洁、直观,提供深度统计数据,目前归Google所有。
地址： http://feedburner.google.com
3.16. ClickTale
记录访客活动,网站SEO分析后便可理解用户行为并提高网站的可用性。
地址： http://www.clicktale.com/
3.17. MyBlogLog
基本上是博客的一个社交网络,但是也提供有价值的统计数据,其中包括点击习惯等信息,归雅虎所有。
地址： http://www.mybloglog.com/ 来源：简书作者：罗黑喵爱吃棉花糖
链接：http://www.jianshu.com/p/d34e35a9f419
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2017-03-04 09:13:00

马云：要靠互联网和大数据来解决假货问题 | 数据分析网首页分类阅读行业资讯大数据

核心提示：马云认为,当前需要做的不是一个企业独自面对假货这场战争,需要的是法律的完善,机制的建立,提高造假者的成本,让不诚信的人寸步难行,让有能力的中国制造创出自己的品牌。
新华网杭州10月12日消息,作为全世界最大的电子商务平台,阿里巴巴对待假货的态度,直接影响到数亿消费者的权益。日前,阿里巴巴集团董事局主席马云就此接受了新华社记者专访。
有观点认为,阿里巴巴借助假货来助长业绩,阿里巴巴今天的成功是假货的成功。对此,马云表示,不相信靠不诚实能真正成功。
据统计,每卖出一件假货,阿里巴巴就会失去5个以上的用户,阿里巴巴也是假货的受害者。“中国制造要可持续、有核心竞争力,阿里巴巴才可能拥有长久的活力。”马云说。
马云认为,当前需要做的不是一个企业独自面对假货这场战争,需要的是法律的完善,机制的建立,提高造假者的成本,让不诚信的人寸步难行,让有能力的中国制造创出自己的品牌。
“阿里巴巴从诞生的第一天起,就知道需要解决好假冒伪劣问题,这对任何一个商场都是一样的。我们从来不回避侵权商品的问题,因为根本回避不了。”马云说,近年来,阿里巴巴在做两件事：系统性地监控售假,并且通过大数据分析得出线索,并将线索报送给相应监管部门;提供资源和机会,帮助那些不想继续卖假的制造商和销售商打造自己的品牌。
“阿里巴巴这个部门有上千名员工,每年花10个亿,已经送了400名不法分子进监狱。我们很多知识产权保护方面的主管是世界级的专家,就因为经手的案子太多,成专家了。”马云指出,真正要根治假货,需要“治假”。我们现在大力在做的是创造环境、创造机制,让卖正品比卖假货赚钱。
他举例说,莆田以前是最大的假冒鞋的产地,鞋子质量很好,就是没有自己的品牌。现在淘宝开辟的“中国质造”,专门推广莆田自主品牌的运动鞋,销售非常好,这对很多制造企业是巨大的鼓励。
马云表示,要靠互联网和大数据来解决假货问题。“通过互联网,我们有了一套评价体系,这在线下很难;通过互联网,商品出厂就有二维码;通过大数据,直接定位那个卖假甚至造假的人。这些互联网领域的创新创造,对打假有着里程碑意义的贡献。”
“我们今天最骄傲的,不是卖出了多少货,而是为了知识产权保护所进行的探索和创新,我们这方面的能力可能是当今世界最强大的,现在亚马逊都来阿里巴巴了解知识产权保护的措施。阿里巴巴这十五年的努力,最大心血,就是建立了一套信用体系,信用是一切的基石,这是无价的。”马云说。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2015-10-13 21:20:00

SAP前中国区总裁张烈生加入永洪科技任CSO | 数据分析网首页分类阅读行业资讯大数据统

张烈生（TIMOTHY CHEUNG),前IBM大中华区副总裁,曾任世界最大的管理软件公司 SAP 中国区总裁。在IBM和中国内地工作30年,先后执掌过IBM大中华区金融事业部、服务部、市场部和IBM香港等重要机构。Tim亲历了中国IT行业从1985年以来发展的全部过程,是中国第一代IT行业顶级经理人。2016年5月,Tim加入永洪科技 ,任首席战略官。
我的同事告诉我,他曾经采访过Tim, 那时Tim还是SAP中国区总裁,机智、自信而健谈,看得出他很善于与媒体打交道。当我拿到Tim的最新简介,心里不知为何想到在不久之前印象深刻的一篇文章——好奇心日报发表的《公司里40来岁的人都去了哪儿？》,文中引用了普林斯顿大学的汉内斯·施万特博士在 2013 年发表的 “Unmet Expectations” 研究报告中的一段话：“相比于中年人,年轻人乐观、甚至过度乐观,再老一点的人心态平和,而中年人更多的是遗憾。他们有事业、有家庭,但不确定自己是不是还能要的更多,或者犹豫于是否要安于现状。”
我的同事说,当你看见Tim现在的状态,你一定会放下这种“中年转行一定是出于中年危机”的偏见。也许是想象力有限,或者身边实难找出振奋人心的实例。我在心中暗暗期待与Tim的这次会面,这对即将步入35岁的我来说,意义重大,对于和我一样职业经理人生涯超过10年的人来说,想想我们的40岁和50岁要去向哪里,Tim的经历会给予怎样不同的职业价值样板？而他目前选择的这家公司,到底有着怎样非凡的吸引力？
选择,做当下最好的选择
我很清楚,前途并不属于那些犹豫不决的人,而是属于那些一旦决定之后,就不屈不挠不达目的誓不罢休的人。
——罗曼·罗兰
Tim的职业经历,几乎见证了中国整个IT行业发展的历史。1984年从香港中文大学毕业,85年考进香港IBM工作,正好赶上IBM中国扩大经营,Tim自荐,加入了IBM中国。问他一个香港人,又是名校毕业,可选择的方向有很多,怎么舍得放弃那时经济繁荣的香港,选择到内地。85年,内地经济还不算发达,IT行业还在起步阶段,背井离乡加上语言隔阂,定是常常遭遇压力与挫折。他说：“我总是考虑,什么是当下最好的选择。”
那时候在中国的IT外企,一如IBM,更多雇佣的是“国际派遣员工”。这让IBM的价值观和基本信念得到最直接有效的传播,但语言与文化的隔阂仍是难以逾越的障碍。IBM考虑从香港公司调用10名“自愿人士”转入华南区,Tim与IBM中国的缘分由此开始。“香港的同事有经验的就不会想来内地,香港那个时候还是经济很好的,国内那时候经济还不发达,有经验的不想来,所以只能是找到刚刚入行的人,没人去,我说我去好了,就是这样子。我觉得对我也是个机会,我在香港,是在很多人之后,每个人都比我有经验,因为我刚刚入行。跑到内地来,也许,我哪怕比你多一天,我都是多一天的经验。我学会一件事情的多面性,我觉得中国（市场）是个机会,然后就举手说我来内地工作。而这边后来的确给我很多的收获。”
从1984年到2008年,从实习生到副总裁,Tim为第一份工作整整服务了23年。这23年,Tim见证了中国IT行业从空白到飞跃发展的整个时代。2011年,Tim写了一本书,《IBM——蓝色基因百年智慧》,他怀着对IBM这一百年品牌的敬意,回顾了中国第一代IT人的奋斗经历,还有对IBM能够成为百年老店核心能力的剖析。
之后的几年间,Tim陆续为SAP和Datacard两家公司服务,担任中国区总裁职务。30年的职业经理人生涯,从初级专员做到顶级经理人,别人看到的是功成名就,稳定持续的高收入,受人拥戴和尊重,还有令人渴望的权利,Tim却在这时说,“我不想在外企工作了。”
的确,近年来我们身边其实不乏这样的例子,从500强出身的经理人,投身初创企业,大家都说在中国的外企500强从2014年起就大势已去,这样的例子绝不罕见,罕见的是如Tim这般走到顶端后重新抉择的勇气。很多人在500强的内部竞争中其实难以脱颖而出,选择创业公司反而有更多职业上升的机会。试问一个做到总裁的人跑去做战略顾问算不算疯狂的决定？如果不是这个新公司充满了无限美好的可能性,也许实在无法找到更合理的理由。
秩序与自由真实的、永恒的、最高级的快乐,只能从三样东西中取得：工作、自我克制和爱。
——罗曼·罗兰
“我觉得在外企里头自由度还是不够大的,所以我不想在外企工作了。我做了30几年,决心不再继续在外企做管理,然后后来想想,如果什么都不做的话,现在还有一些‘残余’的价值——这些经验和方法也许就‘再不见天日’了。这些东西如果不去分享,我可以天天去钓鱼打球,但如果这个‘残余’价值可以用来帮助别人也许不是一个坏主意。那么怎么帮助,帮助谁呢？我想帮助国内的创业公司,它的可塑性、可能性高,这些年轻的团队和那些想要去做事情的人,我喜欢这样的氛围,我也愿意去帮助这些人,这些公司,就是这样一个梦想,也是我规划的最后10年的职业生涯。”
问Tim这么大的转变,是不是他在人生很多的大的抉择里面,都跟普通人不一样,所以他其实是一个特别有勇气的人？他说：“我觉得勇气说不上,如果有勇气就创业去了。我只是在某一个时间点上做我认为最好的一个选择。”
问他放弃创业念头是因为什么？很多像他这个年纪做IT创业的人,都已经名利双收,他却为何不为所动？当然,他说,其实现在的创业潮可以说是第二波,第一波是90年代初期,邓小平南巡的时候,很多人下海了,开始打破铁饭碗,那个时候下海,的确是好的创业时机,但是那个时候创业的环境,许多时候是关系和低劳动成本创业,那个不是我想做得事情。“那个时候做生意,要创业也可以,拉到关系,吃吃喝喝,这个不是我想做的事情,可能也是被IBM教育出来的,个人价值的选择。”就像现在选择服务的公司,Tim说,“I am only interested in companies who are genuinely believe in the long term potential of the China market.”（我只对那些愿意在中国市场做长远发展的企业感兴趣。）
再出发,拥抱变化每一次都是新的开始,每一次要这么做的时候,他决不会去思考过去的丰功伟绩。
——海明威
“我刚加入了一家国内的大数据分析平台服务商,新的身份是永洪科技的首席战略官。”Tim说道。被问及一个有着IT行业30年从业经验的顶级经理人为何会选择一家年轻的大数据公司,Tim说,“首先当然是看好这个行业与公司的前景。永洪是一个中国本地的公司,我觉得现在整个IT行业的发展,本地的公司已经到了有机会去走上主流的阶段。一是因为现在大环境是希望扶持本土的企业创新；第二,我觉得中国现在也有很多技术人才出现,所以有大环境、好土壤加上有好的种子,就可以发芽出来。另外,中国企业在近20多年的企业IT信息化的进程中,已经积累了大量的数据；而近年来中国的经济的发展放缓,国内同业竞争的加剧,也要求这些企业从粗放经营转向精细化经营。这时候,企业管理人员要对其企业、客户、市场、运营、财务状况等有更深入的了解,而最能够‘帮助’他们的,就是这大量的数据,并且从中发现价值,更好的指导经营决策。随着时间的发展, 数据分析将成为每个企业的基础需求和必须具备的企业能力,这将是一个非常大的市场。现在是国内大数据公司最好的发展时机,而我觉得有机会去帮助一家很有机会成就伟大的国内公司,对我自己而言也是很好的机会,当然没有人愿意去帮助一个没有机会成功的公司。”
至于如何判断一个成长型的公司是否有机会成功,Tim坦言这其实与任何伟大的公司都有着一样的共性：比如正直的价值观、凝聚人才的企业文化、引领市场的思想领导力、持续的创新力和随需应变的能力等。“而最核心的价值观,是这家公司能够真正为客户带来价值,这是市场的真理。”
Tim谈及他与永洪科技创始人的初次会面,当Henry告诉他永洪提倡的价值观“用卓越的数据技术为客户创造价值,实现客户成功”时,Tim形容当时的感受是：“就像年轻的我初初融入IBM的那种工作热忱被重新点燃,我想这会是我当下最好的选择。”
问Tim在加入永洪科技之后的感受如何,有没有失望与落差？Tim说,“首先永洪是一家视长远发展更重于短期利益的公司,这就足以跟大多数的初创企业区别开。举例来说,永洪给潜在客户做产品培训会严格限制参加人数,因为CEO会跟市场部门强调客户体验大于一切。还有某天开会时,我看见CEO Henry眼睛里布满血丝,因为前一晚他跟研发部的同事一起在客户的公司彻夜工作,即便是问题并不在于永洪的软件出了错（是客户自身的硬件配置问题）。从CEO开始到下面的每一位员工,每一位永洪人都相信：客户至上——只有出自内心,才能深入内心。这与当年的IBM其实有几分相似,言行一致绝不止于一句公司的Slogan,这些日常工作的细节是企业价值观最重要的印证。其次,作为一家初创企业,永洪是一家有系统管理体系的公司,这对于初创企业尤为难得,并且对于一个想把企业做大做强的人来说,这种‘投资’是十分重要的。最后,也可能是最重要的,是永洪在大数据分析这一科技领域的创新能力——短短数年中,它获得的各项技术专利成绩有目共睹。作为一个本土的企业,永洪率先提出敏捷型和一站式的数据分析,把数据分析工作从IT和数据分析部门解放到各个业务部门的人员手里,这将很大程度把大数据分析这门学问送进‘寻常百姓家’。”“在过去的二十年,中国的企业自己不相信自己国内的软件产品,太多的盗版和抄袭让中国软件业承受了大量非议；而现在,加入一家完全自主研发,自主知识产权的科技企业,我了解到在短短三年时间,包括移动、联通、电信、富国基金、中信银行、美的、乐视、华为等巨头都选择了永洪科技作为数据技术提供商,我很欣慰地看到像永洪这样年轻的IP正在市场上取得越来越多的肯定和成绩。”
Tim与永洪的年轻人合影
新事业的天花板大数据就是21世纪的石油,但数据本身是不会说话的。如果你不知道如何使用数据的话,它就毫无价值可言。
——Garner高级副总裁兼全球研究主管彼得·森德高
问Tim如永洪这样的国内软件公司的天花板在哪里？放眼全球软件行业,如SAP这样的传统IT企业固然已成一方巨头,新兴的软件公司中也不乏如Salesforce这样的市值600亿的独角兽不断涌现。可中国市场大为不同,我们看到国内软件业的老大用友用了28年才将市值发展到46亿美金。更多雄心勃勃的软件创业者们在经历了10多年的创业之后,却发现还是突破不了1亿元销售额这个瓶颈。
“区别在于欧美、日本市场与中国的本地市场对软件IP的价值认同的差异。我们现在看到的同样的软件在美国售价是中国的好几倍,为什么？很多企业说是因为付不起,但问题是,是真的付不起吗？中国已经有不少全球五百强的公司,那些公司为什么付不起？如果他们付不起,美国那些公司没有中国公司那么大,都付的起啊？所以这是个概念问题,对于价值的一个认识问题。这个（改变）我觉得是要一点时间的,随着时间的推移,越多优秀的本地软件公司的崛起,会让中国政府更重视IP,对IP的保护会更好,越来越多的企业（无论是软件使用方还是提供方）重视IP,IP才会更有价值。另外,让企业的每个员工更普及的去使用软件去提高生产力和效率,培养良好的使用习惯,会使软件的市场潜力更大。在这方面,中国还有很大的普及空间。同理,随着更多的人才去从事数据分析或者业务信息的分析,当数据价值随着操作人员专业度的提升以及软件易用性的提高而被更广泛普及的利用,客户对于软件的价值认同会相应提高,客户会愿意付更高的价格去购买软件。市场规模的增长已经显露出明显的趋势,这个变化会比想象中更快,我从不担心我们选择的这个行业会很快遇到所谓行业天花板。”
Tim又补充说“也需要优秀的软件才行,软件的开发是一种科学,需要好的质量和科学规范。”问及在永洪的研发团队是否有他提及的科学规范,Tim说：“我有问过公司一位初级的研发人员,问他是怎么写代码的,他告诉我他是严格按照公司规定Code Style（编程风格）规范来写。对于Code Style,我觉得最好的效果就是,任何一段代码你都看不出来是谁写的,大家都是一样的风格,不会增加别人阅读代码的难度。这是一种严格的工作要求,也是一种严肃的科学规范。”
愿景&承担我们与世界相遇,我们与世界相蚀,我们必不辱使命,得以与众生相遇。
——苏格拉底
当Tim主动说起永洪的CSR（社会责任）规划（Corporate-Social-Responsibility,简称CSR）时,多少让人讶异。这种企业行为放在国际大公司似乎不算什么。哪个国际上市公司的网站上还没有一块属于CSR的内容？媒体人笑谈这是跨国企业取悦本地政府的小把戏,而鲜有国内的初创公司会在这个阶段肯用心用力甚至连篇公关稿都不发的。问他CSR这种在IBM与SAP的大企业行为会不会根本不适合现在公司的发展阶段,言之过早？他却诚恳的告诉我说,在他加入之前,永洪已经在做这样的实践了。“要让更多的人懂得去使用数据,利用数据。当然,我希望国家以后的教育体制可以培养出更多专业的数据分析人才,同时又能普及数据分析作为一门通用的能力,这样才能带动整个行业的可持续发展。但是企业也应当付出他们的一份力量。在这方面,我觉得永洪比起许多本土软件企业已经做得很不错了。永洪每年投入大量资金和资源做非盈利性质的大数据分析沙龙和培训,教的是数据分析的基本,让更多的人懂得怎么去用数据,才会让这个行业有更好的未来。”
记者手记：
Tim说,别人都认为一个已经实现财富自由的人没必要再去放下身段和绕路而行,而他却觉得职业生涯更像一场马拉松比赛,之前的他有幸在领跑群中,而现在的他在为一个完美的收官做最后的冲刺。
与Tim的会面在愉快的交谈中结束。我们相约下一次见面一定要替我引荐永洪科技那位低调神秘的创始人Henry。“放开那些对科技创业公司创始人的刻板印象,他一定会让你印象深刻的。”Tim笃定的说。
再次借用好奇心日报引用的芭芭拉·布拉德利·哈格蒂的原话,她在《重新设想生活》(Life Reimagined) 中这样写道：“人在四五十岁时,可能会出现短暂的停滞,或是转变,但这种转变可以是振奋人心的,而不是骇人听闻的。”
祝福Tim,也祝贺永洪科技又得一员实力与经验兼具的顶级管理人才。来自：永洪科技
链接：http://www.yonghongtech.com/html/news/company/2016/0613/549.html
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2016-06-14 14:31:00

济南政府大数据向社会开放，涵盖53个部门千余数据集 | 数据分析网首页分类阅读行业资

1月5日下午,济南市政府数据开放平台正式运行。作为全国首个以两办文件推进政府数据开放的城市,济南市政府数据开放平台首次开放就公开了53个部门的1010个数据集 ,成为全国一次性开放单位最多、数据集最大的城市。
开放53个部门1010个数据集
作为学生家长,你想为孩子们选择政府批准的小饭桌吗？作为上班一族,你想找到合格的早餐便利店吗？作为购房者,你想得到使用公积金贷款的楼盘信息吗？作为企业经营者,你想了解合作伙伴的经营状态吗？作为一个创业者,你想免费获得唯一权威的政府数据吗……过去这些难寻的政府权威数据,1月5日起已经全面向社会开放。任何单位和个人均可在济南市政府数据开放平台www.jndata.gov.cn获取自己所需要的各类数据。
记者登录该平台发现,济南市政府数据开放平台首页即显示,共开放了53个部门、1010个数据集,这些数据都可以在“数据目录”一栏中查找到,“数据目录是主要面向市民的内容,API目录针对的主要是第三方开发者,与市民关系不大。”负责该平台开发的技术人员称。
这些公开的数据可按主题与相关部门分类。主题包括经济管理、商业贸易、财政、卫生健康等20个,点开每个主题后会有相应的数据名单,市民可以在注册登录后,点击“文件下载”下载不同格式的数据文件。也可直接点击53个政府部门的名称来查找所属该部门的数据名录。
“覆盖了绝大部分市直部门。”济南市经信委工作人员称。济南政府数据开放平台包括了各个政府部门、公用事业单位的权威数据,涵盖了政务、经济、政法、财政、健康、交通、环保、民政、文化、体育、教育、农业、水利、扶贫、旅游、社保、宗教、外事、测绘等全社会的方方面面。这些部门中目前公开数据集最多的是济南市经信委,共76个,其次是农业局和卫计委。按主题来分,公开数据超过百个的领域有综合政务、经济管理、城乡建设和环境保护、农业和水利方面。
小饭桌数据最热门,在册名单一目了然
在济南市政府数据开放平台上,最受市民关注的热门数据前五名分别是校外托管场所登记信息（小饭桌）、公积金缴存、提取业务经办网点、成品油零售经营信息、放心早餐地图和个体工商户企业设立登记信息,这些数据都与市民生活息息相关。其中小饭桌数据的下载量截止到5日下午5时已达1094次,超过公积金缴存、提取业务经办网点的一倍。
这份最热门的名录中罗列了417家济南市各区的托管中心、小饭桌,包括名称、登记号、地址、联系人、联系电话、所在辖区和星级等各项信息。“孩子开学时家长肯定会对比哪个小饭桌好和坏,而我们的数据平台上登记的都是在食药部门注册的小饭桌,是权威的内容,家长可以方便地从中选择适合自己的小饭桌,这从侧面也能鼓励其他小饭桌去相关部门登记注册,从而更有效率地提升政府治理水平。”济南市经信委工作人员称。
单位最多数据集最大,济南全国是首个
记者从济南市经信委了解到,济南市委、市政府高度重视政府数据开放工作,山东省委副书记、济南市委书记王文涛要求,开放为常态,不开放为例外,并以市委办公厅、市政府办公厅的名义印发了《关于推进公共信息资源向社会开放的通知》（济厅字〔2016〕42号）,成为全国首个以两办文件推进政府数据开放的城市。
济南市政府数据开放平台首次开放,即成为全国一次性开放单位最多、数据集最大的城市。济南市经信委的工作人员介绍,济南市政府数据开放平台从2017年初开始建设,2017年7月开始试运行,“试运行期间我们分了两批开放数据,第一批包括20个政府部门、325项数据集,涉及到12345市民热线、不动产登记、健康医疗等领域,到第二批,我们向各个政府部门公布了《济南市2017年度公共信息资源开放清单（二期）》,督促大家将未开放的部门和数据陆续开放,进展十分顺利,结果超过原定计划的3倍以上。”
向第三方开发者开放,便民应用已达20多个
作为济南市政治经济社会活动中唯一权威的政府数据,济南市政府数据开放平台的数据向社会免费公开使用,但也可以进行二次加工,开展大数据领域的创新创业活动,“平台上的数据不仅是为方便市民生活,也可以应用到社会上。”济南市经信委工作人员说,数据即资源,从这些政府公开的数据中也可以分析出一些规律性的东西,比如做大数据分析的人员可以用这些数据做出模型,从而产生不一样的价值。
目前政府数据开放平台在国内的贵阳、广州、上海等地都已建立,“我们在做这个平台时也学习了他们的经验,全国做政府数据开放平台的模式大致相同,基本上其他平台有的东西我们都具备,与其他省市的平台相比,正式上线数据集就过千的,全国范围内济南是首家。另外面向第三方开发者的API目录也是济南政府数据开放平台的一个亮点,比如爱城市网等手机app应用厂商也需要政府数据,我们就为他们做了接口。”济南市政府数据开放平台的技术人员称,目前已有20多家机关、企事业单位及个人利用该数据开发了一批方便市民的信息化应用项目,如爱城市网、公积金、公交369等。
济南市经信委表示,作为济南新型智慧城市建设的重要内容,济南市政府数据开放平台还将进一步加大数据开放力度, 功能方面也会进一步优化,未来还会组织开展大数据创新创业大赛,向社会各界推广使用该平台的数据,挖掘数据价值,让数据资源成为济南发展的最新动能。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-01-06 20:18:00

Snh48与美国人工智能公司合作，推出全球首款明星人工智能 | 数据分析网首页分类阅读行

近日,美少女偶像组合SNH48通过微博宣布其已和美国著名个性化人工智能公司ObEN签订协议,ObEN将使用 PAI 公链为超人气少女们打造专属的PAI应用,围绕SNH48少女偶像制作虚拟人工智能形象。
她们的虚拟形象都将运行在PAI区块链上,使用区块链技术来验证,使每个人的人工智能是归属她们自己的。粉丝可以使用PAI跟美少女偶像们的人工智能进行互动,跟她们跳舞唱歌吃饭,也将可以用PAI币购买演唱会门票,周边等产品。
虚拟世界里的人工智能偶像不仅完美还原少女们的真实形象,更能和粉丝们随时进行唱歌跳舞等精彩互动,跨越了时空的限制。这将是世界上第一次由偶像团体推出明星人工智能,这可以最大限度的发挥ObEN-PAI链在粉丝经济中的巨大的价值。
终于,山寨组合走在了十一区原创的前面。
本文为专栏文章,来自：数据猿,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/49620.html 。

数据分析

2017-12-27 10:03:00

【IDCC2017】从1到N 第十二届中国IDC产业年度大典在京启幕 | 数据分析网首页分类阅读行业

12月21日主论坛现场
2017年12月20日-22日,由中国IDC产业年度大典组委会主办,中国IDC圈、CloudBest承办的第十二届中国IDC产业年度大典在北京国家会议中心盛大召开。来自IBM、华为、微软、腾讯云、万国数据、世纪互联、德利迅达、华云数据、中国移动、京东云、赞普科技、英特尔、中国电信、中国联通、电子城集团、西部数据、奥飞数据、创旗、浩云网络、有孚网络、卫达安全等数百家企业、千余人代表参与盛会,其中,近50家企业分获本次会议30余项大奖,并有百余家媒体到场支持。
12月21日,大会主论坛上,中国信息通信研究院党委书记、副院长李勇到场致开幕词,IBM、万国数据、微软、华云、华为、腾讯云、世纪互联、天津赞普、京东云、兴业数金等十余家企业高层就IDC产业发展现状与趋势展开深入讨论。
中国信息通信研究院党委书记、副院长李勇
针对信息技术发展日新月异,高速移动互联网快速发展,全球数据爆发增长、海量集聚等IDC产业现状,李勇提出三点建议, 一是推动产业优化,促进数据中心协同发展；二是发挥关键基础设施作用,助力国家大数据战略加快建设数字中国；三是进一步促进市场开放机制,加快”标准”建设与落地。
IBM 大中华区云计算事业部CTO陈国豪
主题演讲环节,IBM 大中华区云计算事业部CTO陈国豪发表题为《重塑多云价值》的主题演讲,他表示,企业对于云计算的期望不只在于降低成本,提高效率,还要能够支持业务创新。针对客户体验和服务创新的业务需求,IBM通过多云整合各种业务数据,结合认知计算发掘数据价值,构建支持业务创新的云平台。目前IBM已打造出数字化转型CCTV、全台首位云端 AI 金融顾问玉山银行、智能酒庄E&J Winery 酒庄、全球远程医疗服务Doctome等标杆案例。
万国数据服务有限公司云服务事业部副总裁高勇
人工智能、大数据等新应用场景的出现,使得数据中心发展呈现高密度计算、高密度网络连接、高密度数据交互等特点。在这种态势之下,万国数据服务有限公司云服务事业部副总裁高勇表示：“目前万国数据专注于在一线城市提供高可用数据中心逐步扩大至全国省会城市,未来覆盖更广泛的国内城市。到2018年底,将增至约30座；3年内,增至50座左右”。扩大基础设施覆盖面积,万国数据还推出包含云托付混合云产品的CloudMiX™创新数据解决方案、跨地域网络解决方案、软件定义网络数据中心集群,以带动传统企业机构技术架构的全面转型。
微软大中华区营运暨营销事业群总经理康容
2017年混合云成为继公有云、私有云之后又一云服务商必争之地,11月,微软宣布推出Azure Stack混合云解决方案,微软大中华区营运暨营销事业群总经理康容以《Microsoft Azure Stack 助您实现混合云战略》为题解读微软混合云战略。他指出,Azure Stack通过通用的身份认证、集成的管理与安全、一致的数据平台、统一的开发和DevOps推出了真正一致的混合云平台。Azure Stack的目标是,Azure 认证的应用程序和服务同样支持 Azure Stack,用户在 Azure 和 Azure Stack 上能够按需使用一致的工具和技术。他强调,Azure和Azure Stack有三大混合云使用场景：一是,边界和离线场景下的解决方案；二是,符合各项规定的云应用程序；三是,涵盖云端与本地的现代应用。
华云数据集团研发总监李德才
近年来,IDC行业正在面临发展过热、成本升高、转型迫切等问题,在这样的现状下,数据中心云化成为必然趋势。会上,华云数据集团研发总监李德才分享《云＋时代给IDC行业所带来的变革与新机会》为题的演讲。他表示,顺应IDC模式的演进,托管云将是IDC企业切入云计算市场最佳模式。对此, 2017年11月,华云面向合作伙伴推出CloudIDC™云代理平台,该平台从上到下由云服务、微服务、控制台服务、使用者角色组成。李德才介绍,华云还为IDC转云客户搭建IDC云联盟,并推出多种IDC转云合作模式。
华为中国区网络能源总工张广河
在会议现场,华为中国区网络能源总工张广河做题为《数字新时代智能新DC——数据中心的智能化演进》的分享,他从智能数据中心面临的行业历史机遇以及华为智能数据中心创新实践两方面进行解读。“数据中心行业正在从架构到部件全面智能化,智能运维正在成为数据中心绿色高效、业务运行、安全可靠的核心”,张广河表示。一直以来,华为从“ipower、icooling、imanager“三方面实践数据中心的智能化。在ipower方面,已实现供电链路E2E主动预防式实时监测；在icooling方面,华为智能数据中心有较为成功的冷冻站精细化能效控制实践；在imanager方面,已实现业务驱动的流程自动化,即智能巡检。
科智咨询（IDC圈研究中心）高级分析师王若冰
“正如腾冲-黑河相连的胡焕庸线把中国国土划分成两个迥然不同的自然和人文地域一样,胡焕庸线同样也可以划分出冬冷西热的IDC分布格局” ,科智咨询（IDC圈研究中心）高级分析师王若冰以《从供到需——中国IDC产业的发展环境探讨》为题,详细介绍了中国IDC行业的供需现状。王若冰介绍,科智咨询分析数据显示,2019年中国IDC市场将达到近1900亿的市场规模,除既有业务量持续增长外,人工智能、虚拟现实、智慧城市、智能穿戴以及5G的商用,都将成为IDC市场爆发的新增量。目前,供应侧普遍布局胡焕庸线以东,西北西南地区的充足资源如要利用起来需具备三大驱动力：一是行业需求,二是网络建设,三是人才储备。加之政策利好、技术迭代,西北本南地区应能在未来提供更大更多的市场空间。
腾讯云华北区渠道总监高吉蒙
合作共赢是云服务商构建生态的重要一环,腾讯云华北区渠道总监高吉蒙就“IDC合作创新”问题,做题为《基于腾讯云的IDC合作创新》的演讲。他介绍,在IDC合作创新方面,腾讯云最新推出“腾讯云精品店”,精品店深度集成腾讯云资源+合作伙伴方案,是云市场的升级版。合作内容涉及安全类产品、存储类产品、网络类产品、计算类产品4大部分。据了解该产品的合作是腾讯云合作伙伴生态建设的重要部分,相关数据显示,腾讯云合作伙伴从腾讯云业务获得的整体收入相比2016年激增10.9倍、合作伙伴数量增长16.1倍。
世纪互联集团副总裁华北区总经理刘丰
世纪互联集团副总裁华北区总经理刘丰以《高能数据中心,创造客户价值》为题,分享了他对“高能数据中心”的一些观点和看法。刘丰指出,现阶段,集中式计算和分布式计算迭代演进,AI、AR、IOT对计算密度、网络延迟提出了更高要求,数据中心正在向高密高电发展,数据中心建设已进入高能时代。他表示,新时代下,世纪互联将从5方面发力,一是,夯实“大底盘”,强劲硬实力；二是,定制机房,支持头部客户业务；三是,跨界合作,未来运营机柜数量可达 10万；四是,技术领先,升级数据中心运维能力；五是,绿色节能,利用IOT和OI降低PUE。
天津赞普科技股份有限公司数据中心运营支持中心总经理郭效真
海量数据存储、资源按需供应以及成本控制等市场需求,使得云计算成为推动数据中心变革的必然之选。天津赞普科技股份有限公司数据中心运营支持中心总经理郭效真做题为《云计算驱动下数据中心的变革》的演讲,他表示,企业对数据的管理经历了自建数据中心—托管数据中心—混合云数据中心—云数据中心四个阶段,且目前正在经历第4个阶段。“数据中心的未来,云计算的特性决定将由第三方中立数据中心提供按需服务,带来前所未有的商业机会和商业模式的变革。”郭效真强调。在演讲的最后,其就天津赞普数据中心高可用、高灵活、高电力、多线BGP网络、企业级合规机房、一站式管理服务等优势进行了详细介绍。
京东云首席架构师李道兵
云是什么？《云就是新IDC》,这正是京东云首席架构师李道兵的演讲主题。他认为,云带来的第一波革命是利用率和采购效率的革命,这波革命以虚拟机和云存储技术为代表。云带来的第二波革命则是行业演进的革命,这伴随着专业中间件供应商的崛起,伴随着机器学习、大数据分析、容器技术等新技术的涌现。“当出现一个新技术时,云会成为一个天然的承载平台”,李道兵如是说,“在集成商时代,市场碎片化,集成成本高,集成商的技术演进缓慢、客户也难以得到物美价廉的产品,但我们看到在越来越多的行业,SaaS 逐步替代掉传统的定制化软件。” 云成为信息获取、存储、处理、传递的中心节点,是新时代企业的基石。
兴业数金总裁助理李山河
随着市场金融改革的不断深化和云计算技术的不断成熟与完善,云计算在金融行业正在发挥越来越重要的作用。作为主论坛嘉宾分享的压轴场,兴业数金总裁助理李山河带来《云化未来——金融行业云的实践》的演讲。李山河认为,市场需求的转变、技术的飞速发展以及监管要求的变革成为金融上云的三大力量。虽然金融业上云需求旺盛,但仍然面临资金投入不足、科技能力薄弱、风险管理能力薄弱、业务创新能力不足等问题,因此专业的金融行业云是中小银行上云理想选择。随即,李山河介绍了兴业数金在金融云基础设施层（IaaS）、平台层(SaaS)、应用层（SaaS）以及综合业务（XaaS）四大方面的金融云实践经验。目前,兴业数金已助力204家中小银行快速发展,正在从前端、中间层、后端三个方向构建金融行业云云端共赢生态。
会上,中国IDC产业年度大典特色活动之一“第二届攻城狮IDC运维知识大赛”举行颁奖典礼。通过海选、预赛、决赛三轮的选拔,经大赛裁判团最终裁决,第二届攻城狮IDC运维大赛易建科技队获得冠军,第二名团队是中移铁通队,第三名是中联利信队,第四名队伍是尚航科技队。
本次大会的成功举办也得到了众多合作伙伴的强力支持,他们分别是：
附（IDCC2017获奖企业及名单）：
上午第一轮颁奖：
2017年度中国IDC产业最具影响力企业奖万国数据服务有限公司
2017年度中国IDC产业最具影响力企业奖北京德利迅达科技有限公司
2017年度中国IDC产业最具影响力企业奖福建省数字福建云计算运营有限公司
2017年度中国IDC产业最具影响力企业奖科华恒盛云集团
2017年度中国IDC产业最具影响力企业奖上海数据港股份有限公司
2017年度中国IDC产业最具影响力企业奖上海有孚网络股份有限公司
2017年度中国IDC产业最具影响力企业奖无锡华云数据技术服务有限公司
2017年度中国IDC产业优质服务奖无锡华云数据技术服务有限公司
2017年度中国IDC产业优质服务奖中企网络通信技术有限公司
2017年度中国IDC产业优秀第三方数据中心奖万国数据服务有限公司
2017年度中国IDC产业优秀第三方数据中心奖北京德利迅达科技有限公司
2017年度中国IDC产业优秀第三方数据中心奖福建省数字福建云计算运营有限公司
2017年度中国IDC产业优秀云服务商中企网络通信技术有限公司
2017年度数据中心最佳节能技术奖华为技术有限公司
上午第二轮颁奖
2017年度中国IDC产业优质服务奖北京互联通网络科技有限公司
2017年度中国IDC产业优质服务奖杭州网银互联科技股份有限公司
2017年度中国IDC产业优质服务奖广州尚航信息科技股份有限公司
2017年度中国IDC产业优质服务奖名气通电讯有限公司
2017年度中国IDC产业优秀第三方数据中心奖天津赞普科技股份有限公司
2017年度中国IDC产业优秀第三方数据中心奖上海斐讯数据通信技术有限公司
2017年度中国IDC产业优秀云平台奖微软（中国）有限公司
2017年度中国IDC产业优秀云平台奖 IBM （China） Limited
2017年度中国IDC产业优秀云平台奖腾讯云计算（北京）有限责任公司
下午第一轮颁奖
2017云计算产业先锋奖—有孚云上海有孚网络股份有限公司
2017最佳海外服务商广东奥飞数据科技股份有限公司
2017优质服务基础运营商中国联合网络通信有限公司广东省分公司
2017优质服务基础运营商中国电信股份有限公司北京分公司
2017中国IDC领军企业奖北京世纪互联宽带数据中心有限公司
2017优秀数据中心园区生态建设服务商电子城（天津）投资开发有限公司
2017云化解决方案最佳合作伙伴海南易建科技股份有限公司
2017海外IDC优秀服务商奖 IKGlobal
2017优秀企业服务伙伴上海创旗天下科技股份有限公司
2017优秀数据中心综合服务商杭州世导信息技术有限公司
2017最具投资价值合作伙伴北京中嘉和信通信技术有限公司
2017最佳定制数据中心奖秦淮数据有限公司
下午第二轮颁奖
2017中国IDC产业最具成长力企业江苏恒云太信息科技有限公司
2017数据中心存储技术创新企业奖西部数据公司
2017卓越运营数据中心基础运营商奖中国移动通信集团内蒙古有限公司
2017云计算中心优秀运营服务单位奖中国移动通信集团四川有限公司省重要客户中心
2017运营创新基础运营商中国移动通信集团黑龙江有限公司
2017年一体化与模块化方案创新奖中国工商银行股份有限公司
2017金融科技优秀数据中心奖企商在线（北京）网络股份有限公司
2017中国IDC产业杰出贡献奖秦淮数据有限公司
2017IDC产业创新数据中心奖京东集团华东数据中心
2017最具影响力IDC新晋企业广东浩云长盛网络股份有限公司
2017优秀混合云服务商厦门靠谱云股份有限公司
据了解,第十二届中国IDC产业年度大典预计总参会人次8000+,主论坛、分论坛演讲主题结合当下云计算、大数据、人工智能热点,受到与会者的一致好评。从1到N,作为一年一度的产业盛会,IDCC2017以“IDC”行业为核心,助力行业实现向“N“发展的飞跃。
12月22日,将会有《数据中心技术创新论坛》、《金融科技高峰论坛暨〈管理体系在银行业数据中心的创新与实践〉首发仪式》、《IDC及云计算国际合作论坛》、《安全运维论坛》、《云计算市场监管政策及技术培训》四大分论坛进一步讨论IDC行业发展方向,精彩不断,不容错过！
本文由 IDCC 投稿至数据分析网并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接：https://www.afenxi.com/49623.html 。

数据分析

2017-12-25 22:12:00

中润普达攻克人工智能难点让机器像人类一样思考 | 数据分析网首页分类阅读行业资讯

第四届世界互联网大会近日在乌镇举办,东湖大数据交易中心总经理、中润普达集团CEO杜小军受邀参加,并在大会上展示了自主研发的基于场景矩阵、分词矩阵和规则矩阵的中文大数据动态平衡模型计算理论和技术。
（杜小军讲解中文认知计算核心技术）
目前,大数据的应用领域越来越广泛,但在大数据洪流中,80%的数据是非结构化的,能够准确理解这类数据内容的目前只有人脑,特别是中文大数据。但人脑在大数据洪流面前早已不堪重负,还缺少专门的机器设备。
由于中文语言的复杂性,所以开发中文自然语言识别与认知软件的难度系数要比开发英文的更高。中文的语义识别与认知技术的突破成为中国人工智能产业发展最为关键的难点技术领域。
杜小军指出,中润普达以“让机器像人类一样思考”作为技术理论支点,通过中文自然语言处理（NLP）,让计算机在中文大数据中快速提取关键信息并自主学习,以自然的方式与人互动交流,同时进行推理、分析、对比、归纳、总结所有类型的数据,形成可视化呈现模式,用最直观的方式揭示认知计算后的数据含义。
据介绍,中润普达作为综合型大数据人工智能公司,开发并拥有自主知识产权和专利技术的中文大数据认知矩阵（信源矩阵、分词矩阵和规则矩阵）计算和中文大数据动态平衡模型计算技术,其核心技术领先同行业水平。
目前,中润普达已经完成了全产业链布局,形成集大数据交易与流通、数据资源的场景设置和应用、智慧政务与商业智能可视化分析平台、云上融媒中央厨房系统、数据采集和数据智能引擎、非标资产的报价与评估系统等于一体的业务矩阵。其中基于大数据的全媒体融合解决方案、基于大数据的产业金融平台解决方案、新一代大数据可视化云服务平台等成为行业应用模式微创新的重要案例。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2017-12-07 05:00:00

大数据解析：“每逢佳节胖三斤”，春节你胖了吗？ | 数据分析网首页分类阅读行业资�

摘要：三斤别逗了~
“天增岁月人增肉,每逢春节胖三斤。”春节的假期早已结束,有多少人面对飙升的体重悔不当初。想不想知道这个春节有多少人和你一样长胖了猜一猜那个省份的人最在乎长胖
春节期间,各种美食横行,
想要控制食欲真的很难啊!有木有!!
过年这几天,你在家的状态一定是这个样子的：
“每逢佳节胖三斤,吃的是饭,长的是肉,流的是泪。”不管嘴上有没有承认,数据早已暴露了一切。小新在各大数据平台搜索“每逢佳节胖三斤”、“减肥”等关键词,搜索指数在年后都有一个明显的变化。
最近一个月百度指数变化曲线
最近一个月360指数变化曲线
从以上搜索指数变化曲线可以看到,自2月1日进入农历小年之后,大家对“每逢佳节胖三斤”的调侃和对“减肥”的关注都有明显上升。其中,“每逢佳节胖三斤”作为一个“时令性”调侃话题,随着春节的远去热度逐渐消退。
截至2月18日,在新媒体指数(www.gsdata.cn)搜索“过年”“长胖”关键词,有三篇10万+文章。小新在对所有相关文章标题进行词频分析之后发现,“秘籍”“变瘦”“漂亮”等最为醒目。看来如何把春节期间鼓起的肚腩和大了一圈的腮帮减下去,成了大家尤为关注的地方。
在对春节后微博关注减肥的人群进行画像之后发现,19-24岁人群占比最高,达到42.7%,其次是25-34岁,占比30.3%。相比之下,年轻人对胖瘦及自己的形象更为关注。
在这样一个以瘦为美,人人追求骨感的年代,减肥成了女人永恒的事业。每个女人,不论年龄大小、高矮胖瘦,嘴上时刻都念叨着“我要减肥!!”。不出意外,根据微博指数显示,春节后微博关注减肥的人群中,女性数量远远高于男性,占比70%。
微博指数还显示,摩羯座最关注减肥,占比11.15%,比最低的金牛座高出3.76个百分点。这也是个比较有意思的现象,难道是因为摩羯座的人多闷骚,所以更关注自己的体型吗
据360指数显示,广东人对“每逢佳节胖三斤”这一话题关注度最高,远远高于排名之后的江苏、上海。从整体来看,南方人对这一话题的关注度也高于北方,排名前五的都是南方省份。
爱美追求美是人类的天性,但“胖瘦”何种才是美,却不是人类生下来就已经决定的,很大一部分是由后天生活的社会环境所决定。
在当今以瘦为美的大环境下,胖可能会给人对自己没有要求,懒惰、身体不健康的感觉,再加上手机、互联网、电视等媒体的普及,让人们接触外界的信息渠道更加便捷广泛,而大牌时装设计师,娱乐明星等这些经常出现在各种媒体上的人群,引导时尚潮流的“领军人物”,对瘦的偏爱与追求,建立了以瘦为美得标准,影响着世界的审美。较胖的体型在客观条件上就已经被限制了对时尚对美追求的权利,胖,从某种程度上也意味着被时尚淘汰!
昨日相信不少网友肯定被“200斤俄罗斯妹子,狂甩100斤肉变网红”的消息刷屏了,微博话题“胖妹闭关3年变女神”截止今日16时,阅读量已过5128.6万,有2.1万网友加入了讨论。
网友评论：
春节过后,不少网友惊奇的发现“钱包瘦了,人胖了”。胖在春节过后,就成了众网友比较关心的话题。微信公号“新浪娱乐”年后发文《李湘的胖瘦真是全民的关注点!不过李湘放话减二十斤没问题… 》,去年年末李湘就曾放话要减掉20斤,可从江苏卫视今年跨年春晚上,穿着“抢眼”的红裙子的李湘貌似并没有瘦下来。而2月17日节后,李湘发微博称“假期结束,开始工作”,并配了图。但网友的评论明显又跑偏了,多数评论都和胖瘦有关,看来李湘的胖瘦可是牵动着千万网友的心啊!
李湘微博下网友的评论
最后,小新想说的是,假期吃胖都不是胖。只要调整好作息时间,多吃清淡食物、蔬菜水果,多喝粥类,减少蛋白质摄入量,加强锻炼,在一两周内就会瘦回去的。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2016-02-22 23:21:00

新式数据存储服务商ClearSky获2700万美金B轮融资，拓展混合存储解决方案 | 数据分析网首页

摘要：存储服务商 ClearSky 提出一个相当吸引人的方案,用来降低数据存储花费和提升速度,并因此获得 2700 万美金 B 轮融资,该轮融资由 Polaris Partners 领投,Akamai Technologies 进行战略跟投。
存储服务商ClearSky 提出一个相当吸引人的方案,用来降低数据存储花费和提升速度,并因此获得 2700 万美金 B 轮融资,该轮融资由 Polaris Partners 领投,Akamai Technologies 进行战略跟投。先前投资的 General Catalyst 和 Highland Capital Partners 继续参与融资。目前公司已经融得 3900 万美元。
从八月份开始,ClearSky 旨在为客户提供多层次、全方位的混合型数据管理方案。详细来说,由安装在用户数据中心的工具(AWS 或者 Azure) 管理最重要的热点数据,而次级重要数据存储于 120 英里内的服务设施中,最终使用亚马逊 S3 存储器管理不常使用的冷数据。该方式通过对数据的分级处理,降低了数据存储成本,提高了数据的提取速度。其关键在于通过软件和算法,根据用户需求和使用策略在不同层级中实现数据的自动迁移。同时,ClearSky 也开始着手其他的数据管理任务,包括数据重复删除,备份和失误恢复。
Rubin 说,接下来几年 ,ClearSky 的用户将成为新式数据存储的早期使用者,他们试图使用新方式管理数据。她将 ClearSky 与 Pure Storage 等其他新式存储服务公司区别开来,理由是 ClearSky 提供重度的数据存储和商业管理解决方案,能使用户实现小白办公。
尽管没有提到目前客户规模,Rubin 表示早期客户正在成为他们的付费用户,并将于不久后公布具体数字。ClearSky 总部在波士顿,目前已经在波士顿、费城和拉斯维加斯建立了分支机构。公司有 40 名员工,新一轮融资将被用来增加员工数量以及在全球拓展业务。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2015-11-07 20:04:00

Power BI——微软逆天数据可视化神器 | 数据分析网首页分类阅读行业资讯大数据统计学

摘要：前几天, Excel 2016悄悄更新了一个功能：将工作簿上载到Power BI
但这新功能并不显眼,藏在【发布】里：
然而,按照微软的一贯风格,功能隐藏越深,装逼效果越佳。你看“ Power Bi ”本身用拼音念起来就很牛逼的样子!下面一起来看看怎么玩!
BI其实是Business Intelligence的缩写,意思是商业智能 ,分开读,别念歪哈~
Power BI是微软官方推出的可视化数据探索和交互式报告工具。说人话,就是一款能把丑逼静态数据瞬间变成屌炸动态报表的神器。
针对不同的使用场景,这个工具有在线版/桌面版/移动版,而Excel 2016连接的就是在线版。
也就是说,现在我们可以把Excel中的数据一键导入到Power BI中。然后通过简单的图表配置,生成一份超高颜值的报表：
这种动态的数据报表在商业场景很常见,通常用来给客户/老板看各种关键数据指标以及总体情况,一览无余,所以被形象地被称为仪表盘(Dashboard)。
但这并不意味着我们普通用户不能玩,下面教大家把这个逼装起来。
如果你电脑上还没有Excel 2016,,大家可以先下载一个Power BI桌面版试玩,官网上就有免费下载链接： https://powerbi.microsoft.com/en-us/desktop/
下载安装后打开,你会发现Power BI长得有点像PPT和Excel生的儿子。
上方工具栏主要用于数据编辑,右侧是图表工具栏,配置好的图表会放在画布上。熟悉界面后,我们可以开搞了。
【第1步】：把数据导入Power BI。
本案例我准备了一组销售数据,记录了3个推销员2016年每天的销售情况。
打开Power BI,点击左上方的【获取数据源】,导入上面的Excel表格。
上传成功后,右侧的图表配置栏会自动读取Excel表格的所有字段,卧槽,这不就是数据透视表么!
【第2步】：对数据进行可视化处理
只需要通过勾选/拖拽字段,就能配置图表。比如我勾选【推销员】和【销售金额】字段,再选择一个合适的图表类型,就能自动生成图表!
接下来,我想看全年每个月的销售概况,只需要勾选【日期】和【销售金额】字段,就能生成一个图表。但此时的横坐标是以年为单位,只有一根柱子。
怎么办这时只需要我们点击左上角的往下深化,就能把数据进行细分：年》季度》月份。
完整的操作如下,细分完后把图表拉伸至合适大小。
同理,我可以把我想看的其他数据也一起配置到画布上,然后加上标题,调整一下颜色,搞定!!
你以为这就完了好玩的才刚开始呢：
*自动筛选功能
各个图表中的数据互相关联,互相约束。比如：我想看其中一个推销员的数据,点击饼图中的一部分,其余图表会自动筛选出相应的数据!
* 缩放功能
点击图表右上角,还可以放大其中图表进行细看。
* 超屌的扩展图表库
有同学抱怨,Power BI提供的图表类型不够多。那你就错了!在官网中其实还隐藏着一个巨大的扩充图表库,大家感受一下：
选择自己喜欢的类型,下载并导入到Power BI中,就能轻松应用到报表中。简单到哭!
比如,我刚导入了一个气泡图扩充包,然后选中其中一个图表,直接修改图表类型就能秒用!!
就这样,我们有了一份帅气的数据报表了!
我仿佛看到了老板眼角的泪光…
【第3步】：发布动态报表
报表设计完后,直接点击发布即可。还没注册的同学需要用工作邮箱或者学校邮箱注册一个账号。
发布后,你在任何地方登录Power BI都能查看或修改这份报表!你还可以生成一个链接,把报表发给客户。
在任何终端,打开链接就能看到你的报表!!
整个流程,就是这!么!简!单!

以上只讲了Power BI万分之一的功能,如果你想深入研究这款产品,推荐一些资源给大家,所有网站都打包在文末,大家自行领取。
【1】Power BI的youtube频道
在这里你能获取最新的产品信息,例如：更新预告,操作教程,发布会回顾,高层八卦等等等等…
微软在3月份还举办了一次数字营销峰会,频道上更新了30多个演讲视频,保证你高潮~
【2】设计师团队的Dribbble主页：
Power BI有一个很屌的设计团队,而且他们经常会在dribbble上分享相关主题的设计作品。
各种抽象的可视化图形,看着就是享受~~
【3】竞争对手Tableau
Tableau是一枚相当成熟的可视化产品,功能上和Power BI不相伯仲。
Tableau很重视微软这款产品,在Google搜索Power BI的时候,Tableau居然出现在第一位,这广告打得……关于Tableau这个神器,咱有缘再聊。作者：Simon_阿文
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2016-04-10 14:50:00

数据分析：小学生神助攻，王者荣耀完胜阴阳师 | 数据分析网首页分类阅读行业资讯大�

前言 | 儿童节来临,小学生放假,游戏市场迎来盛（Zai）会（Nan）。曾经有人戏言,中国只剩腾讯、网易和其他三大游戏公司。《阴阳师》曾经长时间霸占iOS中国区畅销榜的榜首；而如今《王者荣耀》已是腾讯手里的一张SSR。
ImageDT结合图像识别与大数据 ,获取《王者荣耀》和《阴阳师》游戏玩家的微博声量和游戏截图,为您揭开两大现象级手游的角力之幕。
数据显示,《王者荣耀》的微博总声量（图片和文字）是《阴阳师》的1.6倍,互动量为2.4倍。曾在20天创造千万下载量的《阴阳师》,已被《王者荣耀》甩在身后,其中不乏小学生的“神助攻”！
晒图分析：玩家们都在晒什么？
ImageDT通过图像识别技术,在微博全网扫描《王者荣耀》和《阴阳师》的游戏截图,结合玩家的评论,探知玩家晒图的分布和动机。
王者荣耀玩家最爱晒【资料】、【胜利】及【失败】的游戏截图。玩家通过资料场景,分享历史战绩,游戏段位最受玩家关注；对于胜利画面,玩家比较倾向记录胜利时的各种第一次；而分享游戏失败画面,经常是因为挂机狗、猪队友,不吐不快。

阴阳师玩家最爱分享的游戏场景是【获得式神】、【式神录】及【对战】。抽取SSR这种稀有奖励,会刺激玩家截图分享。分享截图式神录,主要为碎片交易、账号交易。至于对战画面,虽然阴阳师本质上是养成游戏,PVP斗技依旧是玩家游戏乐趣的重要来源。与人斗,其乐无穷。而式神是阴阳师游戏的核心,对战阵容是玩家关注热点。

王者荣耀的完胜之道：社交、成就感、低门槛
从玩家晒图以及讨论的声量和互动量来看,王者荣耀逐渐远超阴阳师。从晒图的内容来看,两个游戏各有其吸引玩家的特点。是什么让王者荣耀的游戏在社交网络上拥有较大的活跃度？小编带你一探究竟。
1. 王者荣耀社交属性更强,多人即时对战吸引分享
王者荣耀整体的互动情况更好,有互动的微博达63%,分享游戏截图的玩家达54%。而阴阳师有互动的微博仅有50%。
王者荣耀是一款多人在线联机竞技游戏,跨区、跨操作系统的模式让玩家能同场竞技,随时一起开黑。QQ和微信打通玩家朋友圈,王者荣耀的玩家更倾向自发分享游戏截图展示战绩,也更容易引起互动。
而在阴阳师中,大区和服务器不同的玩家不能在一起游戏,很难满足线下的社交场景,互动情况一般。阴阳师更善于利用奖励刺激玩家在社交媒体分享游戏信息。如分享特典皮肤获得勾玉、分享式神图鉴获得蓝符、分享亲友系统获得勾玉等。
（左：整体词云,中：文本声量词云,右：图片声量词云）
2.王者荣耀的游戏成就感更强,战绩分享刺激虚荣心
王者荣耀的核心在联合玩家进行对战,击杀敌人,获得胜利。不同的英雄不同的玩法,但英雄并不能在游戏中起到决定性的作用。游戏节奏快,随时随地开黑,十五分钟一盘,更符合现代人碎片化的时间安排。50%的胜率意味着总会有玩家获得了即时游戏成就感。在上述游戏场景分析中也可以看出,历史战绩、胜利和失败都是玩家的战绩分享。
式神是阴阳师游戏的核心,所有的玩法系统都是为养成式神服务。阴阳师通过PVE碾压式的体验和明显的实力分层,放大玩家的自我成就感,触发玩家的上进心理。但要成为高端玩家,需要付出更多的时间,全靠“肝”,门槛更高。通常情况下,阴阳师需要100个小时以上的持续游戏时间,才可以体验到实力碾压感。因此,阴阳师才这么多账号交易信息。
3.王者荣耀操作门槛低,受众广,小学生玩家成热门槽点

王者荣耀的核心在联合玩家进行对战,手游简化了游戏操作。但是遇到太多小学生引发玩家神吐槽。虽然阴阳师主打剧情和画风,但分享王者荣耀游戏信息的女玩家比阴阳师还多。因而在微博上有两大调侃：我是一名三年级小学生,如果不让我上热评,我就下载王者荣耀王者荣耀是女大学生和小学生的战斗
连小学生都能玩,这也在侧面说明王者荣耀是低门槛、易操作、适合全年龄段的手游。
而阴阳师的式神必须通过时间和金钱的养成,前期投入的门槛存在,导致新玩家无法和老玩家进行公平竞赛,降低新用户留存率。
4. 必杀技
王者荣耀借力鹿晗,在鹿晗生日时宣布其代言人身份,成功为王者荣耀炒了一波热度,吸引新粉。且这很有可能带来更多女玩家。
阴阳师依托于完整的故事背景,画风精美,出现大量同人创作,带来较高互动量。与肯德基的跨界营销套餐,也吸引了很多玩家拍照分享。

结语：王者荣耀无论在社交属性、游戏成就感和准入门槛的表现都优于阴阳师,最直接的体现就是玩家更愿意自发分享王者荣耀游戏信息,并产生互动。
社交属性更强、操作简化、节奏快、碎片化、对战、普适性更强的手游更容易获得玩家青睐。
数据说明：2017年4月1日~2017年4月30日,微博全网数据,去水军,图片中包含游戏截图、或文字提及“王者荣耀”/“阴阳师”。本文由ImageDT图匠数据投稿,点击链接（http://q.imagedt.com/o/1205）,查看王者荣耀视觉声量
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2017-06-08 11:05:00

构建实时数据库，MemSQL获3000万美元D轮融资 | 数据分析网首页分类阅读行业资讯大数据 �

MemSQL是一家以其同名内存数据库的实时功能而闻名的公司,今天,它宣布在D轮融资中获得了3000万美元,此次融资也将该公司的总体融资额提升到了1.1亿美元。本轮融资由GV和Glynn Capital领投,现有投资者Accell、Caffeinated Capital、Data Collective和IA Ventures也参与了投资。
MemSQL数据库提供分布式关系数据库,该数据库使用标准的SQL驱动和查询进行事务和分析。它的特点是其数据采集技术的集成,它允许用户每天将数百万事件推送到服务中,而用户也可以实时查询记录。该公司最近表示,它的工具可以在拥有12台服务器的集群上提供每秒超过1万亿行的扫描速度。
该数据库可用于大型公共云和本地部署。
MemSQL最近宣布,即使在竞争激烈的市场上有很多老牌企业、初创公司甚至开源项目,其第四季度商业预订数同比增长200%,这通常也是投资者喜欢看到的增长率。目前MemSQL用户包括Uber、Akamai、Pinterest、Dell EMC和Comcast。
“通过提供能够以独特的速度和规模实现运营分析的数据库,MemSQL已经获得了强大的企业影响力,使客户能够创建动态的智能应用,”GV的一般合伙人Adam Ghobarah在今天的公告中表示。“随着企业客户群的不断增长,该公司已经取得了显著的成功,我们很高兴能够继续进行投资。”
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-05-16 19:54:00

中美IDC服务商大战一触即发亚太市场谁主沉浮？ | 数据分析网首页分类阅读行业资讯大

近年来,全球IDC市场处于快速发展的阶段,据中国IDC圈科智咨询发布《2017-2018中国IDC产业研究报告》中显示,2017年全球IDC市场达到535亿美元,增速为17.9%.
全球IDC市场格局初步成型,海内外服务商都意欲在业务快速增长地区寻找新商机。
欧洲区业务增速放缓并购成为行业主流
从目前的市场总量进行分析,美国、欧洲占据了全球IDC市场规模的50%以上。
随着云计算、大数据的快速发展,带动了数据中心行业的发展。与此同时,欧洲地区数据中心发展速度开始逐渐放缓,主要的发展形式以并购和交易为主。
据IDC记者了解,2017年IDC行业并购事件多余前两年的总和,这个趋势在未来几年仍将持续。持此之外,全球IDC的服务商投资规模将持续加大。2017年全球IDC投资规模突破了2200亿,包括技术驱动的力量、市场整合、市场投资等方面。
东南亚IDC市场缘何快速发展？
众所周知,近年来亚太地区的IDC行业发展迅速,亚洲地区成为了数据中心发展的重点。2014年开始,技术驱动创新,使得各种新兴的技术领域快速发展,带动了数据的存储规模,计算能力和网络流量的大幅增长,这也是推动亚太地区这个新一代技术进入加速期的重要原因。
相比于欧美国家,亚太地区属于发展中国家聚集地,发展IDC业务的成本会大幅降低,主要体现在人员成本、电力成本、土地成本；其次,国家政策的支持,随着我国”一带一路”政策的实施,加快了我国互联网企业的向毗邻国出海的布局,同时企业业务出海后会产生了大量的数据,这也是加快亚太地区IDC行业的快速发展的一个原因。最后,IDC行业发展对于网络要求甚高,亚太地区拥有丰富的海底光缆及路上光纤,能够提供IDC 业务所需要的网络,并且目前亚太地区的5G发展处于领先地位。
在2018亚太数据中心峰会上,Indosat Singapore Pte. Ltd Jessie Yan Yang表示,新加坡作为国际网络连接的重要节点,成为了亚太地区IDC行业发展的关键所在,为了保证国际出口的稳定和冗余性,Indosat在印度与新加坡之间投建了6条海缆来保证国际业务运转。
Jessie Yan Yang指出,印尼数据中心的需求达到每年20%以上增长率,Indosat在去年在印尼投资建设20多家机房,覆盖印尼目前所有的主流的城市,包括雅加达、巴厘岛等。目前在雅加达Indosat已经投建4个机房,其实有两个原因：第一点是印尼是地震多发的国家,雅加达的地址环境相对较为优良。二是和政府政策有关,印尼政府多年前颁发了银行针对金融系统的政策,金融系统在印尼有两个节点,主节点和备灾节点。目前印尼所有的大型银行和金融系统都在雅加达的备灾中心存储。
随后,中国IDC圈总经理黄超在会上分享了2017年数据中心市场情况。他表示,2017年全球IDC市场规模为534.7亿,增速是18.3%.亚洲地区继续在各区域中保持领先,整体增长速度超过30%,其中以中国、印度及东南亚国家为代表的IDC市场增长最为显著；其次,从美国市场看,美国市场主要的特征是并购,2017年,美国市场有将近200亿市场的规模并购的事件。
“一带一路”政策推动我国IDC企业出海
随着我国”一带一路”政策的快速实施,我国企业面向国际市场迎来了更为广阔的市场空间和发展机遇。而与此同时,国际巨头面对庞大的国内市场也已经跃跃欲试。
深圳市经贸信息委副处长汪炳炎在2018亚太数据中心峰会上表示,为贯彻落实国家大数据战略,紧抓云计算、大数据发展重要机遇,未来深圳市将从以下三方面进行开展工作：一是积极落实网络强国和互联网+战略,以产业跨界和融合智能发展为主攻方向,加快构建泛在高效信息网络,推动信息核心产业跨越发展,打造新一代信息技术和互联网产业的融合、共生和信息产业集群；二是创新大数据挖掘分析和应用,提升社会治理精细化水平,促进民生服务普惠化,实现城市精细化管理；三是加强产学研合作,鼓励高校科研院校和企业联合培养云计算、大数据相关人才,加强学校教育与产业发展的有效衔接。
中国信通院产业与规划研究所副主任高级工程师胡海波则表示,中国IDC市场快速发展,已成为全球范围内增长最为强劲的地区。
中国的云服务和数据中心准入涉及的法律法规包括以下部分：一是《中华人民共和国电信条例》和《电信业务经营许可管理办法》,要求云服务是应该持证经营；二是市场准入在技术的要求和市场的服务规范,2012年552号文以及2017年32号文,清理整顿的规范要求；三是云服务方面,包括《关于规范云服务市场经营行为的通知》和《关于规范云服务促进产业健康发展通知》等。
其次,针对我国IDC企业出海路线,及相关国家的优势,来自英国RETN公司陈昱认为,我国”一带一路”政策的提出,加快了我国IDC企业的快速出海,其中路线包括从俄罗斯、乌克兰、白俄罗斯到欧洲。俄罗斯毗邻中国,是我国企业发展IDC业务主要的海外地区。其中,由于俄罗斯地广人稀,是数据中心发展需要大规模的土地,其次,俄罗斯在气候方面十分适宜,降低了数据中心空调系统的运维成本。
综述
随着云计算、大数据、人工智能行业的快速发展,数据中心未来还将持续增长,并且伴随着企业对于数据的存储和处理的要求越来越高,数据中心向着规模化和集中化发展。我国加大了对IDC行业的规范与整顿,国外企业落户中国势必成为未来的一个发展点,未来将会以何种形式落户中国,我们将持续关注。
本文由中国IDC圈投稿至数据分析网并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接：https://www.afenxi.com/52422.html 。

数据分析

2018-05-16 10:50:07

AI真的能拯救Facebook吗？ | 数据分析网首页分类阅读行业资讯大数据统计学数据分析数

文章来源| AI 前线公众号（ID：ai-front）,转载请联系公众号负责人取得授权
在上个月的两次国会会议上,首席执行官马克扎克伯格在解释公司如何改善其平台监管时引用了 AI 一词超过 30 次。负责履行这些承诺的人——首席技术官 Mike Schroepfer 在 Facebook 年度开发者大会上的主题演讲和采访中也提到了这个主题。
Schroepfer 告诉成千上万的开发者和记者,” 人工智能是我们维持社区安全的最佳工具。“在听证会之后,批评人士指责扎克伯格把人工智能推出来误导人们,公司的问题仅仅是技术问题。Schroepfer 承认 Facebook 犯了错误。但他表示,对于月用户达 20 亿的 Facebook 而言,人工智能是解决这些问题的唯一方法。
即使公司可以负担得起雇佣人类检查每一篇文章,但这不是公司想要的解决办法。Schroepfer 说道：“如果我告诉你,你所有的文章在发布之前都有人读过,也许你会改变要发布的内容。”
Facebook 已经使用自动化技术来监控其平台,并取得了不错的效果。例如,自 2011 年以来,该公司已经使用了一种名为 PhotoDNA 的工具,该工具最初由微软开发,用于检测儿童色情内容。Schroepfer 表示,该公司的算法在不断改善,足以标记出不想让其在平台上出现的图像。
首先是裸露和色情图片,Schroepfer 将其描述为“光谱更容易识别的一部分”。接下来是描述“血腥和图像暴力”的照片和视频,如 Isis 斩首视频,这些图像很难从像素级别与正常图像区分开来。我们现在对这些图像的处理效率更高,”Schroepfer 说道。
但困难仍然存在。Schroepfer 表示,Facebook 近几个月来一直在投入资金解决选举信息真实性、虚假广告和虚假新闻等问题。“公平地说,在过去的几个月里,我们已经将公司的所有资源聚焦到了这些问题上,”他说道。扎克伯格本周早些时候表示,他预计将花三年时间建立更好的系统来捕捉不合理的内容。
此外,Facebook 的 AI 安全网计划还面临着机器阅读的问题,而不是视觉。那些用来打击因为 2016 年俄罗斯大选被推上风头浪尖的假新闻、骚扰等问题的软件需要了解人们在说什么。
尽管 Facebook 的网络搜索和自动翻译很成功,软件仍然无法了解语言的细微差别和语境。在周三的主题演讲中,Facebook 的机器学习和人工智能总监 Srinivas Narayanan 用“Look at that pig!（看那只猪！）”这个语句来解释这个挑战的难度何在。这句话出现在一只宠物猪的评论中可能会很受欢迎,但在用来评论一张婚礼照片可就不好了。
Facebook 公布了一些读取算法的进展。该公司周三表示,自去年年底一个可以发现人们伤害自己迹象的系统部署以来,已经有 1000 多人拨打了急救电话。语言算法帮助 Facebook 在今年第一季度删除了近 200 万条与恐怖分子有关的内容。
Schroepfer 表示,Facebook 还通过训练软件生成虚假数据来改善欺凌检测系统。经过对抗训练,侮辱性语言识别和拦截的效率越来越高。这使 Facebook 成为使用合成或伪造数据来训练机器学习系统的众多公司之一。
Facebook 面临的另一个障碍：其他语言。Facebook 的语言技术在英语中效果最好,这不仅是因为 Facebook 是一家美国公司,还因为该技术通常使用从英特网占主导地位的互联网上获取的文本进行训练。Facebook 数据显示,该平台超过一半的用户不会说英语。“这是一个巨大的问题,”Schroepfer 说道。
Facebook 在世界某些地区占主导地位,因此语言成为一个至关重要的问题。Facebook 承认,缺乏缅语内容审核人员,是没有避免这场危机的原因之一。
Facebook 正在开发一个名为 MUSE 的项目,有望以不同的语言开发同一种语言技术,而不需要大量新的训练数据。在这个方法实施之前,Facebook 通过手机新数据加速系统的方法将 AI 系统扩展到新的语言。
在某些情况或地点,数据传输很慢。暴露出一个问题,即 Facebook 没有选择在所有地方建立相同的语言资源。执行官 Tessa Lyons-Laing 在周二举行的 Facebook 会议上宣布遏制虚假消息传播时说道,机器学习软件正在学习标记经过等组织手动标记过的虚假内容,但该技术只有在 Facebook 与当地的事实核查小组建立联系,并且已经建立好数据收集情况下才会起作用。
Schroepfer 表示,找到一种不必依靠人力投入就能完成工作的方法是他推进人工智能的主要策略之一。周三,Facebook 的研究人员展示了用数十亿个 Instagram 主题标签作为免费的数据源来进行图像识别的方法,并创造了新纪录。Facebook 面临的很多最棘手的问题,都无法将人为判断排除在外。 Schroepfer 说道：“当决定事物好坏的时候,人工智能并不能替代人类。” “当人类做出决定后,人工智能是一个很好的执行规则的工具。”
原文链接：
https://www.wired.com/story/how-artificial-intelligence-canand-cantfix-facebook/
本文为专栏文章,来自：AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/52186.html 。

数据分析

2018-05-13 12:04:00

商业数据分析服务商 ThoughtSpot 获 1.45 亿美元融资，下一步是 IPO | 数据分析网首页分类阅�

美国时间 5 月 8 日, 36 氪之前报道过的商业分析软件服务商 ThoughtSpot 宣布,获得 1.45 亿美元的 D 轮融资,本轮参投的包括新加入的 Sapphire Ventures,以及现有投资者 Lightspeed Ventures、Khosla Ventures、General Catalyst 和澳大利亚政府未来基金。
本轮过后,ThoughtSpot 获得的融资总额达到 3.06 亿美元。根据风投数据平台 PitchBook 的信息,ThoughtSpot 本轮估值为 9.5 亿美元。据路透社报道,本轮融资是 ThoughtSpot 预计的两倍多,可能是上市前最后一轮融资,将会在两年内进行 IPO。
ThoughtSpot 想为企业提供使用门槛较低的大数据分析服务,让不懂技术的业务人员较快上手,致力于成为商业分析领域的 Google。为此,提供了名为 SpotIQ 的引擎,收费最低 7 万美元每年,同样的业务由人工处理则需要约 10-1500 万美元每年,使用软件更能节省成本。
本轮资金将被用于雇佣更多员工,继续开拓北美、欧洲以及亚太市场。目前,Thoughtspot 软件支持英语、日语及德语,计划开放西班牙语、法语、葡萄牙语以及简体中文。公司现有 3 个研发中心,分别位于印度班加罗尔、西雅图以及达拉斯,新的资金也将投入这些研发中心,加强软件性能。
目前,Thoughtspot 仍未能盈利。对此,创始人兼CEO Ajeet Singh 解释道,公司正在用融资来发展业务,“并不想建立一个盈利的估值 1000 万美元的公司”,而是希望 “以后能盈利”。近日上市的云存储企业 Dropbox 也是处于亏损状态,Dropbox 的策略是免费增长模式,想自下而上、从个人到企业提高付费比例。同样,Thoughtspot 也想先获得用户,培养好用户习惯之后,再发展更多付费业务。
根据 International Data 的研究,到 2020 年,全球大数据和商业分析市场将超过 2030 亿美元。Thoughtspot 面临的行业竞争也十分激烈,微软、亚马逊这样的巨头都在提供商业分析服务, 可视化数据分析巨头Tableau software 也占据着大量份额。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-05-10 12:24:00

结合AI让系统自主编程，Gamalon获英特尔领投的2000万美元A轮融资 | 数据分析网首页分类阅�

数据通常被成为“新一代货币”,因为它能带来大量宝贵的信息,从而为公司创造价值。但是如果过滤其中的噪声,并将非结构化数据进行整理,是一个难题。而自动化和人工智能就能在这方面起作用。
马赛诸萨州创企Gamalon专注于自然语言处理的机器学习系统,这种技术能处理数十亿条内部的信息,并提供个人回复,将想法和情感反馈给人。今日这家公司宣布获2000万美元A轮融资,领投方为Intel Capital,参投方包括.406 Ventures、Omidyar Technology Ventures、Boston Seed Capital、Felicis Ventures和Rivas Capital。
Gamalon创建于2013年,之前它一共获得了1200万美元融资。本轮融资后,公司表示会投资研究开发,并加大针对企业的销售和营销力度。
Gamalon想要解决的问题就是：公司搜集的大多数数据都不是存在于整齐、标号行列的电子表格内。这些数据包括电子邮件通讯、调查报告、反馈表哥、电话转写、产品回复等。它们存在的形式多种多样,因此想要靠人力将这些数据转换成有意义、可操作的见解,就非常困难。另外语言是复杂且存在细微差别的——几个词语可以表达好多种意思。
许多外部的机器人客服工具也在努力理解客户的情感和提问。但Gamalon想要从循规蹈矩的、依赖常规训练的机器学习系统和深度学习技巧,跨越到“将想法教给计算机”。也就是我们所说的非监督学习。
Gamalon的平台能为其他公司提供“精准、可编辑、可解释的”处理能力,帮助处理内部的客户信息和其他形式的非结构化数据。公司表示自己的平台已经能够处理自然语言,并解释它背后的意思。“我们创造了一种人工智能模型,你只需要直接和它对话,Gamalon就能明白你想要表达的意思,接着它就会自动生成一个新的模型用以处理其他新的输入和信息。”公司的一位发言人告诉外媒。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-05-09 16:10:00

房地产大数据服务商云房数据获2000万元融资，达晨创投领投 | 数据分析网首页分类阅读 �

今日,房地产大数据服务商云房数据首次对外公布已于2016年年底完成2000万元A轮融资,由达晨创投领投。
公开资料显示,2013年9月,云房数据从仁达评估独立,正式成立北京云房数据技术有限责任公司。
云房数据的创始人兼董事长为闫旭东,是中国人民大学公共管理学院MPA兼职教授。团队由房产评估专家、房产估价师、软件工程师、数据分析师、市场研究等人员共同构建,公司拥有员工180余人。
据介绍,云房数据作为独立的第三方房地产数据公司,以多维度房地产动态和静态数据为基础,通过大数据算法建立房地产数据生态圈,为地产、金融、地税、评估行业等多项纵深服务领域提供数据及系统集成服务,致力成为国内最大的房地产数据的平台级服务商。
云房数据目前的客户案例包括：银行、信贷等金融机构对抵押房产的评估；为房地产开发商提供楼盘数据系统,辅助投前交易决策；二手房交易平台上的定价；以及输出给第三方评估机构使用。
值得一提的是税务场景,国家正在推进房产税的实施,对于房屋最低价格需要有评定,云房现在经已服务包括北京以及其他7个省会城市等10余个大中城市地税局30+税务项目, 独家协助财政部、税务总局进行房地产税税率税负测算。
截至2018年3月,云房数据的应用城市达到了309个,并且覆盖了32万+宗土地交易数据、11000万+条二手房交易数据和7850万+套租赁房源交易数据。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-05-08 17:17:00

全球AI芯片公司排名出炉，中兴最近如何了？ | 数据分析网首页分类阅读行业资讯大数�

市场研究顾问公司Compass Intelligence日前发布了其关于 AI 芯片最新调研报告,报告指出,在全球前15大人工智能 (AI)芯片企业排名表中,NVIDIA英伟达成为当仁不让的领头羊,其后依次为Intel英特尔和IBM。
而国产厂商华为凭借麒麟海思处理器也成功进军榜单,占据了第12名的排位。
据悉,这份报告总计对100多家公司进行评估,最终名单包括24家排名最高的公司。
研究结果显示,过去三年,各大公司藉由收购AI及AI新创企业,已经总共在研发、投资AI领域超过600亿美元。目前,AI新创公司就有约1700家,业界对于AI芯片组需求正逐渐扩大。
据了解,AI芯片组包括提供AI芯片组的软、硬件的公司,AI芯片组产品包括：中央处理器,图像处理器,神经网络处理器,专用集成电路,现场可编程门数组,精简指令集计算器(RISC)处理器,加速器;还有一些芯片组针对边缘处理或设备、一些针对云计算中使用的服务器、以及一些针对机器视觉和自动车辆平台。
这份榜单的详细排名如下：
1、NVIDIA英伟达
2、Intel英特尔
3、IBM
4、Google
5、苹果
6、AMD
7、ARM
8、高通
9、三星
10、NXP恩智浦
11、Broadcom博通
12、华为
13、Synopsys
14、MediaTek联发科
15、Imagination
16、Marvell
17、Xilinx
18、CEVA
19、Cadence
20、Rockchip
21、Verisilcon
22、General Vision
23、Cambricon
24、Horizon Robotics
据国外媒体报道,华尔街日报周五援引知情人士的话称,上层支持的中国集成电路投资基金正在为中国半导体产业的发展筹集约3000亿元人民币（合474亿美元）的新基金。
该杂志援引一位消息人士的话说,这笔资金将用于提高中国设计和制造先进微处理器和图形处理单元等能力。
上周,中国工业和信息化部新闻发言人兼总工程师陈因表示,该基金欢迎外商投资。
昨天晚些时候,大唐电信科技股份有限公司对外正式发出公告,他们将与高通、建广等设立合资公司的方案,已经被批准通过。
2017年5月,ST大唐董事会批准,同意公司全资子公司联芯科技有限公司以下属全资子公司全部股权作为出资,参与设立中外合资企业瓴盛科技（贵州）有限公司。
对于这次的合作,高通主要提供技术,而他们也希望接着这个合作,能够成功抢下中低端处理器市场,这之前可是联发科、展讯的主要发力范围。
对此,大唐电信副总裁、联芯科技总经理钱国良曾对外表示,此次多方资源整合成立合资公司,将融合高通和联芯双方的先进技术,依托双方市场客户资源与本地化的技术服务能力,聚焦移动通信应用。合资公司初期计划定位在中低端领域,主攻100美元左右的全球化市场。
另外,联发科昨日晚间对凤凰网科技确认,目前公司已经获得了与中兴通讯开展业务的出口许可,其对中兴通讯的出货没有进一步限制,现在双方的业务往来如常。
以下是中兴通讯内部信主要内容：《坚定信心力争更短时间解决问题》
在4月16日获悉美国对公司激活拒绝令后,作为在中国成长起来的全球化企业,公司始终与国家战略保持一致,坚持在中国政府的指导下积极行动,推进问题尽快解决。
同时,自事件发生以来,公司积极与美国政府相关部门沟通。公司已正式向BIS提交了关于暂停执行拒绝令的申请,并根据BIS指引提交了补充材料。公司不会放弃通过沟通对话解决问题的努力,也会运用一切法律允许的手段维护自身的合法权益。
公司始终把合规作为企业发展的战略基石。在获悉拒绝令的第一时间,公司下达了在激活拒绝令情况下要遵循的行为准则,严格执行EAR管控,要求全体员工牢牢守住合规底线。公司认真反思、吸取教训,加强合规内控,践行全球一流出口管制合规企业的标准。
公司一直坚持核心技术自主创新,强化研发投入。2017年研发投入居国内A股上市科技公司首位。公司一季度报告显示,在未考虑拒绝令的影响下,公司实现营业收入288.80亿元人民币,同比增长12.18%,净利润16.87亿元人民币,同比增长39.01%。
事件发生后,公司近八万名员工坚守岗位,以实际行动表达对公司的最大支持。同时,遍布全球范围的客户、合作伙伴、供应商等也以不同的方式表达对公司目前所处困境的理解和支持。这些都是我们坚定信念、尽最大努力解除危机的信心源泉。
公司将继续保持与各方紧密沟通,尽最大努力在更短时间内解决问题。
路再长也有终点,夜再长也有尽头,让我们坚定信心、满怀希望迎接黎明的到来！
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-05-07 08:53:00

Facebook 开源 AI 围棋源代码，击败职业棋手只需一块GPU | 数据分析网首页分类阅读行业资�

雷锋网 AI 科技评论消息：5 月 2 日,Facebook AI Research（FAIR）官网博客中宣布开源其 AI 围棋机器人 ELF OpenGo（包括源代码和一个训练好的模型） ,该机器人是基于 ELF 平台研发而成,曾击败了 4 位世界排名前 30 的围棋棋手。
据雷锋网了解,该工作主要是受启于 DeepMind 的工作。今年早些时候 FAIR 启动了该项工作,期望基于其进行强化学习研究而开发的可扩展、轻量级框架（Extensible Lightweight Framework,ELF）再现 AlphaGo Zero 最近的结果。其目的则是创建一个开源实现的系统,该系统能够自学围棋进而达到人类职业棋手的水平或更高水平；同时他们也希望通过发布的代码和模型,激励更多的人去思考这项技术新的应用和研究方向。
据这个项目的负责人田渊栋介绍,他们用了两千块 GPU 训练该模型,约两到三周后得到当前版本的围棋 AI模型,该模型基本上超过了强职业棋手的水平。ELF OpenGo 在与世界排名前 30 的四位职业围棋棋手（金志锡,申真谞,朴永训及崔哲瀚）的对弈中,OpenGo 以 14：0 的成绩赢得了所有的比赛；在比赛中OpenGo使用单块 GPU 每步50秒的搜索时间（每步搜索 8 万个局面）,而人类棋手可以有任意长时间的思考。
另外,ELF OpenGo 在与目前公开可用的、最强的围棋机器人 LeelaZero 的对一种,后者采用了除ponder外的缺省配置,以及公开权重（192×15, 158603eb , Apr. 25, 2018）,结果 OpenGo 赢得了全部 200 场比赛。
田渊栋博士随后在知乎上发表的一篇感想文章中提到,OpenGo 这个项目「不是为了做最好的围棋程序,不是说要打败谁」。之所以做这个项目有三个目的： (1) AlphaGoZero/AlphaZero 算法很有意思,我们想知道为什么它有效果,是怎么会有效果的,是不是如同宣传的那样是百试百灵的通用算法,是不是只要堆机器,强人工智能马上就来了？还是说其实这个算法有什么问题和弱点？DeepMind 不开源也不透露细节,文章里面一些地方也没有写得很清楚。我之前写过 Blog 讨论过, 但是没有第一手经验总不是很踏实。所以本着研究目的,我们需要复现一下,先有复现,才有创新,这个是做研究的习惯。
(2) 今年年初我重写了 ELF 的核心代码,另外也加了分布式训练,需要找个具体应用来测试一下。站在这个角度上,AlphaGoZero/AlphaZero 是个完美的选择,再说之前也有 DarkForest 的代码和围棋程序的经验,所以把它们拼起来不用花太多力气。
(3) 不管是通用算法还是分布式平台,都可以用来干很多别的事情,不一定是围棋,不一定是游戏。如果我们去看 ELF OpenGo 的代码,会发现其实很大一部分和围棋一点关系也没有,完全适用于其它方向的工作。而围棋对我们来说,只是一个把算法和平台做好的手段。在这一点上,花点时间把围棋做好是值得的。
田渊栋博士表示,随着今天 ELF OpenGo 的发布,这三个目的都已达到。当然,他们更希望的是能够借此机会推广一下 ELF 平台和 PyTorch 深度学习框架,让更多的人使用和完善它。
代码见： https://github.com/pytorch/ELF
模型见： https://github.com/pytorch/ELF/releases
英文 blog 见： https://research.fb.com/facebook-open-sources-elf-opengo/
ELF 平台
ELF 平台是一个可扩展、轻量级且非常灵活的游戏研究平台,尤其适用于实时战略（RTS）游戏的研究,于 2016 年 6 月首次发布。
在 C++端,ELF 与 C++线程同时托管多个游戏；而在 Python 端,ELF 可以一次返回一批游戏状态,这使得其对现代的强化学习非常友好。相比之下,其他平台（例如 OpenAI Gym）则只是使用一个 Python 界面封装一个单一的游戏,这种情况使得并发游戏（许多现代的强化学习算法都有此要求）的执行就变得比较复杂。
ELF 具有以下特征：端到端： ELF 为游戏研究提供了端到端的解决方案。它提供微型实时策略游戏环境、并行模拟、直观的 API、基于 Web 的可视化,并且还具有由 Pytorch 授权的强化学习后端,资源需求最少。可扩展性：任何具有 C / C ++接口的游戏都可以通过编写一个简单的包装器插入到这个框架中。轻量级： ELF 运行速度非常快,开销很小。在一台 MacBook Pro 上,基于 RTS 引擎构建的简单游戏（MiniRTS）使用 ELF 平台,能够单核每秒运行 40K 帧；而只使用 6 块 CPU+1 块 GPU 从零开始训练 MiniRTS,也只需要六天。灵活性：环境和参与者之间的配对非常灵活。例如单个 agent 与单个环境（例如 Vanilla A3C）、多个 agent 与单个环境（Self-play/MCTS）,或者单个 agent 与多个环境（BatchA3C、GA3C）等。而且,任何构建在 RTS 引擎之上的游戏都可以完全访问其内部表示和动态。
随着这次 OpenGo 的开源,FAIR 也对 ELF 平台进行了改进,升级了更高效、更友好的 API 以及支持对数千台计算机进行分布式计算的框架。作为 PyTorch 的一部分,ELF 能够是研究人员能轻松地尝试不同的强化学习思想,并进行快速、灵活的实验。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-05-06 08:59:00

央行：要加快建立覆盖全社会的征信系统 | 数据分析网首页分类阅读行业资讯大数据统

日前,2018年人民银行征信工作会议在深圳召开。会议坚持以习近平新时代中国特色社会主义思想和党的十九大精神为指导,深入贯彻落实中央经济工作会议、全国金融工作会议和人民银行工作会议精神,总结2017年征信工作,分析当前的新形势新任务,部署2018年征信工作。人民银行党委委员、副行长陈雨露出席会议并讲话。
会议充分肯定了2017年征信工作取得的成绩。过去一年,人民银行征信系统加强我国征信业发展顶层设计,实施“政府+市场”双轮驱动征信发展模式,批设首家市场化个人征信机构,牢牢守住征信信息安全防控底线,加快推进二代征信系统建设,进一步规范信用评级市场管理,持续扩展社会信用体系建设和信用文化教育影响面,党风廉政和征信干部队伍建设取得新进展。
会议强调,2018年征信工作要坚持问题导向和目标导向相结合,紧扣经济高质量发展、社会主要矛盾转化与打赢防范化解重大风险攻坚战与征信业发展的内在联系,牢牢把握征信事业发展方向,开创征信管理履职新作为新气象。一是要持之以恒抓好征信信息风险防范工作,以零容忍态度严肃查处征信领域违法违规行为,更好维护人民群众合法权益。二是要加快建立覆盖全社会的征信系统,积极构建互联网信用体系,合理引导市场化机构规范发展。三是要更好发挥征信业“信号灯”和“安全阀”的作用,为防范化解金融风险提供有力支撑。四是要树立行为监管的理念,培育恪尽职守、敢于严管的监管文化,进一步提升征信监管效能。五是要认真贯彻落实全面从严治党要求,狠抓党风廉政和队伍建设,加强工作本领和履职能力建设。
人民银行上海总部、各分行、营业管理部、省会（首府）城市中心支行、副省级城市中心支行、各分行营业管理部分管征信工作的负责同志,人民银行征信管理局、征信中心负责同志以及有关司局代表参加了会议。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-05-03 09:00:00

工信部副部长陈肇雄：将从四方面推动大数据发展 | 数据分析网首页分类阅读行业资讯 �

北京4月23日讯 4月23日,在“ 数字中国建设峰会”的“ 大数据分论坛”上,工信部副部长陈肇雄表示,接下来将从四个方面推动大数据发展。一是推动大数据创新发展,支持前沿技术创新,加快关键产品研发；二是推动大数据融合发展,深挖融合潜力,加快工业互联网、工业大数据建设,培育数据驱动发展新模式、新业态；三是激发市场活力,鼓励建立大数据公共服务平台；四是推动大数据安全发展、强化保障能力,加强大数据安防产品开发,维护数据的可靠性。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-05-01 15:47:00

不断迭代，“大数据+人工智能+区块链+保险”，新保险生态圈渐现 | 数据分析网首页分类

2016年,保险业经历了金融科技带来的巨大变革,74%的保险业受访者将保险科技视为颠覆性因素。2017年,保险从“互联网保险”时代跨入“保险科技”时代, 大数据、人工智能、区块链不断注入保险行业,技术的不断迭代,保险产品呈现出更加智能化的态势。保险科技成为投资人追捧的一股热潮。从国内看,2017年中国保险科技行业共发生43起融资,总额达16.08亿元人民币（未包含上市企业）。
2017年12月路比车险获得华登国际投资的A+轮融资；2018年1月彩虹无线获得远毅资本、东风资产投资的B轮融资；2018年4月4日,互联网保险产品及服务提供商灵犀金融获得数亿元C轮融资。资本的不断追捧,保险科技创业公司也如雨后春笋般渐渐破土而出。
据了解,目前国内保险科技创业公司已超过200余家。
保险科技的四大模式
据了解,保险科技公司可分为以下几类：一是互联网保险公司；二是经纪人展业工具；三是场景端和第三方技术公司；四是直接服务用户的各类保险平台。
互联网保险公司
互联网保险,指实现保险信息咨询、保险计划书设计、投保、交费、核保、承保、保单信息查询、保全变更、续期交费、理赔和给付等保险全过程的网络化。
互联网保险公司中,康泰在线、众安保险、安心保险、易安保险、保险盒子、卓铭保险是代表性公司。
经纪人展业工具
保险经纪人展业是指由保险经纪人基于投保人的利益,代投保人参与保险合同的订立过程,为投保人提供服务的展业方式。保险经纪人代投保人签订保险合同,必须事前取得投保人的特别授权。由于保险经纪人的活动客观上起到了为保险公司推销保险单的作用,所以通常向保险公司收取佣金。
在经纪人展业工具中,保险师、腾保保险、宝宝网、最惠保、e家保险、超级圆桌是代表性公司。其中,保险师在2017年12月已获得新浪等投资的数千万元b轮融资。
2B平台
在2b中,有场景端和赋能保险公司两大部分。场景端里,分为场景定制和企业雇员险。场景定制的代表性公司是保准牛、悟空保、量子保,其中量子保已于2017年8月获得由昆仲资本、线性资本等投资的a轮融资；企业雇员保险的代表性公司有豆包网和保险极客。在赋能保险公司里,分为车联网技术服务、理赔管理等。车联网技术服务的代表性公司有四叶草、彩虹无线、路比车险、评驾科技,其中彩虹无线已于2018年1月获得远毅资本、东风资产投资的b轮融资；理赔管理的代表性公司有和金在线、金科玉律、栈略数据等。
2C平台
在2c平台中,分为六大部分,有综合销售平台、比价销售平台、管理型总代理、网络互助平台、保单管理、智能投保。其中,综合销售平台中,意时网、慧择网、新一站是代表性公司；在比价销售平台中,车车车险、唯数、车险无忧是代表性公司；在管理型总代理平台中,大特保、悟空保、小雨伞是代表性公司；在网络互助平台中,水滴互助、同心互助、17互助是代表性公司；在保单管理平台中,保险袋袋、豆芽金服是代表性公司；在智能投保中,蜗牛保险、全牛小保镖是代表性公司。
大数据、人工智能、区块链让保险更精准、更安全、更便利
大数据、人工智能、区块链技术已经慢慢融入保险科技这个行业,在大数据的运用上,如量子保、车车赚、七炅信息科技、天启智创、一同保大象保险等；在人工智能的运用上,如保挣科技、灵智优诺、族谱科技、普强科技等；在区块链的运用上,如海星区块链、水滴互助、小i宝、轻信科技、人人互助等。大数据、人工智能、区块链带给了保险科技新的生命。
大数据
大数据定位用户,定制新型险种
各细分领域的垂直型平台可以提供不同人群的行为数据、信用数据等相关数据,互联网保险平台通过与这些平台合作,获得大量数据,从而通过数据分析直接定制针对这些人群的保险产品,产生一个以往不曾出现过的新型定制险种。
大象保险是面向c端用户,基于云计算和大数据,提供在线保险解决方案的互联网平台；56是社保数据驱动的互联网物流保险平台,为物流行业提供基于大数据精准定价的物流保险服务。
大数据分析用户,完成对现有险种的优化
传统保险最大的问题是无法精准地触达客户,没办法清晰地抓到用户需求。大数据可以分析用户的需求,以满足用户更多、更丰富的需求。运用大数据分析用户,完成对现有险种优化的代表性公司是一同保、百分点科技。
泰康在线针对登陆泰康在线自有平台的用户进行追踪分析,一旦有用户进入,后台捕捉到该用户的行为,通过对用户行为数据的分析得到销售线索推送给坐席人员,从而对有需要帮助的用户进行更有针对性地服务。
一同保,是依托人工智能、大数据、区块链等技术,提供社保+商保+互助计划的商业模式,专注于为企业和个人提供社保服务和定制化的商业保险服务。一同保于2015年8月成立,2017年7月获得pre-a轮融资；百分点科技是大数据技术与应用服务商,其核心产品包括技术层的大数据操作系统,以及应用层的推荐引擎、分析引擎和营销引擎,百分点科技于2009年7月成立,2015年9月获得由光大集团投资的4亿元d轮融资。
人工智能
人工智能助力反保险欺诈
据FBI官网统计数据显示,全球范围内保险欺诈造成的损失达到400亿美元。人工智能算法可以有效地识别出数据中的某些模式,并形成一定的规则和框架,欺诈性案子在人工智能技术的监控下就无所遁形。此外,机器学习模型可以自动的去评估损失程度,并且基于传感器、图片、历史数据,预估维修的成本会是多少。
七炅信息科技是利用大数据车险产品服务提供商,对与车险理赔相关的纬度进行分析,并提供完整的评估方案、产品定制、营销方案和反欺诈工具,也为保险公司提供定制保费的参考依据,七炅信息科技于2017年3月获得由合力投资、华创资本投资的800万元天使轮融资。
人工智能评估并降低客户风险
人工智能技术可以对风险进行更加科学的评估,并将风险在未来降低到最小程度,减少保险企业和公司的成本。狐狸金服是互联网金融服务提供商,通过大数据、量化金融模型以及智能算法等技,为用户个性化定制收益与风险匹配投资组合产品。狐狸金服于2016年10月成立,目前尚未获投。
人工智能打造智能沟通工具
数字战略用于提升保险行业客户体验已在业界有共识。根据PWC 2020 digitial insurer报告,提升用户体验最被关注的三个方面：Accessibility可获得、Tailor to customer needs量身定制、content explanation内容阐释,而这些也都可以借用智能沟通工具获得一定程度改善。
泰康在线的智能保险机器人“TKer” 提供证件扫描服务,便于保户直接投保,还可进行人脸识别以及语音交互功能为保户提供查询保单的服务。
区块链
欺诈识别和风险防范
通过将保险索赔置于不可更改的总帐下,区块链有助于消除保险业中常见的欺诈源。据了解,在美国,保险业每年为了防范欺诈所投入的费用约为400亿美元（不包括健康险）。保险欺诈不仅使保险公司蒙受损失,还会使美国普通家庭每年多承担400-700美元的保费支出。
区块链技术能使各保险公司更好地合作对抗保险欺诈。在分布式账本上,保险公司可将交易永久记录,并通过严格控制访问权限来保证其安全性。而将索赔信息记录存储到分布式共享总账上,有助于加强各保险公司合作,识别出整个保险体系中可疑的欺诈行为。
Kasko2go是基于区块链技术的汽车保险公司,致力于反欺诈技术研究。2017年6月成立,目前未融资。
精准营销和核保
区块链即使可以将保险链条中各渠道的数据整合,用于提升保险公司核实能力,降低其被骗保的风险。同时分析的数据信息可同步帮助互联网金融和消费金融公司导流获客。小i宝是一家金融大数据公司,主要是利用大数据技术帮助企业推广营销、利用区块链技术增强保险公司核保把关能力,降低赔付率。小i宝于2017年10月成立,2017年11月获得100万元种子轮融资。
随着大数据、人工智能、区块链技术的发展,技术不断注入保险中,比如,大数据定位用户,定制新型险种；人工智能评估并降低客户风险,区块链欺诈识别和风险防范等。保险越来越朝着智能化、人性化的方向发展。资本的不断角逐,保险科技这块肥沃的土壤正在慢慢被开垦。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-04-27 11:59:00

全球首家！西班牙BBVA银行使用区块链技术发放贷款 | 数据分析网首页分类阅读行业资讯

雷锋网消息,据英国《金融时报》报道,西班牙毕尔巴鄂比斯开银行（亦称西班牙对外银行,Banco Bilbao Vizcaya Argentaria,BBVA）成为全球第一家使用区块链技术发放贷款的银行。
这家西班牙跨国银行表示,从谈判条款到签署协议,整个贷款流程都通过区块链的分布式账本技术向银行和贷款方通报了进展情况。
报道称,使用区块链技术让贷款流程“从几天缩短到几个小时”,7500万欧元的贷款就完成了。BBVA称这一过程是“分布式账本技术开发的重大进展”。
他补充说,除了与西班牙电信公司Indra完成的试点项目之外,该银行还有几笔交易正在进行中。Indra将自己形容为区块链应用的“先锋”。
Indra金融服务总监Borja Ochoa表示,区块链“注定将成为改变我们与产品和金融服务互动方式的技术之一”,该试点“巩固了BBVA和Indra在实际领域的领导地位区块链技术的应用“。
区块链被视为银行最有前途的金融科技主题之一,在支付,清算和结算,贸易融资,身份认证和贷款方面具有广泛的应用。
区块链优于现有流程的主要优势在于,它能够通过使更改和更新立即显示给所有各方来加快和简化复杂的交易。现在,一个基于区块链的单一系统的维护成本比无数系统银行用于交易的成本更低。
在贷款市场,区块链在企业和银团贷款方面的潜力高于消费者贷款,因为企业和银团贷款比较复杂,需要更广泛的人群获取记录,而不是通常涉及消费者贷款的单一借款人。
雷锋网了解到,对于其试点项目,BBVA在谈判和完成过程中使用了私链,然后在以太坊的公链上注册完成的合同。
BBVA负责企业和投资银行业务的全球融资主管Ricardo Laiseca说：“BBVA将其客户纳入项目流程中,如需求定义,开发和实施。“通过这种方式,BBVA不仅为客户提供最好的金融解决方案,而且还提供先进的技术和创新能力。”
该银行及其七十一岁的执行主席FranciscoGonzález一直热心采用新技术和商业模式,并投资了包括英国Atom Bank和德国fintech solarisBank在内的多家新企业。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2018-04-27 09:57:06

GBASE进入GARTNER DMSA魔力象限前瞻性领跑中国厂商 | 数据分析网首页分类阅读行业资讯大�

近日, Gartner发布了2018年版“分析型数据管理解决方案魔力象限”（简称DMSA）。GBase南大通用成功进入该象限,并在前瞻性方面领先阿里云与华为。
GBase进入“特定领域者”象限
分析型数据管理解决方案（DMSA）被定义为“支持和管理一个或多个文件管理系统（通常是数据库）中数据的完整软件系统。”
Gartner并没有忽视一个事实：尽管在大多数企业组织中,传统的数据仓库使用场合仍是分析工具的基础,然而,企业组织对于管理来自多个不同地方的数据越来越感兴趣。因此,DMSA应满足四大使用场合,即传统数据仓库、实时数据仓库、与上下文无关的数据仓库以及逻辑数据仓库。去年出现在象限中的EnterpriseDB与MongoDB皆因为支持场景较少的原因而在2018年出局。
在该象限中,横轴代表着前瞻性(Completeness of Vision),包括厂商或供应商提供的产品底层技术基础的能力、市场领导能力、创新能力和外部投资等等;纵轴代表着执行能力(Ability to Execute),包括产品的使用难度、市场服务的完善程度和技术支持能力、管理团队的经验和能力等。根据这两种能力的高低,划分为四个象限,从左下角到右下角顺时针分别为：特定领域者、挑战者、有远见者和领导者。
GBase位于“特定领域者”象限,在执行力方面低于华为与阿里云,在前瞻性方面则优于中国厂商。
Gartner在报告指出,GBase的优势主要体现在三个方面：
1、在中国市场取得巨大成功并在全球市场初露头角：GBase在中国大型客户市场取得了强劲的业绩,在金融和电信领域部署了PB级的数据仓库。同时,GBase在南美,非洲,东欧和北美的电信行业初露头角。
2、客户忠诚度高：GBase在客户持久性调查中得分很高。参考客户中,有超过90％的人表示他们打算在未来12个月内向GBase购买额外的许可证,甚至更多的人表示他们会向其他人推荐GBase。
3、逻辑数据仓库愿景：通过GBase UP,GBase旨在为逻辑数据仓库提供产品支持。
中国供应商的崛起
今年,共有22家厂商被选入魔力象限。其中,亚太地区入围的三家全部来自中国,包括GBase、阿里云和华为,这也是该象限首次有三家中国厂商进入。除了Micro Focus和SAP两家欧洲公司外,其余17家均为美国公司。
中国的数据库已经成功进入国际视野,这表明了以GBase等为代表的国产数据库产品成熟度、稳定性、服务支持能力、研发前瞻性等指标均已达到国际水平,并处于亚太地区领先地位。
Gartner用“中国供应商的崛起”来形容中国厂商的表现：“中国的DMSAs市场非常庞大,一些中国供应商已经取得了显著的成功,他们正在考虑开拓国际市场。”
GBase前瞻性领先
此次入选的三家中国厂商中,GBase是唯一的独立软件供应商,专注于数据库产品和大数据平台的研发、创新。GBase引领了中国厂商的前瞻性,这得益于GBase自主研发的GBase 8a MPP分析型数据库以及一系列具有鲜明特点与优势的解决方案。
GBase 8a是大数据时代成熟的分析型数据库,用于满足数据密集型行业日益增大的数据查询、数据统计、数据分析、数据挖掘和数据备份等需求,可用做数据仓库系统、BI系统和决策支持系统的承载数据库。作为一款成熟的数据库,GBase 8a MPP Cluster已经为超过200个用户部署了100+ PB上线数据量以及3000+ 个节点,成功支撑了国家人社部、海关总署、中国人民银行、中国农业银行、国家电网、中国移动等各行各业用户的核心业务系统,并得到用户的认可。
强调“自服务”的新一代商业分析平台——数据观就采用了GBase 8a MPP作为底层架构,为浦发银行、阳光保险等企业提供商业分析解决方案。数据观消除了数据分析过程中的一切技术门槛,满足业务人员脱离IT瓶颈、自助分析的需求,结合GBase 8a强大的数据处理性能,帮助企业实现全员数据驱动的愿景。
除此之外,GBase品牌在各方面都抢占“第一”：GBase 8a Cluster是国内第一款分布式并行数据库集群；GBase 8t是国内第一款与世界技术同级的国产事务型通用数据库系统；GBase BI 是国内可视化商业智能的领先产品；GBase 8d 是国内第一品牌的目录服务器；GBase 8s 是国内第一款采用硬件加密技术获得国家密码管理局资质的安全数据库；GBase 8m 是国内第一事务处理性能的数据库。而支持辑数据仓库的GBase UP融合大数据平台,可以为企业提供易配置、低门槛、全数据、超融合、开放的一站式大数据解决方案,是企业大数据落地实施的最佳平台。
本文为专栏文章,来自：数据观,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/50398.html 。

数据分析

2018-03-14 00:14:00

主成分分析方法概念和基本性质 | 数据分析网首页分类阅读行业资讯大数据统计学数�

科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。比如说,对于糖尿病、动脉硬化等疾病,其病因是多种多样的,收集的资料中包含的信息是丰富多彩的。然而,重叠的、低质量的信息越多,越不利于医生作出诊断。在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。1933年,Hotelling提出的主成分分析 (PrincipalComponent Analysis)方法正是实现这一目的的有效途径之一。
何为主成分？简而言之,主成分实际上就是由原变量X1～Xm线性组合出来的ｍ个互不相关、且未丢失任何信息的新变量,也称为综合变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。
主成分分析的基本条件与主成分的基本性质
设相关矩阵为R以及与之同阶的单位矩阵为I、原始变量的个数为ｍ,则R就是ｍ阶方阵,特征值为λ,求各特征值λi的过程就是求解下列特征方程:｜R-λI｜=0, 此方程的左边展开后实际上是一个λ的ｍ阶多项式,其解由大到小依次排列为λ1≥λ2≥…≥λm>０。主成分分析的基本条件与主成分的基本性质可概述如下:
①各主成分之间互不相关,若原变量服从正态,则各主成分之间互相独立;
②全部ｍ个主成分所反映的ｎ例样品的总信息,等于ｍ个原变量的总信息。信息量的多少,用变量的方差来度量。若将ｍ个原变量标准化后,每个变量的方差都为１,故方差之和为ｍ,此时,求得的ｍ个主成分的方差之和也为ｍ;
③各主成分的作用大小是∶Z1≥Z2≥…≥Zm;
④第ｉ个主成分的贡献率是(λi／ｍ)×100％;
⑤前P个主成分的累计贡献率是((∑Ｐi＝1λi)／ｍ)×100％。在应用时,一般取累计贡献率为70～85％或以上所对应的前P个主成分即可。在资料所含的变量个数、样品数及累计贡献率固定的前提下,P／ｍ的比值越小,则说明此资料用主成分分析越合适。
⑥r(Zi,xj)=cij,说明第i个主成分Zi与第j个标准化变量xj之间的相关系数就是表达式(3)中的系数cij;
⑦∑ｍj＝1r2(Zi,xj)＝λi,说明第ｉ个主成分Zi与ｍ个标准化变量中的每一个变量之间的相关系数的平和为由大到小排列后的第ｉ个特征值λi;
⑧∑ｍi＝1r2(Zi,xj)=１,说明ｍ个主成分分别与第ｊ个标准化变量的相关系数的平和为１,即每１个标准化变量的信息由全部主成分完全包含。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2015-11-21 01:33:00

炒股魅力：数据分析侠变身“赚钱机器” | 数据分析网首页分类阅读行业资讯大数据统

摘要：曾经有这么一群人,他们每天早上8点打开软件,调试着各种交易工具,确保每天能够正常运行。9点开盘了,静静的看着交易软件的自动买入卖出。中午吃个饭,下午继续这样的工作。晚上想一想算法模型,思考一下人生,再算一下当日的最新净值。他们是可能改变华尔街研究员的一类人,被戏称为疯狂的赚钱机器。
我们如今生活在一个数据爆炸的世界里。百度每天响应超过60亿次的搜索请求,日处理数据超过100PB,相当于6000多座中国国家图书馆的书籍信息量总和。新浪微博每天都会发布上亿条微博。在荒无人烟的郊外,暗藏着无数大公司的信息存储中心,24小时夜以继日地运转着。
克托·迈尔-舍恩伯格在《大数据时代》一书中认为,大数据的核心就是预测,即只要数据丰富到一定程度,就可预测事情发生的可能性。例如,“从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性”,或者通过一个人穿过马路的速度,预测车子何时应该减速从而让他及时穿过马路。
那么,如果把这种预测能力应用在股票投资上,又会如何？
目前,美国已经有许多对冲基金采用大数据技术进行投资,并且收获甚丰。中国的中证广发百度百发100指数基金（下称百发100）,上线四个多月以来已上涨68%。
和传统量化投资类似,大数据投资也是依靠模型,但模型里的数据变量几何倍地增加了,在原有的金融结构化数据基础上,增加了社交言论、地理信息、卫星监测等非结构化数据,并且将这些非结构化数据进行量化,从而让模型可以吸收。
由于大数据模型对成本要求极高,业内人士认为,大数据将成为共享平台化的服务,数据和技术相当于食材和锅,基金经理和分析师可以通过平台制作自己的策略。
不要小看大数据的本领,正是这项刚刚兴起的技术已经创造了无数“未卜先知”的奇迹。
2014年,百度用大数据技术预测命中了全国18卷中12卷高考作文题目,被网友称为“神预测”。百度公司人士表示,在这个大数据池中,包含互联网积累的用户数据、历年的命题数据以及教育机构对出题方向作出的判断。
在2014年巴西世界杯比赛中,Google亦通过大数据技术成功预测了16强和8强名单。
从当年英格兰报社的信鸽、费城股票交易所的信号灯到报纸电话,再到如今的互联网、云计算、大数据,前沿技术迅速在投资领域落地。在股票策略中,大数据日益崭露头角。
做股票投资策略,需要的大数据可以分为结构化数据和非结构化数据。结构化数据,简单说就是“一堆数字”,通常包括传统量化分析中常用的CPI、PMI、市值、交易量等专业信息；非结构化数据就是社交文字、地理位置、用户行为等“还没有进行量化的信息”。
量化非结构化就是用深度模型替代简单线性模型的过程,其中所涉及的技术包括自然语言处理、语音识别、图像识别等。
金融大数据平台-通联数据CEO王政表示,通联数据采用的非结构化数据可以分为三类：第一类和人相关,包括社交言论、消费、去过的地点等；第二类与物相关,如通过正在行驶的船只和货车判断物联网情况；第三类则是卫星监测的环境信息,包括汽车流、港口装载量、新的建筑开工等情况。
卫星监测信息在美国已被投入使用,2014年Google斥资5亿美元收购了卫星公司Skybox,从而可以获得实施卫星监测信息。
结构化和非结构化数据也常常相互转化。“结构化和非结构化数据可以形象理解成把所有数据装在一个篮子里,根据应用策略不同相互转化。例如,在搜索频率调查中,用户搜索就是结构化数据；在金融策略分析中,用户搜索就是非结构化数据。”百度公司人士表示。
华尔街拿着丰厚薪水的分析师们还不知道,自己的雇主已经将大量资本投向了取代自己的机器。
2014年11月23日,高盛向Kensho公司投资1500万美元,以支持该公司的大数据平台建设。该平台很像iPhone里的Siri,可以快速整合海量数据进行分析,并且回答投资者提出的各种金融问题,例如“下月有飓风,将对美国建材板块造成什么影响？”
在Kensho处理的信息中,有80%是“非结构化”数据,例如政策文件、自然事件、地理环境、科技创新等。这类信息通常是电脑和模型难以消化的。因此,Kensho的CEO Daniel Nadler认为,华尔街过去是基于20%的信息做出100%的决策。
既然说到高盛,顺便提一下,这家华尔街老牌投行如今对大数据可谓青睐有加。除了Kensho,高盛还和Fortress信贷集团在两年前投资了8000万美元给小额融资平台On Deck Capital。这家公司的核心竞争力也是大数据,它利用大数据对中小企业进行分析,从而选出值得投资的企业并以很快的速度为之提供短期贷款。
上述诸多非结构化数据,归根结底是为了获得一个信息：市场情绪。
在采访中,2013年诺贝尔经济学奖得主罗伯特席勒的观点被无数采访对象引述。可以说,大数据策略投资的创业者们无一不是席勒的信奉者。
席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中,主要参考三个变量：投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应（市场情绪）。他认为,市场本身带有主观判断因素,投资者情绪会影响投资行为,而投资行为直接影响资产价格。
然而,在大数据技术诞生之前,市场情绪始终无法进行量化。
回顾人类股票投资发展史,其实就是将影响股价的因子不断量化的过程。
上世纪70年代以前,股票投资是一种定性的分析,没有数据应用,而是一门主观的艺术。随着电脑的普及,很多人开始研究驱动股价变化的规律,把传统基本面研究方法用模型代替,市盈率、市净率的概念诞生,量化投资由此兴起。
量化投资技术的兴起也带动了一批华尔街大鳄的诞生。例如,巴克莱全球投资者（BGI）在上世纪70年代就以其超越同行的电脑模型成为全球最大的基金管理公司；进入80年代,另一家基金公司文艺复兴（Renaissance）年均回报率在扣除管理费和投资收益分成等费用后仍高达34%,堪称当时最佳的对冲基金,之后十多年该基金资产亦十分稳定。
“从主观判断到量化投资,是从艺术转为科学的过程。”王政表示,上世纪70年代以前一个基本面研究员只能关注20只到50只股票,覆盖面很有限。有了量化模型就可以覆盖所有股票,这就是一个大的飞跃。此外,随着计算机处理能力的发展,信息的用量也有一个飞跃变化。过去看三个指标就够了,现在看的指标越来越多,做出的预测越来越准确。
随着21世纪的到来,量化投资又遇到了新的瓶颈,就是同质化竞争。各家机构的量化模型越来越趋同,导致投资结果同涨同跌。“能否在看到报表数据之前,用更大的数据寻找规律？”这是大数据策略创业者们试图解决的问题。
于是,量化投资的多米诺骨牌终于触碰到了席勒理论的第三层变量——市场情绪。
计算机通过分析新闻、研究报告、社交信息、搜索行为等,借助自然语言处理方法,提取有用的信息；而借助机器学习智能分析,过去量化投资只能覆盖几十个策略,大数据投资则可以覆盖成千上万个策略。
基于互联网搜索数据和社交行为的经济预测研究,已逐渐成为一个新的学术热点,并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上,研究发现搜索数据可有效预测未来股市活跃度（以交易量指标衡量）及股价走势的变化。
海外就有学术研究指出,公司的名称或者相关关键词的搜索量,与该公司的股票交易量正相关。德国科学家Tobias Preis就进行了如此研究：Tobias利用谷歌搜索引擎和谷歌趋势（Google Trends）,以美国标普500指数的500只股票为其样本,以2004年至2010年为观察区间,发现谷歌趋势数据的公司名称搜索量和对应股票的交易量,在每周一次的时间尺度上有高度关联性。也就是说,当某个公司名称在谷歌的搜索量活动增加时,无论股票的价格是上涨或者下跌,股票成交量与搜索量增加；反之亦然,搜索量下降,股票成交量下降。以标普500指数的样本股为基础,依据上述策略构建的模拟投资组合在六年的时间内获得了高达329%的累计收益。
在美国市场上,还有多家私募对冲基金利用Twitter和Facebook的社交数据作为反映投资者情绪和市场趋势的因子,构建对冲投资策略。利用互联网大数据进行投资策略和工具的开发已经成为世界金融投资领域的新热点。
保罗·霍丁管理的对冲基金Derwent成立于2011年5月,注册在开曼群岛,初始规模约为4000万美元, 2013年投资收益高达23.77%。该基金的投资标的包括流动性较好的股票及股票指数产品。
通联数据董事长肖风在《投资革命》中写道,Derwent的投资策略是通过实时跟踪Twitter用户的情绪,以此感知市场参与者的“贪婪与恐惧”,从而判断市场涨跌来获利。
在Derwent的网页上可以看到这样一句话：“用实时的社交媒体解码暗藏的交易机会。”保罗·霍丁在基金宣传册中表示：“多年以来,投资者已经普遍接受一种观点,即恐惧和贪婪是金融市场的驱动力。但是以前人们没有技术或数据来对人类情感进行量化。这是第四维。Derwent就是要通过即时关注Twitter中的公众情绪,指导投资。”
另一家位于美国加州的对冲基金MarketPsych与汤普森·路透合作提供了分布在119个国家不低于18864项独立指数,比如每分钟更新的心情状态（包括乐观、忧郁、快乐、害怕、生气,甚至还包括创新、诉讼及冲突情况等）,而这些指数都是通过分析Twitter的数据文本,作为股市投资的信号。
此类基金还在不断涌现。金融危机后,几个台湾年轻人在波士顿组建了一家名为FlyBerry的对冲基金,口号是“Modeling the World（把世界建模）”。它的投资理念全部依托大数据技术,通过监测市场舆论和行为,对投资做出秒速判断。
关于社交媒体信息的量化应用,在股票投资之外的领域也很常见：Twitter自己也十分注重信息的开发挖掘,它与DataSift和Gnip两家公司达成了一项出售数据访问权限的协议,销售人们的想法、情绪和沟通数据,从而作为顾客的反馈意见汇总后对商业营销活动的效果进行判断。从事类似工作的公司还有DMetics,它通过对人们的购物行为进行分析,寻找影响消费者最终选择的细微原因。
回到股票世界,利用社交媒体信息做投资的公司还有StockTwits。打开这家网站,首先映入眼帘的宣传语是“看看投资者和交易员此刻正如何讨论你的股票”。正如其名,这家网站相当于“股票界的Twitter”,主要面向分析师、媒体和投资者。它通过机器和人工相结合的手段,将关于股票和市场的信息整理为140字以内的短消息供用户参考。
此外,StockTwits还整合了社交功能,并作为插件可以嵌入Twitter、Facebook和LinkedIn等主要社交平台,让人们可以轻易分享投资信息。
另一家公司Market Prophit也很有趣。这家网站的宣传语是“从社交媒体噪音中提炼市场信号”。和StockTwits相比,Market Prophit更加注重大数据的应用。它采用了先进的语义分析法,可以将Twitter里的金融对话量化为“-1（极度看空）”到“1（极度看多）”之间的投资建议。网站还根据语义量化,每天公布前十名和后十名的股票热度榜单。网站还设计了“热度地图”功能,根据投资者情绪和意见,按照不同板块,将板块内的个股按照颜色深浅进行标注,谁涨谁跌一目了然。
尽管大数据策略投资在美国貌似炙手可热,但事实上,其应用尚仅限于中小型对冲基金和创业平台公司。大数据策略投资第一次被大规模应用,应归于中国的百发100。
百度金融中心相关负责人表示,与欧美等成熟资本市场主要由理性机构投资者构成相比,东亚尤其是中国的股票类证券投资市场仍以散户为主,因此市场受投资者情绪和宏观政策性因素影响很大。而个人投资者行为可以更多地反映在互联网用户行为大数据上,从而为有效地预测市场情绪和趋势提供了可能。这也就是中国国内公募基金在应用互联网大数据投资方面比海外市场并不落后、甚至领先的原因。
百发100指数由百度、中证指数公司、广发基金联合研发推出,于2014年7月8日正式对市场发布,实盘运行以来一路上涨,涨幅超过60%。跟踪该指数的指数基金规模上限为30亿份,2014年9月17日正式获批,10月20日发行时一度创下26小时疯卖18亿份的“神话”。
外界都知道百发100是依托大数据的指数基金,但其背后的细节鲜为人知。
百发100数据层面的分析分为两个层面,即数据工厂的数据归集和数据处理系统的数据分析。其中数据工厂负责大数据的收集分析,例如将来源于互联网的非结构化数据进行指标化、产品化等数据量化过程；数据处理系统,可以在数据工厂递交的大数据中寻找相互统计关联,提取有效信息,最终应用于策略投资。
“其实百发100是在传统量化投资技术上融合了基于互联网大数据的市场走势和投资情绪判断。”业内人士概括道。
和传统量化投资类似,百发100对样本股的甄选要考虑财务因子、基本面因子和动量因子,包括净资产收益率（ROE）、资产收益率（ROA）、每股收益增长率（EPS）、流动负债比率、企业价值倍数（EV/EBITDA）、净利润同比增长率、股权集中度、自由流通市值以及最近一个月的个股价格收益率和波动率等。
此外,市场走势和投资情绪是在传统量化策略基础上的创新产物,也是百发100的核心竞争力。接近百度的人士称,市场情绪因子对百发100基金起决定性作用。
百度金融中心相关负责人是罗伯特席勒观点的支持者。他认为,投资者行为和情绪对资产价格、市场走势有着巨大的影响。因此“通过互联网用户行为大数据反映的投资市场情绪、宏观经济预期和走势,成为百发100指数模型引入大数据因子的重点”。
传统量化投资主要着眼点在于对专业化金融市场基本面和交易数据的应用。但在百度金融中心相关业务负责人看来,无论是来源于专业金融市场的结构化数据,还是来源于互联网的非结构化数据,都是可以利用的数据资源。因此,前文所述的市场情绪数据,包括来源于互联网的用户行为、搜索量、市场舆情、宏观基本面预期等等,都被百度“变废为宝”,从而通过互联网找到投资者参与特征,选出投资者关注度较高的股票。
“与同期沪深300指数的表现相较,百发100更能在股票市场振荡时期、行业轮动剧烈时期、基本面不明朗时期抓住市场热点、了解投资者情绪、抗击投资波动风险。”百度金融中心相关负责人表示。
百发100选取的100只样本股更换频率是一个月,调整时间为每月第三周的周五。
业内人士指出,百发100指数的月收益率与中证100、沪深300、中证500的相关性依次提升,说明其投资风格偏向中小盘。
但事实并非如此。从样本股的构成来说,以某一期样本股为例,样本股总市值6700亿元,占A股市值4.7%。样本股的构成上,中小板21只,创业板4只,其余75只样本股均为大盘股。由此可见,百发100还是偏向大盘为主、反映主流市场走势。
样本股每个月的改变比例都不同,最极端的时候曾经有60%进行了换仓。用大数据预测热点变化,市场热点往往更迭很快；但同时也要考虑交易成本。两方面考虑,百度最后测算认为一个月换一次仓位为最佳。
样本股对百发100而言是核心机密——据说“全世界只有基金经理和指数编制机构负责人两个人知道”——都是由机器决定后,基金经理分配给不同的交易员建仓买入。基金经理也没有改变样本股的权利。
展望未来,百度金融中心相关负责人踌躇满志,“百发100指数及基金的推出,只是我们的开端和尝试,未来将形成多样化、系列投资产品。”
除了百发100,目前市场上打着大数据旗帜的基金还有2014年9月推出的南方-新浪I100和I300指数基金。
南方-新浪I100和I300是由南方基金、新浪财经和深圳证券信息公司三方联合编制的。和百发100类似,也是按照财务因子和市场情绪因子进行模型打分,按照分值将前100和前300名股票构成样本股。推出至今,这两个指数基金分别上涨了10%左右。
正如百发100的市场情绪因子来自百度,南方-新浪I100和I300的市场情绪因子全部来自新浪平台。其中包括用户在新浪财经对行情的访问热度、对股票的搜索热度；用户在新浪财经对股票相关新闻的浏览热度；股票相关微博的多空分析数据等。
此外,阿里巴巴旗下的天弘基金也有意在大数据策略上做文章。据了解,天弘基金将和阿里巴巴合作,推出大数据基金产品,最早将于2015年初问世。
天弘基金机构产品部总经理刘燕曾对媒体表示,“在传统的调研上,大数据将贡献于基础资产的研究,而以往过度依赖线下研究报告。大数据将视野拓展至了线上的数据分析 ,给基金经理选股带来新的逻辑。”
在BAT三巨头中,腾讯其实是最早推出指数基金的。腾讯与中证指数公司、济安金信公司合作开发的“中证腾安价值100指数”早在2013年5月就发布了,号称是国内第一家由互联网媒体与专业机构编制发布的A股指数。不过,业内人士表示,有关指数并没有真正应用大数据技术。虽然腾讯旗下的微信是目前最热的社交平台,蕴藏了大量的社交数据,但腾讯未来怎么开发,目前还并不清晰。
中欧商学院副教授陈威如在其《平台战略》一书中提到,21世纪将成为一道分水岭,人类商业行为将全面普及平台模式,大数据金融也不例外。
然而,由于大数据模型对成本要求极高,就好比不可能每家公司都搭建自己的云计算系统一样,让每家机构自己建设大数据模型,从数据来源和处理技术方面看都是不现实的。业内人士认为,大数据未来必将成为平台化的服务。
目前,阿里、百度等企业都表示下一步方向是平台化。
蚂蚁金服所致力搭建的平台,一方面包括招财宝一类的金融产品平台,另一方面包括云计算、大数据服务平台。蚂蚁金服人士说,“我们很清楚自己的优势不是金融,而是包括电商、云计算、大数据等技术。蚂蚁金服希望用这些技术搭建一个基础平台,把这些能力开放出去,供金融机构使用。”
百度亦是如此。接近百度的人士称,未来是否向平台化发展,目前还在讨论中,但可以确定的是,“百度不是金融机构,目的不是发产品,百发100的意义在于打造影响力,而非经济效益。”
当BAT还在摸索前行时,已有嗅觉灵敏者抢占了先机,那就是通联数据。
通联数据股份公司（DataYes）由曾任博时基金副董事长肖风带队创建、万向集团投资成立,总部位于上海,公司愿景是“让投资更容易,用金融服务云平台提升投资管理效率和投研能力”。该平台7月上线公测,目前已拥有130多家机构客户,逾万名个人投资者。
通联数据目前有四个主要平台,分别是通联智能投资研究平台、通联金融大数据服务平台、通联多资产投资管理平台和金融移动办公平台。
通联智能投资研究平台包括雅典娜-智能事件研究、策略研究、智能研报三款产品,可以对基于自然语言的智能事件进行策略分析,实时跟踪市场热点,捕捉市场情绪。可以说,和百发100类似,其核心技术在于将互联网非结构化数据的量化使用。
通联金融大数据服务平台更侧重于专业金融数据的分析整理。它可以提供公司基本面数据、国内外主要证券、期货交易所的行情数据、公司公告数据、公关经济、行业动态的结构化数据、金融新闻和舆情的非结构化数据等。
假如将上述两个平台比作“收割机”,通联多资产投资管理平台就是“厨房”。在这个“厨房”里,可以进行全球跨资产的投资组合管理方案、订单管理方案、资产证券化定价分析方案等。
通联数据可以按照主题热点或者自定义关键字进行分析,构建知识图谱,将相关的新闻和股票提取做成简洁的分析框架。例如用户对特斯拉感兴趣,就可以通过主题热点看到和特斯拉相关的公司,并判断这个概念是否值得投资。“过去这个搜集过程要花费几天时间,现在只需要几分钟就可以完成。”王政表示。
“通联数据就好比一家餐馆,我们把所有原料搜集来、清洗好、准备好,同时准备了一个锅,也就是大数据存储平台。研究员和基金经理像厨师一样,用原料、工具去‘烹制’自己的策略。”王政形容道。
大数据在平台上扮演的角色,就是寻找关联关系。人类总是习惯首先构建因果关系,继而去倒推和佐证。机器学习则不然,它可以在海量数据中查获超越人类想象的关联关系。正如维克托`迈尔-舍恩伯格在《大数据时代》中所提到的,社会需要放弃它对因果关系的渴求,而仅需关注相互关系。
例如,美国超市沃尔玛通过大数据分析,发现飓风用品和蛋挞摆在一起可以提高销量,并由此创造了颇大的经济效益。如果没有大数据技术,谁能将这毫无关联的两件商品联系在一起？
通联数据通过机器学习,也能找到传统量化策略无法发现的市场联系。其中包括各家公司之间的资本关系、产品关系、竞争关系、上下游关系,也包括人与人之间的关系,例如管理团队和其他公司有没有关联,是否牵扯合作等。
未来量化研究员是否将成为一个被淘汰的职业？目前研究员的主要工作就是收集整理数据,变成投资决策,而之后这个工作将更多由机器完成。
“当初医疗科技发展时,人们也认为医生会被淘汰,但其实并不会。同理,研究员也会一直存在,但他们会更注重深入分析和调研,初级的数据搜集可以交给机器完成。”王政表示。
但当未来大数据平台并广泛应用后,是否会迅速挤压套利空间？这也是一个问题。
本文为专栏文章,来自：数据分析侠,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/4857.html 。

数据分析

2015-12-19 23:24:00

4个小例子告诉你：如何成为一名数据极客 | 数据分析网首页分类阅读行业资讯大数据 �

对于数据岗位的员工,互联网公司颇有些不同的称谓,像统计工程师、大数据工程师、数据分析师、算法工程师、数据科学家等,每一种之间的技能差距简直是风马牛不相及。但我觉得,数据岗位的需求千变万化,真正能通过数据解决问题的人,不仅要通晓两到三种岗位的技能,而且要深刻理解数据方法论,能将数据玩弄于鼓掌之中,这种人我称之为数据极客。好比武侠小说中的绝顶高手,杀人已不需要用剑,剑意就能杀人于无形。数据极客都需要具备哪些能力？懂数据的人会怎么去思考和解决问题？我想举我自身遇到的4个小例子来说明。
懂得创造数据
在大部分人的常识里,数据是客观存在的,既不会递增,也不会消减。所有当他们绘制报表、展开分析、构建模型时,很容易遭遇的瓶颈是没有数据 ,俗话说,巧妇难为无米之炊。真实的状况却是：数据是无穷无尽的,哪怕有时我们与数据之间的距离很远,就像远在天边的繁星,「手可摘星辰」只是一个传说,但经过大气层的折射我们却能时刻感受到它们的光辉。不仅光会折射,数据同样也会折射。举一个小例子：实习生Q跑来问我：「Boss赶着要大厅发言的数据去对付投资人,但是后台碍于发言的数据量级太大,一直都没有保存,无论数据库还是日志系统都没有记录。」
我想了一下,问：「客户端进入大厅页面的事件一直都有监控,可以用那个数据替代吗？」
「但是这个数据并不精确,因为进入大厅的并不完全转化为发言。」
「是的,虽然不十分精确,但可以暂时用这个数据近似。然后,好友添加的数据一定程度也能反映大厅发言的热度,因为之前的统计显示,70%的好友关系产生来自于大厅。哦,对了,你有没有关注大厅界面的发送按钮的事件统计？这会是一个更为精确的替代数据。」
这就是一个数据有无到有被创造出来的例子。虽然原始数据没有保存,但是数据极客的任务就是通过其他可能被获取的数据逼近原始数据,从而还原一个较为真实的状况。如果没有数据能够成为一个罢工的借口,那么我相信恐怕90%的数据极客都得失业了。但反过来,如果不是对业务对数据的采集都了如指掌,同样没办法快速实现这种变数据的戏法。
数据是立体的
20世纪初,毕加索兴起了立体主义的绘画潮流,追求以许多组合的碎片形态去描写对象物,并将其置于同一个画面之中,物体的各个角度交错叠放创造出了一个多维的迷人空间。这和理想的数据展示多么相似：客观存在的问题经过多维度的数据解读,被展现在一个二维的平面上,让读者即便只站在一个角度,也能看到这个问题在所有角度上的表现。再举一个小例子（是的,这个例子完全与数据岗位无关,是一个来自客户端工程师的困扰）： W是U公司负责海外业务的安卓工程师,最近盯的是视频播放的项目,有次闲聊的时候说起,最近做了好几个底层库的性能优化,但从指标上看却没有明显提升,每次向老大汇报的时候总是心虚。
「性能优化的指标是怎么统计的？」
「海外业务的网络状况普遍不好,所以我们最关注的是视频页面的加载时间,统计的是从页面打开到视频完全加载的时间差,取所有用户的均值。」
「这个指标似乎不那么全面,如果一个用户等待的时间过长,他有可能提前关闭页面,是否有统计过关闭页面的数据？还有,看过这个时间差的分布状况么？如果性能优化有针对一些特殊的客户端（比如型号、CPU、内存）,有没有看过特殊客户端下的指标有没有提升？」
我默想W的下次汇报一定会大肆耀武扬威一番,嘿嘿。
这就是数据的魔力所在。通过层层剖析,始终能找到与问题相关的有区分度的数据,再通过数据的变化去定位到问题的发生原因或者发展趋势,给出不容置疑的结论。所以,在解决任何问题之前（也不限于数据岗位）,你都必须先构建起一套立体化的数据监控体系,来强有力的印证你的方案是有效的。
厌恶抽样
无论是做推荐系统、精准营销还是反欺诈,都会遇到一个现实的问题：如何检测一个模型的实际效果？在观察指标之余,抽取一小部分的标记用户,观察他们的行为模式,人为去验证这个模型的准确率,是一个必要的环节。但是抽样如果用得泛滥了,就不是补药而是毒药了。再举个小例子： G是团队的新人,有阵子我看他没日没夜的加班,忍不住过问了几句,看是不是最近业务上碰到了什么瓶颈。一问下来有点啼笑皆非：原来G正在负责一个反欺诈模型的建设,需要一些黑标签,他从所有用户中抽取了好几个特征用户群,然后从每个用户群中再抽样一批用户,通过日志观察是否有欺诈行为,这么一来就耗掉了两天的时间。
抽样是一种从局部看整体的方法,在抽样之上,你还要有对整体的把控。比如像G的做法就不符合数据极客的行为指南,既然可以通过日志观察到用户的行为特征,你就应该先把这种行为特征转化为可用的统计指标（比如识别欺诈,完全可以用收益相关的指标）,再计算这几个用户群的均值特征,这样对比下来一目了然,而且省时省力。
善用工具
感谢谷歌创造了这个时代最廉价的数据核武器 – Hadoop（当然,如果Spark的bug再少一些,我会考虑把AMPLab放到谷歌的前面）,数据的规模对大部分企业而言已经是一个无需顾虑的问题。但是数据极客不会满足于会用工具的层次,理解工具的原理,灵活的使用工具,使工具变得更加顺手,才能真正达到「善」用工具的境界。再举一个小例子： Z博士刚毕业不久,一腔热血要把高大上的机器学习算法用到我们的推荐系统上,但是第一次的运算结果居然要8个小时才能跑完,远远达不到产品团队的更新要求。于是老大鼓动我去协助Z提升整个环节的效率,我们一起在白板上梳理了整个计算的流程,我发现有好几处都是浪费资源降低效率的做法：原始数据由单机做一次处理再上传到Hadoop、多个MapReduce其实可以合并为一个、甚至Hadoop的参数也可以根据机器的性能稍做调整：加大节点数、加大Map和Reduce环节的可用内存、添加压缩以减少节点间传输的时间。稍作改造,运算时间便只剩下了原来的四分之一。
说到这里,你也许会觉得数据极客也没什么巧妙,他们的方法论,和一切工作的方法论没什么不同,都会要多用脑子、多用工具、多种角度看待问题。既然如此,我可要恭喜你,你已经完全懂得了数据的妙用,而我一直以为,懂点数据,会对人的工作和生活大有助益。来源：微信公众号码农咖啡馆(微信ID：codingcoffee) 本文已获得作者授权
链接：http://guoze.me/2015/12/12/data-geek/
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

数据分析

2015-12-12 12:12:00

冷静看待人工智能，企业如何从人工智能产业中受益？ | 数据分析网首页分类阅读行业�

王煜全在得到《全球创新260讲》中连续多期谈人工智能 ,笔者也很感兴趣,特将其要点及自己的体会整合成一篇文章,一共六个观点,希望于你有益。
1、人工智能风口已过
一说人工智能,你肯定会说了,人工智能时未来的巨大的风口,这还用你说呀？
但如果连杨澜都说了,而且还出了本《人工智能真的来了》的书,那我想跟你说的恰恰是连杨澜都说了的科技领域,还能是风口吗？
这里没有鄙视的意思,而是为了说明人工智能创业期已经过了,现在进入了应用期,企业应该走上舞台。
2、人工智能的三个特点
第一：计算能力逐渐不再是优势
过去,当你要提供人工智能能力,最起码要有很强大的财力支持,因为你要买很多 GPU ,搭建一个GPU计算平台,但是,现在全球的这些大的IT企业,依托于云计算,纷纷把自己的计算能力放到网上,而且开放出来,只要你能够接入互联网,就能享受到谷歌、Facebook等这样的公司提供的最强大的计算能力IDE支持。
这是王煜全的观点,我觉得还是要打个问号？
传统的大型企业是否有必要搞一套针对人工智能的基础设施,的确是值得思考的问题,但在数据安全性等系列问题没解决之前,很难有哪个企业愿意把自己的数据放到外部平台,在相当长的时间内,人工智能的计算能力对很多企业仍会是个瓶颈。
第二：自主研究算法不再有必要
本来人工智能算法就是开源的,而且随着它的迅速的扩散,变得越来越开源,越来越通用,比如说,谷歌就开源了自己的人工智能开发系统,叫tensorflow,这样就造成很多不懂人工智能算法的人,也可以调用人工智能的复杂的处理方法去做人工智能的开发。这个和我们以前说的互联网一样,大量的原来需要有专业技能才能实现的开发,这个门槛降得越来越低,可以被越来越多的普通人所掌握。
这一轮人工智能很重要的特点,就是几乎所有的IT巨头,都纷纷全力参与,而且策略都差不多,都把重兵投入到人工智能开放平台的开发建设,无论是百度的大脑深度学习平台,还是腾讯开放平台提供的7项AI服务,或是科大讯飞的语音云,如果你有应用机会,千万别费劲做谷歌这种平台搭建的事儿,也别费劲做DeepMind这种底层技术开发的事儿,直接使用它们的成果做你的应用开发就好了。
第三：数据成为差异化竞争力
最后一项,始终还是个门槛,就是数据,当算法和算力都不再是门槛,唯有数据是门槛的时候,有数据的人才有竞争优势,而懂人工智能却没有数据的人,就不再有竞争优势了,这能解释诸如李飞飞、吴恩达到企业的原因。
有数据的企业需要用更开放的心态成就有人工智能梦想的各类企业或个人,这是很大的数据变现机会。
3、人工智能不存在需不需要的问题
人工智能将逐步像基础IT那么成为企业的标配,你不掌握,你的竞争对手掌握,你就有劣势了,所以,不是因为要取得竞争优势而掌握人工智能,而是因为不要被人家落下,不要被竞争对手超越,你也被迫要掌握人工智能,这个理念跟以前把人工智能当奢侈品的态度完全不同。
那么,现在要不要投入？
这一点其实很有争议,笔者以前也是会左右摇摆,但有一点是肯定的,人工智能不像传统IT基础设施那样简单的可以买到,特别需要末雨绸缪,对于有数据的企业尤其如此。
4、人工智能的使用不是所见即所得
人工智能的使用方法确实和传统的IT的使用不太一样,传统的IT很简单,买来用就好,相当于你买一个电脑回家使用就好,但是,人工智能现在确实也能够你买来就使用,但是买来就用的效果不是最佳的。
因为,我们说现在人工智能的原理不是传统的IT原理,以前IT,只要有明确的操作方法就可以一步步搞定了,但人工智能不一样,它是一个黑盒子,你无法明确定义一步步的操作,而是需要定义明确的好坏标准,然后让人工智能自我迭代训练,只要你的好坏判断足够好,经过一段时间,人工智能就能发挥价值。
所以,你要看看你的行业领域里面是否有足够的数据,这个数据操作以后是否有人能够做出明确的好坏判断,而且,是否有大量的重复劳动,如果有,那就是人工智能发挥的好场所。
这的确是当前很多企业搞人工智能面临的困境,一是没有数据,二是没有可用的场景,三是很难给出验证标准,李飞飞搞了个有标识的图片库,就是为了创造一个验证库。
5、人工智能呼唤产业革命的崛起
人工智能首先是场科技革命,这一轮的突破由于很多人30多年的持续贡献,以AlphaGo为代表的深度学习经过各方面的调整,基本达到了它的最优输出,具备了使用的条件,这一轮的人工智能革命已经基本成熟。
但要知道,一个伟大的科技突破刚刚出现的时候,它的表现并不令人满意,除了大家难以接受以外,往往自己也有很多改进之处,比如说,我们熟知的瓦特其实并不是蒸汽机的发明人,而是那个使得蒸汽机能够达到大规模运用水平的改进者。
我们把这样的科技革命和应用成熟的关系,比作坦克和闪电战,坦克是英国人发明的,而把坦克的能力发挥到淋漓尽致的闪电战打法却是德国人发明的,在科技领域,我们往往会重视发明家,而忽略了发明闪电战的战略家,他们往往是把科学革命的价值真正实现出来,也就是真正造福社会,推动了社会进步的人,他们多半是企业家,这就是为什么我们常说 “掌握先进科技的企业家才是这个社会的最先进生产力”。
所以,不用瞻前顾后,就像《IT不再重要》这本书里面的观点,互联网来了以后,每个公司早晚都要用,早用了还有点优势,不用去讨论未来如何,关键是你现在能不能把人工智能用到自己的领域里。
什么,你说企业没场景,的确,大家都说没场景,但从无到有才显英雄本色,科技的红利没那么容易抓。
6、开发人工智能应用的方向选择
前面说了,根据人工智能的特点,选择的应用要求一是在某个领域有沉淀的数据,而且这个数据具有专有性,能够形成壁垒,二是有明确的判断结果好坏的方法,诸如图像识别都有明确的清晰的客观的结果,这个时候你不需要专门的行业专家,但如果你的领域没有清晰的客观标准,你就要问自己是否有这个领域的专家参与,帮你来确定结果的好坏,帮你来训练。
其实这个特性跟机器学习等没有区别,诸如运营商等具有明显行业特性企业的人工智能,无论在市场、网络、政企、客服哪个方面,大多是需要企业的专家深度参与才能建立起自己独特的人工智能,未来人工智能的应用壁垒一定就是行业数据+行业知识。
这里特别提到了一些结果明确的人工智能的应用方向,包括医学影像、商品推荐、广告服务、金融投资、法律文档等,当然,很多时候还取决于我们能不能为人工智能找到更多的应用空间,这依赖于企业的创新力,这儿有个案例：
日本有这样一个人,它是汽车嵌入式系统的设计师,它父母在经营一个黄瓜农场,外行人不知道,种黄瓜最困难的其实不是种植和采收,因为这些工作相对来说都标准化了,最困难的是黄瓜的分拣,就是黄瓜熟了以后大小不一,成熟度不一,如何把它们按等级分拣出来,这个以前都需要靠人工,耗时耗力,而且成本比较大,在黄瓜收获的旺季里,他的母亲每天要花费超过8小时来进行黄瓜的分拣工作。
所以,这位汽车嵌入式系统的设计师就基于TF系统开发了一个基于视觉识别的人工智能系统,具体地说,就是给不同的黄瓜牌照,让人工智能学习长成什么样的黄瓜应该分到哪一级,然后再流水线上做自动分拣,大大提升了分拣的效率,让父母能够轻松的经营农场。
团队曾经将地铁用户识别的问题转化为一个图像识别问题,虽然准确率有限,也算是利用人工智能工具的有益探索,原来笔者对人工智能在传统行业能否落地打着大大的问号,但现在觉得还是要去探索实践,不尝试根本不知道怎么玩。
王煜全说得更直白,人工智能是个几乎万能的工具,关键是你能不能熟悉运用它的技巧,为它找到在你的领域里的运用空间。
本文为专栏文章,来自：傅一平,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接：https://www.afenxi.com/56012.html 。

数据分析

2018-04-24 23:05:00

<上一页 1 2 3 4 5 6 7 8 9 下一页 >

咨询电话(周一至周五9：00-18：00)