数据专栏

智能大数据搬运工,你想要的我们都有

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

随着 大数据 和 人工智能 的广泛应用,这些新兴技术的庞大影响力遍及全球经济,如今的投资者和企业家们迫切希望在2018年取得这些创新成果,正在开始确定将要定义这些技术创新的主要趋势。
那么,当今的 人工智能 和 大数据 热潮背后的推动力究竟是什么呢?
渴望投资于这一现象的投资者能做出什么样的准备呢?
事实证明,到目前为止,界定人工智能革命的许多力量仍然在起作用,并将继续定义人工智能在2018年如何影响市场。
通过了解和熟悉这五大新兴趋势,企业和业界人士将在新的一年即将到来之际,充分利用和发挥大数据和基于人工智能的解决方案的作用。
1、更多关注零售 在最近的大数据和人工智能的应用热潮中,几乎没有哪个领域像人工智能这样可以让企业受益。
无论是沃尔玛还是当地的母婴店,各地的企业似乎都在利用这些技术来降低管理费用,同时扩大业务范围。
例如,客服人员可能会被人工智能助理彻底取代,但更重要的是,零售商可以通过人工智能跟踪他们的库存,而消费者的兴趣很快就会发生革命性的变化。
随着越来越多的零售商将大数据和人工智能应用到他们的商业模式中,预计这个行业现在可以利用人力和机器的力量来获得更多的利润。此外,由于更多的企业加入并将其应用于自己的业务中,人工智能可能会继续得到更多的投资。
2、暗数据的新纪元 随着大数据的增长,利用暗数据获得商业成功的机会也将随之增加。所谓的暗数据就是企业正常商业活动期间搜集,处理,存储的数据。
但这些数据通常无法用于诸如分析,商业关系或者是直接变现获利等目的。对于并不熟悉人工智能和数据管理领域的许多人来说,这种数据不断被证明是有用的。
暗数据可能难以让人理解,但随着越来越多的企业投资人工智能,这些迷惑可能就会消散,并导致人们对正在进行的数据革命的热情更高。
3、人工智能和云计算的结合 随着越来越多的企业采用人工智能解决方案以应对其业务困境,其中许多公司将寻求加强其IT基础设施,并将业务转向云端。
随着大数据应用者的规模越来越大,人工智能越来越成为一种主流,随之而来的数据需求将给企业的本地服务器带来更大的负担,这意味着他们需要在别处满足他们的数据需求。
云计算非常适合帮助满足和管理这些不断增长的需求,因为内部部署的服务器和数据管理对于企业来说变得过于混乱并且成本高昂。
4、更加智能的市场营销 市场营销是利用大数据的力量革命化的关键领域之一,通过梳理大量的数据,企业能够比以往任何时候都更准确地针对特定的消费者,将广告和交易直接发送到潜在消费者的邮箱或家门口。
随着越来越多的公司试图利用自动算法来分类数据以找到潜在的客户,人工智能领域将受益于行业投资的增加。
而实时定位可以为正确使用的公司带来20%以上的销售机会,这意味着采用人工智能可以获得十分丰厚的利润。
5、聊天机器人应用越来越广泛 大数据和人工智能在全球范围内得到日益广泛的应用,在所有的创新中,很少有像聊天机器人这样的应用让消费者赞叹。
Facebook,Skype和Slack等公司都在其服务中添加了聊天机器人,他们对消费者来说非常有趣,包括法律帮助热线,技术创新让聊天机器人越来越智能。这意味着它们可以为人们解析法规,通过有效的诊断来指导患者。
如果大数据继续以目前的高速度增长,那么预计在日前使用的社交媒体平台上将会有应用更广泛的聊天机器人。
这可能比人们想像得还要快,这些由人工智能技术驱动的机器人可能会更加有效地与人们聊天,人们甚至可能无法判断是否正在与另一个人交谈。
大数据和人工智能经常受到新闻界的批评,在许多好莱坞大片中也有一些不合时宜的末日情景。然而事实是,人工智能和驱动其发展的大数据革命正在使人们的世界变得更加美好,而那些投资这些新兴技术的企业和个人现在正在为自己的业务发展而努力。
在这个世界上,几乎没有东西是确定的,但是如果有一件事是肯定的,那就是大数据和人工智能将会得到更多的应用和发展。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2017-12-15 22:45:00
摘要:
有人将 大数据时代 称为第四次工业革命。这场革命的发生可能没有任何公告,但负责跟踪、处理与阐释 大数据 的AI已经潜入了我们的生活,并且变更了我们的生活方式。想想我们的智慧车载系统,谷歌搜索,亚马逊的建议,苹果手机上的“Hi, Siri”,微软的小冰……虽然表现方式各不相同,但关键词就是三个:准!易!快!
如果这些应用到医疗保健,又该如何呢?
主文:
提起AI医疗,人们不外乎想起这些问题:AI医生们可以帮助人们预防疾病吗?可以判断我们的病情吗?甚至,AI们会在手术台上对我们进行“切割”吗?
这听起来似幻想,想起来又觉得颇为真实,毕竟电影里面展现未来的时候从来都不吝啬使用这些画面。事实上是,实验室里头每天都发生着我们看不见也想不到的变化,成功了就是真的,失败了也暂时一笑而过吧。但那些已经上市或即将上市的“医疗AI”们已经足够震撼我们。
其实,除了我们熟知的那些早早进入AI领域的超级公司们——IBM、戴尔、苹果、惠普,日立数据系统,Luminoso,Alchemy API,数字推理,Highspot,Lumiata,Sentient Technologies,Enterra,IPSoft和Next IT等等,还有很多初创企业如雨后春笋般出现在AI医疗市场当中。CB Insights去年年末绘制了一张“AI医疗图谱”,我们除了能够看到这些公司的名称,还能看到他们所致力的领域——也就是AI“医生”们现在究竟能做些什么:
病人数据与风险分析 医学影像与诊断 生活方式管理与检测 营养学 急诊室与手术 住院护理和医院管理 心理健康 药物发现 视觉辅助 可穿戴设备
抛开一些“锦上添花”的功能不说,接下来,我们将介绍一些真正能够改变我们医疗进程的AI进步。
Streams——医疗记录挖掘:
人工智能 在医疗保健中最明显的应用是数据管理。收集数据、存储数据、治理数据、最后,追踪其来源——这是革新现存医疗系统的首要步骤。医疗数据中往往能够挖掘出很多信息,可以在病患发生之前就展开预防与救治。Google下属的 人工智能 公司DeepMind就研发了一款名为 Streams 的应用程序,用来帮助医生检测患者是否患有急性肾损伤,并及时通知医生对存在发病危险的患者进行救治。这款应用将帮助护士节省每天两个小时的时间。
遗憾的是,这类应用往往面对一个挑战,即——医疗数据属于患者隐私,应当被严格保密。即使DeepMind所使用的患者数据是从英国的国民医保署(NHS)下设的信托基金会 Royal Free Trust 合作所获得的,还是受到了英国信息委员办公室的警告,称其违反了隐私保护法。
为了继续推行Streams的研发与应用,DeepMind与Royal Free Trust承诺将改变数据处理方式。
医疗 数据挖掘 类的AI应用们开发之路任重道远。
IBM Watson——设计治疗计划:
IBM的Watson推出了一个为肿瘤医生设计的专项计划,叫做“Watson for Oncology”,可以为医生提供循证治疗方案。
利用先进的数据库与数据处理能力,WFO可以分析来自于临床笔记与医学报告中的结构化数据与非结构化数据,包括病患背景、治疗意义等,为医生帮助病人选择个性化治疗途径提供至关重要的依据。此外,WFO还可以通过将患者信息与临床专业知识、外部研究数据等相结合,推出最适合患者的潜在治疗计划,为肿瘤患者尽快打开“生命通道”。
IBM还有另外一个算法,叫做“Medical Sieve“,这是一个非常具有野心的长期探索项目,想要利用分析、推理能力和广泛临床知识打造一个“认知助手”,帮助放射学和心脏病学医生快速作出临床决策。“认知健康助理”能够分析放射学图像,更快、并且更可靠地发现问题、检测问题。目标是让放射科的医生从今之后只看一眼报告,就能得出最准确的医学结论。
Babylon——在线医疗顾问:
在西方,及时就医是一个比较困难的事情。有一个段子是这样说的:Michael感冒了,预约了自己的医生。等医生有时间问诊的时候,Michael的感冒已经好了。
还有另外一个段子,结构差不多,结尾差很多:Michael发烧了,预约了自己的医生。等医生有时间问诊的时候,Michael已经发展成肺炎死掉了。
英国的在线医疗咨询及保健服务提供商Babylon今年发布了一个“AI医学顾问”app,基于个人的病史和医学知识提供就医服务。用户可以把自己的症状汇报给这个AI,然后它会利用语音识别在数据库中检索病症。再结合患者的病史以及当前情况,建议患者采取合适的行动。还会提醒患者吃药,并跟踪了解药后的反应。通过这样的解决方案,诊断病人的效率可以提升若干倍,而医生检查室前的等待时间可能会大幅下降。
Molly——世界第一个虚拟护士
有些慢性疾病的患者在两次就医之间也非常需要科学照料。Molly就是一家名为Sense.ly的初创公司研发出的AI护士,利用机器学习、医疗传感、远程医疗、语音识别、增强现实等技术,可以为慢性病患者在就医之间提供定制化的病情监控及照料服务。哦对了,她还有一张和善的笑脸,声音也非常好听。病人应该会很喜欢得到她的照料。
另外一个类似的app叫做“AiCure”,由国立卫生研究院研发。使用患者的智能手机摄像头以及AI,可以自动确认患者是否遵医嘱服药。特别适合那些倾向于违反医生咨询意见的患者和临床试验参与者使用。
Human Longevity—— 精准医疗 :
AI的真正优势在于它的严密以及速度。这在《模仿游戏》中图灵机最终打败enigma就已经有所展现。基因作为人类的最大密码,也将受到人工智能的“破解”。
“深度基因学”旨在识别遗传信息和医疗记录中的巨大数据集里隐藏的模式,寻找突变与疾病之间的关系。他们正在发明新一代的计算技术,可以告诉医生当DNA被遗传变异改变时,细胞会发生什么改变。
同时,“人类基因组计划”创始人之一克雷格·文特(Craig Venter)正在研究一种可以根据DNA设计患者身体特征的算法。 凭借他最新的“人类长寿”企业,可以为患者提供完整的基因组测序,并配有全身扫描和非常详细的体检。 整个过程可以在早期发现癌症或血管疾病。
除了上述这些技术,还有一些AI被应用在医疗体系分析、药物研发等细分领域之中。但是,这些虽然正在“发生”,但也未必真正“发生”,如果我们不能消除对人工智能的偏见与恐惧,坚信它们会比人类大脑更强大、并且一定会产生“控制人类”的想法,那么最终我们可能会终止对AI的研究。
为了充分拥抱AI在医疗的发展,Medical Futurist(医疗未来学家)网站认为人类需要做好以下准备工作:
1、制定适用于整个医疗行业和强制性的道德标准
2、AI技术应逐步发展,给人类时间预测出其缺陷
3、医学专业人士应尽快获取关于AI在医疗环境中如何工作的基本知识,以了解这些解决方案是如何在日常工作中帮助他们的;
4、患者应尽快习惯人工智能并发现它们的好处。
5、致力于人工智能解决方案的公司(如IBM),应更多地向公众传播在医学中使用AI的潜在优势和风险。
6、医疗机构的决策者应采取一切必要措施,以衡量系统的成功和效果。推动企业提供价格实惠的AI解决方案也是至关重要的,因为这是将科幻小说中的承诺变为现实、将AI变成21世纪听诊器的唯一途径。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2017-10-27 07:00:00
Python 在数据科学领域越来越流行了。它的流行不无道理。 Python 容易学,有超强数据科学库,并且和 Hadoop 以及 Spark 等数据库和工具整合得非常好。Python 可以从头至尾完成一个数据科学项目,无论是读取数据、分析数据、 数据可视化 还是用机器学习来做预测都可以。
本文介绍如何用Python 上手数据科学。如果想要了解更多内容请访问 Dataquest , 那里有使用 Python 完成数据科学任务的深入讲解。
本文使用的是关于2016 美国总统大选政治资助的数据集(链接 在此 )。文件是 csv 格式,每行代表对一个候选人的一次捐赠。这个数据集有几列比较值得一提,比如: cand_nm – 接受捐赠的候选人姓名 contbr_nm – 捐赠人姓名 contbr_state – 捐赠人所在州 contbr_employer – 捐赠人所在公司 contbr_occupation – 捐赠人职业 contb_receipt_amount – 捐赠数额(美元) contb_receipt_dt – 收到捐款的日期
安装 Python
要分析这些数据,首先要安装 Python。利用 Anaconda 这个工具来安装 Python 是非常简单的。Anaconda 在安装 Python 的同时还会安装一些流行的 数据分析 库。点击 这里 下载 Anaconda。建议安装最新的 Python 3.5 版本。 这个链接 里介绍了一些 Python 2 与 Python 3 的对比。
Anaconda 会自动安装一些这篇文章会用到的库,包括 Jupyter 、 Pandas 、 scikit-learn 和 matplotlib 。
Jupyter 入门
都安装好之后可以启动 Jupyter notebook (原名 IPython notebook)。Jupyter notebook 是个强有力的数据分析工具。它能够帮助快速查看数据、将结果可视化以及把结果分享给他人。谷歌、IBM、微软的 数据科学家 都用它来分析数据以及组内协作。
在命令行里输入 ipython notebook 来运行 Jupyter。如果遇到问题可以去它的 官方文档 里查找答案。
启动后会出现一个可以查看文件的浏览器界面,在这个页面上可以创建新的 notebook。请创建一个叫 Python 3 的 notebook,一会儿的数据分析中会用到它。如果刚才的安装还没成功, 这篇文章 也许有帮助。
Notebook 工作区块
每个 Jupyter notebook 都包含多个区块(cell),区块可以运行代码也可以只包含文档。每个 notebook 开始时都自带一个区块,如有需要可以自行增加多个区块,比如:
In[]:
Python
1
2
3
4
# 代码区块示例。产生的输出会在下方显示。
print(10)
b = 10
In[]:
Python
1
2
3
4
# 可以建立多个区块,每个代码区块可以根据分析的需求跑任意次
# Jupyter notebook 中一个很赞的功能是每个区块跑出来的结果会被缓存起来, 这样一个区块可以利用另一个区块跑出来的结果。
print(b * 10)
如果想要了解更多关于 Jupyter 的知识请阅读作者提供的更深入的 教程 。
Pandas 入门
Pandas 是 Python 上的一个数据分析库。它能读取包括 csv 在内的不同格式的数据,分析数据也很有效。可以通过下面的代码来读取数据:
In[2]:
Python
1
2
3
import pandas as pd
donations = pd.read_csv(“political_donations.csv”)
In[3]:
1
donations.shape
Out[3]:
1
(384885, 18)
In[4]:
Python
1
donations.head(2)
Out[4]:
续上表
上面的区块用 import pandas as pd 这个语句导入了 Pandas 库,然后用 read_csv() 这个函数把 political_donations.csv 这个文件读入了变量 donations 中。变量 donations 现在就是一个 Pandas DataFrame 。Pandas DataFrame 可以被看做是加强版的矩阵,它自带数据分析函数,并且允许不同的列包含不同的数据类型。
可以通过变量 donations 的 shape 属性来打印它多少行多少列。每个区块的最后一行语句或变量都会自动显示,这个功能超赞!下一个区块用了 DataFrames 的 head() 函数打印出了变量 donations 的头两行,这样就能看里面的数据了。
如想更深入地了解 Pandas 请参阅作者提供的 课程 。
每个候选人收到的捐款总额
使用Pandas 中的 groupby() 函数能计算出每个候选人的整体统计数据。根据变量 cand_nm (候选人姓名)来把变量 donations 分成不同的子集就可以针对每个候选人分别统计数据。首先要算的是捐款总额。把候选人的 contb_receipt_amount 这一列加起来就可以得到收到的捐款总额了。
In[14]:
Python
1
donations.groupby(“cand_nm”).sum().sort(“contb_receipt_amt”)
Out[14]:
contb_receipt_amt file_num
cand_nm Pataki, George E. 365090.98 234695430
Webb, James Henry Jr. 398717.25 709419893
Lessig, Lawrence 621494.50 1378488449
Santorum, Richard J. 781401.03 822086638
Trump, Donald J. 1009730.97 2357347570
Jindal, Bobby 1013918.12 584896776
Perry, James R. (Rick) 1120362.59 925732125
Huckabee, Mike 1895549.15 2700810255
O’Malley, Martin Joseph 2921991.65 2664148850
Graham, Lindsey O. 2932402.63 3131180533
Kasich, John R. 3734242.12 2669944682
Christie, Christopher J. 3976329.13 2421473376
Paul, Rand 4376828.14 16056604577
Fiorina, Carly 4505707.06 12599637777
Walker, Scott 4654810.30 5636746962
Sanders, Bernard 9018526.00 71139864714
Rubio, Marco 10746283.24 22730139555
Carson, Benjamin S. 11746359.74 75613624360
Cruz, Rafael Edward ‘Ted’ 17008622.17 69375616591
Bush, Jeb 23243472.85 14946097673
Clinton, Hillary Rodham 61726374.09 86560202290
上面的代码首先用 donations.groupby("cand_nm") 根据 cand_nm 把 donations 分成了不同的组。这个语句返回的是 GroupBy 对象,GroupBy 类型自带一些专门用来整合数据的函数。其中就包含 sum() 函数,在这个问题中可以用来计算每组中每一列中数据的和。
Pandas 在读取数据的时候就会自动识别每一列的数据类型,在进行求和时只会针对数字类型的列来操作。这样就得到了一个包含每个候选人 contb_receipt_amt 列中所有数字之和及 file_num 列中所有数字之和的 DataFrame。最后使用 DataFrames 中的 sort() 函数将 contb_receipt_amt 的和从小到大排序。这样就得到了每个候选人收到的捐款总额。
将捐款总额可视化
Python 中最主要的可视化包就是 matplotlib ,可以用它来画图。Jupyter notebook 能够在浏览器中直接渲染 matplotlib 的图表。这个功能需要通过激活 matplotlib 的 inline 模式来开启。可以利用 Jupyter magics 中的命令来激活它就能直接在 notebook 中看图表了。
Magics 就是以 % 或者 %% 开头的、能改变 Jupyter notebook 本身的命令。它们是为了让能够通过命令行改变 Jupyter 的设置,同时尽量不与 Python 代码混淆而存在的。要想在浏览器里直接看 matplotlib 的图表,需要在代码区块里运行 %matplotlib inline 。更多关于用 Jupyter 画图的内容可以 在此 阅读。
用下面的代码来导入 matplotlib 库并且开启 inline 模式:
In[15]:
Python
1
2
3
import matplotlib.pyplot as plt
%matplotlib inline
Pandas 中的 DataFrames 自带对可视化的支持,调用 plot() 函数就可以生成 matplotlib 图表。这么用一般会比调用 matplotlib 更方便快捷。先给之前的 DataFrame 赋值给一个变量 total_donations, 再利用 indexing 来选择 DataFrame 中的一列: contb_receipt_amt 。这样就生成了一个 Pandas 中的 Series 类型的变量。
Pandas 中的 Series 和 DataFrames 包含的函数都差不多,但是 Series 只能存一维数据,比如单一行或者单一列。调用 Series 的 plot() 函数就生成了一个显示每个候选人收到的捐款总额的柱状图。
In[16]:
Python
1
total_donations = donations.groupby(“cand_nm”).sum().sort(“contb_receipt_amt”)
In[20]:
Python
1
total_donations[“contb_receipt_amt”].plot(kind=”bar”)
Out[20]:
1

如果想深入学习 matplotlib, 可以学习作者提供的 课程 。
计算捐款平均值
已经学会算捐款总额啦,再想算捐款平均值超级容易。直接用求平均值的 mean() 函数来替换求和用的 sum() 函数就得了。
In[22]:
Python
1
2
avg_donations = donations.groupby(“cand_nm”).mean().sort(“contb_receipt_amt”)
avg_donations[“contb_receipt_amt”].plot(kind=”bar”)
Out[22]:
1

预测捐款数目
下面来写个简单的根据一个人所在的州( contbr_st )、职业( contbr_occupation )及支持的候选人( cand_nm )来预测捐款数额的简单算法吧。首先用这几列及要预测的 contb_receipt_amt 列来另外创建一个 Dataframe。
In[41]:
Python
1
pdonations = donations[[“contbr_st”, “contbr_occupation”, “cand_nm”, “contb_receipt_amt”]]
下面来看看变量 pdonations 里每一列的数据类型。Pandas 读取 csv 文件时会自动给每列赋予数据类型。只有 数值型 (numeric)的列才能用来做预测。
In[42]:
Python
1
pdonations.dtypes
Out[42]:
1
2
3
4
5
contbr_st object
contbr_occupation object
cand_nm object
contb_receipt_amtfloat64
dtype: object
倒霉的是想要用的列都是 object 型的(都是字符串)。这是因为它们都是分类数据(categorical data)。每列中有几个可能的值,但这些选项是用文本来表示的而不是用数值型代码来表示的。可以先把每列都转换成分类型( categorical ),然后再转换成数值型。 这里 有关于分类型数据的更多介绍。本质上就是分类型数据在后台给一列中每个不同的值赋予了一个不同的数值型代号。可以将一列种的值都换成这些代号,这样一列就完全被转换成数值型的了。
In[43]:
Python
1
2
pdonations[“contbr_st”] = pdonations[“contbr_st”].astype(‘category’)
pdonations[“contbr_st”] = pdonations[“contbr_st”].cat.codes
In[44]:
Python
1
pdonations[“contbr_st”]
Out[44]:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
0 1
1 1
2 1
3 2
4 2
5 2
7 2
8 2
9 2
102
112
122
132
142

38487075
38487175
38487275
38487375
38487475
38487575
38487675
38487775
38487875
38487975
38488175
38488275
38488377
38488477
Name: contbr_st, Length: 384885, dtype: int8
可以看到 contbr_st 列已经被转换成数值型的了。下面对 contbr_occupation 及 cand_nm 两列也进行同样的操作。
In[]:
Python
1
2
3
for column in [“contbr_st”, “contbr_occupation”, “cand_nm”]:
pdonations[column] = pdonations[column].astype(‘category’)
pdonations[column] = pdonations[column].cat.codes
训练集和测试集的拆分
接下来的预测步骤中可以利用到 Python 中最主要的机器学习包 scikit-learn 。首先要把数据拆分成两个部分。一部分用于训练算法,称为训练集;另一部分用于评估模型的效果,称为测试集。这样做是为了避免过拟合( overfitting )产生的有误导性的结果。
用 train_test_split() 这个函数可以将 pdonations 拆分成一个训练集和一个测试集。
In[48]:
Python
1
2
3
from sklearn.cross_validation import train_test_split
train, test, y_train, y_test = train_test_split(pdonations[[“contbr_st”, “contbr_occupation”, “cand_nm”]], pdonations[“contb_receipt_amt”], test_size=0.33, random_state=1)
上面的代码将训练算法需要用的列及结果列(contb_receipt_amt)中的值分成了训练集和测试集。测试集中包含33%的数据。每行数据被随机分配到训练集中或者测试集中。
拟合模型
下面会使用随机森林( random forest )算法来做预测。随机森林是一个效果比较好并且适用于很多问题的算法,在 scikit-learn 包中是通过 RandomForestRegressor 类来实现的。使用这个类训练模型及用模型做预测都很简单。
首先用 train 和 y_train 来训练模型:
In[52]:
Python
1
2
3
4
5
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(n_estimators=100, min_samples_leaf=10)

model.fit(train, y_train)
Out[52]:
Python
1
2
3
4
5
RandomForestRegressor(bootstrap=True, compute_importances=None,
criterion=’mse’, max_depth=None, max_features=’auto’,
max_leaf_nodes=None, min_density=None, min_samples_leaf=10,
min_samples_split=2, n_estimators=100, n_jobs=1,
oob_score=False, random_state=None, verbose=0)
scikit-learn 包一个优点是里面所有算法都有一致的 API。训练一个线性规划(linear regression)模型和训练一个随机森林模型用的方法是一模一样的。有了合适的模型就可以用它来做预测了。
预测及误差计算
用 scikit-learn 包做预测也非常简单。直接把测试集传给训练好的模型就行了。
In[54]:
Python
1
predictions = model.predict(test)
有了预测结果之后来算算误差值。误差能体现模型的效果,在调整模型时也能作为一个衡量标准。下面会用一个常见的误差标准,均方误差( mean squared error )。
In[57]:
Python
1
2
3
4
from sklearn.metrics import mean_squared_error
import math
mean_squared_error(predictions, y_test)
Out[57]:
1
756188.21680533944
如果想了解更多关于 scikit-learn 的知识可以阅读作者撰写的 教程 。
接下来做点什么
对误差求平方根得到的值和捐款额之间的关系更直观。如果不求平方根而只用平均方差 (average squared error),那它就和上面用的数据没什么直接关系。无论怎么算目前的误差值都很大,有很多减小误差的方法,比如: 利用上其他列中的数据 看看是否对每个候选人训练一个模型效果会更好 尝试用其他算法
还有一些有意思的对数据的探索可以做,比如: 找出每个州哪个候选人得到的捐款最多 画出对每个候选人来说,来自哪种职业的人捐的钱最多的图 根据候选人是民主党还是共和党划分,看看是否会有有意思的模式出现 通过名字给数据添加性别,看看如果根据性别划分数据是否会显现出有意思的模式 根据美国不同地区的捐款总额画一个热图(heatmap)
想要深入了解本文讲解到的概念,请参阅作者提供的 Python 数据科学 课程。 本文由 伯乐在线 – XiaoxiaoLi 翻译, sunshinebuel 校稿。英文出处: Vik Paruchuri 。
本文链接:http://python.jobbole.com/85394/
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-06-22 23:13:00
现在你也可以在 R语言 中绘制多样的词云了。 wordcloud2 是基于 wordcloud2.js 封装的一个R包,使用HTML5的canvas绘制。浏览器的可视化具有动态和交互效果,相对于曾经的R包worldcoud,
wordcloud2还支持任意形状的词云绘制,这也是我一直想要寻求的特性。
安装&示例
从github安装wordcloud2包: if (!require(devtools)) install.packages("devtools") devtools::install_github('lchiffon/wordcloud2')
包内含有两份data.frame格式的词频数据:英文版的 demoFreq 和中文版的 demoFreqC ,使用 wordcloud2 直接绘制即可。若需要绘制自己的词频数据,只需构造一个类似的数据框即可,第一列代表词语,第二列存贮相应的词频。 library(wordcloud2) wordcloud2(demoFreqC) wordcloud2(demoFreq) ## 一个粗糙的例子 # df = data.frame(letters, rpois(26, 20)) # wordcloud2(df)
定制颜色
这里的颜色包括背景色和词语颜色,分别对应 backgroundColor 和 color 两个参数。这两个参数可以接受CSS认可的任意的参数值,如’red’,’blue’或者’rgb(0,0,0)’以及十六进制的’#ff2fe9’等。
另外 color 参数有更多可接受的参数: 内置的随机色生成方案: random-light 和 random-dark ,在javasript里定制了相应的随机函数 javasript回调函数: 用js撰写任意的颜色生成函数,如 js_color_fun = "function (word, weight) { return (weight > 2000) '#f02222' : '#c09292'; }" wordcloud2(demoFreqC, color = htmlwidgets::JS(js_color_fun), backgroundColor = 'black')
此处需要使用 htmlwidgets 的 JS 函数把字符形式的参数值解析成js函数。 R中的函数向量: js回调函数想必让很多纯R语言用户懵逼,最简单的方式是传入一个定制后的颜色向量。 wordcloud2(demoFreqC, color = ifelse(demoFreqC[, 2] > 2000, '#f02222', '#c09292') 这行代码R语言函数代替了js回调函数,效果相同。
定制形状
学会定义颜色可以让你的词云时黄时紫,却不能像马像牛又像羊。变形最简单的方式就是定义 shape 参数,如 wordcloud2(demoFreqC,shape='star') 。还支持’diamond’,’cardioid’等参数(都是在js脚本中预定义好的对应的函数),更多请看函数帮助文档。
内置的几个参数并不十分有趣,完全的自定义才亦可赛艇。 wordcloud2 允许你传入一张图片,把词云填充在图中的黑色区域。这样,找到一头牛和一匹马,你的云就可以变换了。 wordcloud2(demoFreqC, figPath='~/Desktop/niu.jpg') wordcloud2(demoFreqC, figPath='~/Desktop/ma.jpg')
代码中所需的图片都可以在上图截取,这里就不放了。另外,如果想画成字符形状,你可能需要先画出字符,再使用wordcloud2函数绘制。贴心的作者郎老师早已定制好了相应的接口 letterCloud 函数,试试运行 letterCloud(demoFreqC, word = 'R') 。
该函数背后的逻辑如上所述,先画出图片再传入figPath参数。到这里,不禁想起cos一篇文章: showtext:字体,好玩的字体和好玩的图形 ,文中使用showtext包调用神奇的字体画出好玩的图形。此处也可以如法炮制,下载 wmpeople1.TTF 字体绘制出男人和女人的图案,再调用wordcloud2绘制相应形状的词云。 library(showtext) library(Cairo) link = "http://img.dafont.com/dl/f=wm_people_1"; download.file(link, "wmpeople1.zip", mode = "wb"); unzip("wmpeople1.zip"); font.add("wmpeople1", "wmpeople1.TTF"); plot_shape <- function(filename, char){ CairoPNG(filename, 500, 400) showtext.begin(); plot.new() offset = par(mar = par()$mar) op = par(mar = c(0,0,0,0)) text(0.6, 0.5, char, family='wmpeople1', cex=32) par(offset) showtext.end(); dev.off(); } plot_shape('female.png', 'u') plot_shape('male.png', 'p')
接下来在淘宝首页搜索’男’和’女’两个关键词。对搜索结果的网页做处理,分词和词频统计。计算TF-IDF指标并用词云展示。绘制词云的数据应当是长尾分布的,即大量低频词和少数高频词。高频词刻画特点,低频词填充剩余位置,达到醒目和美观的效果。因此处理过程中对TF-IDF为0或者缺失的值都填充为1,以便让这些低频词显示出来。 library(jiebaR) readChineseWords <- function (path) { # 读取网页或文件 去除标点和英文 rawstring = readLines(path) rawstring = paste0(rawstring, collapse = ' ') s = gsub('w', '', rawstring, perl=TRUE) s = gsub('[[:punct:]]', ' ', s) return(s) } # 淘宝首页搜索'男'和'女'对应的网页链接 male_link = 'https://s.taobao.com/searchq=%E7%94%B7&search_type=item&sourceId=tb.index' female_link = 'https://s.taobao.com/searchq=%E5%A5%B3&search_type=item&sourceId=tb.index' male_str = readChineseWords(male_link) female_str = readChineseWords(female_link) # 分词 -> 计算tf-idf cc = worker() new_user_word(cc,'打底裤','ddk') male_words = cc[male_str] female_words = cc[female_str] idf = get_idf(list(male_words, female_words)) get_tf_idf <- function(words){ words_freq = table(words) df = data.frame(name=names(words_freq), freq=as.numeric(words_freq)) df = merge(df, idf, all.x = TRUE) wc_df = data.frame(words=df$name, freq=ceiling(df$count * df$freq * 10)) # 缺失和0值替换成1 wc_df$freq[wc_df$freq == 0 | is.na(wc_df$freq)] = 1 return(wc_df) } # 绘制词云 male_df = get_tf_idf(male_words) female_df = get_tf_idf(female_words) wordcloud2(male_df, figPath = 'male.png', backgroundColor = 'black', color = 'random-light') wordcloud2(female_df, figPath = 'female.png', backgroundColor = 'black', color = 'random-light')
男士的搜索结果主要是“海澜”,“健详”和“牧之逸”的品牌信息(后俩还真没听过…),“棉质”和“衬衣”等,以及臭男人要“防臭”。右中图的“打底裤”,“防走光”和“防晒”,“防水”,主题十分明确,又是一年夏季,女孩的短裙飞扬在街上的每个角落,凉爽的同时也要注意防狼防天气。
交互
默认生成的词云是自带交互效果的。鼠标悬浮某个词上会显示相应的词频,这是内置的js回调函数效果。可以自编js函数覆盖,比如下边的代码传入一个空函数,画出的词云就没有交互效果了。 hoverFunction = htmlwidgets::JS("function hover() {}") wordcloud2(demoFreq,hoverFunction = hoverFunction)
这一部分就是纯粹的js了,有能力或有兴趣想要做些不一样效果的,可以瞅瞅源代码中的 hover.js 。
结语
最后,想要更多的细节调试可以参见 wordcloud2 作者的介绍以及 wordcloud2.js的API文档 。
感谢wordcloud2作者 郎大为老师 和wordcloud2.js的作者 timdream 。有兴趣和有能力的朋友可以读读源代码,开开脑洞做些改进,如提升下绘图速度(改进wordcloud2.js的算法),组合多个词云等。 作者:杜亚磊
链接:http://yalei.name/
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-06-18 01:25:00
在 R语言 中,对数据进行回归建模是一件很简单的事情,一个lm()函数就可以对数据进行建模了,但是建模了之后大部分人很可能忽略了一件事情就是,对回归模型进行诊断,判断这个模型到低是否模型的假定;如果不符合假定,模型得到的结果和现实中会有巨大的差距,甚至一些参数的检验因此失效。
因为在对回归模型建模的时候我们使用了最小二乘法对模型参数的估计,什么是最小二乘法,通俗易懂的来说就是使得估计的因变量和样本的离差最小,说白了就是估计出来的值误差最小;但是在使用最小二乘法的前提是有几个假设的。
这里我就引用《R语言实战》的内容了,在我大学中的《计量经济学》这本书讲的更为详细,不过这里主要是介绍使用R语言对模型进行回归诊断,所以我们就不说太详细了;
假定 正态性:对于固定的自变量值,因变量值成正态分布,也就是说因变量的是服从正态分布的 独立性:Yi值之间相互独立,也就是说Yi之间不存在自相关 线性:因变量和自变量是线性相关的,如果是非线性相关的话就不可以了 同方差:因变量的方法不随着自变量的水平还不同而变化,也可称之为同方差
为了方便大家使用和对照,这里就使用书上的例子给大家介绍了,在系统自带的安装包中women数据集,我们就想通过身高来预测一下体重;在做回归诊断之前我们得先建模;
首先我们先看一下数据是长什么样子的,因为我们不能盲目的拿到数据后建模,一般稍微规范的点流程是先观察数据的分布情况,判断线性相关系数,然后在考虑是否建立回归模型,然后在进行回归诊断;
R代码如下:
data(‘women’)
women
结果如下
初步观察数据大概告诉我们体重就是跟随着身高增长而增长的,再通过画一下散点图观察。
R代码如下
plot(women)
然后我们在判断一下各个变量之间的线性相关系数,然后再考虑要不要建模
R代码如下
cor(women)
结果如下
从相关系数的结果上看,身高和体重的相关程度高达0.9954,可以认为是完全有关系的。
根据以上的判断我们认为可以建立模型去预测了,这时候我们使用LM()函数去建模,并通过summary函数去得到完整的结果。
R代码如下
model<-lm(weight~height,data=women)
summary(model)
出现这个问号原因是由于电脑字符集问题;稍微解读一下这个结果,RESIDUALS是残差的五分位数,不知道五分位的可以百度一下,这里不多说,下面的结果height的回归系数是3.45,标准差是0.09114,T值为37.85,P值为1.09e-14,并显著通过假设检验,残差的标准差为1.525,可决系数为0.991,认为自变量可以解释总体方差的99.1%,调整后的可决系数为0.9903,这是剔除掉自变量的个数后的可决系数,这个比较有可比性,一般我都看这个调整后的可决系数。结果就解读那么多,因此得到的结果就是
上面只是借用了一个小小例子来讲解了一下R语言做回归模型的过程,接下来我们将一下如何进行回归诊断,还是原来的那个模型,因为使用LM函数中会有一些对结果评价的内容,因此我们用PLOT函数将画出来;
R代码如下
par(mfrow=c(2,2))
plot(model)
结果如下
左上:代表的残差值和拟合值的拟合图,如果模型的因变量和自变量是线性相关的话,残差值和拟合值是没有任何关系的,他们的分布应该是也是在0左右随机分布,但是从结果上看,是一个曲线关系,这就有可能需要我们家一项非线性项进去了 右上:代表正态QQ图,说白了就是标准化后的残差分布图,如果满足正态假定,那么点应该都在45度的直线上,若不是就违反了正态性假 左下:位置尺度图,主要是检验是否同方差的假设,如果是同方差,周围的点应该随机分布 右下:主要是影响点的分析,叫残差与杠杆图,鉴别离群值和高杠杆值和强影响点,说白了就是对模型影响大的点
根据左上的图分布我们可以知道加个非线性项,R语言实战里面是加二次项,这里我取对数,主要是体现理解
R代码如下
model1<-lm(weight~height+log(height),data=women)
plot(model1)
summary(model1)
结果如下
诊断图
模型拟合结果图
综合起来我们新模型貌似更优了;我就介绍到这里,具体大家可以看书籍 参考文献
本文为专栏文章,来自:天善智能,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/19281.html 。
数据分析
2016-06-15 22:23:00
简介
使用excel的条件格式功能,可以预制一种单元格格式,并在指定的某种条件被满足时自动应用于目标单元格。可以对同一组单元格设置一组条件格式,根据单元格数据的改变而自动选择应用于不同的单元格格式。可以预制的格式有字形,字体,下划线,字体颜色,边框,填充颜色等。
作用
1、使茫茫的数据显得直观;
2、直观反映数据中的最值(最大值,最小值,以及你自定义的数值);
3、直观反映特定值(工作日,双休日);
4、标记各类特殊数据;
5、预设条件格式,防止数据错误输入(比如工号重复输入,银行卡号、身份证号错误输入等)。
其他 1、条件格式转换为单元格格式。
对于预设的条件格式,只有当单元格满足相关条件时,单元格才会出现对应的格式,但是一旦单元格的值改变,单元格的格式又会恢复原样,那么如何将我们的条件格式直接转换为普通的单元格格式呢?直接使用剪切板。例如下图:
条件格式的要求是,对应C列,如果没有出现在A列中,绿色填充。如果我们把C列数据删除,那么伴随着C列存在的条件格式也会在A列出现错误,如图:
那么我们如何在删除C列的情况,又保存A列的格式呢?
步骤如下:
1)恢复C列数据;
2)复制带有格式的A列数据;
3)打开剪切板;

4)指定目标单元格(A1),点击剪切板,复制即可(覆盖了带有条件格式的源数据);
5)删除C列数据,完成操作。
2、清除条件格式。
对于单元格内多余的条件格式,或者是已经不需要条件格式,我们可以清除,并且我建议大伙没事还是清除掉这些,会影响表格的速度。
直接清除
通过管理器清除

结语条件格式告一段落了,但是条件格式的内容远远不止这些。我们平时需要的是先把基础的东西都做好,到用的时候,我们就可以把基础的东西联合起来,做成一个牛B的东西。
本文为专栏文章,来自:Excelky,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/19058.html 。
数据分析
2016-06-11 23:32:00
摘要:阿里巴巴一直倡导未来是数据时代(DT),而为了解决数据时代里大量数据展示、分析的需求,蚂蚁金服今天正式发布了可视分析解决方案”G2″。
G2(The Grammar Of Graphics/图形语法)是一个强大的语义化图表生成工具,由纯JavaScript编写,基于蚂蚁金服 数据可视化 规范AntV。
它提供了一整套图形语法,通过简单的语法即可搭建出无数种图表,并且集成了大量的统计工具和函数,支持多种坐标系绘制,可以自由定制图表。
与传统的图表系统不同,这是一个基于统计分析的语义化 数据可视化 系统,让数据驱动图形:用户在使用时,无需关心绘图细节,只需关注待分析的数据。
根据教程,用户只需编写数十行代码,就能实现对大量数据的多维度展示、分析,比如修改图形坐标系、直角坐标和极坐标相互转换等。
G2此前仅供蚂蚁金服及旗下支付宝等业务板块内部使用,而经过内测和多次迭代后已经功能齐全,可拓展性强,现在对外公开,主要面向 数据分析师 、 数据新闻 工作者等。
开发团队表示,对于那些拥有数据,但不知道该用何种可视化方法展示,以及不知道如何进行进一步分析的用户,G2尤其适用。
为方便用户上手,开发团队还总结了比较类、趋势类、地图类等常用的30多种图表的特性,并详细介绍了各类图表的应用场景及扩展。
G2官网地址(含介绍和教程):http://g2.alipay.com
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-05-18 09:00:00
摘要:2015年中国 移动互联网 市场正在发生深刻的变化
Trustdata权威移动互联网 大数据 监测平台,于2016年3月28日在北京发布《2015年中国移动互联网行业发展分析报告》, 报告从手机品牌、网络接入市场、头部应用、新闻、社交、视频、电商、游戏、O2O和金融等移动互联网领域,通过移动大数据解读2015年移动互联网用户及行业趋势发展变化,Trustada监测数据表明,2015年中国移动互联网市场正在发生深刻的变化。
WiFi接入占比近7成,4G网络涨幅近3倍。Trustdata《2015年中国移动互联网行业发展分析报告》数据统计显示,2015年WiFi接入占比持续扩大,占比68.1%。4G网络迅速普及, 2015年底占比为15%,超越2G及3G成为排名第二的移动上网方式。
手机市场正在酝酿变局,国产手机品牌发展迅猛,三星移动终端保有量迅速下滑降幅近三成。Trustada监测数据发现,在移动智能终端品牌方面,国产手机品牌迅速崛起,小米超越三星排名安卓移动终端首位,占比11.4%。值得关注的是,华为集团旗下互联网手机品牌荣耀终端保有量强劲增长6倍,占比达2.4%。随着国产手机品牌的崛起,2015年三星移动终端保有量迅速下滑,降幅近三成。

值得警惕,2015年移动互联网用户平均每日使用时长逐步降低,降幅近三成。Trustada监测数据发现,,移动互联网用户平均每人每日使用时长从2015年1月的272分钟线性下滑至2015年的195.9分钟。
尽管腾讯、阿里、百度及360囊括TOP20移动应用的绝大多数,但TOP21~40移动应用呈现百花齐放的态势。Trustada监测数据发现,美团、快手、美图秀秀、今日头条等各路强手入围TOP21~40榜单,中国的移动互联网市场格局依然充满了变数。

移动新闻用户规模增长约4成,一、二线城市贡献超60%的用户,移动新闻城市下沉趋势明显。Trustada监测数据发现,2015年随着移动互联网用户获取新闻资讯渠道的多样化,新闻类应用用户关注度持续增长,新闻市场用户规模增长约4成,在年底达到峰值,行业DAU覆盖率为15.5%。一、二线城市贡献逾六成新闻用户,近四成新闻用户来自三/四线城市,移动新闻城市下沉趋势明显。

虽然移动电商领域淘宝一超独大,但2015年京东DAU稳步上升,涨幅近一倍数。Trustada监测数据发现,移动电商领域淘宝依然领跑市场,第一名的淘宝和第二名的京东虽然还有较大差距,但2015年京东的增长呈现乐观态势,京东DAU稳步上升,涨幅近一倍数,京东正在奋力追赶。
 
更多移动互联网数据详情,请下载完整版报告,点击进入Trustdata官网:www.itrustdata.cn;
感谢一直以来对Trustdata的关注。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-03-28 22:05:00
针对企业和个人风控征信平台 星桥数据 技术有限公司已于2015年9月完成2000万pre-A轮融资,本轮由中科招商成长股权投资基金主投。
作为一家跨越了 大数据 和金融行业的创新公司,星桥数据一直以来有着优良的“数据处理和建模”基因,拥有强大的科研能力,是国内领先的中小企业、个人信用与风险评估、 数据分析 、综合征信解决方案的 大数据 金融服务公司。
当前已进入互联网金融2.0时代,做好风控是重中之重。星桥数据针对当前金融机构面临的需求多样、信用缺失、过度杠杆、监管困难、欺诈盛行、信息孤岛等信用困局,自主知识产权研发出的“壹贰信用”风控系统已经上线,提出贷前、贷中、贷后等综合风控解决方案。
星桥数据的核心团队主要来自于海归博士及国内外名校的多领域资深专业人才,技术背景强大,目前已有10多项发明专利和超过50项的软件著作权。创始人丁卓博士表示,公司将会继续研发精准大数据金融风控产品,在本轮融资之后,将会不断地渗透国内市场。
据了解,此次投资星桥数据的中科招商集团是中国首家经政府批准设立的大型人民币创业投资基金专业管理机构,受托管理的基金超过100支,现金投资能力超过600亿元,在我国投资市场、融资市场和产业市场三大领域获得较大成就。
关于星桥数据
星桥数据技术有限公司(以下简称“星桥数据”)是国内领先的、专注于金融领域的大数据公司。 公司于2014年夺得“中国创业之星“比赛第3名, 并获得国内顶级风投的投资入股。
公司管理团队由5位资深计算机和金融博士专家领衔,他们分别专注于大数据风险控制、机器学习、 人工智能 、高频交易、量化风险模型等领域。
公司目前有蜂鸟金融搜索系统和鹰眼大数据风控系统等若干个创新产品,这些产品通过大数据搜索、扫描、建模、推荐算法、语义分析、大数据精准画像、程序化交易计算、人工智能、机器学习等复杂技术构造出我们独有的 金融大数据 产品,在紧抓客户痛点的同时,实现数据分析、预测、征信交易、信用评估、风险评估、专业化匹配等大数据金融服务一体化,产品在众多金融机构有很好的应用和口碑。
作为一家跨越了大数据和金融行业的创新公司,星桥数据一直以来有着优良的“数据处理和建模”基因,拥有强大的科研能力。 公司已获得人民银行颁布的数据征信牌照,公安部、信息产业部颁布的信息安全产品销售许可证,100多项发明专利和超过50项的软件著作权。我们整合了14000数据来源、700000个数据变量,人才方面有多名海归博士以及国内外名校的多领域资深专业人才,同时我们还和香港城市大学、香港中文大学、华中科技大学、中山大学、南京大学及中国科学院计算所等10家国家一流高校和研发机构组成了大数据研发战略联盟。这些都是我们坚实稳固的基板;是我们勇往直前的武器;是我们强而有力的推进器。
网址:http://www.inbs.cn/
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-08-18 19:13:00
2018年 世界杯 正在俄罗斯多个城市进行。从1998年的法国世界杯开始,知名投行高盛在世界杯之前都要发布一份关于世界杯经济学的投行报告,至今已经持续了20年。
在高盛前首席经济学家吉姆·奥尼尔带领下,利用经济学工具在每次世界杯前分析夺冠球队的几率,逐渐成了投行界参与世界杯狂欢的一大盛事。
2018年,共有高盛、瑞银、野村、荷兰ING集团、德国商业银行、丹麦银行等多家投行,动用量化分析师团队运用金融模型来参与竞猜。《纽约时报》6月12日的报道中称,这些投行运用了包括 人工智能 ( AI )技术、统计模型、资产组合理论和经济学分析。
以下为投行预测的2018年世界杯冠军:
瑞银(UBS)的预测:德国
5月17日,瑞银发布了2018年世界杯的首份预测。
瑞银财富管理投资总监办公室(CIO)运用评估投资机会的计量经济学工具对今年世界杯足球赛的冠军进行了预测。模拟结果显示,德国赢得世界杯的可能性最高,夺冠概率在24%。
巴西和西班牙也大有希望捧杯,两者的夺冠概率分别为19.8%和16.1%。东道主俄罗斯被分在实力最弱的小组并有望晋级16强,此后可能遇到西班牙或葡萄牙而落败。
当然,瑞银也没有忘记自己的本职工作。该机构还分析称,经济层面来看,俄罗斯用于世界杯的预估支出占国内生产总值(GDP)的0.7%,这可能不会显著提振该国经济。不过,与西班牙、意大利或法国等更发达经济体相比,本届世界杯为东道主俄罗斯带来的经济效益可能更大。
瑞银财富管理全球首席投资总监Mark Haefele表示:“无论是对全球市场还是对足球赛事的分析,人们往往会偏好本土市场或本土球队。CIO在金融市场分析中所遵循的量化投资纪律,有助于在构建投资组合和预测体育赛事时克服这种本土偏好。”
图片1:瑞银对参赛球队胜出概率的预测
高盛(Goldman Sachs)的预测:巴西
高盛在6月11日发布的报告显示,法国、巴西、葡萄牙和德国将打入此次世界杯的半决赛,巴西最终将在决赛中击败德国。
在澎湃新闻记者获得的这份报告中,高盛称共使用了20万个统计模型,利用“机器学习”的最新发展,挖掘团队特征和个体球员的数据,然后模拟了100万次可能的模拟比赛,以评估各球队在比赛中取得进展的可能性,从而得出巴西将赢得俄罗斯世界杯冠军的结论。
综合这些数据进行计算,巴西是最有可能赢得本届世界杯冠军的球队(几率达到18.5%)。紧随其后的是法国(11.3%),德国(10.7%)和葡萄牙(9.4%)。
图片2:高盛发布的预测结果
高盛的主要结论包括:
·巴西将在7月15日的世界杯决赛中击败德国,赢得第六次世界杯冠军。
·尽管法国获胜的概率高于德国,但它的坏运气在于将在半决赛遇到巴西队,而且球队可能还不够强大,无法超越巴西。
·德国将在7月7日的四分之一决赛中击败英格兰。
·预计西班牙和阿根廷将表现不佳,分别在四分之一决赛中输给法国和葡萄牙。
·尽管俄罗斯试图利用举办比赛这一传统刺激手段,但是仍然无法从小组赛中出线。
有趣的是,2014年巴西世界杯,高盛称巴西夺冠的可能性为48.5%;其次是阿根廷,有14.1%的可能性第三次捧杯。但巴西在半决赛与德国相遇,1:7无缘决赛。
荷兰国际集团(ING)的预测:西班牙
《纽约时报》的报道称,ING采用了一种不同寻常的方法,即使用基于参赛球队市场估值和过去表现来计算成功的可能性(这里是假设价值和成功相关性极高)。球队的价值是根据球员个人转会价值以及他们在国际足联排名中的记录来计算的。
该机构得出的结论是,西班牙将获得世界冠军,西班牙队的总价值约10.4亿欧元,第二名的法国队总价值10.3亿欧元。
野村(Nomura)的预测:法国
在野村发给澎湃新闻记者的报告中,该机构为世界杯专门设定了一个“投资组合”。“我们没有把重点放在基于排名的定量模型上,而是采用了一种更定性的自下而上的方法,考虑到团队背后的动力,并深入分析每个团队。”野村在报告中指出。
该机构提供了“三个热门”:法国,巴西,西班牙;“三匹黑马”:波兰,乌拉圭,丹麦;“两支潜力股”:塞内加尔和秘鲁。
图片3:野村的“世界杯投资组合”
对于这个“投资组合”,野村称:“就像建立投资组合一样,我们希望建立一个多元化的世界杯投资组合,风险有限,并且在任何时候都表现良好。我们不仅寻找了可能会让我们吃惊的弱者(相对于排名所显示的),还关注了一些我们认为最有可能赢得世界杯的避险选择。因此,我们跟踪了从小组阶段到最终阶段可能发生的情况。”
该机构表示,基本思想是以看待资产的方式看待团队,因此在分析最近的结果的同时,也考虑了球队背后的动力(如自上届世界杯以来排名的变化)和每个球队的价值分配。“资产表现通常由回报率来判断,因为我们把球队看成是资产,而不是回报的比率,所以我们检查了球队中所有球员的价值,并对他们的分布进行了隐含的假设,即球队可以和最好的球员一样踢得好,也可以和最差的球员一样糟糕。”
“对于世界杯冠军,我们预测了法国,尽管我们也认为西班牙、巴西和德国有很好的机会在7月15日在莫斯科的卢日尼基体育场举起奖杯。”野村预测,法国、西班牙和巴西最有可能进入半决赛,法国和西班牙将有可能在决赛中相遇。
图片4:野村的预测结果
德国商业银行(Commerzbank)的预测:德国
根据彭博的报道,德国商业银行的经济学家们进行了一项分析研究,结果表示德国最有可能赢得本届世界杯冠军。
德国商业银行的经济学家们通过统计 数据分析 、海量数据运算以及数据建模等方式对2018年俄罗斯世界杯各队夺冠的可能性进行了专业分析,最终德国最被看好。根据该行数据处理结果显示,德国以18.3%的夺冠可能性领先于巴西(12.7%)、西班牙(9.6%)以及阿根廷(7.7%)。
图片5:德国商业银行的预测结果
丹麦丹斯克银行(Danske Bank Group)的预测:巴西
据彭博的报道,丹麦丹斯克银行的预测是,巴西有17%的机会在莫斯科第六度捧杯。阿根廷队和德国队的概率则都是12%,而西班牙队、法国队和比利时队则是7%。
图片6:丹麦丹斯克银行的预测结果
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-06-18 00:08:00
上周末, 微软 正在洽谈 准备全资收购 GitHub 的消息传的沸沸扬扬。彭博新闻社 6 月 4 日凌晨 发布最新报道 称,据熟悉此事的消息人士透露,微软已同意收购 GitHub Inc. ,并最快会在今天宣布这笔交易。
GitHub 倾向于出售公司,而选择微软的部分原因是微软给首席执行官 Satya Nadella 留下深刻印象。 协议的条款暂且还不得而知,GitHub最近一次估值是2015年的20亿美元。
此次收购或为总部位于旧金山的 GitHub 公司创造一条全新的前进道路。在此之前,GitHub 花了9个月才找到一位新的首席执行官,并且尚未从其提供的服务——协作和共享代码中获利。GitHub目前聚集了2700万开发者,8000万个代码库。另一方面,微软也越来越依赖于开源软件,微软目前在GitHub上贡献了超过1800个存储库,连续三年保持第一。
对于这个消息,截至彭博社发稿,微软发言人弗兰克 · 肖拒绝发表评论,GitHub未予回复。
事实上,微软与GitHub的收购传闻由来已久。最早始于2016年,但被GitHub直接予以否认。之后的两年里,也频繁传出双方探讨收购的消息。近期,在GitHub CEO Chris Wanstrath离职和新管理者迟迟未能选定的窘境下,GitHub与微软的谈判,逐渐开始走上台面。
此外,在刚刚结束的微软在Build 2018开发者大会上,微软宣布与GitHub达成新的合作,将Azure开发运维一体化的在线服务能力带给GitHub用户。让Visual Studio App Center与GitHub的整合,GitHub开发者在开发面向iOS、Android、Windows和macOS设备的移动应用时,可以体验与GitHub无缝衔接的自动化的开发运维流程。
本文为 数据分析网 原创文章,转载或内容合作请联系我们,未经允许谢绝转载,本文链接:https://www.afenxi.com/55168.html 。
数据分析
2018-06-04 09:49:00
北京时间5月31日凌晨,有“ 互联网 女皇”之称的玛丽·米克尔发布了2018年的互联网趋势报告,这也是她第23年公布互联网报告。
2018互联网女皇报告要点
焦点关注:中美差距越来越小
与往年一样,在2018年互联网趋势报告中,关于中国的互联网发展趋势,报告也同样花了整个一个章节来进行阐述,报告今年对中国互联网环境的总体判断是环境充满活力以及在零售上持续创新。
报告首先从数据上描述了中国总体宏观经济环境目前仍在持续走强:消费者信心指数创四年新高,制造业采购经理人指数(PMI)持续走高,目前中国的GDP增长62%由消费拉动,而在2003年这一比例为35%。
在宏观经济环境向好的背景下,中国的互联网环境也持续走强。目前中国移动互联网用户数为7.53亿,2017年同比增长8%,较去年12%的同比增速有所下降。移动端数据使用同比增长162%,前一年增速为124%。
报告指出,中国正在成为全球最大的互联网公司的中心。截至5月29日,全球20个市值或估值最大的互联网公司中,中国占据了9家,美国有11家,5年前,中国只有2家,美国有9家。中国在全球互联网中的地位与美国的差距正在进一步缩小。
数读报告里的中国:全球20大科技公司,中国占9席
在长达293页的报告中,专门有数十张提及了中国互联网产业。
报告称,2017年中国移动互联网用户数达到7.53亿,同比增长8%。2017年中国移动互联网数据量同比增长162%。2018年3月,中国网民在移动端花费的时间是32亿小时,其中社交媒体占据了47%的时间。全球20大科技公司中,中国公司占据了9席,五年前仅有两家。
互联网女皇给中国独角兽估值:小米750亿美元
报告中有一个表格,表格列出了全球20大互联网公司,其中中国公司占据9席,当中出现的独角兽公司有蚂蚁金服(9)、小米(14)、滴滴(16)、美团(19)、今日头条(20),我们可以看到互联网女皇给其的估值。
全球云服务增速迅猛 2018年一季度增速达58%
报告还专门提到了云服务在互联网发展中的业务。在2006年时,亚马逊AWS还只提供1项服务,到2018年时,已经提升到了140多项服务。
三大巨头亚马逊、微软、谷歌的在云服务上营收逐年增长,同时保持高速增长,2018年第一季度云服务增速同比增长58%。
互联网女皇报告揭示人口红利已经消失
报告显示,全球互联网产业的人口红利正在消失殆尽。从上网设备来看,2017年是智能手机出货量首次未能实现增长的一年。报告强调,随着全球网络用户已超过全球人口的一半以上,尚未接入互联网的人口变得越来越少。
互联网女皇报告:互联网领域的投资圣经、选股指南
1995年,玛丽·米克尔与同事克里斯·德普开始发布《互联网报告》。这份报告被投资者视为互联网领域的投资圣经,并且成书公开发行,在整个科技行业引发了巨大反响。
互联网女皇报告几乎成为当时每个互联网创业者的必读报告,且无异于选股指南。她向投资者推荐的美国在线、戴尔、亚马逊、eBay等公司股票,都很快带来了超过十倍的投资回报。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-05-31 23:01:00
今日, 商汤科技 SenseTime 宣布完成 C+轮 6.2 亿美元融资,该轮融资由多家国内外投资机构和战略伙伴参与,联合领投方包括厚朴投资、银湖投资、老虎基金、富达国际等,深圳市创新投资集团、中银集团投资有限公司、上海自贸区基金、全明星投资基金等跟投,高通创投、保利资本、世茂集团等作为战略投资人参与。据统计,目前为止商汤科技总融资额超过 16 亿美元,估值超过 45 亿美金,是当前全球总融资额最大、估值最高 AI 创业公司。
据介绍,商汤科技在 2017 年已实现全面盈利,并在智慧城市、智能手机、互联网娱乐、汽车、金融、零售等行业实现快速落地。其业务营收连续三年保持 400% 同比增长,快速结合场景落地,2018 主营业务合同收入同比增长 10 多倍。
商汤科技最近不仅在融资方面进展迅速,也发布了一系列新产品。4 月 25 日,商汤科技在北京召开了 人工智能 峰会,并发布了一系列新产品。其中包括安防领域的「SenseFace 3.0 人脸布控实战平台」、「SenseFoundry 方舟城市视觉平台」,增强视觉领域的「SenseAR 增强现实感绘制引擎」、「SenseAR 开发者平台」,基于深度学习的内容审核系统「SenseMedia」,以及自动驾驶领域的「SenseDrive DMS 驾驶员监控系统」。
商汤希望以技术优势吸引开发者的加入,打造以 SenseAR 底层引擎 + 手机厂商 + App 开发商 + 用户的商汤 AR 生态。
技术方面,商汤建起了全中国最大的深度学习超算中心。据称,该公司目前已拥有超过 8000 块 GPU,并摆脱了主要由海外厂商支持的 Tensor Flow、Caffe2 等开源框架,自主研发了原创深度学习平台 Parrots。目前,商汤已经在安防、金融、智能手机、移动互联网、汽车、零售等多个垂直领域均有布局。
在官方通告中,商汤表示 C+轮融资后会继续加大研发和人才方面的投入,继续引领中国 AI 创新市场的飞速发展,并领跑全球。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-05-31 13:22:00
北京时间5月25日下午消息,欧洲新隐私法规《通用 数据保护条例 》(GDPR)周五生效。路透社评论称,GDPR将迫使企业更加关注如何处理客户数据,同时也让消费者能很好地控制数据,并且其隐私权也能得到更严格的保护。
欧盟GDPR将取代1995年的旧规。本次新条例预示着一个时代的到来:对于违反隐私法的企业,欧盟监管机构将可以获取该企业全年收入的4%作为罚金,或是直接处以2000万欧元(约2348万美元)的罚款。具体罚金数额取决于这两个数字哪个更高,这远超之前几十万欧元的罚金。
世界各地的许多隐私维权人士都称赞这项新规是互联网时代个人数据保护的典范,并呼吁其它国家效仿欧洲模式。不过,批评人士说,新规定过于繁琐——尤其是对小型企业而言。而广告商和出版商则担心,这将加大他们寻找客户的难度。
《通用数据保护条例》澄清并加强了现有的个人隐私权利,例如用户有权删除数据,并有权要求公司提供一份个人数据的副本。但它也包括了一些全新的授权,比如要求将数据从一个服务提供商转移到另一个服务提供商,以及限制公司使用个人数据,等等。
“如果你将《通用数据保护条例》与数据保护指导意见(data protection directive)进行比较,你会发现,这就像是一款软件从1.0升级到2.0,”律师事务所DLA Ppier的合伙人帕特里克·范艾克(Patrick Van Eecke)表示。
“这是一个渐进的过程,而不是一种革命性的东西……然而,对许多公司来说,这却是一个巨大而又突兀的警钟,因为他们从来没有事先对此做过功课。他们从来没有认真对待过数据保护指令。”
活动人士已经在计划利用访问个人数据的权利来扭转大型互联网平台们独霸话语权的局面——这些平台的商业模式依赖于无数用户的个人信息。这意味着,企业必须制定出应对新监管条例的程序,并对员工进行培训,因为任何不合规行为都可能导致严厉的制裁。
研究表明,许多公司还没有为新规定做好准备。
国际隐私专业协会(The International Association of Privacy Professionals)发现,受新条例影响的公司中,只有40%的公司在5月25日之前会完全遵守规定。
可以移植数据的权利
目前还不清楚条例中有多少条款将会得到解释和执行。许多欧洲监管当局表示自己资金不足以监督新法律的实施。它们将在一个统一的中央监管机构的管理下应对新形势。
新条例中的一个关键条款——数据可移植性的权利,正在引起特别大的争论。律师和专家表示,目前还不清楚将数据从一个服务提供商转移到另一个服务提供商的个人权利能有多大。
“我认为数据的可移植性是非常重要的,因为人们要花一段时间才能弄清它们的界限是什么,以及如何去遵守它们,” 英特尔 的安全政策和全球隐私办公室主管大卫·霍夫曼(David Hoffman)说。
例如,像Spotify这样的音乐流媒体服务是基于用户们的音乐喜好来为他们创建播放列表。当一个用户想要行使数据可移植性的权利时——即他或她想转移自己创建的播放列表到其他音乐流媒体服务提供商那里时,如果播放列表是由流媒体服务所使用的算法创建的,那么情况就会变得很复杂了。
欧盟数据保护部门表示,个人应该能够任意传输由他们自己创造出来的数据,而不是由服务提供者(如算法)所创建的“派生数据”。英国年利达律师事务所(Linklaters)的Tanguy Van Overstraeten表示,数据可携性的权利可能会引发知识产权问题。
他说:“你如果要将数据从你的系统迁移到其他人的系统中,其实是很不为人知的一种行为。”
责任日增
在业务方面,企业正急于与供应商和服务提供商重新谈判合同,因为如果出现问题,《通用数据保护条例》会让他们的日子很艰难。
在现行的旧规则下,通常是由公司来决定数据收集的目的(无论这些收集是否涉嫌违法)。但《通用数据保护条例》改变了这一点:以前仅仅是代表其客户来处理或存储数据的数据处理者(如云计算供应商)将直接承担责任、面临制裁(如果有违法行为的话),并可能会直接面临来自个人的诉讼。这些都需要在新合同中反映出来。
一个公司可能有成百上千份的协议,但它们都需要被重新审阅一遍,以确保它们能达到新条例的严格要求。“经过20年的数据保护立法,难道直到现在《通用数据保护条例》出台了,(公司们)才开始考虑:‘我在整个故事中的角色是什么’‘我到底只是一个数据保管者呢,还是数据处理者呢?’”范艾克说。(青卡)
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-05-25 18:11:00
  互联网时代的圈地运动依然在不断演变,到了 移动互联网 时代也没能幸免。尤其是新的风口与技术成为追捧的对象时,各个公司大佬跑马圈地已经成为常态。
  BAT作为互联网企业三巨头,基于各自庞大的生态体系,在各个领域都有交集,通过技术、资本、布局能力来占有市场,竞争永远在进行中。除了热门的 人工智能 、零售、社交等领域外,以触手可及、用完即走著称的 小程序 也开始发力,逐渐成为新的争夺点。
  而小程序的正式上线最早是在2017年的微信公开课上,低调发展了一年后才成为焦点。2018年5月22日的 百度 联盟峰会上,百度宣布将于7月正式推出百度智能小程序。
  如今BAT分别从搜索、电商、社交的形态中衍生了自己的小程序,而行业中的马太效应是否会影响到百度智能小程序的布局,也许基于百度流量、技术及生态方面的优势会带来与AT不一样的发展形态。
  流量+场景助力百度智能小程序
  从互联网的PC时代到移动互联网时代,再到“新移动时代”,流量都是企业发展的关键因素。而移动端的流量越来越集中在少数几个TOP级的超级APP中,中小型开发者,尤其是长尾应用的开发者越来越难获取流量、获得新用户。
  在几个超级APP中 ,微信以其庞大的社交体系为小程序提供了良好的发展环境,阿里则以其电商平台以及强大的支付体系为合作方提供了流量与技术支持,而百度则以“搜索+Feed流”的方式将全部流量赋能智能小程序。BAT在社交、电商、支付、搜索等领域为小程序提供了全方位的流量支持,基本上覆盖了全国所有的用户。
  而百度智能小程序的加入,则弥补了小程序在搜索方面的欠缺。作为国内最大的搜索引擎,百度APP2018年一季度日活用户1.37亿,百度搜索每天响应60亿次搜索请求,百度信息流日活用户超过1亿。此外,百度地图、百度手机助手、百度贴吧等百度系应用也为开发者提供了更多的流量。
  同时与微信提供的社交场景和阿里提供的电商场景不同的是,百度提供了日常生活中必需的搜索场景,在服务和内容的分发上,搜索则可以更准确地触达用户的需求,从而为其提供对应的优质小程序。
  所以虽然腾讯、阿里较早布局小程序,但是并没有对小程序场景的全面覆盖,这一缺口就是百度所掌控的内容分发以及搜索场景。
  百度小程序的智能化
   人工智能 技术已经应用到各个行业与领域,移动端的APP应用也在智能化,小程序作为一个去APP化的嵌入式功能,更像是以平台的附加功能的形式而存在,在智能化方面与真正的APP有很大差别。
  百度是最早布局 AI 的公司之一,在All in AI后,AI已经深入百度业务的方方面面,如无人驾驶、DuerOS、智能音箱等,而在小程序的开发上,也加入了“智能”的头衔,以AI赋能小程序,为开发者提供最突出的AI能力加持,实现交互智能和数据智能。
  与腾讯、阿里相比,这也是百度小程序最大的差异化所在,从而形成自己独特的优势,通过AI对产品功能和运营进行开发与创新。百度智能小程序将提供包括语音、文字、图像和人脸识别等在内的,超过60个AI接口和超过20个NA化组件给开发者,将从交互智能和数据智能两个层面给开发者赋能,帮助他们零成本开发智能小程序,重回业务理解与创意赛道。
  在百度的交互智能上,通过自然语言对话交互,提供给小程序语音识别、语音合成、语音控制的AI接口;通过视觉交互,提供给小程序图像识别、人脸识别AI接口;通过沉浸式交互,提供给小程序AR、VR等特殊功能接口。
  而数据智能则是通过感知层面的信息结构化、用户画像,认知层面的信息语义化、知识图谱,决策层面的推荐引擎、图像搜索等进行数据的获取与分析,来应用到小程序上。
  与微信、支付宝的小程序相比,百度小程序的智能化会成为一个新的突破口,将小程序融入到当下最热门的人工智能中来,是否能带动小程序新一轮的发展升级,这也需要时间来给出一个答案。
  百度智能小程序的生态化与体验的自然化
  无论是小程序还是APP,用户体验是考量一个应用优劣的重要标准之一,小程序只有构建自然用户体验系统,优化移动体验才能最大程度的接近正常的APP。如果小程序在用户体验上无法达到或者接近原生APP的水平,很可能就会成为一个鸡肋,更无法得到用户的认可。
  百度智能小程序将提供百度App的云端一体的服务,来实现“百度App端、百度搜索、百度信息流、百度智能小程序”的无缝Native APP体验,从而缩小与真正的APP之间的差距。而且百度智能小程序支持搜索触达小程序,完美解决了应用饱和和渠道碎片化的矛盾,缩短用户触达小程序的路径。
  而百度智能小程序在生态化建设上更加开放,其支持Web化解决方案,成为业界首个小程序开放生态,除了为开发者提供流量之外,合作方资源也可以为其带来更多先发优势。
  随着百度、谷歌、苹果、腾讯、阿里等众多玩家的加入,开发者生态已成为决定小程序竞赛胜负的关键,百度通过智能小程序的生态建设让合作方与百度紧密结合,从而更容易达到共赢的局面。
  在开放生态上,百度不仅在智能小程序开发上给予更多组件支持,还要打破软、硬件终端的限制,让开发者做出来的小程序有更强的普适性。
  百度App业务部总经理平晓黎甚至表示,小程序将来甚至支持在智能音箱、智能家居等AI设备上运行,让开发者真正实现开口吸纳流量、收口留存用户的目的。
  百度整个生态的布局,通过百家号与熊掌号来生产内容,通过搜索为用户提供内容,而智能小程序的加入则可以实现用户搜索的目的,这也就形成了一个完整的闭环生态。
  而接下来在百度联盟“价值、运营、共享”的原则下,如何完善百度的闭环生态来帮助用户更便捷、更全面的获取信息与服务则是百度接下来需要着力解决的事情。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-05-24 08:11:00
智东西 文 | Lina
智东西5月23日美国旧金山现场报道,今天,英特尔举办第一届 AI 开发者大会AIDC 2018,英特尔AI总帅、 人工智能 事业部(AIPG)总负责人Naveen Rao在现场进行演讲。
会上,Naveen Rao介绍了新款云端AI芯片NNP“代号Spring Crest”,比上一代产品3-4倍性能提升,2019年下半年向用户开放。此外,英特尔还在现场展示了酷炫的AI作曲、AI渲染3D狮子等应用。
值得一提的是,英特尔的这场AI开发者大会选在了旧金山艺术宫内举办,这座有着百年历史的建筑非常豪华壮观。
AI市场足够大,一家公司撑不满
Naveen Rao表示,在未来,不会是一种AI能够适应所有应用、所有行业(one size fits all),不会是一种AI工具、一家AI公司就能满足所有市场的——在智东西和英特尔公司上下不同高管交流的过程中,这个理念贯穿始终。
此外,Naveen Rao还表示,对于AI来说有三样重要的组成因素:(软件)工具、硬件、生态。
Naveen Rao是原加州AI芯片创企Nervana的CEO。2016年8月,英特尔斥资3.5亿美元收购Nervana,Naveen Rao也在几个月后晋升为英特尔人工智能事业部总负责人,直接向英特尔CEO科再奇汇报。英特尔云端AI芯片NNP项目的技术来源也是Nervana。
新款云端AI芯片Spring Crest:比上代强大3-4倍,2019年下半年向市场开放
在今年现场,Naveen Rao介绍了新一代NNP的产品,代号Spring Crest。
英特尔的云端AI芯片项目命名为“英特尔Nervana神经网络处理器”(Nervana Neural Network Processors,NNP),主打机器学习训练。去年,英特尔展示了这块Nervana深度学习专用芯片NNP的设计架构,项目代号Lake Crest。
(英特尔上一代AI芯片Lake Crest)

(英特尔本代AI芯片Spring Crest)
Spring Crest这款产品的功耗将小于210瓦,第一批产品NNP L-1000芯片将会在2019年下半年向用户开放,这代产品将会比之前的代号Lake Crest产品在训练方面有3-4倍的性能提升。
(英特尔AI产品组硬件副总裁Carey Kloss)
现场Naveen Rao并没有给出更多信息,而英特尔AI产品组硬件副总裁Carey Kloss告诉智东西,第二代的谷歌TPU有点像英特尔之前的NNP产品Lake Crest,而最近推出的第三代谷歌TPU则有点类似2019年即将推出的NNP产品Spring Crest。
Carey Kloss告诉智东西,这一代的Spring Crest产品已经给到了除了Facebook之外的更多合作伙伴试用。
此外,据英特尔介绍,目前英特尔在全球数据中心里的市场份额达到了90%以上。
AI用于图像渲染
在至强(Xeon)平台用于图像渲染方面,ZIVA CEO James Jacobs上台介绍了如何将英特人的AI与机器学习用于3D图像渲染,ZIVA曾经推出人体肌肉骨骼模拟插件Ziva Dynamics,被用于不少知名电影里的动物、人物渲染。
比如在上图的DEMO中,用了AI之后,图画里的狮子肌肉细节更加逼真、动作更加流畅。
用USB计算棒进行酷炫的AI作曲
Movidius VPU是英特尔的低功耗视觉处理器产品线,最近推出的第三代Movidius VPU仍旧主打超低功耗边缘计算能力、主打8种应用场景:可穿戴、VR/AR、智能家居、安防监控、无人机、服务机器人。
(Movidius前CEO、英特尔新技术群组副总裁Remi El-Ouazzane)
Movidius前CEO、英特尔新技术群组副总裁Remi El-Ouazzane告诉智东西,在这些领域当中,安防监控是增长得最快的市场。
此前,英特尔还推出了基于VPU的神经元计算棒,将所有的功能封装到了U盘大小的设备中,用户只需要将计算棒插入USB 2.0接口里,就可享用机器学习的强大功能。
在现场,英特尔还DEMO了一段用计算棒来供能的AI作曲。(黄色的音调为人类输入,蓝色的音调为AI生成)。
三大软件工具开源,让AI开发者上手更简单
在软件工具方面,英特尔现场介绍了三大工具:nGRAPH平台、BigDL 大数据 开源平台、OpenVINO开源软件工具。
1、推出nGRAPH平台,支持主流AI开源框架
英特尔AI软件总负责人Jason Knight推出了英特尔nGRAPH平台,这是一个开源深度学习平台,能够支持目前主流开源框架如TensorFlow、CNTK、Caffe2等,还能支持英特尔所有硬件,让开发者在同一个平台上自由选用AI软件算法框架与英特尔硬件,从理论上运行类似英伟达的TensorRT。
英特尔目前正在与微软和百度开始在这方面的合作。英特尔AI产品组硬件副总裁Carey Kloss告诉智东西,虽然今天才正式推出,但是nGRAPH这个项目在英特尔内部已经研发了好几年。
2、BigDL:在 大数据 集群中进行深度学习应用
由于工业级机器学习系统是一条非常复杂的大 数据分析 流水线,如何直接在数据存储的地方进行深度学习应用与数据预处理,成为现实生产环节中遇到的考量。
因此在一年半前,英特尔开源了BigDL项目,让用户可以轻松、简单地在大数据集群中进行深度学习应用。BigDL是大数据框架Spark生态的一部分,因此它可以跟现有的大数据平台无缝衔接,让企业可以在存储数据的同一个集群上直接进行深度学习的应用(比如实时图片搜索、人脸识别),也可以在这个集群上进行数据清洗、特征提取、图分析等数据预处理工作。
3、OpenVINO工具包:视觉智能变革物联网
现场,英特尔还推出了一套OpenVINO开源软件工具,让开发者更简单地在边缘设备上部署视觉计算和深度学习能力。
目前,英特尔已经在和大华、GE通用电气、亚马逊等企业合作。
成为2020年东京奥运会AI合作伙伴
此前,英特尔曾经宣布成为2020年东京奥运会的5G、无人机等合作伙伴,今天英特尔宣布,英特尔将成为2020年东京奥运会的AI平台合作伙伴。
为了这次合作,英特尔还特别在今天宣布举办AI挑战赛,在接下来的三周内,开发者可以提交与2020年东京奥运会有关的点子或策划,优胜者将有机会获得高额奖金。
结语:加强开发者互动,英特尔AI驶入深水期
去年3月,英特尔正式对外宣布,将把旗下所有有关人工智能的业务整合到一起,成立一个名为“人工智能产品事业部(AIPG)”的新部门,由Naveen Rao领导。
在一年多以后的今天,英特尔举办了首届“英特尔AI开发者大会”,在本次大会上,我们可以看到英特尔的AI战略进一步清晰,在软件+硬件+生态合作的基础上,英特尔开始更加关注与AI开发者们的互动。
不过可惜的是,最为受人关注的英特尔AI芯片NNP本次依旧没有彻底揭开神秘面纱。这款被英特尔集团上下十分看重的Nervana项目究竟能力几何,我们还需拭目以待。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-05-24 05:16:00
区块链 的火爆,有比特币暴涨的“功劳”。前些年持有比特币的人,如今笑了;手中没有比特币的人看着比特币的价格直窜,眼红不已。
专家告诉我们:比特币是基于区块链技术而产生的虚拟货币。但要问什么是区块链,顶多有人回答:这是一种智能合约。再然后呢?知之者甚少。
但这似乎没有妨碍人们的关注和热情。一时间,各种各样号称以区块链为基础的虚拟货币和产品横空出世,人们你追我赶,还来不及了解其中的真真假假,“先上车再说,晚了就没机会了”,这是很多人在面对区块链时的态度。
事实上,区块链是一种去中心化的分布式账本数据库。而且,区块链的影响早已超出了虚拟货币的范畴。打开某会议活动网站,关于区块链的会议和活动明显增多了不少,“区块链+金融”“区块链+能源”“区块链+广告”……短短的几个月时间里,区块链似乎就到了能无所不包、无所不联的地步。
区块链的作用和价值正在得到大家越来越多的认可,但是,现在的区块链真的已经能够发挥如此大的影响力了吗?很多业内人士都表示,现在的区块链尚处于起步阶段,很多方面都需要完善。
所以,要警惕跟风炒作区块链的概念。在当前区块链的发展阶段,并不是所有的领域都可以实现“区块链+”,要防止新瓶装旧酒,尤其要防止触及监管红线的行为。
之前有一家公司,把房屋的产权进行分割之后放在区块链平台上,通过代币的方式让投资者进行交易,投资者买的是产权其中的一份。这个商业模式虽然很好地应用了区块链的思想,但是因为代币涉嫌非法融资,严重扰乱金融秩序,触及了监管的红线,被叫停了。
任何事物的发展都需要循序渐进。就拿前些年火起来的 大数据 来说,到如今,仍然有些地方简单地认为发展大数据就是买越来越多的服务器。由此可见,大数据的发展尚需要时日,毋庸说刚刚兴起的区块链。
将世界带向更好的远方的,乍看是技术,背后一定是人。区块链要发挥应有的作用,首先要有“人”在里面做一些建设性的尝试和探索。但就目前区块链的发展来看,我们需要做的准备工作还有很多。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-05-23 15:44:00
近日, 中国顶尖 大数据 服务提供商DataStory( 数说故事 )宣布获得益普索Ipsos数千万级战略投资。 双方将融合市场研究巨头与 大数据 服务先锋企业的优势,让大数据洞察赋能各垂直行业、为多样化业务场景提供商业决策依据。
DataStory创始人兼CEO徐亚波博士(左)与益普索Ipsos(中国)董事长兼CEO刘立丰先生(右)
DataStory是一家技术与商业双驱动的大数据服务企业。以DaaS为基础,SaaS化产品为核心,DataStory旗下大数据智能应用产品从全网数据获取、数据资产管理、分析洞察以及移动营销构建了一站式的服务链条。至今,已成功与亨氏、伊利、美的、腾讯等数百品牌企业展开合作。在大数据商业创新应用服务方面,DataStory已经成长为业内技术领先的公司之一。
作为全球领先的三大市场研究集团之一,益普索Ipsos 1975年成立于法国巴黎,距今已有43年历史,是全球唯一由研究专业人士拥有并管理的市场研究集团,服务覆盖全球89国家与各细分行业。 在全面、创新、极致的服务中国市场客户方面,益普索Ipsos拥有深度洞察市场研究的能力和丰富的全行业服务经验,这与拥有大数据创新商业应用经验和前沿技术基因的DataStory互为助力。
DataStory创始人兼CEO徐亚波博士表示,此次战略投资是DataStory与益普索Ipsos深度协作的开端,双方将一起不断丰富与突破互联网数据在新兴应用场景的探索与落地,用创新解决方案成果赋能企业,加速推动行业大数据发展进程。DataStory也将持续加大投入前沿技术和引入高端人才。
融合综合大数据能力,筑建在策略研究的高度,探寻数据驱动策略咨询的商业价值。 益普索中国区董事长兼CEO刘立丰先生表示,近年来通过与多行业客户接触,发现目前无论是快消行业,零售行业还是势头正足的电商平台,均在数据底层积累和数据与业务的融合上有着很深的理解及积极的实践应用,但受限于技术的实现及人才的匹配,对于数据的整合及数字化营销手段的使用还存在很大的不足。而市场上既拥有丰富互联网数据沉淀,又拥有扎实技术实现能力,帮助企业融合内外部数据做好数据资产管理,同时顺应外部市场趋势做好创新业务场景应用的企业少之又少。DataStory的大数服务模式恰好具备了这三点。
据悉,DataStory已经启动全新战略布局,在数据与 人工智能 技术创新研发和业务拓展上进行深度部署,基于企业内外部数据、线上线下数据的融合贯通,和多样化业务模式探索,构建企业大脑,深度赋能企业数字化转型。未来,DataStory将携手益普索Ipsos等众多合作伙伴,探索更深入的数据以及业务合作,以大数据行业领军企业的愿景,引领数据生态和行业合作生态的可持续发展。
本文为专栏文章,来自:数说故事,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/53573.html 。
数据分析
2018-05-23 12:59:00
编译:数据观 作者:Martin Reeves, Simon Levin, Kevin Whitaker
古罗马哲学家、政治学家塞涅卡曾指出,“ 制度缓慢发展,但却迅速失败 ”。这句格言对商业来说同样适用。以柯达为例,它用了一个多世纪的时间,在2005年接近销售顶峰。但不过短短六年,便已申请破产。
当今的公司,面对不断加大的竞争威胁,如何避免“柯达式”的灾难性失败?有远见的领导者必须避免被传统的业绩指标蒙蔽双眼,并在不可逆转的溃败发生之前找到新的增长点。而一些其它领域的研究,包括生物学与计算机科学,可以为企业创新、增加存活几率提供启发。
平台为何会快速崩坏?
企业,就如同生物生态系统一样,属于一种“复杂适应系统”。许多蓬勃发展的体系都是基于一种促进增长的“正反馈循环系统”,在自然界中,这些体系可能会采取互惠关系,令物种之间相互受益——例如,蜜蜂从植物中采集花蜜与花粉来维生,在这个过程中,植物得以授粉,又为蜂族创造了更多的食物。同样,在商业领域,一种理想的新产品会创造消费者需求,从而拉动销售,推动进一步的产品入场与投资。
[复杂适应系统:Complex Adaptive System,由法国哲学家埃德加莫兰提出。他强调“多样性统一”概念,认为关于世界的基本性质是有序性和无序性的统一]
然而,系统也面临着“负反馈循环”的抵抗力量。例如在生物领域,增长可能会受到食物或其它必要资源的枯竭限制。在商业领域,成功可能会导致那些使市场饱和、产品同质化的模仿者,或是迅速破坏现有企业优质产品的搅局者的出现。此外,高生产水平可能引起负面的环境影响或其它外部效应,最终导致监管机构或消费者的反弹。
传统的商业指标和策略往往会强化这些“负反馈效应”。 企业通过销售额和利润等过时的指标来衡量自身,而这些指标却掩盖了可持续性指标的重要性。一旦成功的商业模式得到发展,企业通常会尽最大可能提高核心产品的的效率和价值。从这个角度来看,对创新进行边际投资就太冒险了。然而,削减这方面的投资,会降低公司增长的 选择多样性 ,一旦需求或竞争发生了变化,就有崩坏的风险。
对诸如企业这样的复杂系统进行建模,会发现很多合理参数的下降速度都比上升速度快得多。此外,在销售或利润到达顶峰之前,毁灭的前奏就已经响起。因此, 企业领导者们必须先发制人——在现有模式依然有利可图的时候,就在创新上投资 。
公司正在迅速崩坏!
正如大多数企业领导者所知,数字时代,新业务的增长正在加速。沃尔玛耗费18年达成收入10亿美元的成就,创下了当时的史上最快纪录,但Facebook只用了6年,而Pokémon就用了7个月。这是日益普遍的数字商业模式的“ 低资产密集度 ”+“ 高敏捷性 ”所带来的结果。
然而,很少被提及的是,公司也在迅速崩坏。我们的分析表明,只有44%的行业领袖能够保持其领先地位超过5年,而半个世纪之前,这个比例是77%。这也是日益普遍的数字商业模式的“ 多竞争威胁 ”+“ 高透明度 ”所带来的结果。
因此,对于现有公司来说,先发制人的创新比以往任何时候都更加重要。领导者如何有效地实施这一战略?
生物学版《商业启示录》
生物有机体已经在复杂的系统中竞争了数十亿年,并且已进化出了与自然及天敌进行持续性抗争的长期成功策略。他们的行为对于商业领导者来说,是一部关于何时以及如何追求新选择的启示录:
1.预期耗竭——在资源耗尽之前找到新天地
许多动物物种在“斑块环境”中觅食,他们必须不断决定是否从现有的斑块中继续觅食——资源会逐渐消耗殆尽——还是寻找新的斑块。边际价值原理解释了为什么动物在耗尽现有斑块之前就开始寻找,并且有研究表明,鸟类和猴子等物种就遵循这一规则。即使在没有竞争的情况下,这也是一个很好的策略,但是竞争加剧了“先发制人”的需求。
[斑块:指不同于周围背景的、相对均质的非线性区域。自然界各种等级系统都普遍存在时间和空间的斑块化。它反映了系统内部和系统间的相似性或相异性。]
与觅食动物不同,企业领导者无需在“开采”与“搜寻”之间二选一——他们可以同时分配资源。但边际价值原理表明,公司应该在现有的增长引擎耗竭之前就充分投资于创新。
2.大步小步配合走——启用“列维搜索模式”
生物物种不仅提示我们何时开始探索,还告诉我们如何高效率地探索。例如,蜜蜂采花的时候会 在大量的短距离运动中穿插着一些长距离运动 ,以减少对任何单个区域的依赖。这种运动被称为“列维搜索模式”,这种“长尾”的步骤分布可以产生最佳搜索结果——尤其当斑块的价值不确定的时候,动物可以利用从各个斑块中搜索的信息更好地理解环境。
在商业上,创新努力不应该仅局限于“大步”或“小步”,相反,企业应该同时利用两种运动方式——“大步”探索未知区域,“小步”以低成本开发邻近选项——并从一次次尝试中找出新的机会。
3.拥抱进化
从较长的时间尺度上来说,生物有机体是通过自然选择来适应不断变化的环境的。这个过程需要创造基因密码的变异,比如,通过有性繁殖,以模块化的方式重组基因。即使是细菌,也使用“水平基因转移”的方式进行重组。此外,一些物种,包括大多数的大肠杆菌菌株,在压力下会经历更频繁的突变,以增加适应性。
然而,很多企业却不是这样做的。当遭受经济压力或竞争压力时,企业往往会降低他们的探索速度,并“关门扫雪”。
企业领导者应该 通过实验创造变化,并让市场选择赢家 ,尤其是在环境不确定的情况下。例如,阿里巴巴每年都会让高管在不同的业务部门进行轮换,不仅提升领导者个人的技能,还整合了来自不同部门的系统知识——这也是一种可以增加变异、加速进化的“基因重组”方式。
在下一篇文章中,我们将介绍来自计算机科学的商业建议。敬请期待!
数据观 新一代 商业分析 平台;让数据说话 让 商业智能
本文为专栏文章,来自:数据观,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/52924.html 。
数据分析
2018-05-22 06:18:00
本文来自微信公众号 “CHO首席人才官”(ID:chomedia) ,作者 兰青秀。
1“后工业社会”时代的互联网属性进化
“后工业社会”是美国著名学者和思想家丹尼尔·贝尔提出的,其典型特点是:以理论知识为中轴,核心是人与人之间知识的竞争,科技精英将成为社会的统治人物。
在互联网出现之前,后工业社会的进化相对平缓,知识进步对社会发展的驱动是平稳上升的。
然而,互联网的出现和高速发展,就像是为后工业社会注入了催化剂,人类社会在短短二十年中,就发生了可以媲美甚至超过以前百年进化的巨大变化。
后工业社会,被打下了深深的互联网属性。
知识创造未来的同时,未来也在改变知识本身。
2 颠覆再造: 大数据管理 掀起知识革命浪潮
从结绳记事到发明文字,人类社会的每一次进化都伴随着以数据信息为核心的知识革命。数据与信息的载体,从甲骨、木简、布帛到纸张,经历了数千年的历史。然而,从纸张到电子,几乎是一步跨越,就颠覆了几千年来数据信息记录、传播、交流与存储的传统方式。
大数据 管理同时革新了数据信息的入口端和出口端。
在数据信息入口, 大数据 管理提供了真实的、实时的、低费的、海量的数据输入。
比如我们想要使用电子地图和导航设施,就必须定位所在位置和要去的目的地,并且在途中用GPS(全球定位系统)时刻记录位置,这就是 数据信息的真实性和实时性。
入口端通过提供一些免费的大众服务来获取大众的各种数据信息,这就是低费性和海量性。
在数据信息出口,大数据管理提供了丰富的数据信息、精准的信息分析、便捷的信息匹配、高效的信息应用等实用功能。
比如淘宝、京东等电子商务网络平台 ,作为生活购物的综合信息平台,会对消费者的消费数据信息进行记录、追踪、分析,洞悉并掌握消费者的消费习惯,从而进行针对性营销推荐,甚至衍生一系列的后续商业服务。
3 风雨欲来:势不可挡的人力资源管理革命
(1)不断变化中人力资源管理
大数据管理下的知识革命重新定义了“知识”,作为知识创造者、吸收者、利用者的人力资源管理者,势必会被赋予新的内涵和使命,而这些正在悄无声息地改变着人力资源管理的主体内容。
数据信息革命正在给人力资源管理带来全方位的变化: 大数据将为人力资源规划提供更为科学、全面的信息与数据基础; 基于人才数据库的招聘工作将在招聘信息发布、简历收集筛选、人才测评、人岗匹配等方面 大大提高工作效率和效果; 知识数据库将培训资源和培训需求实时链接和高效匹配,更有利于培训目标的达成; 薪酬数据库使得外部薪酬调研高度便利化 ,市场薪酬的透明性又反过来推动了企业薪酬进一步体系化和公平化; 绩效数据库使得绩效数据统计分析更加客观和便捷,使得绩效管理从烦琐的 数据分析 中解脱出来; 员工信息数据库使得劳动关系管理更加科学和规范 ,更有利于防控用工风险、推进人本管理,提升员工的企业黏性。
(2) AI 推动人力资源素质革命
人工智能 (Artificial Intelligence,AI)是模拟、延伸和扩展人类智能研究的技术科学,包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
人工智能的本质是“基于算法”的智能 ,在大数据的基础上,基于计算机科学的高度发展,人工智能已经取得了一个个丰硕的成果。 2016年,为吸人眼球的“阿法狗大战李世石”,结局却让人大跌眼镜:李世石以1:4落败于阿法狗。从“深蓝”战胜国际象棋大师加里·卡斯帕罗夫,人工智能很快攻下了“被认为是最复杂的智力竞赛”的围棋大赛。
中投顾问发布的《2018——2022年中国人工智能行业深度调研及投资前景预测报告》认为,随着AI技术研究的逐步成熟,人工智能在无人驾驶领域、医疗图像分析、智能投资顾问、精准营销应用、新零售应用等领域的应用进程将进一步加快。
AI的高速发展启动了人力资源素质革命的加速器。 简单机械的工作将被人工智能很快取代: 在制造行业,有很多企业已经引入工业机器人,替代了很多流水线工人,并且大大提高了工作效率,降低了生产浪费; 在零售领域,无人超市已经上线,传统的理货员、服务员、收银员等,已经处在风口浪尖; 无人驾驶正在快速发展,驾驶员将何去何从?
大数据信息公开且动态匹配,使得传统的靠信息提供与匹配生存的中介机构,甚至包括提供高端猎头服务的人力资源机构,都面临了前所未有的转型挑战。
人力资源开发目的就是提升人力资源价值增值部分。当人力资源的价值定义被改写,人力资源素质革命的大幕拉开了……
4 未来已来:大数据与AI下的人力资源管理重构
(1)“终身学习+立体能力”重构人力资源素质
“不是我不明白,这世界变化快”,就像这首歌里唱的,科技的高速发展使得现在的世界堪称“日新月异”。
人力资源素质革命使得知识和能力的迭代周期正在快速缩短。在教育领域,以前可以用15~20年的教育周期培养一个可以工作30-40年的人力资源个体,大多数受教育者也可以凭借所学养活自己一辈子。
但是现在似乎不一样了。原有所学的价值,正在变得模糊,或者飘忽不定,而且 几乎没有办法预期这些价值会在什么时候就会突然消失殆尽。
“终身学习”变成了人力资源素质革命中能够给予大家安全感的“唯一法宝”。 只有时刻关注快速发生变化的时代,不断更新并获取匹配时代发展的人力资源素质,才能不被快速发展中的社会淘汰。
另外,人力资源能力正在从线性变得“立体”, “斜杆青年”的状态将会从“时尚”逐渐变成“大众”。 “终身学习+立体能力”将成为鲜红的旗帜,引领大家走上人力资源素质重构的革命道路。
(2)“泛平台化+劳务关系”重构人力资源管理
时代的快速变化使得传统组织的固化障碍正在变得越来越突出。新时代的管理呼唤灵活多变的组织,于是,“平台化”组织成为时尚,“合弄制”正在成为新时代组织再造的研究方向之一。
现在很多企业正在向平台化组织转型,以“人力资源能力”为核心组织能力的行业,比如法律、审计、咨询等行业的企业组织,是平台化转型的先锋队。
同时,人力资源素质重构提供了更加具有成长性和立体化的人力资源个体。 新时代的人力资源个体希望实现跨组织的合作与成长,全方位“解锁”自身的人力资源能力。
当组织更加柔性,人力资源更加立体,传统的“基于雇佣关系的劳动关系”将会成为历史,“基于平台组织的劳务关系”将成为未来人力资源合作的主流模式。“泛平台化+劳务关系”将全面革新人力资源管理的基础和结构,重构人力资源管理的内容和形式。
综上,大数据管理使得“互联网+” 从标签变成了烙印 ,深刻融入并驱动了社会发展,正在快速改变时代的面貌;具有互联网基因的AI技术与大数据紧密结合,成为重构商业运作形式的“利剑”。
大数据与AI下的人力资源管理重构,A面是“终身学习+立体能力”重构人力资源素质,B面是“泛平台化+劳务关系”重构人力资源管理。
A面与B面相互促进又制约,在对立统一的“矛盾”中共同发展,正在改写人力资源管理的未来。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-05-18 21:00:00
在国庆节期间,学姐安排了整整七天且细分到上下午的相亲日程。相亲地点遍布长江三角洲区域各大城市,而相亲项目包揽了吃饭、喝茶、喝咖啡、电影、唱歌、旅行等多种形式。
当学姐红光满面地回到上海之后,我诚挚地向她表达了钦佩之情。
学姐很谦虚:哎呀,这不算什么啦,寻找自己的人生伴侣嘛,总要付出辛苦的努力,才能开花结果啊!
我略有疑惑:但是,把整个假期都消耗其中,会不会太没有效率了呢?
学姐反问:那么,小团你说,怎么样才能更有效率呢?
这倒是问到我了, 如何更有效率地找到人生伴侣呢?
让我们来做一个数学实验来研究一下这个问题吧。
首先,我们假设需要寻找伴侣的适婚群体有以下两个特征: 群体中男女数量一致; 群体中每个人都有一个分值(比如高分男、高分女、低分男等),而群体的分值符合正态分布(平均数为60,标准差为10)。如下图所示:
那么,这些适婚群体要如何在其中找到彼此的伴侣呢?
因此,我们设计了如下的配对规则: 对所有人进行异性间的随机配对。由于现实社会中许多配对都是男性的综合条件略强于女性,我们在模型中设定,当男性的分值不低于女性,且配对双方的分值差距在[0,10]分范围内,视为配对成功,否则配对失败; 配对失败的人将进入下一轮配对,规则同上;配对成功的人不进入下一轮配对;此步骤循环进行。
我们按照以上规则,将模型多次迭代,得到结果如下图所示:
可以看到: 随着配对次数的增加,适婚群体的成功配对率在不断提高,但提高的速度却在不断减小; 一次配对的成功率约为30%,两次配对的成功率约为46%,三次配对的成功率约为58%……异性恋的有效配对次数为9次,配对9次时,总体的成功率达到80%; 9次之后,尽管配对次数继续增加,成功率的增加则微乎其微。
啊,难道说,9次之后还没成功,便要注孤生吗?
不着急下结论,我们不妨先来看看不同分值人群的成功配对率吧:
可以看到,不同分值人群的成功配对率差异极大: 50-69分(也就是普通大众群体)的成功配对率是最高的,经过9次配对之后,大概有85%。 高分男性的成功配对率较高,但成功率最高的是60-89分的男性(其中70-79分的成功率则接近99%),而低分男的成功率则极低,只有10%左右。 女性的成功配对率与男性截然相反:由于高分男总是倾向于选择得分略低于自己的女性,因此,成功率最高的是30-59分的女性,而在高于60分的高分女区段中,女性得分越高,配对成功率越低。
当然,无论分高分低,性别如何,作为一个适婚群体,其实都面临着同一个问题:
如何在减少配对次数的情况下提高成功配对率呢?换句话说,如何更有效率地找到人生伴侣呢?
一般而言,我们很容易地会想到第一个策略:
策略1:精准相亲
大家可以看到,之前用于计算的模型中用的是随机匹配。而在实际生活中,我们往往都是通过亲朋好友介绍、或者婚恋平台等方式,进行相对精准的选择。
那么,与“随机匹配”相比,“精准相亲”真的能提高配对率吗?
很简单,让我们修改一下模型,使得每次匹配都在分值相近的区间内进行(而不是随机进行),也就是相对精准地配对。结果如何呢?
请看下图:
从图中可以清楚看到: 毫无疑问,相亲的初次配对成功率远比随机配对要高。的确,在相亲中一见钟情的可能性还是比漫无目的的社交大得多。 但是,我们也可以发现:虽然前几次相亲的成功率较高,但次数也仅限于5次而已。 在精准相亲超过5次以后,不仅配对成功率提高缓慢,甚至还低于随机配对的成功率。
原因嘛,很简单:假如你相了五次亲都没挑中(或被挑中),一般而言,再相下去也只是徒劳吧。哈哈哈。
的确,当精准相亲都无法解决你的婚恋问题时,不由自主地,你往往会开始怀疑人生。
你会开始质疑(或者被爹妈以及七大姑八大姨们质疑): 难道是我的择偶标准过于苛刻了吗?
是的,在这个深刻怀疑人生的时刻,你往往会想到下面这个策略。
策略2:放宽择偶标准
在最初的模型中,我们要求男性得分比女性高出0-10分才算是成功匹配,这导致了高分段女性和低分段男性的成功配对率非常低。显然,如果女性适当放宽择偶标准,将很有可能改变最终的配对结果。
那么,来放宽择偶标准试试吧!
我们修改一下配对规则:男性的分值减去女性的分值的结果处于[-5,10]的区间内。也就是说,既保持“男高女低”的大格局,也允许有“女强男弱”的类型出现 。结果如何呢?
请看下图:
可以看到,总体的成功配对率达到了91%。比之前标准高出了11个百分点。放宽择偶标准的效果显著嘛!
即使我们细分到不同类型的人群中,也可以看到:对于得分在40-79分的大多数人而言,成功率配对率达到93%(提高了12%),而40分以下和80分以上人群的成功率也达到了65%(提高了16%)!
没错,无论你处于哪个分数段,放宽择偶标准都是解决自己婚恋问题的有效方法。
但是,在现实世界中,总有一些保持着『只为玉碎』的坚强品质的人,宁可单身也不放宽自己的择偶标准,坚决排除不适合自己分数的潜在对象。
那么,对于这样一个群体,我们还有别的方法吗?
当然有的,那就是:
策略3:接受开放关系
所谓开放关系指的是:每个人都可以拥有多个伴侣。
体现在模型中的话那就是:上一轮成功配对的个体,仍然可以进入下一轮配对。换句话说,已经配对成功的人,依然可以进入到下一轮配对当中。
你看,是不是忽然多出了很多可选择的对象呢?
没错,画出图来的话是这样:
可以清楚地看到: 随着配对次数的增加,总体的配对率将会成倍增长(这是一个等差数列); 所以,只要你保持接受开放关系,同时坚持不懈,总能找到合适的对象的;不仅仅保证能找到,而且还能保证你找到超过一个以上的对象。是的,上图中很清楚地说明了:只要配对次数超过3次,配对率已经大于100%了。
这个时候,人们不禁会产生担心:
既然允许接受开放关系,那么高分的人群岂不是要霸占更多的婚恋资源,这让其他的低分群众怎么混呢?
不必担心,我们先来计算一下吧:将不同得分的群体进行多轮配对后,可以得到下图:
在开放关系的前提下: 1. 分值在40-79的人群平均每人将拥有2.6个配偶;
2. 而40分以下和80分以上人群平均每人只拥有0.48个配偶。
是的,越是普通大众,越容易在开放关系中受益。这个结论也很容易解释:
当大众都接受开放关系时,那么占据人群大多数的群体总是能有更大概率遇到自己可接受的对象的,而数量本来就不多的高分人群和低分人群在自己所属的群体中寻找可接受的对象,就显得更加举步维艰了。
当然,并不是所有人都能够如此激进地接受开放关系的,那么,既不肯放宽自己的择偶标准,又坚持保持传统婚恋关系的人,还有什么方法可以提高婚恋成功率呢?
我们只好祭出最后的必杀技了:
策略4:改变性取向
在讨论这个深刻的问题前,大家不妨先自己思考一下,从概率的角度,同性恋和异性恋谁更容易找到对象呢?
我们用计算模型来尝试一下吧:假设群体的性别和分值分布情况不变,将成功配对条件修改为同性、配对双方的分值差距在[-10,10]的范围内。
结果如下图所示:
没错,尽管同性恋的有效配对次数仅有7次,但此时的总体成功配对率却达到了97%。而从不同性别和分值人群的成功配对率来看,性别间也不存在显著的差异。请看下图:
看来,在找对象这件事情上,同性恋往往会比异性恋更为快速、高效、均衡。
当然啦,性取向不是只有同性和异性,还可以双性嘛。
我们再次对模型进行了修改,结果表明,双性恋的总体成功配对率为96%。而且有趣的是:在成功配对的双性恋中,同性结合的比例为64%,异性结合的比例为仅为32%。
原因嘛,很简单:既然同性更容易找到另外一半,那么在双性恋中,当然同性配对的占比会更高啦。
至此,我们可以绘制出不同性取向群体的成功配对率曲线了,请看下面一系列图:

从这两张图中,我们可以为大家总结一下 不同性取向的婚恋三定律: 定律一:
无论哪种取向,普通大众的成功配对率都显著高于高分和低分群体;
定律二:
在大多数情况下,同性恋的成功配对率都高于异性恋和双性恋;
定律三:
但是,对于高分男性和低分女性,无论采取哪种取向,配对成功率都不会发生大的改变。
欢迎大家对坐入号,提供个人经验与 数据分析 对应反馈,谢谢。
注:
1.本文作者为“团支书”,由微信公众号“城市数据团”原创且首发。
2.现实世界纷繁复杂,远比模型中的设定更加难以捉摸,如果你真的遍历了本文的所有策略都还无法找到伴侣,请把简历(含全身、半身、大头照片)发给我,以便进行个案研究并客观地提供个性推荐(仅限男性)。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-10-13 06:18:00
很多传统企业在做 大数据 ,但笔者在企业内外进行 大数据 培训的时候,却有很多的业务人员来问这样的问题:
“我们不懂IT技术,不懂大数据,不懂 人工智能 怎么办?”
“你说的有些道理,但我并不能直接将其用到市场上去,你要知道市场比你想象的复杂多了!”
正好最近吴军在《谷歌方法论》谈到计算机的角色和信息的作用时,也碰到了类似的问题,但却做了非常好的回答,当然这个回答不仅仅是面向业务人员的,对于从事大数据、机器学习、人工智能等相关领域的人士也具借鉴意义,他是这么说的:
“你们从业这么多年,积累下来的信息就是财富,不要做捧着金饭碗讨饭的事情,要善用这些信息。至于你们找的IT工具,使用的开源的人工智能算法是否最佳,没有太多关系,用不用信息,是面对金山银山取和不取的差异,模型比不过那些著名的IT公司,只不过是少了一两颗金豆而已。”
然后他举了个例子,任何致力于在大数据、机器学习上希望有更多提升的同仁,可以想想是不是这个理。
“我在清华大学电子工程系找到了语音识别这个研究方向,应该讲工作做得还不错,有一天我比较早地到实验室,实验室里也没有别人,朱教授也到了,他不是我的导师,平时从来没有和我聊过我的研究工作。这天因为实验室里就我们俩人,他来个我聊天,问我在做什么。”
“我就讲自己在寻找一种更好的模式分类方法,将发音相似的一个元音识别得更清楚些,并且取得了一些进展,降低了大约10%左右的相对识别错误率,还想再试图改进一下方法,再降低一点错误。我指望着朱教授夸我一番,然后说,不错,继续努力吧。谁知道他给我泼了点冷水,说道,你的做法虽然有效,但是也做到头了,别在这条路上再浪费时间了。”
“我当时就很纳闷,问他为什么?他对我讲,减少语音识别的错误,就等于要消除不确定性,而消除不确定性,就要使用新的信息。你使用的仅仅是你前面学生们使用过的老的信息,他们的模型做得不是很准确,使你能够有一个小的提升空间,但是你能得到的油水就这么多,再怎么玩,也玩不出什么新花样,要想进一步提高,就需要寻找新的信息来源。”
“朱教授的观点其实是转述香农已经严格证明的理论…..,以后,我越来越体会,在IT领域做事,要想获得好的结果,就需要挖掘先前别人挖掘不到的信息,如果使用的还是别人已有的信息,不论把模型建的多么准确,取得的进步都非常有限。”
吴军提到Google在搜索算法提升上,绝大多数改进都是围绕信息的使用上,90%的改进来源于找到了新的有用信息,比如上下文信息,只有不到10%的改进,在于用更好的机器学习方法,把模型的参数训练得更准确,当然,到后来最好用的信息已经不容易找了,Google的搜索部门也不得不花很多力气调整算法的精度,但是,后来那些改进,幅度只是当初改进的1/10,甚至1/100。
所谓的大数据思维,本质上就是利用信息消除不确定性,当你无法获得他人所没有的信息时,你比他人也走不远。
传统企业很多在基于机器学习做精确营销,企业的IT人员会认为用 机器学习算法 会比业务人员的经验规则要好很多,但效果很多差强人意,实际上在传统企业内,你会发现业务人员的很多经验规则甚至很有效,仅靠机器学习的改进,对于精确营销的提升非常有限。
老酒装新瓶,没有新的信息要提升精确营销的效果的确很难,当然我们需要更为全面的看待不确定性这个问题, 从企业大数据运营的角度看,笔者觉得消除不确定性有三个方法,一靠业务理解,二靠新数据,三才是合适的算法 。
1、业务第一
这个世界的复杂性、要素的多样性及有限的数据采集能力决定了我们不可能获得全部信息,除了有限规则的领域,在大多数行业,业务人员的经验输出就是最大的大数据,经过几十亿年的演化,我们的大脑几十亿神经元就是最实用的大数据存储器和机器学习引擎。
咱们先来设想一个场景,一个会议室里坐满了人,正在做报告的年轻人西装笔挺,头发书的一丝不苟,PPT上列满了数据和图表,他正在论证一个什么东西。年轻人讲了很多,可是在台下听报告的一个穿着随意的大佬,有点不耐烦了:“你不用说那么多,我就问你几个问题。”
大佬问了几个问题,年轻人马上被难住,于是大佬否决了年轻人的整个方案。
我们对这个场景并不陌生,这可能是一次 数据分析 会,一次跟主管的建模方案汇报,或是你去见一个客户汇报成果,大佬问问题往往是写意的,但他们三言二语就能发现问题的关键,并以此做出决策,然后事实证明大佬们说得对,大佬的经验就是消除不确定性的利器。
每个人的大脑是如此不同,基因研究甚至表明,虽然人的各个种族之间有基因上的宏观差异,但这个差异度比种族内部个体之间的差异可小多了,在一个领域内提升认知能力是做好大数据的前提。
对于建模师来讲,其实最需要的不是什么建模知识和技巧,而是认知能力,最主要的就是通识能力和对于这个专业领域的认知深度,从这个角度讲,企业的业务人员做大数据甚至更有优势。
2、数据次之
传统企业做大数据,其实能带来革命的大多依赖新数据,运营商当前提及的大数据,不是指原来就有的用户资料、产品订购、通话详单等传统数据,更多是指新采集的O域数据,比如位置、DPI等等,新老数据的整合才给了运营商在大数据领域新的机会。
我们有很多的行业合作伙伴,比如银行,银行的风控能力很厉害,但它们也需要运营商的数据来完善它们的模型,芝麻信用厉害的也不是什么模型,而是搜集数据的能力,其90%的数据来自各个行业。
新数据在提升模型效果方面的作用是巨大的,数据的维度越多,对于消除不确定的作用就越大,我们团队在内部讨论精确营销模型的时候,首先会看有没有基于新数据的新变量的引入,我们更希望用新变量来带来模型质的提升,而不是不停的变换算法,比如以前常驻地判断依靠的是通话话单附带的位置信息,但如果用户不通话就没有位置数据了,引入了位置信令后覆盖度就大幅度提升了,现在新引入的MR数据又使得常驻地判断更准了,这些其实都不需要什么建模,数据科学家、人工智能算法在新数据面前,都得往后排。
很多企业会面临数据采集“鸡生蛋,蛋生鸡”问题,因为采集数据是有成本的,笔者的想法则比较激进,采集数据应该升级为企业的战略,不仅要采集全已有的数据,还需要创造条件获得更多外部数据,比如我们搞的爬虫、行业知识图谱、MR数据都是为了获得新数据,这些新数据让拓客能力提升了一个层次,但大多企业只是把这个当成PPT的一段文字,很难有实质性的推进。
数据采集应是企业数据管理团队最重要的工作。
3、算法第三
算法的目的就是发现规律,它天生就是为消除不确定性而生的,但优先级却是最低的,因为如果企业真到了要靠新算法来来解决问题的时候,油水可能已经不多了,当然有人会问,现在语音识别、图像识别都是靠算法获得了重大突破,使得很多应用成为可能,怎么会油水不多呢?
如果你看看语音识别和图像识别经历了多少坎坷才达到现阶段的水平,你就知道这个活一般的企业是干不了的,虽然这么说有点功利,但的确是事实,传统企业肯定无法靠研发算法来获得大数据的进步,而是要思考如何利用好现有的算法为自己的企业服务。
互联网公司的很多算法已经比较成熟,现在来看,传统企业需要基于自己特有的数据利用好这一波算法的红利,比如天盾反欺诈利用的是以前运营商很少用的时间序列算法,属于老数据+新算法获得的红利,实名认证利用了CNN等图像识别算法,视频推荐利用了矩阵分解、协同过滤等较为成熟的推荐算法,行业知识库则利用了自然语言处理的一些东西,不胜枚举。
笔者觉得现在很大的问题是传统企业对于这些算法的认识还是比较浅的,虽然我们大概知道有哪些,但并不太清楚这些算法的适用场景,比如反欺诈肯定是不适合用分类算法做的,因为正负样本相差太多了,这其实是个异常检测的问题,但碰到这类问题我们开始往往束手无策。
笔者曾经思考过,运营商既然有较好的时空连续大数据,为什么不能针对时空做个大聚类,看看各个类别的人群有什么特征,比如我们原来考虑过什么样的线下场景会触发用户更多使用流量呢,男同胞陪女士逛商城?,但一直做不出来,一是因为数据量过大,根本不知道如何转换,二是也不知道用什么算法,我们的很多流量营销场景实际是想出来的,而不是数据验证的结果,当然经验很重要,但经验也限制了我们的想象力。
其实传统企业也缺乏使用大规模并行算法的工程经验,有海量的数据却很难挖到更多的价值信息,记得当初基于TF ON SPARK搞个测试调通程序就花了半年,底子还是薄了,全部要自己研发也似乎不现实,现在社交网络已经发现了不少机会,但价值显现需要很长的时间。
算法第三并不是贬低它,而是从性价比的角度来讲的,在业务和数据无法有质的提升的情况下,改善算法几乎是唯一的方法,但我们对于算法的使用效率还是很低的。
因此,传统企业在利用大数据从不确定性走向确定的时候,方法还是非常重要的,做正确的事比把事做正确更重要!
本文为专栏文章,来自:傅一平,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/58018.html 。
数据分析
2018-07-21 18:31:00
4月9日, 商汤科技 SenseTime 宣布完成6亿美元C轮融资,这是去年七月宣布B轮融资4.1亿美元后,商汤科技再次创下全球 人工智能 领域融资记录,并成为全球最具价值的 人工智能 平台公司。
商汤科技C轮融资 由阿里巴巴集团领投,新加坡主权基金淡马锡、苏宁等投资机构和战略伙伴跟投, 新一轮投资者带来综合性战略价值。商汤科技称,吸引卓越的投资人入股,是商汤科技人工智能平台化发展的重要一环。
商汤:2017年已全面盈利,C轮融资三大用途
商汤科技联合创始人、CEO徐立表示:“商汤科技C轮融资将进一步夯实公司在人工智能领域的领军地位:首先,以商汤原创技术为核心,赋能更多行业;其次,与全球头部伙伴进行深度合作,进一步拓展商业版图;第三,强化上下游产业链,深化商汤在人工智能产业链布局。”
阿里巴巴是本轮融资的领投方,阿里巴巴集团执行副主席蔡崇信表示:“商汤科技积极拓展人工智能领域,尤其在深度学习和视觉计算方面,其科研能力让人印象深刻。阿里巴巴在人工智能领域的投入已为旗下业务带来显著效益,今后我们将继续在人工智能领域作出投资。我们期待与商汤科技的战略合作能够激发更多创新,为社会创造价值。”
苏宁易购副董事长孙为民表示:“智慧零售本质上就是零售要素的数字化,零售运营的智能化,因此未来人工智能将在智慧零售领域发挥越来越重要的作用,商汤作为国内行业领头企业,其聚焦原创技术,打造人工智能商业生态的理念,与苏宁智慧零售战略布局不谋而合。双方合作后苏宁将人工智能运用在零售生态圈,并通过场景互联网,零售 大数据 反向赋能人工智能技术,为广大消费者带来更贴心的消费体验。”
此次阿里巴巴集团领投,淡马锡、苏宁等多家顶级投资机构和战略伙伴跟投,将为商汤提供更丰富的应用场景,更强大的海外布局能力,加速AI技术落地。商汤科技完成C轮融资后,将进一步强化在安防、手机、自动驾驶及互动娱乐等行业的落地优势,加快在智能零售、金融、教育等领域的技术落地,拓展商业版图,加速人工智能平台化发展。
凭借强大的原创技术能力和国内最大的深度学习超算中心,商汤科技在 人脸识别 、 图像识别 、自动驾驶、人机交互、医疗影像、深度学习硬件优化技术等多项人工智能核心技术和商业应用中领跑行业,成为世界一流的人工智能平台公司和算法供应商。商汤科技还称, 2017年已实现全面盈利 ,连续3年实现超400%的营收增长。
自创立伊始,商汤科技已与高通、本田、美国麻省理工学院等诸多国际知名机构进行重大战略合作。2018年三月,商汤科技与上海仪电集团、上海临港集团等多家大型国企战略签约,在平安城市、智慧交通、智慧金融等领域展开全面合作。
徐立:人工智能10年能创造一个印度和中国的总产值,AI有“三段论”
商汤CEO徐立在不久前的清华AI公开课上透露,商汤创立三年来在CVPR发表的论文达到119篇,这是去年的数据。现在已经远超了,因为今年CVPR商汤有44篇入选。
商汤开发了自己的深度学习原创平台,叫Parrots。有了这个平台就可以处理的东西就很多。商汤的团队在2016年ImageNet图片分类中做出性能最佳的 1207层深度神经网络,徐立表示这可能是在ImageNet上最深的一个网络。
“我们有三大要素保障这个平台的优异性能,除了刚才说的超深网络,还有超大数据学习,我们有20亿人脸数据同时训练;此外还有复杂关联应用的多模态数据学习。”
徐立在接受新智元采访时曾提到他个人的”人工智能观”可以归纳为一个“三段论”——人工智能的发展从来不是渐进的,而是突变型的。人工智能一共分为三个阶段:
第一个阶段,AI不如人的阶段,因此也很难产生突破行业应用;
第二个阶段,AI超过普通人,会有生产力的提升,带来产业升级。
第三个阶段,AI超越专家。这个阶段会产生服务升级。
第二和第三阶段区别在于专家的知识不像普通人的知识那么好获得(通过标注就可以获得)。所以对于算法设计都有很大的挑战。一个例外是AlphaGo, 专家知识(人类的50万把对弈)已经储存在那里了。但是一旦超越专家,这就是一项服务产业升级。因为专家的资源一定是稀缺的。
徐立还认为,算法红利并没有消失,还是依旧有潜力可以挖掘。他说:“但是这里面有很多设计、工程的活,这些是逃不开的。从创业来说,要耐得住寂寞。”
附:商汤融资历史:
2014年,A轮,IDG资本,数千万美元
2016年,A+轮,Star VC和万达集团,数千万美元
2017年7月,B轮,赛铃资本、鼎晖投资、中金公司、招商证券等十几家公司,4.1亿美元
2017年11月15日,高通,数千万美元战略投资
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-04-10 11:13:00
本文介绍了幽默艺术家Janelle Shane训练 神经网络 系统,对编织艺术推陈出新,与编织爱好者共同设计风格独特的织物的经历。作者Alexis C. Madrigal对神经网络的创造性十分认可。本文编译自The Atlantic题为“SkyKnit: How an AI Took Over an Adult Knitting Community”的文章。
神经网络与艺术
近五年来,神经网络这种机器学习技术在 人工智能 领域已成为主流。Janelle Shane非常特别,她竟用神经网络制造幽默。
也许你曾看过她为情人节设计的心形标语。神经网络经过训练,可以批量生成让人啼笑皆非的“甜言蜜语”,像是“亲爱的我”“爱的小面包”““我的胖狗熊”等等。
也许你还听过这几种颜色:喇叭绿,免费红,公牛乳色。这是她训练神经网络对RGB256色自动命名的结果。
还有她为万圣节服装设计的新名字:朋克树,迪厅怪兽,斯巴达甘道夫,星舰狂鲨,还有蒙面箱子侠。
她的最新计划蓄势待发,预备将幽默艺术推陈出新。受到编织爱好者论坛Ravelry上一位用户的启发,她整合了500多种编织方法,训练神经网络输出新的织法,结果竟然和论坛上一些人不谋而合:她们也想出了这种织法。
“我脑海里有个念头一直挥之不去。研究编织方法,能为纺织爱好者和电脑程序之间构建一道桥梁,这是非常有意思的。”Shane还提到:“电脑程序会输出一大堆我看不懂的织法,但织工看到之后可能会觉得那真的很有趣。”
尽管你不一定愿意为这些新奇古怪的产品慷慨解囊,但这件事本身却饶有兴味。Rivalry论坛一名叫Citikas的用户就做了这个“吃螃蟹的人”,在论坛上展示了自己按说明织出来的“翻领披肩”。它看上去的确怪怪的,但也不失独特的魅力。
论坛里把整个计划命名为Skyknit,Shane戏谑地称作是一场“欢乐的灾难”。
Ravelry论坛用户citikas展示的“翻领披肩”图案
运用神经网络进行复杂的计算处理,这个概念已经提出了数十年。但直到近十年,数据组,芯片制备与计算能力三者的进步才终于将神经网络发展为实用的技术工具。目前我们已经开发出多种类型的神经网络,以满足用户不同的需求。例如,利用神经网络进行多语种的Google翻译;用于图片的自动识别与归类的软件;还有用于Facebook界面新闻推送的程序。可以说,神经网络已经渗透到技术领域的方方面面。
不同的神经网络都有个共同点:它们需要接收海量数据,然后为其建模。成功拟合数据后,可以大胆冒险,尝试进行预测。遗憾的是,我们很难将神经网络的工作原理可视化,也很难阐释清出背后的数学知识,因为模型中的数值可能具有上百个维度,而我们人类的生存却是局限在三维空间当中。但热衷于神经网络研究的Robin Sloan曾说过:“那又怎样呢?事实证明,即使你想象不出这样的多维空间,它还是有用的啊。”
神经网络潜移默化地渗透到其它领域,由此催生出一种新的艺术形式。与旁人不同,艺术家们利用神经网络,探索潜藏于广阔而神秘的世界间的奥秘。他们会思考这样的一个问题:当机器接收并理解了人类输入的数据后,它们会如何认识这个世界?最有名的,莫过于Google的Deepdream,它向我们证明了,神经网络如何利用输入的原图像对其材质、触感以及意象等进行处理,从而输出绚烂的幻觉图案。
此外,神经网络经过训练,可以像人类一样绘画;还能“舞文弄墨”,斟酌词句。诗歌,散文,电影剧本创作都不在话下。但这些实验都是在计算机的虚拟空间内进行的。在这个空间中,字母已经不再是白纸上具有某种形状的墨块,而是被定义的字符;图像也不再是帆布上的油彩,而是像素块的有序排列。
而这就是编织项目的与众不同之处。神经网络程序输出的结果,不再局限于虚拟,最终能反映在织好的实物上。
当编织遇上神经网络
编织技法有点类似于编程,当中有基本操作,重复针法,还需要不少计算。在Ravelry论坛上,一名叫Woolbeast in the thread的用户是这样评价这个项目的:“我丈夫说编织其实就是数学,只不过这种数学要用毛线和针来完成。你必须不断重复,才能弄出形状,创造出自己的设计品。”
编织技法中有很多缩略术语,比如k和p,代表两种基本的针法:下针和反针(knit, purl)。St代表针步(stitch),yo代表空针(yarn over),sl1代表朝上针方向滑一针(slip 1)等等。因此每行的针法可以这样来表示: 第一行: sl1, kfb, k1 (4 sts) o
第二行: sl1, kfb, k to end of row (5 sts)
但神经网络并不明白,这些术语和具体单词的对应关系,更理解不了这些单词所代表的具体编织动作。它只能接收这串字符的字面意思,用于数据建模。然后它输出新的字符串,指导人们编织出新的花纹图案。
去年一位叫JohannaB的论坛用户提议Shane训练神经网络学会编织图案,同年12月13日项目正式启动。论坛里人们反应十分活跃,用户agadbois说:“我真想教会我的电脑做针线活,就算是织一条围巾也好啊!”
接下来几周时间里,他们都在收集用于建模的数据。从Stitch-maps.com获取了编织图样针法的标准数据库后,Shane还添加了Ravelry论坛用户提供的自行创作的编法,可是这一部分数据不仅杂乱无章,里面竟然还有一些黄暴的奇怪织物,让人哭笑不得。惊讶之余,有热心用户提醒说,skyknit项目投稿所处的论坛版块比较特别,人们一般称之为LSG版块(lazy, stupid and godless)。用户LTHook说:“与面向所有年龄段用户的主流论坛区不同,LSG是成人社区。为了让用户可以有选择性地浏览,数据库会对论坛的文章进行分类。”最终神经网络的数据库内云集了各式各样的设计。Shane在论坛上说,“我们收到了特别新颖的新素材:章鱼玩偶,骰子袋,神秘博士警亭图案抹布还有名叫‘穿刺者’的帽子”。在另一篇文章中她还提到,“收集到的图案数量多得惊人”。
收集超过500个图样后,shane试着训练她的神经网络。然后开始将神经网络输出的新式样发布到论坛上,还包括文字说明,针法操作,看起来的确有模有样。
举个例子,下面是神经网络输出的一种新式样“面包烤鱼”的前四行代码: 第一行: *k3, k2tog, [yo] twice, ssk, repeat from * to last st, k1.
第二行: *p2tog, yo, p2, repeat from * to last st, k1.
第三行: *[p1, k1] twice, repeat from * to last st, p1.
第四行: *p2, k1, p3, k1, repeat from * to last 2 sts, p2.
设计好的神经网络凭各行输入的代码,推断不同行列代表的意思。实际上,系统所输出的针法已接近可编织出来的极限了。
但Shane还提到,这个系统还有大量的故障情况需要排除。一位名叫bevbh的论坛用户表示,这里面的一些错误就像无法编译的代码。它举了个例子:“假如第一行你织了30针,结果下一行它只告诉了你25针的操作,那你还得自己去猜剩下那五针怎么织。”
织法操作的缺陷远不止这些,有的还更复杂,需要大批的编织测试者边动手边思考。用户BellaG分享了织“面包烤鱼”图案时是怎么对输出的操作指引加以完善的。在我看来,如果你不会织东西,这过程可谓困难重重。
用户BellaG展示的“面包烤鱼”完成品
“‘面包烤鱼’图案的织法操作里面,不是每行的针步都能用的。所以我会重复某些针步再收针。第二、四、五、七行针数不够,我都是凭感觉把图案织完的。如果图案正面是连续空针的话,织背面时要先下一针,再反针,而不是只下针或反针。所以第二行和第六行遇到连续空针的时候,我就这么做。”
这样对式样的补充完善,在以神经网络为源的设计中并不是独例,但这个案例比较极端,因为编织者要完善的式样并不在少数。“我研究‘小幼鲸索托’的过程和研究其它式样时完全不一样。要做的并不多,我更需要的是理解织法步骤,读懂背后隐含的信息。”用户GloriaHanlon如是说。
纵观历史,不同年代的编织图样在细节巨细上具有明显差异。新式的图案往往较为简单,但传统的图案,没点技术可织不出来。Bevbh说“19世纪那种图案花纹特别合适,但通常都不简单,需要有人加以指导。”
但除了织法指导,背后还有更核心的问题,神经网络输出的设计是没有具体意图的,但这个意图对于编织者理解图样十分关键。
“当你开始织一个东西,织的是袜子,毛衣,还是毯子,你心里都十分有数。最终的图案一定能成形,而且有各种细节。看到这件作品,你也自然会明白它的设计意图。”BellaG解释道,“然而神经网络创造的式样是没有具体图案的,它也不清楚成品会是怎么样,这意味着人们要开始编织后才会知道,而这种未知会考验你在过程中排除错误的能力。神经网络清楚各针技法的名字,但它不能理解这些技法的作用。它理解不了k2tog是左下二并针(缩写:knitting two stitches together),yo是空针的意思,它也不懂得保证每行针数相等,或者改变针数以便编出特定的图案。”
但反过来看,这也是为什么,源自神经网络的设计如此吸引。计算机无视了人类日常生活中的框框条条,更倾向挑战不可能。它会揭示新的创造与思考方式,成为沟通现实与未来艺术形式的桥梁。
用户GloriaHanlon归纳道:“我常常想,今天我们在编织中用到的技法和缝制的图案,过去大概也是这样创造出来的:人们费尽平生所学,从发黄的信纸上,褪色的墨水字间,反复推敲,解读一代代编织工流传的密语,”
SkyKnit项目的作品充满赛博格气息,我们应该认识到,这其中融合了人类的智慧和奇思妙想,以及机器强大的处理能力和“无知无畏”的秉性,二者缺一不可。
原文链接: https://www.theatlantic.com/technology/archive/2018/03/the-making-of-skyknit-an-ai-yarn/554894/
编译组出品。编辑:郝鹏程
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-03-19 11:37:00
根据数据机构QuestMobile发布了报告显示:中国手机用户即将突破11亿,用户几乎封顶,我国人口众多的红利,几乎已经释放完了。
小程序之所以受到追捧,源自所有人在 移动互联网 的下半场对流量萎缩的焦虑感 。背靠微信的9.8亿用户,小程序从诞生之日开始,就承载着腾讯连接万物的野心。
小程序总用户数 1.7 亿 ;
已上线小程序数量达 58 万个 ;
开发者:企业+个人 100 万+ ;
第三方平台数: 2300 家 ;
这是小程序一年的战绩,同时,阿里、谷歌,先后进军小程序,这些,都在告诉我们,趋势已经形成。当一个趋势已经形成的时候,逆着趋势的人,最终会被趋势给打败,要么损失惨重,要么直接被淘汰。从国家队的快速跟进,到各地方民生服务中不断接入小程序,小程序无疑已经融入了我们生活的点点滴滴。
在今天,微信已经成了像电话一样普及,手握9.8亿用户,而且人均使用时长超过1小时的超级APP。
流量是活水,而小程序则是沟渠。
微信本身具备的强社交属性,熟人之间的相互信任推动社交购物的增长,小程序天然的交易属性也可以很好地适应于商业服务与货币交易所需环节,形成商业闭环。
商业闭环的打造,也在制造更多的返场机会。微信搜索列表下新加入的小程序入口里,将显示微信用户最近一段时间点击过的小程序,微信群里的“群聊小程序”显示的也是这个微信群最近一段时间大家分享过的小程序。微信在不遗余力的让用户再一次见到用户最近见过的小程序,制造更多的返场机会。
用一句互联网的话来说,就是用生命在诠释,什么叫做用完即走,走了还会回来。
张小龙明确支持他是为线下而服务的,也就说小程序最核心是为打通“实体店”而服务的。同时,在1月15日的微信公开课上,他再次强调,线下,是微信要摸索的重要领域。
他说,“其实探索线下我们一直都有这样的想法,所以在微信刚出来的时候有一个探索线下的功能,叫附近的人。这是探索人,我们其实是更多希望能够把目光放到附近各式各样的生活设施里面去,探索下面的生活,所以2018年我们希望能做一些新的尝试,我认为探索线下的精彩生活,这是我们下一步想要尝试的一个方向。”
最近一年内崛起的爆款项目朋友印象、蘑菇街、忆年、摩拜单车、生日管家,企业相互打听着怎么做个爆款的方法论。小程序上线一年, 大家清楚,如今正是捞取流量的最佳时期。
创业者和投资人眼里的小程序,远不止是微信生态的服务平台这么简单,当一个人手机电量70%消耗在微信App里,这批小程序开发者觉得,他们在挖掘的是“微信互联网”。
张小龙曾经预测,我们在未来可能看到的任何事物都会是一个“屏幕”,都能展示出相应的信息给我们,我们只需要或者不需要通过一个中间设备来读取到这部分信息。这就引出了小程序要做的另一点内容:更直接把人类和所见的事物关联起来。
在张小龙的愿景里,小程序是要做万事万物的信息展示和表达语言,现在小程序主要做的事情是在教育市场、教育用户,小游戏就是这样。张小龙说微信有比市场更大的耐心和更足的信心,正是这个意思。
小程序发布一年,尤其是后半段,微信几乎可以说是全力以赴,隔两天一个新功能,在这样的快速更新之下,张小龙说,不希望小程序发展太快,希望一步一个脚印。由此可见张小龙的野心,以及小程序未来的发展空间。
图文来源于网络
若侵权,请联系删除。
更多信息,请关注cn99click,获取免费试用产品。
本文由 cn99click 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/50400.html 。
数据分析
2018-03-07 00:25:00
2月6日消息, LinkedSee 灵犀正式宣布完成5000万元A+轮融资。由百度风投和中经合领投,老股东红点和君联资本跟投,本轮融资将主要用于产品研发,建立完善的市场营销体系和客户服务体系。本轮融资交割完成后,灵犀融资总额将超过1亿元。
LinkedSee灵犀成立于2015年12月,创始团队成员均来自百度运维体系,深耕百度IT基础设施运维数十载,经历服务器规模从千万台到几十万台,IT架构从传统到虚拟化到私有云到公有云的全过程,也是最早发起和负责百度AIOps落地项目-智能IDC的团队。
LinkedSee灵犀创始人朱品燕表示,LinkedSee灵犀想做的就是利用自己的经验和产品,为更多企业带来BAT级别的IT运营能力。LinkedSee灵犀此次融资,是顶级机构对LinkedSee灵犀团队和AIOps直接经验的肯定。
百度风投合伙人齐玉杰表示:随着云时代和 大数据 时代的到来,IT基础设施迎来了爆发式增长。市场需要对服务器和网络采用更高效的管理工具和服务。LinkedSee灵犀团队有着丰富的运维管理经验和技术以及良好的创业状态,创始人朱品燕对于自动化运维市场有着深刻的理解和认识,因此有机会以智能IT运维理念为更多企业提供专业化运维服务,帮助这些企业更快速的进入数字时代。
美国中经合集团董事总经理彭适辰表示: 人工智能 必须紧密结合行业需求,解决企业痛点,才能产生商业价值。LinkedSee灵犀团队拥有大规模网路硬件监控及网路智能运维的经验,可以有效结合先进工智能技术来提高AIOps的效率和质量。在大数据及云计算爆发的IT运维市场,可以提供客户最好的智能运维解决方案。很高兴这次能与朱总的灵犀团队合作,中经合会协助灵犀开展国内外业务,帮助其成为AIOps市场的领导者。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2018-02-07 09:49:00
近日,总部位于加拿大蒙特利尔的 大数据 ( AI )及物联网初创企业 Mnubo 宣布获得了由HSB Ventures领投的1650万美元融资。Mnubo成立于2012年,将使用这笔资金来帮助产品制造商更好地与服务提供商连接,并推进Mnubo的”数据货币化战略”,同时进行国际扩张。
HSB Ventures在投资的同时,还与Mnubo签订了战略合作协议,两家公司将合作推出用于管理风险的金融产品,帮助更多Mnubo的客户从投资物联网项目中获益。
HSB总裁兼首席执行官Greg Barats在一份声明中指出:”与Mnubo建立合作伙伴关系对于公司释放从智能设备中获得的商业价值十分重要。Mnubo拥有的物联网专业知识和市场领先的物联网分析平台将使HSB能够为客户量身定制金融解决方案,以改善公司业务,同时促进新的商业模式。”
Barats还表示,这次合作将帮助Mnubo优化其AI产品,基于机器学习,推出一套金融保险类产品。HSB可以帮助Mnubo的客户从物联网投资中获得更高的收益。
Mnubo总裁兼首席执行官Frederic Bastien表示,HSB在商业和工业设备投保方面拥有150年的经验,HSB与Mnubo一同发力,能帮助下一代物联网制造商和企业从物联网数据驱动的金融产品组合中受益,从而通过实现物联网数据货币化(IoT data monetization)来加速投资回报。
除了HSB Ventures,这笔1650万美元融资的投资方还包括:White Star Capital,这是一家在纽约、蒙特利尔和巴黎设有办事处的风投机构,曾于2015年领投了Mnubo的A轮融资;McRock Capital,这是一支由思科和卡特彼勒等公司共同成立的工业物联网风险投资基金。(编译/金又南)
本文为专栏文章,来自:数据猿,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/50112.html 。
数据分析
2018-02-02 17:05:00
2018年1月16日,ECharts (echarts.baidu.com)发布了最新大版本 4.0,新版本在产品的性能、功能、易用性等各个方面进行了全面提升。和 ECharts 4.0 一起发布的还有 ECharts GL 1.0正式版,ZRender 4.0全新版本,WebGL 框架 ClayGL、深度学习框架Visual DL等,可谓是一次ECharts团队在 数据可视化 领域的大阅兵。
1. 全新 ECharts 4.0
本次 ECharts 4.0 新版本主要的升级点包括:
带给用户更强大的性能和功能
千万级 数据可视化 的无阻塞体验渲染引擎 ZRender 全面升级,正式支持SVG新增了旭日图类型
让开发者使用ECharts变得更加轻松
数据与样式分离让数据传入变得更加方便更扁平的配置项层级,更便捷的书写
让更多的人在更多的场景都能访问使用ECharts制作的可视化产品
首创数据可视化产品的无障碍访问支持新增对于微信小程序的支持基于Gallery研发出了PowerPoint插件
下面分别为大家详细介绍其中的重点升级功能:
1.1 千万级数据可视化的无阻塞体验
ECharts 作为一个通用的数据可视化解决方案,能够稳定高效的展示几百到十万量级的数据集一直是 ECharts 引以为豪的一个特性。而在 4.0 中,ECharts 把这一数量级又进行了大幅度提升。
在 4.0 中,ECharts通过以下手段:
数据的流加载支持增量渲染内存优化、WebGL绘制优化
克服了以下各种难题:
大体积文件的传输耗时、几千万的数据处理导致的浏览器卡顿阻塞无法实时重绘所有图形、 大数据 存储在浏览器上后过高的内存占用会导致 GC
把性能量级提升到了千万级别,在部分场景下测试数据能够到达亿级别,把ECharts的性能能力再一次提升到业界领先水平。后续会有专门的技术文章详细分享 ECharts 团队是如何在性能上做到极致。
1.2 支持SVG渲染,内存占用更少,可导出高清矢量图片
ECharts 4.0 支持以Canvas、SVG、VML的形式渲染图表,不同的渲染方式提供了更多选择,使得在各种场景下都有更好的表现。
新增的SVG渲染方式,在内存占用方面有很好的表现,以折线图、柱状图、饼图为例,SVG渲染占用的内存是Canvas渲染的十分之一。这意味着,对于移动端场景,尤其是配置较为低端的安卓手机而言,在原先使用Canvas会造成卡顿甚至页面崩溃的情况下,SVG也能顺滑地完成渲染工作。
渲染性能针对不同类型的图表和运行平台有较大差异,有些场景下SVG优于Canvas,有些则次于,用户可以根据自己的使用场景选择更合适的渲染方式。通常来说,SVG渲染折线图和饼图的效率更高,而由于Canvas渲染矩形的效率很高,所以柱状图使用Canvas渲染的效率高于SVG。另一方面,IE对于SVG的支持较差,因而性能一般比Canvas差;而Chrome上的SVG则有很好的表现。对于性能敏感的需求,用户可以测试特定图表的性能表现,并决定在各种平台上分别使用哪种渲染方式。
此外,有用户反馈需要在PDF报表中加入ECharts图表的图片,之前使用Canvas渲染的文件尺寸很大。而现在使用SVG渲染可以将图表导出为矢量图片,文件尺寸更小,并且永远不会产生锯齿,是在PDF中插入图表的更好的选择。以电脑端浏览器中典型的图表尺寸(1280×600)为例,导出图片的文件尺寸分别为:
1.3 新增旭日图,为多层数据带来更酷的展现方式
每次大版本升级一定会伴随着新的强大图表的支持,4.0 也不例外,ECharts 在本次升级中新增了一种叫做旭日图的图表类型。旭日图可以理解为多个层次的饼图,内圈是外圈的父元素,通过这样的形式,可以很直观高效地展现带有层次结构的数据占比情况,并且具有很好的视觉效果。
ECharts 为旭日图提供了非常丰富的配置项。以文字为例,提供了径向、切向、水平、或任意的旋转度,并且可以在图形元素的内侧或外侧,以多种对方式显示文字。实现了旭日图的数据下钻功能,点击一个数据后,可以展现表示其后代元素的旭日图,并且使用优雅的动画进行过度。在这些强大的功能帮助之下,用户可以使用旭日图,轻松创建出艺术品级别的可视化作品。
1.4 数据与样式分离让数据传入变得更加方便
让开发者简便地进行图表开发是ECharts的设计初衷,之前 ECharts 一直采用的声明式的图表配置,数据一直声明在各个“系列”中,这种方式易于直观理解。但是一些实践场景中,使用者更倾向于,把数据这种大体量的信息,单独配置,从而便于管理,以及能够被多个组件复用。
从4.0开始,ECharts支持了单独的数据集声明,从而数据可以单独管理,被多个组件复用,并且可以自由指定数据到视觉的映射。这在不少场景下能带来使用上的方便。有了数据表之后,使用者可以灵活得配置:数据如何对应到轴和图形系列,可以改变图表对于行列的理解,也可以指定坐标轴对应的行列。
示例:
ECharts 希望在无障碍访问的探索和尝试,能够帮助更广泛的用户能够了解真实,探索世界。
1.7 马上就可以在微信小程序中使用ECharts了!
很多微信小程序开发者表示他们强烈需要像ECharts这样的可视化工具。但是微信小程序是不支持DOM操作的,Canvas接口也和浏览器不尽相同。
因此,ECharts团队和微信小程序官方团队合作,提供了ECharts的微信小程序版本。开发者可以通过熟悉的ECharts配置方式,快速开发图表,满足各种可视化需求。
目前项目已完成了开发和内测工作,目前正在等待微信小程序开发工具的更新上线,敬请期待!
1.8 以后可以在 PPT 里使用 ECharts 了
在 PPT 中插入 ECharts 一直是许多PPTer反馈最多的需求,如今,终于可以在 PPT 里使用 ECharts 了!你可以在 Gallery 里创建你自己的图表作品后保存。然后在 PPT 里插入 ECharts 组件,选择你刚保存的图表,马上你就可以在 PPT 里拥有一个丰富的样式,动画和交互的图表展示了!
目前该插件已经在等待微软商店审核,相信不需要多久,用户进行该功能的试用。
2. 其它重量产品
除了 ECharts 4.0,还发布了 ECharts GL 1.0 正式版
ZRender 4.0 WebGL 框架 Clay GLVisual DL
2.1 ECharts GL 1.0正式版
去年发布的 ECharts GL(欢迎star) 引起了可视化届一片惊呼,如今该产品的 1.0 正式版正式发布,在正式版中,修复了大量的稳定性问题,完善了文档,同时,新增了以下强大的功能: 集成 Mapbox 地理可视化组件
支持洋流风场等向量场的可视化
新增了建筑群可视化的组件
加入了更多的二维加速组件去优化交互的重绘
2.2 ZRender 4.0 版本升级
作为ECharts的底层渲染库,ZRender承担起了抹平平台差异、封装技术细节、提高渲染性能等责任。在此次发布的4.0版本中,SVG渲染的支持使得ZRender的渲染能力有了进一步提升。
ZRender以基本图形元素为核心,提供了矩形、圆形、扇形、多边形、折线段、贝赛尔曲线等十多种基本图形,并支持图形直接的组合与剔除,最终以Canvas、SVG或VML的形式输出,并且支持交互处理。ZRender封装了不同平台的事件处理机制,将诸如底层鼠标事件映射到图形层面的事件(例如能够获取到鼠标悬停在图形上的事件),方便开发者处理事件。因此,对于与图形元素强相关的需求,用户可以考虑使用ZRender矢量化的逻辑对图形进行管理,能够方便高效地完成渲染和交互任务。

在此之前,ZRender主要是作为ECharts的底层渲染库存在的,随着ZRender的直接用户越来越多,团队在ZRender官网开放了ZRender的API文档,并且给出了教程和例子,帮助大家更方便地学会使用。
2.3 高性能渐进式 WebGL 框架 ClayGL
除了 ZRender,ECharts团队这次也发布了 ECharts GL 底层所使用的 WebGL 框架: ClayGL。ClayGL 是一个渐进式的高性能 WebGL 框架(这里感谢 Vue 提出的渐进式框架的概念),能够帮助用户快速创建一个 Web3D 应用,在 ECharts GL 中的应用已经证明了其能力之强大。
在去年,ClayGL 已经在手机 百度 这样拥有上亿用户的产品中落地了三维模型展示的应用,充分验证了产品的可靠性。
团队后续将围绕 ClayGL 打造一系列的可视化工具及 Web3D 产品。
2.4 深度学习可视化平台 Visual DL
从去年开始,团队和 百度 PaddlePaddle深度合作,打造了一款深度学习可视化平台 Visual DL,也在这次一同发布,希望通过可视化的方法将模型训练过程中的各个参数以及计算的数据流图实时地展现出来,以帮助模型训练者更好的理解、调试、优化模型。用户只需要通过 Visual DL 提供的接口将模型相关的各种参数数据写入日志中,然后Visual DL 会读取日志中的模型相关数据将其展示出来,这些数据包括模型训练过程中的各种定量的度量、用户传入的或者中间训练过程生成的各种图片、以及神经网络训练过程中的计算数据流图。
访问 Visual DL Github 了解项目详情
下方为产品示例:

本文由 百度ECharts 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/49997.html 。
数据分析
2018-01-23 13:02:00
当新技术变得越来越便宜、越来越易用时,各行各业必将随之发生改变。对于即将过去的2017年来说,这门对各行各业“大施魔法”的新技术,显然叫做 大数据 。今天,我们将盘点一下十二个重要行业如何利用数据,推动了自己的业绩与竞争力。
医疗保健
大数据 正在改变我们诊断和治疗疾病的方式,比如,Nuance Communications(Siri的供应商)就在2017年推出了 “龙医疗虚拟助手”,帮助医生实现临床工作流程自动化。除此之外,还有一些 大数据技术 被用来改善我们的生存质量,并避免一些可以预防的死亡。
“疾在腠里,汤熨可及;疾在骨髓,无奈何也。”如今大数据的使命正是要尽可能更早、更多地了解病患,通过识别严重疾病的早期信号,来降低治疗难度与就医成本。比如,某个早产儿及生病婴儿就诊的科室,就利用大数据技术来监控婴儿的心跳与呼吸模式。使用这些数据,该科室便可以开发算法,在身体症状发生24小时之前就预测出感染。
零售
从以物易物、货币交易再到移动支付,人们购买与销售的方式一直在改变,并且越来越快。一个新现象——无论是在线还是离线,那些采用数据优先策略来理解用户、并且为客户精准匹配产品的零售商门正在获得丰厚的回报。
这意味着 数据分析 已经应用到零售流程的每一个阶段了——通过趋势预测,找到对产品需求最大的市场;通过优化定价,获得竞争优势;通过客户画像,找到打动客户的最优方法,然后,赚走他们的钱,并计划出下一步要卖给他们的商品。
制造业
数据在现代制造工艺中扮演着非常重要的角色。机器人技术的进步和自动化水平的提高正在显著改变制造业的面貌。比如,阿迪达斯就投入巨资,在德国总部园区建造了自动化的“速度工厂”。该工厂启用了一系列的新技术,例如3D打印、机械臂和计算机编织等,去武装小型工人团队,来生产球鞋。以往,这些产品通常由人工进行大规模生产。
即使在更传统的制造环境中,数据仍然在发挥作用。通过将传感器嵌入其设备,制造商得以捕获有价值的数据,帮助他们监控机器的健康与效率。传感器也被安装到各种产品当中。现在,从喷气发动机到瑜伽垫,都能找到它们的身影。这让制造商能够收集到产品的表现情况,以及被使用的真实状况。
金融服务,银行和保险
在金融业,数据的应用非常广泛,绝不仅限于高科技、大资金的交易范围。比如,大数据正在帮助像美国运通这样的信用卡公司检测欺诈性交易,并为企业提供趋势分析服务。
保险方面,大数据技术已被用于帮助保险公司设定更公平、精确的保单保费,识别欺诈性索赔并改善其营销工作等方面了。像Progressive和Aviva这样的公司,还通过向驾驶者提供折扣,以获得通过手机app或车载设备监控他们驾驶行为的许可。这样,保险公司就能够观察到司机驾驶的真实情形了。
教育
我们的学习过程目前正在制造海量的数据。而教育机构则开始将这些数据转化为洞察,比如,用来识别更好的教学策略、突出显示学生可能没有有效学习的领域,以及改变教育的传递方式。
当然,知识付费的年代,并非所有教育都是在教室中进行的。在线课程的蓬勃发展还为人们带来了个性化学习、自适应学习的巨大进步。
运输,供应链管理和物流
在仓库中,数码摄像头用于检测库存水平,并在需要补货时预进行警。预测则更进一步——同样的数码摄像头数据,加上一些机器学习的算法,可以教会智能库存管理系统预测出补货的时间。在不远的将来,仓库与配送中心将脱离频繁的人机互动,有效地自动运行。
在交通领域,公司正在收集和分析车辆的远程信息数据,并利用这些数据改善驾驶行为,优化交通路线,改善车辆维护。
农业
即使是非常传统的行业,如今也在拥抱数据的力量。美国农业生产商约翰·迪尔(John Deere)打造出了精准农业系统,让农场主、操作者与相应的农业专家可以针对开放的数据信息,实现对农业耕种过程中的分析、讨论及决策。
能源
石油和天然气开采成本不断上升,能源行业正在从数据中寻找解决方案。例如,荷兰皇家壳牌(Royal Dutch Shell)一直在开发“数据驱动的油田”,以降低石油钻探的成本。
在更小、但同样重要的领域,大数据与物联网正在改变家庭使用能源的方式。智能家居已然崛起,仅仅是Google的Nest智能恒温器,已经可以帮助家庭在生活得更加舒适的同时,减少能源浪费。
政府和公共部门的服务
目前许多城市都在向“智慧城市”转型,这就需要将数据分析、数据收集、物联网等技术相结合,打造相应的公共服务与设施。
通过使用智能、互联、数据驱动的技术,可以改善城市的公共服务。比如,在回收中心安装传感器网络,可以帮助简化垃圾的收集服务。货车可以优先处理垃圾最饱和的回收中心,并跳过那些几乎没有任何垃圾的回收中心。
酒店
传统的酒店和休闲运营商正在转向高级分析,以寻求让客户满意的线索。最常见的分析方法主要围绕收益管理。目的是确保每个房间都以最佳价格卖出。这就需要考虑全年的需求低谷与高峰,还有影响客人数量与类型的其他因素,例如天气以及当地事件等。
专业服务
当我们谈论机器人与算法即将替代人工时,我们首先想到的都是类似于工厂工人、出租车司机等蓝领工作。但是,即使是高技能的专业服务,比如会计、法律与建筑业,也因为数据、分析、机器学习、机器人以及AI的发展而经历着巨大的变化。
比如在会计方面,软件已经可以自动导入交易信息、跟踪数字收据、自动处理工资并追踪税收了。不过,即使是更复杂的任务,比如审计、法规遵从和趋势分析等,现在也已经可以由计算机来执行了。
体育
大多数精英运动现在都采用数据分析。比如英超球赛就在现场安装了一套摄像头,使用模式识别技术来跟踪每个球员,而平均每个球员每秒钟都会产生超过25个数据点。 NFL(美国职业橄榄球大联盟)球员已经在肩垫上安装了传感器,以收集比赛中的表现。数据分析还帮助英国的赛艇运动员们拿到了奥运金牌。
建立在数据上的企业
如今,数据已成为企业越来越重要的资产,被数据驱动的平台业务是世界上最成功的企业之一。例如,苹果就是在整个业务中使用数据来推动成功。而Google,据说可以比我们的爱人更了解我们。
数据也是共享经济的核心,比如Uber。这些公司创新式地通过高效利用数据,随时随地为人们提供所需要的服务。
数据分析
2018-01-17 15:48:00
作者注: 笔记本电脑、智能手机、传感器,都为 物联网 带来了大量数据。这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的 商业智能 。 人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞 大数据 集的更好选择,也是2018年重要的 大数据趋势 之一。 亚马逊也使用了 人工智能 。亚马逊的推荐引擎利用 人工智能 来预测用户的兴趣,准确率约为5%至10%。为了提高预测准确率,亚马逊与微软合作,共同推出了一个新平台,把 机器学习 用于人工智能训练。这个新平台名为Gluon,可供各种技能水平的人工智能开发人员使用。据称,Gluon平台可以让人工智能开发人员更容易设计和开发人工神经网络。
原文翻译:
物联网(IoT)的扩张已经把数不胜数的大数据新来源添加进了数据管理的版图,它将成为2018年及若干年之后主要的大数据趋势之一。笔记本电脑、智能手机、传感器,都为物联网带来了大量数据。
这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的 商业智能 。随着大数据的增长,企业试图跟上它的脚步,努力把数据变成可用的洞见。商业智能是保持竞争力的关键,而 数据分析 提供了所需的最新信息。在2017年,一些企业大力发展他们的大 数据可视化 服务和软件。这使研究人员可以更有效地收集和协调关于大众的信息,改善客户体验,也使领导者可以简化决策过程。
在2018年,提供云服务的企业数量将继续增长,导致竞争性定价,使小企业也能使用大数据资源。
2018年的商业智能
企业决策正在经历的转变将延续到2018年。在2017年,处理大数据的目标使效率越来越高,成本不断减少,从而造就了基于大数据的商业智能,对中小企业甚至初创公司来说更为重要。这一趋势将延续到2018年及以后,处理大数据的成本将继续降低,但以下情况除外: 使用云端商业智能的费用将提高。 数据分析 将提供更好的数据可视化模型和自助式软件。 新市场和新地区扩张的决策将基于大数据。 2018年的云趋势
创造利基
2018年,更多的人将熟悉云应用,专业化和利基工作将得到发展,就像在所有其他行业里一样,从而带来额外的研究选择和更多的业内竞争。拥有零售、区域性增长等专长的数据科学家将逐渐成为常态。
混合云
虽然云提供了便利的大数据存储和处理解决方案,但愿意把“所有”数据都放到云端的企业少之又少。2018年,混合云的使用应该会大幅增长,因为混合云兼具二者的优点,本地数据管理可以与云的便利性结合起来。
其他部门也将使用云
通常来说,IT部门是其他部门使用云的“中间人”。然而,云技术的使用已经变得非常简单。现在,销售和营销、人力资源等其他部门也能直接使用云。随着更多的人可以访问敏感信息,安全将成为一个重要问题。
2018年的数据分析
数据分析将包含可视化模型
2017年,对2800名商业智能专家的一项调查预测,数据可视化和数据发现将成为一股重要趋势。数据发现的范畴已经扩大,不仅包括对数据分析和关系的理解,还包括呈现数据的方式,以挖掘更深层次的商业洞见。其结果就是,作为一种把数据变成可用洞见的方法,可视化模型越来越受欢迎。日益改善和演变的可视化模型已经成为从大数据中获取洞见的必要组成部分。
人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择,也是2018年重要的大数据趋势之一。
预测分析
很多企业利用“历史上的”大数据分析来预测未来的行为。然而,在进行此类预测时,对当前最新数据的分析更有价值。俗话说,“过去的成绩不能保证以后的成功”,这也适用于商业智能领域。预测分析为用户提供了一个优势,能够实时“了解客户”,具有不可思议的创收潜力。(规范性分析还处于初期阶段,今后几年内可能还不会成为一股强劲的趋势。)
2018年的物联网
物联网将继续扩张。如何利用来自物联网设备的信息,则完全是另一个问题。
改善零售
2018年,消费者和企业主将受益于越来越多的传感器和来自各种消费类设备的数据。物联网能收集信息,使企业可以更有效地把产品推销给潜在客户。懂技术的公司已经开始投资基于传感器的数据分析,这将使他们可以追踪其商店内人流量最大的区域。
重塑医疗
现在,大数据被用来制定医疗方案,但或许也将重塑人们就医和支付医疗费用的方式。新的可穿戴技术能追踪用户的健康状况,使医院和诊所得以改善医疗质量。联网设备可以提醒患者服药、锻炼和注意血压的剧烈变化。
改变网络安全挑战
新的网络安全挑战将在2018年成为一个棘手的问题。可以预见,心怀叵测的黑客将想方设法入侵物联网。2016年10月,黑客利用物联网发动攻击,使网络大面积瘫痪。
随着物联网继续扩张,全球网络基础设施的薄弱环节也将继续增多。人工智能和机器学习提供了解决之道,它们将变得越来越普及。由于设备彼此之间的联系更加紧密,安全专家必须学会利用人工智能和机器学习程序。
2018年的机器学习
机器学习是计算机的训练过程,现在被企业用于各种各样的商业行为,比如实时广告、模式识别、欺诈识别和医疗。但在2018年,机器学习将变得更聪明、更快速、更有效。
Advertisement公司的商务拓展总监罗纳德·范龙(Ronald Van Loon)说:
“机器学习技术正在迅速发展,你的数字业务需要转向自动化。机器学习算法从大量的结构化数据和文本、图像、视频、语音、肢体语言、面部表情等非结构化数据中学习,可用于从医疗系统、电子游戏到自动驾驶汽车的所有领域,拥有无限广阔的应用前景,为机器打开了一个新的维度。”
教育
近期已经出现了利用机器学习来改善教学的事例。例如,加利福尼亚州立大学要求教职员工寻找和使用免费或低成本的教学材料。为了简化这一过程(用免费或低成本的教学材料取代以前的课程材料非常耗时),Intellus Learning提供了一个解决方案:把4500多万个在线资源编入索引,并教会(利用机器学习技术)程序/算法作出推荐。老师可以把免费或低成本的材料上传至课程材料管理系统,供学生使用。
医疗
识别不同疾病,并做出正确诊断,这是机器学习研究的一个目标。医疗行业一直在开发能识别和诊断疾病的计算机和算法。在德克萨斯大学奥斯汀分校,研究人员发明了把多个肿瘤生长模型结合起来的全自动方法。机器学习算法能自动识别大脑肿瘤。机器学习已经被用于各种医疗行为,包括: 行为矫治 流行病爆发预测 药物研发 放射检查 电子病历 诊断和疾病识别
2018年的人工智能
人工智能研究目前致力于开发使人机交互更加自然的算法以及训练这些算法的方法。目标是用自然的人类语言来回答复杂的提问。人工智能和机器学习使通常需要人类决断的工作有了自动化的可能,这些工作包括如下技能: 阅读手写材料 识别面部表情 学习 认知能力,比如规划和利用部分信息进行推理
Gartner Research公司副总裁大卫·瑟尔利(David Cearly)说:
“人工智能技术正在迅速发展,企业将需要对技能、流程和工具进行大力投资,以便成功地利用这些技术,构建人工智能强化系统。投资领域包括数据准备、数据整合、算法和训练方法选择,以及模型建立。包括数据科学家、开发人员和业务流程所有者在内的多方必须展开合作。”
Gluon平台
亚马逊也使用了人工智能。亚马逊的推荐引擎利用人工智能来预测用户的兴趣,准确率约为5%至10%。为了提高预测准确率,亚马逊与微软合作,共同推出了一个新平台,把机器学习用于人工智能训练。这个新平台名为Gluon,可供各种技能水平的人工智能开发人员使用。据称,Gluon平台可以让人工智能开发人员更容易设计和开发人工神经网络。
Gluon平台将落户亚马逊AWS服务。Gluon界面是“开源且易于使用的”。
人工智能和网络安全
《哈佛商业评论》写道:
“讽刺的是,面对利用人工智能进行的黑客攻击,我们的最佳防御策略也是利用人工智能。人工智能可用来防御和攻击网络设施,还可以扩大黑客的攻击面,也就是让黑客拥有更多的攻击手段。企业领导得到的建议,是要了解人工智能安全研究的最新进展。”
随着企业认识到开发网络安全程序的重要性,人工智能将变得更加流行。精心构建的人工智能防御系统能从多年来发生的黑客攻击事件中,学会各种攻击和防御策略。它能设定正常用户行为的基准,然后搜索异常行为,速度比人类要快得多。这比维持一支专门处理日常网络攻击的安全团队要省钱得多。人工智能也可以用来制定防御策略。在2018年,人工智能与网络安全的关系将变得更加紧密。
本文为专栏文章,来自:车品觉,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/49764.html 。
数据分析
2018-01-16 18:30:00
BAT字母组合中 百度 排在了第一位,而如今越来越多的人却认为,中国互联网实际上已由「三巨头」进入到「双寡头」时代。
那么,百度真的掉队了吗?图相第三期,带你从2016年第二季度财报看BAT实力大比拼。
(腾讯科技出品,策划:张春伟 设计:袁文昱)
腾讯、 阿里巴巴 、百度相继发布了2016年第二季度财报,作为中国互联网圈知名的三巨头,BAT在业务上有何新进展,有哪些业务是未来战略重点,百度是否真的掉队了?
众多疑问,让我们从财报上一探究竟。

三家公司都握有庞大的资金储备。
最新一季度腾讯与阿里巴巴营收相当,百度约为前者的 1/2 。
腾讯最新一季度利润超过了阿里巴巴和百度之和。
腾讯与阿里巴巴都开始向多元化经营转变,百度转型步伐则比较慢,对网络营销的依赖度高达 93% 。
BAT三家公司都成功的实现向 移动化 转型。
三家在新兴业务上都实现了高速增长,相对而言, 百度新业务板块较弱 。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-08-20 14:20:00
现在是一个 大数据 时代,人人嘴边都挂着数据创造价值、 数据挖掘 等一些热词。各公司内部也逐渐认识到数据的重要性,纷纷成立 数据部门 ,期待数据可以真正的为业务服务。
另外,也有一些专做数据服务的第三方公司不断涌现,希望能够帮助产生数据的甲方分担 数据分析 的担子,挖掘出更多有价值的规律,帮助甲方不断改进业务水平、不断发现业务中存在的问题。从这个角度来讲,甲方公司与第三方数据服务公司的初衷是一致的。
那么到底在第三方公司做数据服务和甲方公司做数据服务有没有哪些不同呢?结合最近几年第三方公司到甲方公司做数据的经历,对二者做数据方面的差异进行了一个简单的总结。
1、追求不同
第三方公司与甲方公司关于数据服务的合作模式大致有这样几种:
1) 长期监测流量数据——定期提供日报、周报、月报;
2) 临时项目——接到甲方公司的需求,发起项目,在规定的项目周期内,以报告的形式总结项目研究成果。
无论哪种合作方式,第三方分析人员在分析的过程中,总是孤独的、总是更依赖数据的。因为不在所分析的环境之内,不知道运营最近在做什么,不知道产品有什么样的计划,一句话:不知道对方关注的点到底在哪里。
甲方公司内部做数据,其实合作方式也同上面列的两种差不多。只是细节配合上有所不同:
1) 研究前会详细了解项目的背景及产品或运营人员的困惑;
2) 研究中遇到数据上无法解释的问题,可以随时找到相关的人员反馈情况。和业务同事一起分析数据异常的原因。
3) 研究后会汇报整个研究成果、和业务同事讨论下一步的改进策略及方案、约定下一次的研究时间点。
所以说,受到条件所限,尽管初衷与甲方公司是一致的,但是由于无法深入接触业务,因此对于最终的目标只能停留在完成一份严谨、专业的 数据分析 报告上。至于后续,甲方公司如何使用这份报告,如何改进业务、是否改进业务等一系列后续的工作都不得而知。因此,第三方公司的成果产出总是不能在整个业务链条上形成一个闭环。
但是,这个也的确是无法避免的一个事情。相信目前大多数公司,尤其是中国公司,对公司内部数据的私密性还是比较看重,对于第三方公司的态度不会是完全开放的。因此,双方的配合也仅限于比较浅层的合作。第三方公司想要真正走完业务闭环,从现阶段来讲是完全不可能的。
久而久之,第三方的数据分析人员也就习惯了把制作一份精良的报告作为最终的目标。
附:过渡阶段真实感受
刚从第三方公司进入新浪微博做第一个项目的时候,项目汇报当天得到了产品人员的肯定。我当时非常高兴,感到工作得到了认可。以为产品同事都认可了,肯定领导也会觉得还不错吧。但是,结果却是完全相反的。
组长同学对于我没有任何下一步结果追踪计划感到很不解,从我们严肃的谈话中我深切的体会到,在甲方公司数据真的是为产品改进或运营服务的。如果你的发现仅停留在问题的总结和整理上,那工作基本上只做了50分。相当于,医生只为病人拍了x光,之后就对病人置之不理了。
2.展现形式不同
对于第三方公司与甲方公司的合作方式,项目的价值就体现在报告上,因此报告的制作既要美观又要让人感到“物超所值”。只有几页的PPT是绝不能作为最后的产出成果的。如果能在研究时,通过建立某个复杂的模型,来辅助说明研究成果就会显得更有价值。
而在甲方公司内部,大家都迫切的想知道,看到这个研究成果我到底能做什么。如果这个模型复杂到产品人员都看不懂,或不知所措,那也是没有意义的。反而是针对某个具体问题的研究,哪怕只有几页纸,几个数据,也会令产品人员很兴奋。
比如,偶尔从数据上看到一些现象或问题,此时做一个简单的整理,打印出几页纸就可以去和产品、运营的同学去聊了。去看看业务一线的同事是如何看待这一现象的,是不是有一些重要的运营策略影响了某些数据结果,造成数据结果异常,而并非真正出现了问题。如果没有其他异常因素的影响依旧出现了这个现象,那么我们下面真的要立项去花时间找到问题的原因了。
3.成就感体现不同
第三方数据公司,核心业务就是对数据进行采集、分析,因此负责产出数据报告的数据分析人员,相比之下,工作成果很容易被大家看到。因此,也很受到公司的重视。
而在甲方公司,数据服务是一个职能线,是为产品和运营人员服务的。或许工作价值的体现只有在完整走完业务链条后才能够体现出来。即便走完整个业务链条,又如何评估数据在整个过程中的作用,也是一个艰难的工作。但是,作为一个数据分析人员,能够看到自己的分析,帮助产品或运营发现了问题,使产品体验或运营机制得到了改善,这种成就感还是会使分析人员振奋的,还是会兴致勃勃的冲向下一个项目。
4.对行业标准的把握不同
第三方数据公司由于服务行业内的多家公司,因此会将同行业公司的相同业务模块放在一起,出一个行业标准。 在不透露客户商业机密的情况下,为客户提供行业标准数据。使各家都可以清楚的了解其在行业中的地位,了解哪些数据表面上看起来很好看,但是与行业标准对比,其实情况并不乐观。我想,这也是第三方数据公司的最大价值所在。
但是,现状是,中国的互联网行业,大家对数据还是守得很紧,不愿意过多的让第三方介入。这造成的结果就是,大家都没有一个行业标准。数据结果的好坏就只能依靠经验了。
综上所述,这两种数据分析工作的差异,给我的体会是:数据分析重点不在数据,而在于如何能够真正的解决实际的问题。数据分析师的终极价值不是会使用多少种统计工具,能挖掘出多少个数据模型,而是真正的懂业务。看到数据结果能够知道哪些业务出现了问题,而看到业务问题又可以清楚的知道通过分析哪些数据能够获知问题的原因。当然,如果从大的方面来讲,各公司都能够愿意与第三方公司合作,通过第三方公司把行业标准建立起来,那将会使数据最终发挥更大的价值。
来自:微博UDC设计中心
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2013-11-04 15:47:00
精准营销 (Precision marketing)就是在精准定位的基础上,依托现代信息技术手段建立个性化的顾客沟通服务体系,实现企业可度量的低成本扩张之路,是有态度的网络营销理念中的核心观点之一。
一般在通信企业里面,我们叫他“精确营销”,并且结合5P营销理论,采用更通俗的解释就是将合适的产品,在合适的时机,通过合适的渠道,推荐给合适的用户,从而达到低成本销售产品的目的,本质上是一种个性化的服务营销手段。在这个体验为王的时代,精确营销是有极大的意义的,但很多企业在实施中,特别是大型传统企业,精确营销提得很多,成本投入不少,但效果往往差强人意,甚至质疑多于成绩,为什么呢?
我这里提七个观点,也就是七剑,这是企业实施精确营销能否成功的关键因素,任何准备用精确营销手段提升营销能力或者纠结于精确营销效果的的企业或个人,建议先看看我这篇文章,但互联网公司也许不需要,因为他们已经做得很好。
1、精确营销+,还是+精确营销?莫问剑-象征“智能”,身长兼富弹性,招式变幻难测。
从精确营销的定义就可以看到,精确营销是个体系化的工作,从实施流程的角度讲,客户的分析、产品的选择,策略的制定,渠道的投放及效果评估等系列过程,从专业的角度讲,横跨市场营销,业务管理、产品研发、 数据分析 、系统支撑等,应该说,精确营销贯穿了整个企业的营销核心流程,因此,那种简单的要求IT部门建个数据仓库,然后通过 数据挖掘 搞出个模型,从而奢望IT部门推动业务部门使用模型从而实施精确营销的做法,基本是很难成功的。
精确营销涉及企业的流程再造,是对整个企业营销管理方式的颠覆性革命,因此,不是末端打个补丁就可以解决的,也就是+精确营销其实很难,强有力的横跨多个组织的精确营销组织架构是必不可少的,其次,要实施精确营销,各个部门人员理念的改变也许更为重要,首先你得信它。
精确营销实施中有个鸡生蛋,蛋生鸡的问题,每个管理者都希望精确营销是灵丹妙药,一把就产生价值,带来多少用户和收益,但在传统企业实际很难,因为太不扁平化了,从管理者接收理念,到真正让这个理念渗透到一线员工身上,从而让他改变营销的习惯是很难短期实现的,同时KPI这个达摩克里斯之剑悬在颈前,当前任务的完成始终是第一位的,有再大雄心的管理者也许都不能容忍一年时间来搞一个风险极大且收益未定的大改革。因此,很多时候精确营销很难做下去,亮点工程成了其做下去的理由,精确营销无用论在很多实施人心里都有那么一点,现实中,特别是传统企业要在精确营销上获得真正成功案例并不多,因为要承受的代价其实蛮大的,长短要结合的确很难,但这个不是精确营销本身的错。
但我们还是能够改变,因为互联网和 大数据 给了我们机会,互联网公司给了我们很多启示,总是能从一些点上获得突破,星星之火,总可以燎原。
2、机器换人,迭代的前提竞星剑-象征“快速”,快如流星,无从招架
互联网公司为什么精确营销会相对做得比较成功,这是有原因的,首先它的在线营销的主体是机器,机器自动决策针对什么样的用户,推荐什么样的产品,就是规则与执行是浑然一体的,机器总能够不打折扣的忠实执行既定的营销任务,就好比AlphGo大战李世石,由于机器只有规则,没有感情,不会受人这个最不稳定因素的影响,因此是不会失误的,可以断定,未来在任何规则比较清楚的领域,机器换人是不可阻挡的趋势,在线的精确营销也不例外。笔者自身经历了大量的精确营销的实践,同样的算法,不同的策划人员、营销人员、不同的外呼团队,差别太大,完全淹没了算法本应带来的价值,一个领导开次会,动员的效果,可能远远好于算法上的提升。
其次,由于在线的机器特性,算法迭代的速度很快,因此改进的速度会很快,机器的进化太快啦,再烂的算法,也能在短时间内不停的迭代而快速提升,反观我们传统企业,先不说搞个算法要花较长的时间,也不说能否及时拿到结果数据,即使拿到了,数据的质量往往也差强人意,比如曾经外呼推荐流量套餐,让未推荐成功的标识出来,但反馈的结果往往千奇百怪,有的填“客户考虑一下”,有的填“客户说稍后再打”,结果的标识不一样,很难拿来作为训练,太高的迭代成本是导致精确营销难以为继的重要因素。
在线推荐,的确是精确营销真正用武之地,当然不是说线下就不能做,但起码要尽量给予算法快速迭代的环境,减少人为的干预,当前,很多传统企业都在转型,向互联网+或者+互联网,那么,就要对精确营销报以足够的信心,RTB广告体系就是典型的精确营销体系,前景无限,BAT养一堆的数据科学家是应该的,在线推荐系统每提升一个百分点,面对上百亿的流量那带来的效益是杠杠的。
3、尊重算法,但不要迷信天瀑剑-象征“不拘”,前后左右,意到随成
精确营销还是门科学,任何营销结果的评估都应该讲究实事求是,评估算法好坏的指标是成功用户数,成功率,覆盖率,环比吗,同比等综合的考虑,任何靠单一指标来说明精确营销好坏的说辞都是以偏概全,所谓精确营销忽悠是经常碰到的事情,比如如果你告诉我这次精确营销我营销成功1万用户,其实没有意义,因为我普通营销也许也可以,你需要的是同样情况下的对比,比如你告诉我这次营销成功率是50%,但这又如何,你营销2个用户,恰好一个成功,就达到50%了,50万用户,100万用户,你能做到吗,因此你还要考量覆盖率等指标,再差的算法,搞个100个高成功率用户显然是很简单的,精确营销,一定要关注规模、成功率、对比,不要让其成为忽悠的工具,任何领导,都需要懂点基本概念,本着科学的态度。
当然也不建议企业搞个精确营销项目就去研究高大上的算法,我们研究了100遍的离网模型,到头来也消逝在烟雨中,为什么? 首先,算法的基础是数据,数据最核心的是其质量,我们传统企业的客户数据,有多少是真实的数据,对于数据的清洗意义往往远远大于搞个好的算法,比如在电信行业,你要去对潜在彩铃偏好用户建模,然后,你发现你的模型不对,你模型挖掘出来的彩铃偏好用户对于推荐的彩铃一点不感兴趣,为什么,很大程度是你的样本数据是真的“假数据”,大量的促销行为、捆绑行为也许早就扰乱了客户的真实意愿,在长长的客户订购清单中,大量的产品免费存在,大量的产品是被动订购,这些不反映用户真实意愿的数据被你选择成为建模的基础,怎么可能真实的判断用户的真实彩铃接受度呢?还有,地域巨大的差异,千奇百怪的营销政策,模型在一个地方跑得可以,换个地方就一落千丈,即使你现在可以,半年后可能要再来一遍,因此,算法需要,但实用就可,决策树,逻辑回归,SVM,也许已经足够了,不用需要再多,我们毕竟是个企业,不是科研机构,抱着实用主义的态度。
理解公司市场的政策,理解这些政策对于用户数据的影响,努力去清洗数据,还你公司的客户数据以真实的面目,往往是算法成功的真正关键。我反对公司采用项目化的方式雇佣外来和尚搞数据挖掘,除非你跟他长期合作,是你的战略合作伙伴,必须让你的伙伴真正理解你公司的数据。
4、成本思维,要有的放失青干剑-象征“防守”,奇钝无比,非极锋利
在一个高速发展的企业,要用户,要规模,政策始终是第一位的, “一个都不漏过”是很多大企业高速发展期间的策略,因为这个时候成本往往不是关键要素,但企业要搞精益运营,要做百年老店,无论何时,都要有成本意识,让成本意识成为常态,让精确营销成为常态,是企业基业长青的关键。实施精确营销的一个核心是成本为先,没有成本限制的营销没有精确营销的必要。
比如,运营商大发展时期,短信营销基本没有限制,也就是全民营销,精确营销没有存在的必要。随着运营商对于客户服务满意度的重视,这个时候对于客户营销就带有强烈的成本意识,这个就是客户满灰度成本,因此企业就会考虑更为精准的向用户推荐产品,不要让营销成为对于客户的骚扰。又比如外呼这个渠道,每外呼一个用户,其实运营商的人工成本很高的,这个时候,精确营销就大有用武之地,中国移动每年外呼量非常大,应该说经分的精确营销是起到很大的作用的,起码我现在所在的省份价值是非常大。还有大家现在收到的大量的流量提醒,升级推荐,都是精确营销引擎在发挥作用,它的价值的确无法估量。
但传统企业往往在营销中陷入不顾成本的陷阱,比如精确营销报表,仅提拓展了多少用户,多了多少业务量,但没有每次营销的投入成本,包括实物、广告、营销、人力、酬金等,永远是成绩挂眼前,这是有问题的。近几年中国移动一直在提高效低成本运营,特别是我在的省份,已经能将成本分摊到每次营销每个用户上了,我想这个是真正的进步,没有成本考虑的营销都是耍流氓,企业可以看看,如果你营销了1000个产品,很多产品的用户其实发展不到100,如果这个比例很大,说明你们的营销策划是有问题的,只是好的营销政策掩盖了问题而已,但需要引起足够的重视。
因此,任何企业,无论处于哪个阶段,如果要尝试精确营销,一定要找到成本痛点的场景入手,只有痛才能求变,才有改革的欲望,精确营销才能有价值。
5、技术革命,永远的王道游龙剑-象征“进攻”,神物利器,确非凡品
不需要组织任何改革,如果你有机会进行营销技术上的革命,即使是大象,它也能让你飞起来。技术是传统企业最为忽略,但实际上至关重要的东西,信息技术是生产力,写在我所在大楼的墙上,这是真真实实的。
不谈GOOGLE,不谈FB,就谈如运营商,因为它实在太典型了,属于传统企业,足够大,有数据,IT系统庞大,营销是王道。4G是技术,让移动这头大象再次飞了起来,但以前的技术往往都是通道技术的革命,那么,精确营销,有技术革命吗,当然有,就是依托 大数据 的时空营销。
大数据四个特点中,对于营销最具价值的是一个为快、越快的数据,代表我越能实时的感知到用户,比如用户每走动一步,每打开一个网页,他的行动情况就以BIT的形式告诉我,这个比BAT的营销机会更好,因为它结合了客户,时间,空间三个维度,理应创造千万的营销机会,以前受限于技术能力,运营商一直没有机会来利用这些能力,现在,机会来了。
举个例子,比如运营商销售终端,完全可以做到应时应景,客户一到卖场,我就可以直接向用户推荐合适的终端,客户一路过营业厅,我就近推荐换卡,再比如我还可以以时间序列来进行精确营销,发现用户上过百度搜索过苹果,然后到了卖场,我可以100%肯定他要买苹果手机,这个时候,我推荐优惠的苹果合约套餐,你说成功率有多大?当然这些都依赖于运营商打造的大数据技术平台,只有具备大数据的实时处理、客户在线分析等能力,才能让这些营销模式成为可能。
又比如,如果未来外部合作成为可能,与各行业的场景结合,你说我是不是通过大数据的技术革命在颠覆营销产业,每个企业都应该致力于通过技术上去找到一些突破点,通过技术驱动业务的变革,一切都有可能,传统企业应该需要更深度的思考这个问题。
任何企业,都应该不仅仅强调营销模式和花样上的创新,更多时候应该从技术上去考虑精确营销的突破之路,在IT上多投入点,这是能力的储备需要,你看,其实BAT所有业务上的创新突破,很大程度都是源于它技术进步的成果,你看到的双11实时跳变的数据,你看到腾讯那么牛逼的推荐系统,由点到面,那可主要是技术带来的变革,当前BAT不仅扮演商业帝国的角色,更多时候也是个技术领先者的角色,无数的技术专家在为期服务,因此,传统企业更需要加油。
6、体验为王,且走且珍惜舍神剑-象征“愤怒”,坦荡之人,简单直接
珍惜每次接触客户的机会,这是我要对所有有机会接触客户企业说得话,以客户为中心,这是精确营销的核心理念,Google和BAIDU有区别,大家都懂得,GOOGLE所以是伟大的公司,自有其道理。
前段时间有人跟我探讨,我针对每个接触到的客户,我都去推荐我想推的产品,要什么精确营销呢,这是典型的以产品为中心的概念,传统企业特别容易犯错。
首先,你要珍惜每次曝光的机会,因为你接触客户的机会有限,其次,你要了解用户的偏好,推荐它想要的东西,而不是你想推得东西,对所有用户都推荐所谓的你想推的东西,是杀鸡取卵的做法,你为了100个目标用户,伤害了100万用户,你的广告位经过几次迭代,没有一个客户会再想愿意点击,再好的所谓弹窗工具,都会由于你一次次的提醒而变成骚扰,如果广告位你还是租用的,你在付出巨额的广告费用后,也许获得的仅是几个客户。当前RTB广告的兴起,自有其道理。
精确营销,特别是体验,是个复杂的课题,每个用户,你只有了解了他的喜好,你才可能有的有的放矢,比如很多客户不喜欢上午接电话,有的用户不喜欢短信这种渠道,你只有通过分析数据,理解他的种种习惯,才能在合适的时刻和渠道有效的接触到他。
互联网公司是体验的王者,有了体验,才有了一切,就不用多说了,未来迟早是体验的时代,连接是必然的趋势,传统企业应该早点转型,用客户化的思维去做真正的精确营销。
7、双剑合璧,一定要协同日月剑-象征“合作”,时成一体,调协共存
互联网的O2O,传统企业务必要理解其真髓,大数据时代来了,它让我们认识客户的能力有了前所未有的提升,未来的精确营销体系,应该是以大数据为核心的全渠道协同体系,大数据是大脑,它感知一切,分析一些,协调一切,它指挥所有的渠道协同工作。 “大数据,线上线下,协同”是未来精确营销的三个核心关键词,下面是一张示意图,大家自己理解吧。
凑足了七剑,终于写完了,无论有没搞过精确营销的,希望我写得能引起一些共鸣,但说说总容易,但实施起来不易,失败总伴随,最大的感觉,还是需要心系客户,在实践中去理解精确营销的真谛。
本文为专栏文章,来自:傅一平,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/15292.html 。
数据分析
2016-04-01 23:29:00
学习R大概有两年的时间了,自己收集了很多关于学习R的网络资料和书籍,今天拿出来和大家分享。下面是关于初学者学习R的资源:
An introduction to R :全面系统地介绍 R语言 ,适合作为初步的参考资料。该资料是一份pdf文档,也是R语言官方手册。
Try R : 强烈推荐,非常简短地课程,可以在网页上进行简短的操作。该网站提供R的网页操作,所以你无需安装R,从最基本的R语言开始学期,通过实际操作掌握R的相关知识。
Computing for Data Analysis :大约四周的视频课程。
Introduction to R for Data Mining : R进行 数据挖掘 方面的材料,包括一些ppt和视频资料
Rstudio : R语言的集成操作环境,强烈建议安装。Rstudio会让你的工作效率指数提高。
Getting started with R and Hadoop, 关于R和Hadoop项目的资料。
ggplot2 : R绘图神器,该网站提供所有关于ggplot2的命令分解和介绍,同时配有大量的案例。
Learning Time Series with R :关于R的 时间序列 分析的资料。
R知识网格系统
The UCLA
The Princeton
York University
Vanderbilt’s
其他
R for SAS and STATA users:
The Art of R Programming 来源:统计之都
作者:tongjiyuan
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-06-10 00:48:00
先平复一下被 Excel 虐过的心情吧!
Excel函数学习常见的误区和问题及解决办法
是否遇到这样的苦恼?
● 经常函数报错却不知道错误在哪里。
● 函数没报错,但是结果却是错的有部分结果是对的,有部分结果是错的
● 有的函数只不过学会了简单的用法
原因:
○ 函数的表象(简单、最表面的用法)
○ 函数的内涵(完整含义,注意事项)
○ 函数外延(使用技巧使用效果)
而大部分人学习只停留在第一个层次上面,学完函数的表象就停止学习—>产生已经学完函数所有东西的错觉—>没有吃透函数的外延(无法知道函数很多使用技巧)。而我们学不会Excel是方法出现了问题,而不是我们不聪明我们看了大部分的教学案例及教程,但一个又一个的教学案例,按部就班的做,学完就学完了(只说了案例,其他的都没说)
而一个好的Excel教程是这样的:
1、列需求2、举例子3、解决办法4、引出函数的功能(并介绍内涵)5、为什么用这个函数能这样解决问题6、解决问题后介绍更多函数的用法,拓展外延
大部分教程只有前三部份,所以从来没想后几步导致学不好Excel。通过下面三步学习法,正确学习Excel方法吃透内涵拓展外延
■ 我们要学会查看函数完整说明
■ 搜集学习Excel函数大量正向案例和反向案例
■ 结合练习和变化式练习
而大部分人学习函数是这样的
查看一下简答的函数用法,然后百度搜索一下这个函数怎么样,看1~2个案例,自己尝试一下解决问题,然后就没有然后,以为自己就会了。回想一下你是不是这样学习的
案例只会告诉你一种或几种用法,而不是函数的全部信息。解决办法,找到微软官方的函数说明,方法1:Excel软件自带的帮助文档是最全面的,按F1就可以调出来。方法2:用微软自己的bing搜索去查找,网址:www.bing.com
点开函数说明,里面不仅有SUM函数的视频教程,如果网速慢的话还有一步步详细的步骤
sum函数
一般人如何理解SUM函数呢,SUM函数模型=sum(num1,[num2],……)几个数求和嘛,我们只是停留在这个表面。下面我们来看看官方怎么说,总结如下:
对参数的说明。参数可以是数字,单元格引用,也可以是单元格范围。参数可以是1个,也可以是多个,最多255个
和sum函数关联的用法状态栏求和、自动求和、非连续区域求和。
常见错误比如求和数据类型不一致,删除某一列之类的所以用sum函数,删除行列,插入行列,会带来什么样的影响,都有非常详细的说明
优化的做法一些习惯用法,存在更好的、优化的做法。
其他信息
这是浓缩版,非常全面,如果我们认真看完官方说明文档的话,我们可以掌握很多新知识新技能了
但是只看说明文档还是不够全面的,比如对SUM函数我们还可以深入的问几个问题
①、sum函数里面的参数能不能给它加符号呢如=sum (A,-B)
②、sum函数能否和逻辑运算结合在一起呢?如:统计一个表格里面的男性总数
③、sum函数,加入求和A、B、C、D单元格,其中A是1,B是2,C是false,D是“张三”,会得到什么结果,或是报错?
大家可以动手试一下吧,检验自己创造力的时候到了
3步法(学习重点)
步骤一:探求Excel内含部分
深入问自己如下问题
了解每一个参数的要求(要求的数据类型,边界,特殊情况等)
探索参数超出边界,处理参数类型后的情况(比如参数加负号,参数里嵌套函数,参数缺失……..)
探索函数对参数处理的机制,主要是绝对引用,还是相对引用。当参数里的内容出现缺失,被删除,被插入新行、列等意外情况后,会发生什么情况。
去探索函数基本用法之外,更加巧妙、灵活、超出官方文档的技巧。
等等
不断去探索,去尝试
步骤二:案例学习法
正向案例与反向案例的学习
○ 正向案例:就是别人使用这个函数的方法、技巧、教程、经验
○ 反向案例:就是别人用这个函数遇到的问题,犯的错误,总结的经验,吸取的教训,积累的注意事项等
这个方法与传统学习的不同
1、大部分人学习1~2个案例就结束了,而这里要学习大量的案例,要学就深入学习,结合大量的案例才能弄透
2、大部分人只学习正面的案例,不学习反面的案例
而正向案例反向案例学习有如下阶段:
● 阶段1:搜索阶段(通过搜索引擎、知乎、Excel垂直网站等来搜索正反向案例)
● 阶段2:记录和整理阶段(把案例分门别类,记录到一个笔记里面,一般一个函数一个笔记)
● 阶段3:按照案例,打开Excel,一个一个跟着走。
● 阶段4:写学习总结报告,把案例中的好技巧、注意点浓缩出来,形成自己的经验。
在你的笔记软件(为知笔记。OneNote、有道云笔记等)中新建一个笔记本,名字叫Excel函数相关教程。
步骤三、结合练习和变化式练习
但是完整的Excel函数学习笔记应该包含以下四部分:
■ 官方文档总结
■ 内含思考总结
■ 正反案例学习总结
■ 索引相关教程文章
这样为你以后节约不少搜索及选择的时间,只需要看自己保存的笔记
上面学习步骤亦可以划分三个阶段
★ 阶段一:已解决问题为主
★ 阶段二:以吃透内含为主
★ 阶段三:以拓展外延为主
结束语:在有限时间内尽快解决问题,有针对性的去解决当下问题。而在有空的时候我们可以查一查遇见问题的相关官方文档,并且查阅一些牛人写的博客进行拓展。相信大家进行这样的系统学习,Excel还不是小菜一碟吗!如果我们将这三步法运用到我们的其他学习生活中,效率是不是更高效呢 文/数据充电宝(简书作者)
原文链接:http://www.jianshu.com/p/87a5d8d2e0eb
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-06-05 17:57:00
一、什么是 回归分析 法
“回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法: 1.根据预测目标,确定自变量和因变量
明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。
2.建立回归预测模型
依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
3.进行相关分析
什么是回归分析法回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。
4.检验回归预测模型,计算预测误差
回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。
5.计算并确定预测值
利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
二、回归分析的目的
回归分析的目的大致可分为两种: 第一,“预测”。预测目标变量,求解目标变量y和说明变量(x1,x2,…)的方程。
y=a0+b1x1+b2x2+…+bkxk+误差(方程A)
把方程A叫做(多元)回归方程或者(多元)回归模型。a0是y截距,b1,b2,…,bk是回归系数。当k=l时,只有1个说明变量,叫做一元回归方程。根据最小平方法求解最小误差平方和,非求出y截距和回归系数。若求解回归方程.分別代入x1,x2,…xk的数值,预测y的值。
第二,“因子分析”。因子分析是根据回归分析结果,得出各个自变量对目标变量产生的影响,因此,需要求出各个自变量的影响程度。
希望初学者在阅读接下来的文章之前,首先学习一元回归分析、相关分析、多元回归分析、数量化理论I等知识。
根据最小平方法,使用 Excel 求解y=a+bx中的a和b。那么什么是最小平方法?
分别从散点图的各个数据标记点,做一条平行于y轴的平行线,相交于图中直线(如下图)
平行线的长度在统计学中叫做“误差”或者‘残差”。误差(残差)是指分析结果的运算值和实际值之间的差。接这,求平行线长度曲平方值。可以把平方值看做边长等于平行线长度的正方形面积(如下图)
最后,求解所有正方形面积之和。确定使面积之和最小的a(截距)和b(回归系数)的值(如下图)。使用Excel求解回归方程;“工具”→“ 数据分析 ”→“回归”,具体操作步骤将在后面的文章中具体会说明。
三、回归分析案例
接着上节的回归分析的目的,我们来根据一个二手车的实例来继续说回归分析。二手车价格的决定因素有:空调类型有无附加品(TV导航导航SR、天窗、空气囊LD TV AW) 行驶距离,颜色车检剩余有效月数、评分拍卖会地点等。
在这14个因子(说明变量)中,最影响价格(目标变量)的是什么?最不影响价格的是什么?通过定量求出影响度,然后根据多个因子(说明变量)预测二手车价格(目标变量)。
可以用方程2表示。二手车价格“这个目标变量数据,既(“空调类型(AC WC)” “有无TV导航”、 、“行驶距离”、 。车检剩余有效月数”, “评分”)。混合模型混台模型是指因子巾既包含定性数据也包含定量数据的模型。在混台模型中.把“空调”、 “TV导航”等定性因子叫做项目,把数据群(空调的“AC”,“WAC”,TV导航的“有”、“无”)叫做类别。
接下来,根据表l进行回归分析。
这节我们主要告诉大家回归分析前,我们需要先根据自己的思维来了解分析,把这些需要注意的先分析出来,这样对我们接下来的回归分析有很大的帮助。
四、Excel回归分析需要注意的事项
经过上节,我们了解了回归分析前,我们要先通过思维分析出来需要注意的事项,那么今天接着上一节的课来了解下Excel回归分析需要注意的事项。包含的定性数据,不能直接使用Excel分析,需要将其转换成虚拟变量(也叫O,1数据)。例如, “空调(AC、WAC)”的数据,“AC”用“1”,“WAC”用“O”表示。同样地,“导航(有导航、无导航)”的数据, “有导航”用“1”, “无导航”用“O”表示。表1是根据这种方法转换的(0,1)数据表。直接使用Excel的对表1进行回归分析时,运算结果不理想。理由如下;
以“导航”为例,各行“有导航”+“无导航”=1
此式成立。把公式变形,
“有导航”=1-“无导航”
所以“有导航”是“0”或是“1”,由“无导航。自动决定。
线性代数中发生秩(矩阵秩)亏时,不能正确求出必要的逆矩阵。因此也不能求出回归系数。
由于上述原因,进行回归分析时,需要从各个项目中删除—列因子(表2)。
根据表2的数据进行回归分析,操作步骤如下:1、“工具”一“数据分析”
2、在弹出的“数据分析”对话框中选择“回归”,单击“确定”(图1)。
3、点击“回归”对话框的“Y值输入区域”,选择“二手车价格”的列数据,包括项目名称;接着点击“X值输入区域”,选择从“AC”到“中国、四国、九州”的区域,包括项目名称;选中。标志”,单击“确定”。(图2)系统弹出错误信息,不能进行回归分析(图3)。这是因为Excel回归自由度的最大上限是16(P62小知识)。这里的回归自由度是22,因此不能进行回归分析。统计学中经常出现“自由度”,即有效信息的数量。前面已经提到,在Excel的回归分析中,回归自由度的最大上限是16。回归自由度在(多重)回归分析、数量化理论|、混合模型中具有不同意义。表3是对回归自由度的不同意义的总结。
五、分两次进行回归分析
我们在前面提到过,当回归自由度在17以上时,Excel无法进行回归分析,那么就需要分两次进行回归分析。第一次,把“空调”、“TV导航”、“导航”、“SR”、“天窗”、“空气囊”、“LD”、“TV”、“AW”作为说明变量(表1),第二次,把“颜色”、“拍卖会地点”、“行驶距离”、“车检剩余有效月数”、“评分”作为说明变量(表2),目标变量都是“二手车价格”。
对表1、表2进行回归分析。回归分析的结果分别如表3、表4所示(具体操作步骤将在下一节详细说明)。 本文整理自Excel学习网
链接:http://www.excelcn.com
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-05-28 14:23:00
摘要:用 Python 编写代码一点都不难,事实上它一直被赞誉为最容易学的编程语言。如果你准备学习web开发, Python是一个不错的开始,甚至想做游戏的话,用Python来开发游戏的资源也有很多。这是快速学习这门语言的途径之一。
许多程序员都把Python作为编程之旅的开始,然后是像PHP和Ruby这样的语言。它也是2014年最热门的web开发语言之一,并极力推荐学习。但是,Python应该怎么学呢?应该从哪里开始?
我来为你解决这个问题,因为我自己学习编程和开始做开发的时候也依靠了很多这里的资源。当然这仅仅是一个友好的建议,最好的方法还是通过实践去学习,这里推荐的一些书和资源只是为了指引你走往正确的方向。
刚开始学习的时候可能会特别令人沮丧,一旦你学完了基础,之后的东西对你来说就很自然了,你都不需要思考就知道要怎么做。
Python for Beginners
如果你的Python开发之旅有一段时间了,这门课程可能是一个很好的开始。Python for Beginners课程是由Alex Bowers讲授的最全面的Python课程之一,这套网络教程非常容易学习。是的,它需要付一定的费用,但你是想单独学习,还是和其他30000名学生一起学?
报名本课程的好处是你将被授权访问一个只有付费会员的论坛, Alex老师自己就驻扎在那,并且很乐意尽可能地帮你解决Python的问题。我的意思是,在这个清单里任何的资源都是值得的,因为你投入了一些成本额外收获了与人沟通的感觉会超越一切。
你可以使用优惠码:CODECONDO——它会给你一个固定的75%的折扣,但激活只能在2014年9月3日之前——所以要快点,您可以随时购买的这个课程然后用于以后的学习,不要把钱浪费在这笔交易上! 译者注:翻译时距这篇原文的发布快两年了,所以想购买这套课程的朋友还得是原价——$99
Learn Python The Hard Way (笨办法学Python)
这本书绝对是学习Python最简单的方法。你会被如此简单的基础学习感到震惊,真实地感受到自己的学习历程,一步一步地获取新的知识。我也感到它非常鼓励学习者去尝试并创造出自己的程序。
代码可能会很少,但是它们肯定会有助于你更好的理解语言本身和语法。Python非常的流行,所以当你遇到了问题时,在类似Stack Exchange这样的网站里有可能会找到答案,遇到问题需要解决的话尽管地Google吧。
你会学到如何去: 在全平台上安装Python环境 写Python程序 理解Python语法和文档 像程序员一样思考 还有更多的东西
本书的HTML在线版本是完全免费的,大部分人使用的都是在线版。我希望你购买完整的书或者给予一些捐赠,毕竟作者花了很大的力气来完成它。如果你感觉视频更容易学习的话,它的高级版里就包含了视频。
The Python Challenge
如果你的编程生涯中从没做过这样的挑战,这可能会有点难度。但是配和上面介绍的那本书的话也不是很难,你应该尝试一下。它有33个关卡(谜题),你可以用Python编程技巧解决。
几百万的人都在试着解决这个,即使你不能完成所有的关卡,你也会将学到很多新的东西,尤其是批判性思维和发散思维。你的大脑会过热,但这是在编程!
Learn Python Programming @ Codecademy
你可能看到许多“大牛”程序员骂这个网站,但那并不重要。我们想要做的是看看或者测试一门编程语言的基本语法是怎么执行的,以及调用函数时做了些什么,除了简单地输出‘Hello World!’。
在这个Codecademy的课程中你将会学到如何使用文件和循环,什么是函数以及他们能用来做什么。这些都是非常基础的,但是对初学者来说都是很好的东西。当需要帮助时有一个用来交流的论坛,但所有的东西都应该在你理解的范围之内。
你不需要安装任何工具,如果你想在你自己的电脑上重写一遍代码以便更好地理解它,你可能唯一需要的就是一个Notepad++编辑器。我就是这样做的,并且我向所有想学习编程的人都推荐Codecademy,不管是Python还是其他的语言。
Intro to Computer Science @ Udacity
Udacity提供了一个很棒的免费课程,引你进入Python编程和学习关于搜索引擎的许多东西,以及如何编写你自己的小型网络爬虫。它的确是一个值得参与的课程,并且还提供了额外的指导和社区支持。
你可以报名成为付费学生得到导师的指导,并且可以在课程结束得到一个证书,或者你可以自己使用免费的课件学习,遗憾的是付费课堂的容量有限,所以你申请后需要加入名单等待。
它总共有11个课程,每一个都有讲解非常深入的文档。去它的官方主页查看更多的信息或者你想问的问题的答案。
Google’s Python Class
Google它本身就被一大堆Python代码驱动着,只有他们提供社区支持并且愿意帮助其他人学习这门语言才更有意义。这是我曾经最喜欢看的指南和课程之一。它真的很详细,而且视频适合初学者,观看起来也很有趣。
去看几分钟它的第一堂课,看看你是否喜欢那个老师,然后决定是否开始学习Python!官方主页有这些练习题和例题的所有链接。
A Byte of Python
非常像LPTHW(笨办法学Python),但是在如何制定完整的学习计划并实施,以及如何迈出第一步上提供了更深层次的引导,而不会让你丧失自信心。对于那些想学Python的人来说它被认为是最好的初学者教程之一,当然你要先看看前几章,是否喜欢它的写作风格。
Think Python
Think Python是一个面向Python初学者的手册。它从编程的基本概念教起,非常详细地定义了所有第一次会遇到的术语,并且很有逻辑地展现新的概念。像递归和面向对象这样大一点的知识板块被分成了一系列更小的步骤,穿插于课程几个章节。
在这个链接里你会发现有大量的示例代码。它是最为专业的书之一,它有一个很严肃的原则: “像计算机科学家一样思考”。它需要将近40美元才能买到,但是你可以下载免费的PDF和HTML版本。如果从头开始学Python的话,肯定会从它上面得到好处。
Python at Learnstreet
你可能会想有个网站提供如何在他们页面上添加HTML代码的课程,哈哈。严肃一点地说,Learnstreet提供了很棒的Python交互式学习教程,就像这篇文章所说的所有东西一样,它对初学者非常友好。如果你遇到了问题,最好用Google去搜索。
我最喜欢Learnstreet的一点是每个练习后面都有许多提示和解释,显示在你编写代码的同一个界面里。
The New Boston
如果你更喜欢使用视频学习,我不确定是否还有比The New Boston的Python系列视频教程更全面的了,许多其他的编程语言也可以在他们的YouTube频道里找到。
它唯一的缺点就是没有可以阅读或者下载的资料,你只能看视频。我是那种不能忍受一直盯着视频看的程序员,这可能与我选择Google的Python课程有关,但它们实在太有趣了。
Python @ Coursera
这个课程是为从来没接触过编程的人准备的。你只需要小学的数学水平就可以了:懂简单的数学方程和算术优先级,以及像f(x) = x + 5这样的函数。
它在十周内应该可以学完,每周大概花10小时来完成课后作业。如果你有时间来做这个,并且不会感到很累,我推荐你注册并完成这个课程,它会巩固你的知识,并可以结合上面介绍的任何一个资源来更好地理解 Python。
Pythonspot
Pythonspot是一个综合教程,划分了很多不同类别的知识板块,首先你将拥有初学者资源来帮你开始Python的学习,然后你继续保持前进你能学到更多关于使用Python开发web,创建图形界面,开发游戏的内容,到那时你可以准备学习一些更高级的板块,像网络等等。这些都在一个地方,非常容易使用。
Python Practice Book
从根本上说,这是Anand Chitipothu在他讲授Python课程时使用的资源,但即便你不与Anand本人一起学习,你仍然可以利用这个资源来获取Python在不同角度的见解,以及看到不同开发者的观点。
Python Tutor
我认为这是新手程序员近期能够上手的最好的项目之一,Python Tutor都是在教你当执行你写的代码时到底发生了些什么。清楚地了解到如何写一段程序,能够理解后台程序的每个命令都是截然不同的。你可以使用自己写的代码,也可以使用平台提供的代码。
Real Python
虽然这是一个收费的资源,但最新的评论看起来还是相当不错的,所以不管怎样我决定加上这一条。在Real Python需要花费60美元来开始你的学习,将会有超过1300页的内容和10个多小时的视频供你访问,还包括以后可以免费更新。你能得到来自Real Python团队的导师的帮助,不过这需要额外的费用。以及博客里有适量与代码相关的教程能够给你帮助。
Full Stack Python
你能比较熟练地使用Python了,但是你不知道接下来该走什么样的方向?这个网络课程就是为你解决这个问题的,通过给你一个真正的项目去做,帮助你理解怎样用你学到的Python知识建立一个web应用程序和网站。学会怎样积累一些真正的知识。
Invent with Python
教你怎样使用Python创造一款你自己的电脑游戏。每章为你提供了一个新游戏完整的源代码,通过这些例子教你编程的概念。它在网站上可以免费阅读,或者在亚马逊购买。
PythonLearn
你是一个对信息学感兴趣的家伙吗?整个网站的资源都围绕着确切的话题,所以如果你感兴趣的话,去看看可能会是一件好事。
Dive Into Python3
迟早有一天,大多数的东西都会使用Python3来构建,尽管Python2仍然非常稳定并被大量使用,但Python3在过去的两年里确实发展的非常完整了。这本在线书籍所有的内容都在帮助你理解Python3是什么,以及如何最好地掌握它。
在哪学习Python?
事实证明我自己尝试了这里大部分的课程,我其实希望有更多的资源和链接加入到这个列表里来,但我们只是看一下主要的,还有这么多的新知识是你需要学习的。你有什么编程经验?你想用你新学到的技能做些什么?我认为任何想建立专业知识体系的人首先应该明确自己想做什么,然后研究一个项目直到做完。这样做的好处是你会学到具体的东西,以后开发一个类似的项目会更容易。
互动平台是挺酷的,但它们还不能完全取代专业人士提供的书籍或课程。我衷心祝愿你学习Python能够顺利,并且如果你有任何想问的问题的话,请在评论里提出。 来源:数盟社区
原文: http://codecondo.com/10-ways-to-learn-python/
by Alex on March 24, 2014
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-05-28 12:15:00
引言
目前我们发展出了不少 机器学习 算法来对数据建模,基于数据进行一些预测已经不再是难事。不论我们建立的是回归或是分类模型,只要我们选择了合适的算法,总能得到比较精确的结果。然而,世事并不总是一帆风顺,某些分类问题可能比较棘手。
在对不平衡的分类 数据集 进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现?
答案非常简单,在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较强。
本文会介绍处理非平衡分类数据集的一些要点,并主要集中于非平衡二分类问题的处理。一如既往,我会尽量精简地叙述,在文末我会演示如何用R中的ROSE包来解决实际问题。
什么是不平衡分类
不平衡分类是一种有监督学习,但它处理的对象中有一个类所占的比例远远大于其余类。比起多分类,这一问题在二分类中更为常见。(注:下文中占比较大的类称为大类,占比较小的类称为小类)
不平衡一词指代数据中响应变量(被解释变量)的分布不均衡,如果一个数据集的响应变量在不同类上的分布差别较大我们就认为它不平衡。
举个例子,假设我们有一个观测数为100000的数据集,它包含了哈佛大学申请人的信息。众所周知,哈佛大学以极低的录取比例而闻名,那么这个数据集的响应变量(即:该申请人是否被录取,是为1,否为0)就很不平衡,大致98%的观测响应变量为0,只有2%的幸运儿被录取。
在现实生活中,这类例子更是不胜枚举,我在下面列举了一些实例,请注意他们的不平衡度是不一样的。
1.一个自动产品质量检测机每天会检测工厂生产的产品,你会发现次品率是远远低于合格率的。
2.某地区进行了居民癌症普查,结果患有癌症的居民人数也是远远少于健康人群。
3.在信用卡欺诈数据中,违规交易数比合规交易少不少。
4.一个遵循6δ原则的生产车间每生产100万个产品才会产出10个次品。
生活中的例子还有太多,现在你可以发现获取这些非平衡数据的可能性有多大,所以掌握这些数据集的处理方法也是每个 数据分析 师的必修课。
为什么大部分机器学习算法在不平衡数据集上表现不佳?
我觉得这是一个很有意思的问题,你不妨自己先动手试试,然后你就会了解把不平衡数据再结构化的重要性,至于如何再结构化,我会在操作部分中讲解。
下面是机器学习算法在不平衡数据上精度下降的原因: 响应变量的分布不均匀使得算法精度下降,对于小类的预测精度会很低。 算法本身是精度驱动的,即该模型的目标是最小化总体误差,而小类对于总体误差的贡献很低。 算法本身假设数据集的类分布均衡,同时它们也可能假定不同类别的误差带来相同的损失(下文会详细叙述)。
针对不平衡数据的处理方法
这类处理方法其实就是大名鼎鼎的“采样法”,总的说来,应用这些方法都是为了把不平衡数据修正为平衡数据。修正方法就是调整原始数据集的样本量,使得不同类的数据比例一致。
而在诸多学者研究得出基于平衡数据的模型整体更优的结论后,这一类方法越来越受到分析师们的青睐。
下列是一些具体的处理方法名称: 欠采样法(Undersampling) 过采样法(Oversampling) 人工数据合成法(Synthetic Data Generation) 代价敏感学习法(Cose Sensitive Learning)
让我们逐一了解它们。
1.欠采样法
该方法主要是对大类进行处理。它会减少大类的观测数来使得数据集平衡。这一办法在数据集整体很大时较为适宜,它还可以通过降低训练样本量来减少计算时间和存储开销。
欠采样法共有两类:随机(Random)的和有信息的(Informative)。
随机欠采样法会随机删除大类的观测直至数据集平衡。有信息的欠采样法则会依照一个事先制定的准则来删去观测。
有信息的欠采样中,利用简易集成算法(EasyEnsemble)和平衡级联算法(BalanceCascade)往往能得到比较好的结果。这两种算法也都很直白易懂。
简易集成法:首先,它将从大类中有放回地抽取一些独立样本生成多个子集。然后,将这些子集和小类的观测合并,再基于合并后的数据集训练多个分类器,以其中多数分类器的分类结果为预测结果。如你所见,整个流程和无监督学习非常相似。(注:译者认为更像基于Bagging的随机森林)
平衡级联法:它是一种有监督的学习法,首先将生成多个分类器,再基于一定规则系统地筛选哪些大类样本应当被保留。(译者注:算法整体是一个迭代至收敛的过程)
但欠采样法有一个显而易见的缺陷,由于要删去不少观测,使用该方法会使得大类损失不少重要信息。
2.过采样法
这一方法针对小类进行处理。它会以重复小类的观测的方式来平衡数据。该方法也被称作升采样(Upsampling)。和欠采样类似,它也能分为随机过采样和有信息的过采样两类。
随机过采样会将小类观测随机重复。有信息过采样也是遵循一定的准则来人工合成小类观测。
使用该方法的一大优势是没有任何信息损失。缺点则是由于增加了小类的重复样本,很有可能导致过拟合(译者注:计算时间和存储开销也增大不少)。我们通过该方法可以在训练集上得到非常高的拟合精度,但在测试集上预测的表现则可能变得愈发糟糕。
3.人工数据合成法
简单说来,人工数据合成法是利用生成人工数据而不是重复原始观测来解决不平衡性。它也是一种过采样技术。
在这一领域,SMOTE法(Synthetic Minority Oversampling Technique)是有效而常用的方法。该算法基于特征空间(而不是数据空间)生成与小类观测相似的新数据(译者注:总体是基于欧氏距离来度量相似性,在特征空间生成一些人工样本,更通俗地说是在样本点和它近邻点的连线上随机投点作为生成的人工样本,下文叙述了这一过程但有些晦涩)。我们也可以说,它生成了小类观测的随机集合来降低分类器的误差。
为了生成人工数据,我们需要利用自助法(Bootstrapping)和K近邻法(K-neraest neighbors)。详细步骤如下: 计算样本点间的距离并确定其近邻。 生成一个0到1上的均匀随机数,并将其乘以距离。 把第二步生成的值加到样本点的特征向量上。 这一过程等价于在在两个样本的连线上随机选择了一个点。
R中有一个包专门用来实现SMOTE过程,我们将在实践部分做演示。
4.代价敏感学习(CSL)
这是另一种常用且有意思的方法。简而言之,该方法会衡量误分类观测的代价来解决不平衡问题。
这方法不会生成平衡的数据集,而是通过生成代价矩阵来解决不平衡问题。代价矩阵是描述特定场景下误分类观测带来的损失的工具。近来已有研究表明,代价敏感学习法很多时候比采样法更优,因此这种方法也值得一学。
让我们通过一个例子来了解该方法:给定一个有关行人的数据集,我们想要了解行人是否会携带炸弹。数据集包含了所有的必要信息,且携带炸弹的人会被标记为正类,不带炸弹的就是负类。现在问题来了,我们需要把行人都分好类。让我们先来设定下这一问题的代价矩阵。
如果我们将行人正确分类了,我们不会蒙受任何损失。但如果我们把一个恐怖分子归为负类(False Negative),我们要付出的代价会比把和平分子归为正类(False Positive)的代价大的多。
代价矩阵和混淆矩阵类似,如下所示,我们更关心的是伪正类(FP)和伪负类(FN)。只要观测被正确分类,我们不会有任何代价损失。
该方法的目标就是找到一个使得总代价最小的分类器
Total Cost = C(FN)xFN + C(FP)xFP
其中,
FN是被误分类的正类样本数
FP是被误分类的负类样本数
C(FN)和C(FP)分别代表FN和FP带来的损失。本例中C(FN) > C(FP)
除此之外,我们还有其他的比较前沿的方法来处理不平衡样本。比如基于聚类的采样法(Cluster based sampling),自适应人工采样法(adaptive synthetic sampling),边界线SMOTE(border line SMOTE),SMOTEboost,DataBoost-IM,核方法等。这些方法的基本思想和前文介绍的四类方法大同小异。还有一些更直观的方法可以帮助你提升预测效果:如利用聚类技术,把大类分为K个次类,每个此类的样本不重叠。再基于每个次类和小类的合并样本来训练分类器。最后把各个分类结果平均作为预测值。除此之外,也可以聚焦于获取更多数据来提高小类的占比。
应当使用哪类评价测度来评判精度?
选择合适的评价测度是不平衡数据分析的关键步骤。大部分分类算法仅仅通过正确分类率来衡量精度。但在不平衡数据中,使用这种方法有很大的欺骗性,因为小类对于整体精度的影响太小。
混淆矩阵
混淆矩阵和代价矩阵的差异就在于代价矩阵提供了跟多的误分类损失信息,其对角元素皆为0。而混淆举证只提供了TP,TN,FP,FN四类样本的比例,它常用的统计量则为正确率和错误率:
Accuracy: (TP + TN)/(TP+TN+FP+FN)
Error Rate = 1 – Accuracy = (FP+FN)/(TP+TN+FP+FN)
如前文所提,混淆矩阵可能会提供误导性结果,并且它对数据变动非常敏感。更进一步,我们可以从混淆矩阵衍生出很多统计量,其中如下测度就提供了关于不平衡数据精度的更好度量:
准确率(Preciosion):正类样本分类准确性的度量,即被标记为正类的观测中被正确分类的比例。
Precision = TP / (TP + FP)
召回率(Recall):所有实际正类样本被正确分类的比率。也被称作敏感度(Sensitivity)
Recall = TP / (TP + FN)
F测度(F measure):结合准确率和召回率作为分类有效性的测度。具体公式如下(常取1):
F measure = ((1 + β) × Recall × Precision) / ( β × Recall + Precision )
尽管这些测度比正确率和错误率更好,但总的说来对于衡量分类器而言还不够有效。比如,准确率无法刻画负类样本的正确率。召回率只针对实际正类样本的分类结果。这也就是说,我们需要寻找更好的测度来评价分类器。
谢天谢地!我们可以通过ROC(Receiver Operationg Characterstics)曲线来衡量分类预测精度。这也是目前广泛使用的评估方法。ROC曲线是通过绘制TP率(Sensitivity)和FP率(Specificity)的关系得到的。
Specificity = TN / (TN + FP)
ROC图上的任意一点都代表了单个分类器在一个给定分布上的表现。ROC曲线之所以有用是因为它提供了分类数据收益(TP)和损失(FP)的可视化信息。ROC曲线下方区域的面积(AUC)越大,整体分类精度就越高。
但有时ROC曲线也会失效,它的不足包括: 对于偏态分布的数据,可能会高估精度 没有提供分类表现的置信区间 无法提供不同分类器表现差异的显著性水平
作为一种替代方法,我们也可以选择别的可视化方式比如PR曲线和代价曲线。特别地,代价曲线被认为有以图形方式描述分类器误分类代价的能力。但在90%的场合中,ROC曲线已经足够好。
在R中进行不平衡数据分类
行文至此,我们已经学习了不平衡分类的一些重要理论技术。是时候来应用它们了!在R中,诸如ROSE包和EMwR包都可以帮助我们快速实现采样过程。我们将以一个二分类案例做演示。
ROSE(Random Over Sampling Examples)包可以帮助我们基于采样和平滑自助法(smoothed bootstrap)来生成人工样本。这个包也提供了一些定义良好的函数来快速完成分类任务。
让我们开始吧
# 设定路径
path <- "C:/Users/manish/desktop/Data/March 2016"
# 设定工作目录
setwd(path)
# 安装包
install.packages(“ROSE”)
library(ROSE)
ROSE包中内置了一个叫做hacide的不平衡数据集,它包括hacide.train和hacide.test两个部分,让我们把它读入R环境:
data(hacide)
str(hacide.train)
'data.frame': 1000 obs. of 3 variables:
$ cls: Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
$ x1 : num 0.2008 0.0166 0.2287 0.1264 0.6008 ...
$ x2 : num 0.678 1.5766 -0.5595 -0.0938 -0.2984 ...
如你所见,数据集有3个变量的1000个观测。cls是响应变量,x1和x2是解释变量。让我们检查下cls的不平衡程度:
# 检查cls的不平衡度
table(hacide.train$cls)
0 1
980 20
# 检查cls的分布
prop.table(table(hacide.train$cls))
0 1
0.98 0.02
可以看到,数据集中只有2%的正样本,其余98%都属于负类。数据的不平衡性极其严重。那么,这对我们的分类精度会带来多大影响?我们先建立一个简单的决策树模型:
library(rpart)
treeimb <- rpart(cls ~ ., data = hacide.train)
pred.treeimb <- predict(treeimb, newdata = hacide.test)
然我们看看这个模型的预测精度,ROSE包提供了名为accuracy.meas()的函数,它能用来计算准确率,召回率和F测度等统计量。
accuracy.meas(hacide.test$cls, pred.treeimb[,2])
Call:
accuracy.meas(response = hacide.test$cls, predicted = pred.treeimb[, 2])
Examples are labelled as positive when predicted is greater than 0.5
precision: 1.000
recall: 0.200
F: 0.167
这些测度值看上去很有意思。如果我们设定阈值为0.5,准确率等于1说明没有被误分为正类的样本。召回率等于0.2意味着有很多样本被误分为负类。0.167的F值也说明模型整体精度很低。
我们再来看看模型的ROC曲线,它会给我们提供这个模型分类能力的直观评价。使用roc.curve()函数可以绘制该曲线:
roc.curve(hacide.test$cls, pred.treeimb[,2], plotit = F)
Area under the curve (AUC): 0.600
AUC值等于0.6是个很槽糕的结果。因此我们很有必要在建模前将数据集修正平衡。在本案例中,决策树算法对于小类样本无能为力。
我们将使用采样技术来提升预测精度。这个包提供了ovun.sample()的函数来实现过采样和欠采样。
我们先试试过采样
# 过采样
data_balanced_over <- ovun.sample(cls ~ ., data = hacide.train, method = "over",N = 1960)$data
table(data_balanced_over$cls)
0 1
980 980
上述代码实现了过采样方法。N代表最终平衡数据集包含的样本点,本例中我们有980个原始负类样本,所以我们要通过过采样法把正类样本也补充到980个,数据集共有1960个观测。
与之类似,我们也能用欠采样方法,请牢记欠采样是无放回的。
data_balanced_under <- ovun.sample(cls ~ ., data = hacide.train, method = "under", N = 40, seed = 1)$data
table(data_balanced_under$cls)
0 1
20 20
欠采样后数据是平衡了,但由于只剩下了40个样本,我们损失了太多信息。我们还可以同时采取这两类方法,只需要把参数改为method = “both”。这时,对小类样本会进行有放回的过采样而对大类样本则进行无放回的欠采样。
data_balanced_both <- ovun.sample(cls ~ ., data = hacide.train, method = "both", p=0.5, N=1000, seed = 1)$data
table(data_balanced_both$cls)
0 1
520 480
函数的参数p代表新生成数据集中正类的比例。
但前文已经提过两类采样法都有自身的缺陷,欠采样会损失信息,过采样容易导致过拟合,因而ROSE包也提供了ROSE()函数来合成人工数据,它能提供关于原始数据的更好估计。
data.rose <- ROSE(cls ~ ., data = hacide.train, seed = 1)$data
table(data.rose$cls)
0 1
520 480
这里生成的数据量和原始数据集相等(1000个观测)。现在,我们已经用4种方法平衡了数据,我们分别建模评评估精度。
# 训练决策树
tree.rose <- rpart(cls ~ ., data = data.rose)
tree.over <- rpart(cls ~ ., data = data_balanced_over)
tree.under <- rpart(cls ~ ., data = data_balanced_under)
tree.both <- rpart(cls ~ ., data = data_balanced_both)
# 在测试集上做预测
pred.tree.rose <- predict(tree.rose, newdata = hacide.test)
pred.tree.over <- predict(tree.over, newdata = hacide.test)
pred.tree.under <- predict(tree.under, newdata = hacide.test)
pred.tree.both <- predict(tree.both, newdata = hacide.test)
是时候用roc.curve()函数来评估精度了!
# 人工数据合成AUC值
roc.curve(hacide.test$cls, pred.tree.rose[,2])
Area under the curve (AUC): 0.989
# 过采样AUC值
roc.curve(hacide.test$cls, pred.tree.over[,2])
Area under the curve (AUC): 0.798
# 欠采样AUC值
roc.curve(hacide.test$cls, pred.tree.under[,2])
Area under the curve (AUC): 0.867
# 双采样AUC值
roc.curve(hacide.test$cls, pred.tree.both[,2])
Area under the curve (AUC): 0.798
下方就是输出的ROC曲线,其中: 黑线代表人工数据合成 红线代表过采样 绿线代表欠采样 蓝线代表双采样
因此,我们发现利用人工数据合成法可以带来最高的预测精度,它的表现比采样法要好。这一技术和更稳健的模型结合(随机森林,提升法)可以得到更高的精度。
这个包为我们提供了一些基于holdout和bagging的模型评估方法,这有助于我们判断预测结果是否有太大的方差。
ROSE.holdout <- ROSE.eval(cls ~ ., data = hacide.train, learner = rpart, method.assess = "holdout", extr.pred = function(obj)obj[,2], seed = 1)
ROSE.holdout
Call:
ROSE.eval(formula = cls ~ ., data = hacide.train, learner = rpart,
extr.pred = function(obj) obj[, 2], method.assess = “holdout”,
seed = 1)
Holdout estimate of auc: 0.985
可以发现预测精度维持在0.98附近,这意味着预测结果波动不大。类似的,你可以用自助法来评估,只要把method.asses改为”BOOT”。extr.pred参数是一个输出预测结果为正类的列的函数。
结语
当我们面对不平衡数据集时,我们常常发现利用采样法修正的效果不错。但在本例中,人工数据合成比传统的采样法更好。为了得到更好的结果,你可以使用一些更前沿的方法,诸如基于boosting 的人工数据合成。
在本文中,我们讨论了关于不平衡数据的一些要点。对于R的使用者来说,由于有很多强大的包的支持,处理这类问题并非难事。
如果你有任何相关的意见和建议,请在下方评论。 作者 MANISH SARASWAT
译者 钱亦欣
注:原文发表于analyticsvidhya网站
原文链接: http://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-05-24 22:39:00
摘要: 统计学 中离群值被定义为离开大部分观测较远的样本点,多数是由于测量误差而产生。因此, 数据分析 中离群值的识别和移除(如有必要)是很重要的一个步骤。
鉴定离群值的方法有很多种,包括基于标准差的方法和基于四分位距的Tukey法。本文我将使用不依赖余数据分布类型的Tukey法做演示,该方法的另一个优势是无需考虑数据均值和方差,而这两个统计量恰恰很容易被极端值(离群值)影响。
脚本
我写了一个脚本来识别、描述、绘制并移除离群值。我先利用箱线图来鉴定样本点是否为离群值。在R中可以使用boxplot.stats()$out命令来绘制这个图,该图能利用Tukey法将游离在1.5倍四分位距外的样本点单独绘制出来。在描述数据时,我喜欢汇报数据中离群值的百分比和其均值,同时我也会分别计算包含和移除离群值后数据的均值。而在各种数据图中,箱线图和直方图值最能体现离群值的存在感,因此在下面的脚本中,我将绘制包含和移除离群值的这两类图形。最后,在Selva的帮助下,我添加了一个简单问题(是/否)来询问是否要保留离群值。如果选择是,那么离群值将被NA取代。
脚本如下: outlierKD <- function(dt, var) { var_name <- eval(substitute(var),eval(dt)) tot <- sum(!is.na(var_name)) na1 <- sum(is.na(var_name)) m1 <- mean(var_name, na.rm = T) par(mfrow=c(2, 2), oma=c(0,0,3,0)) boxplot(var_name, main="With outliers") hist(var_name, main="With outliers", xlab=NA, ylab=NA) outlier <- boxplot.stats(var_name)$out mo <- mean(outlier) var_name <- ifelse(var_name %in% outlier, NA, var_name) boxplot(var_name, main="Without outliers") hist(var_name, main="Without outliers", xlab=NA, ylab=NA) title("Outlier Check", outer=TRUE) na2 <- sum(is.na(var_name)) cat("Outliers identified:", na2 - na1, "n") cat("Propotion (%) of outliers:", round((na2 - na1) / tot*100, 1), "n") cat("Mean of the outliers:", round(mo, 2), "n") m2 <- mean(var_name, na.rm = T) cat("Mean without removing outliers:", round(m1, 2), "n") cat("Mean if we remove outliers:", round(m2, 2), "n") response <- readline(prompt="Do you want to remove outliers and to replace with NA [yes/no]: ") if(response == "y" | response == "yes"){ dt[as.character(substitute(var))] <- invisible(var_name) assign(as.character(as.list(match.call())$dt), dt, envir = .GlobalEnv) cat("Outliers successfully removed", "n") return(invisible(dt)) } else{ cat("Nothing changed", "n") return(invisible(var_name)) } }
你可以直接运行这些代码,只要把其中的数据集和变量的名称替换下。 source("http://goo.gl/UUyEzD") outlierKD(dat, variable)
一个例子: Outliers identified: 58 Propotion (%) of outliers: 3.8 Mean of the outliers: 108.1 Mean without removing outliers: 53.79 Mean if we remove outliers: 52.82 Do you want to remove outliers and to replace with NA [yes/no]: y Outliers successfully removed
绘制的图形的例子:
我知道这个脚本还可以添加不少功能和细节,很多地方还能优化。欢迎各位给我提供反馈。
你可以直接在下方留言,或者在 Twitter 上联系我。 作者 Klodian Dhana
译者 钱亦欣
原文刊载于datascience+网站
链接: http://datascienceplus.com/identify-describe-plot-and-removing-the-outliers-from-the-dataset/
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「 我们 」留言处理。
数据分析
2016-05-24 22:33:00
本来今天是想分享一下关于条件格式里面的色阶的,但是看到相关的问题,特别是关于重复值的,之前的文章里面也有说关于 重复值 的问题。今天直接跳到自定义来分享一点关于重复值提示的一个问题。
前面一说到,重复值我们可以通过设置数据验证来实现避免重复输入数据,但是当我们直接采用复制的时候,数据验证的方法貌似就失灵了。但是如果你采用了条件格式,这个问题就可以解决了。条件格式的具体位置,在上一篇中已经提到过了,这里就不在赘述。
直接进入今天的主题。
第一步、首先选中需要提示重复的数据区域。
第二步、如下图:

下面再补充讲一下设置自定义部分吧,从自定义点进去之后,所弹出来的就是我们单元格格式的对话框,
可以自行设置自己喜欢的格式,当然了,懒一点可以自己就按照系统自带的格式即可。
今天的文章有点短,一天一个点吧,下一次关于条件格式的色阶的分享吧。
本文为专栏文章,来自:Excelky,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/19048.html 。
数据分析
2016-05-18 23:17:00