手机上的大数据（三）：手机上的阅读

时间: 2016-01-14来源：数据观

前景提要

手机上的大数据（三）：手机上的阅读
来源：雷锋网时间：2016-01-14 11:24:11 作者：

　　在移动互联网所覆盖的日常生活中，用户随时随地都在产生数据，数据的产生以及获取在现在的移动互联网上已经不是什么难以攻破的难题。需要我们面对的是从海量数据的分析中得到我们所需要的真正信息。
　　手机大数据的组织与应用
　　手机上的大数据对于移动互联网业务早期无疑具有非常大的指导意义，但并不是所有的手机上产生的大数据都会那么有意义。比如说社会媒体—微博，每天也会产生大量的数据，但多数都是没有意义的。

　　手机大数据的组织与应用
　　手机上产生的大数据需要重新组织方能揭示出有意义的信息。
　　在现今的时代，大数据本身不是问题，你从各个渠道都可能获得海量的数据；我们每个人每天都要生产很大量的数据，关键的问题是如何处理、分析这些数据。数据不处理、不分析，就像Mary举的例子一样，就是一堆稻草，毫无价值。

　　稻草堆里寻针
　　数据处理、分析就是要从一大垛稻草堆里面挑出一根针。
　　这句话有两层含义：
　　无论我们从何种渠道，通过何种方式获得的数据，大量的数据是没有意义的，这其中只有少量的数据是有效地，可以从中得出一些有规律、有价值的信息的，原始数据需要清洗、整理；（这一点对于移动互联网更为明显，一般来说，几乎80%-90%的移动应用数据都是毫无价值的，只有不到10%-20%左右的数据才包含后续分析所需要的信息）
　　我们需要通过后续的数据挖掘的工作，从杂乱无章的稻草堆里找出遗落在层层表象下面的一根针，而非一根稻草！这显然，不是简单通过统计就可以得出的；是比统计分析更为复杂的算法，去从简单关联过度复杂逻辑的层面。
　　从上一章中，我们知道手机上的大数据的来源多种多样，不同的移动互联入口、不同的应用都会导致不同数据的产生，而这些不同的数据又支撑不同的业务，并且不同的业务之间还可能存在一些交叉应用。所以针对这些特点，下面我们根据这些特点来对大数据的组织做一个简单介绍，手机大数据的组织方式可以采用如下图的结构。

　　手机大数据的组织方式
　　从上面的结构可以看出，手机大数据的组织主要分为以下三个部分：原始数据存储层，计算层和业务数据存储层
　　原始数据存储层
　　主要存储不同入口产生的数据，而不同入口不同数据域也分开并存此时各个数据集是彼此独立，数据集之间没有任何联系方式。这样做的好处就是能最大限度的保证原始数据的完善性，正确性。
　　计算层
　　该层的主要任务是对原始数据存储层存取的数据进行挖掘处理，并将挖掘结果按照不同业务进行分类。挖掘处理的大致分为以下两点：① 对不同数据域进行内部分析，挖掘。② 对不同数据域之间进行关联分析挖掘。结果分类主要是将挖掘出的结果进行分类，比如音乐、餐饮、广告等应用。
　　业务数据存储层
　　业务数据存储层主要是对计算层产出的数据进行分开存储，以为上层应用提供更明确的数据接口。
　　当我们对数据进行有效地存储管理后，我们就可以利用这些大数据进行一些有意义的工作，尤其是对于移动互联网业务早期无疑具有非常大的指导意义，下面我们以手机阅读为例，对手机上的大数据如何应用做一个说明。
　　手机上的阅读
　　手机阅读作为移动互联网目前为数不多还算有一定共性和沉淀应用之一，是我们早期手机应用研究的对象。所谓“共性”和“沉淀”，就是针对手机应用“碎片化”而言。手机阅读虽然也有大量的碎片时间，但已经逐渐形成了一早一晚宝贵的“床上”连片时间，有相对比较完整时间片上呈现的行为习惯，有相对比较完整的用户在移动互联网上体现出来的偏好信息。
　　尽管很多报告都显示，用户在互联网与移动互联网上的表征有着巨大的差异，但我依然相信，人们在面对一段文字，一个图片上的喜好、感觉是不会变的。因为人性是不会轻易改变的。互联网和移动互联网的用户行为之所以不同，那是因为应用本身使用场景的不同，解决问题的不同所导致的。并不是一个人在互联网上是一个性格，而到了移动互联网上就是另外一个人生了。

　　这是我们研究手机阅读上大数据的初衷。
　　下面，我们以一个曾经做过的手机阅读项目为例，主要从发现问题、解决问题、结果验证三个方面来为大家展开。
　　发现问题
　　通过对手机阅读数据的挖掘分析，我们发现了如下几个问题：
　　（1）城市与城市之间的阅读行为相似
　　我们统计过杭州、广州、深圳在某一时间段内用户的阅读数据，得到了这三个城市这三个月热门前二十的数据。
　　下表统计的是杭州与广州深圳这两个城市在该时间段内的热门阅读图书重合数数。
　　三月四月五月
杭州VS深圳杭州VS广州杭州VS深圳杭州VS广州杭州VS深圳杭州VS广州
前十前二十
9 13
9 10
4 8
4 8
2 9
8 14

　　从表中，我们可以猜测，杭州与深圳、广州这两个城市之间确实存在着一定程度上的阅读相似性。
　　计算公式为：Sim(A,B) = Same(A,B)*2/[Count(A) Count(B)]
　　Sim(A,B)表示的是城市A,B的阅读相似性。Same(A,B)表示的是城市A,B在某时间段内共同阅读过的图书的本书，Count(A)表示的是城市A在某时间段内阅读过的图书的本书。
　　从表中我们可以发现杭州与深圳广州的阅读相似性都很高。也就是说杭深或者杭广城市间阅读是比较相似的，我们可以考虑用他们来作为阅读风向标的参考城市。
　　所以，如果考虑要做风向标分析的话，更倾向于选择广州作为杭州的阅读风向标，杭州作为深圳的风向标，杭州跟广州可以互相参考。
　　（2）移动阅读的“长尾”现象严重
　　在我们的数据统计中发现，手机阅读市场基本上靠热榜和主观推荐来运营。这就造成了我们所常见的“长尾”效应，而且随着书籍的增多，这种效应更为严重！
　　（3）不同行为模式的用户表现相差比较大
　　我们通过kmeans聚类算法（一种常见的数据挖掘算法），说明各类用户之间表现的特征差异还是比较明显。

　　不同行为模式的用户表现相差比较大
　　解决方案
　　我们针对历史数据进行了分析，对于不同的问题，我们觉得可以采用如下方法进行解决。
　　（1）数据聚类推荐送
　　通过对用户进行聚类推送图书，我们发现有如下结果：

　　数据聚类推荐送
　　第一类：人群比例接近60%。这类人群一直有阅读推荐书的行为（平均约e^1），在6月14号当天PV量并没有提升，而在后面几天提到较明显的提升，6月20号之后似乎又回到了之前的PV水平。
　　第二类：人数较少，仅57人。在推荐前基本无阅读推荐书行为，而在推荐后阅读推荐书PV量较大（平均e^2），且后续也有较好的保持，可以认为被推送激发了阅读推荐书的兴趣。
　　第三类：人群比例接近40%。这类人群在6月13-17号之间阅读推送书籍的PV量提升非常明显，但是在这个时间段之外，比较沉默，前期（6月13号前）阅读推荐书很少，后期（6月17号）阅读量有些提升，但是还是回归到比较沉默状态。
　　（2）个性化推送
　　由于手机的推送方式，目前大多数是通过流行榜来推荐，这就造成了这些被推送的书籍越流行，后面越推送他。反复的循环下去，就造成了系统长尾现象，数据覆盖率等问题。所以最好是根据不同的用户设置不同的推荐方法。这样可以大大改善系统中这些状况。
　　结果验证
　　通过我们对数据的挖掘处理，然后用户实际应用，最后得到了如下的反馈结果：
　　（1） PV量的增加

　　首日PV比较
　　从实验分析中，我们得出：总的一周反馈率，实验组是对照组的1.30倍。
　　推荐成功用户首日推荐书籍PV总量，实验组是对照组的8.17倍；人均推荐书籍PV量，实验组是对照组的15.19倍。
　　推荐成功用户首日总激发PV量，实验组是对照组的9.62倍；人均全部书籍PV量，实验组是对照组的17.88倍。
　　推荐成功用户中，实验组的一周推荐书籍PV总量约为对照组的5.45倍；人均推荐书籍PV量，实验组是对照组的4.88倍。
　　推荐成功用户中，实验组的一周总激发PV量是对照组的7.01倍；人均全部书籍PV量，实验组是对照组的6.28倍。
　　综上所述，经过数据挖掘、分析、推荐等算法的处理，手机阅读的各项指标得到了大幅的提升，其效果已经不是百分之几十的提高，而是成倍地增加了！这就是大数据应用的魅力！
　　【编者按】本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
　　相关阅读
　　手机上的大数据（一）：移动互联网的入口
　　手机上的大数据（二）：手机大数据的特点
　　手机上的大数据（三）：手机上的阅读
　　手机上的大数据（四）：手机上的音乐
　　手机上的大数据（五）：手机上的APP推广
　　手机上的大数据（六）：手机大数据的挑战
责任编辑：陈卓阳