手机上的大数据（四）：手机上的音乐

时间: 2016-01-25来源：数据观

前景提要

手机上的大数据（四）：手机上的音乐
来源：雷锋网时间：2016-01-25 11:39:22 作者：
　　无线音乐是用户利用手机等通信终端，以WAP、WEB、APP等接入方式获取以音乐为主题内容的相关业务的总称，具体包括彩铃、无线音乐俱乐部、及手机客户端软件等业务。可以说在智能手机时代，手机客户端音乐逐渐成为用户享受生活的主要方式。
　　随着智能手机的不断普及，无线音乐行业成就了一些大头手机音乐客户端公司，这些公司拥有着上百万甚至千万级别规模的用户群体。
　　手机客户端音乐的不断发展及用户群体的不断壮大，随之也带来了大量无线音乐数据的产生。这些数据看似杂乱无章、繁多冗余，但却隐藏着很多的秘密。如果能有效地对这些数据进行组织管理，并且利用相关技术进行挖掘、分析，少则可以揭示一个公司一次决策实施后的效果，发现公司现有存在的重大问题，多则发现潜在的高价值业务或需求，这些业务或需求很有可能为公司的发展提供战略性指导意见。
　　下面以国内某著名手机客户端音乐公司的无线音乐数据为例，我们还是按照发现问题、解决问题、结果验证这三个方面来说明无线音乐数据的组织与应用。
　　发现问题
　　通过对该数据进行分析挖掘，我们发现如下几个问题。
　　（1）用户、歌曲均存在长尾效应
　　从数据中我们发现用户有两种行为，一种是下载、一种是试听，
　　每种行为中，我们发现用户和歌曲均存在“长尾现象”，绝大部分用户只试听或下载系统中的少部分歌曲，而大部分歌曲出于闲置状态。具体信息如下图

　　音乐的长尾问题
　　说明：图中左子图横坐标表示用户的听歌，纵坐标表示对应用户所占比例。右子图横坐标表示歌曲的被多少人听过，纵坐标表示对应度歌曲所占比例。造成这方面的原因可能是：数据量大，信息过载严重用户找不到自己喜欢的歌曲。
　　此时大多数用户直接转向流行榜或热歌榜歌曲，就会造成系统中热门歌曲越热门，冷门歌曲越冷门的现象。
　　（2）歌曲覆盖率低
　　从数据中我们还发现歌曲的覆盖率很低，在整个抽样数据中歌曲
　　覆盖率只有2.01%。绝大部门歌曲根本没有被用户听过或者下载过，这不仅造成系统资源的大量浪费，而且造成公司资金的无辜流失（因为每首歌曲都要付版权费，而系统中98%的歌曲处于浪费状态）。歌曲的覆盖率累计分布如下如图。

　　歌曲覆盖率图
　　说明：图中横坐标表示歌曲的被听歌人数（去重），纵坐标是不小于这个数目的歌曲所占的比例。
　　造成这方面的原因可能是：大量歌曲处于冷启动状态，数据稀疏。作为冷启动作曲，系统不知道如何把他推送到适当的用户手里，而用户也不能通过有效方式找到他，就使得这类歌曲处理系统的暗处，不容易被发现。
　　（3）用户每天听歌时间呈间断性分布
　　在给定的样本数据中，我们发现用户听歌行为并不是均匀分布，而是间断性分布，即在不同的时间用户听歌集中度不同。为了更好的看出效果，我们将一天分为8个时间段，每个时间段包括3个小时，在每个时间段内用户听歌活跃性如下图。

　　用户活跃时间图
　　说明：图中横坐标表示时间段，纵坐标是该时间段内用户的活跃性比。
　　造成这方面的原因可能是：下班、休息、乏困疲惫时间
　　用户在无限端听歌的模式还是倾向于休闲与娱乐，主要是以休息碎片时间为主。
　　（4）不同用户对歌曲的属性依赖性不同
　　在样本数据中，歌曲有专辑与歌手两种属性。我们从用户的长程关联显著性、短程关联显著性等方面对用户的听歌行为进行分析，分析具体结果如下表：

　　说明：图中Strong null model、Weak null mode、Temporal null model分别表示系统中所有播放之间相似度值，所有歌曲之间的相似性值，相邻播放之间相似性值。Album表示专辑，Artist表示歌手。造成这方面的原因可能是：与专辑相比用户倾向于听同一个歌手的歌曲
　　（5）不同用户听歌行为不同
　　从数据中我们分析还得出，不同活跃性的用户所听歌曲也不同。分析中我们从歌曲新颖性、歌曲在专辑上的相似性、歌曲在歌手上的相似性三个指标上对不同活跃性的用户所听歌曲进行分析。
　　具体信息如下图

　　歌曲的三个维度分析
　　说明：图中横坐标表示用户的活跃性值，纵坐标表示对应活跃性用户所听歌曲的新颖性值、歌曲在专辑上的相似性值、歌曲在歌手上的相似性值
　　造成这方面的原因可能是：用户可能呈分群现象
　　活跃性较低的用户可能是普通用户，这类用户根据自己的爱好来选择自己想听的歌曲。活跃性较高的用户可能是专业用户，这类用户根据自己的专业需要来选择自己想听的歌曲。
　　解决方案
　　从上面一小节的讨论中，我们已经知道无线音乐端大数据中可能隐藏的几个问题如下：
　　①用户、歌曲均存在长尾效应
　　②歌曲覆盖率低
　　③用户每天听歌时间呈间断性分布
　　④不同用户对歌曲的属性依赖性不同
　　⑤不同用户听歌行为不同
　　当一个公司面对以上问题时应该采用怎样的解决方案来解决或者
　　改善当前情况是另一个重要的问题。尤其是上述问题①、②，如果处理不恰当，可能会影响整个公司是否能正常运行,甚至影响公司的发展。
　　因此，本部分从无线音乐数据出发，提出几种适合的解决方案。
　　（1）用户、歌曲均存在长尾效应，我们可以采用以下技术
　　采用信息过滤技术，一种方法可以对歌曲进行分类，将不同的用户映射到不同的歌曲类别中。另一种方法就是个性化推荐技术，系统自动的分析用户的偏好为不同用户过滤相应的歌曲。
　　（2）歌曲覆盖率低，我们可以采用如下技术
　　歌曲覆盖率低主要是因为用户找到不到音乐，造成这个问题的原因主要有两种：①音乐本身的信息不充足，②音乐有信息，但是用户找不到这些音乐。
　　所以一方面我们可以给音乐打标签，使用标签信息来表示歌曲的具体属性；另一方面，我们可以采用推荐技术对歌曲进行个性化推荐。
　　（3）用户每天听歌时间呈间断性分布，我们可以采用如下技术
　　在不同的时间，我们设置不同的主题歌曲以适应不同的听歌场景，比如夜晚放舒缓、平滑的歌曲，上午上摇滚、重金属之类的歌曲。
　　当然具体的场景还需要通过进一步的数据挖掘来获得，本文只是提出一种方法，对具体技术不做过多阐述。
　　（4）不同用户对歌曲的属性依赖性不同，我们采用如下技术
　　通过历史数据分析获取用户对歌曲属性的依赖性，从中我们能得知用户对哪种属性更加依赖。当发现用户对流派更依赖，则我们可以根据流派为其播放歌曲，当发现用户对歌手感兴趣，则我可以根据歌手为其播放歌曲。
　　（5）不同用户听歌行为不同，我们可以采用如下技术
　　根据用户特征将用户分群，这样可以将用户分为多个不同的群体。针对不同的群体我们给其播放的歌曲不同，比如普通用户可以热歌为主进行播放，而对于专业歌手，我们则以高多样的歌曲来为其播放。
　　结果验证
　　为了进一步说明上述解决方案的有效性，此处我们仅采用推荐算法来进行说明当系统采用该解决方案后，系统中出现的一些显著变化，具体的变化如下：
　　l 用户更容易找到自己喜欢的歌曲

　　用户找更容易找到歌曲
　　该音乐网站目前采用热歌榜（GRM）来组织歌曲，通过此种方式用户找到其喜欢歌曲的概率是千分之一左右，当我们采用了3种推荐方法（分别是OCF、HC、MD）后，发现用户找到自己喜欢歌曲的概率明显增加，而且对于MD算法，其准确度提升了10倍之多。
　　系统长尾的变化
　　使用推荐算法前

　　使用推荐算法后
　　长尾效应的改善
　　从上图明显的可以看出，系统的长尾效应有显著的变化。这样的结果应该是公司最想看的结果，不仅大大缩减了公司不必要的浪费，也为用户提供更好的用户体验。本文由百分点信息无线业务部高级总监李晓东、Talking Data COO徐懿以及成都电子科大的龚亮联合撰写。
　　相关阅读
　　手机上的大数据（一）：移动互联网的入口
　　手机上的大数据（二）：手机大数据的特点
　　手机上的大数据（三）：手机上的阅读
　　手机上的大数据（四）：手机上的音乐
　　手机上的大数据（五）：手机上的APP推广
　　手机上的大数据（六）：手机大数据的挑战
责任编辑：陈卓阳