注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

山歌

微信公众号:Jack-Xiaoshan

 
 
 
 
 

日志

 
 

构建一个低成本的微博影响力计算公式  

2010-03-01 22:05:53|  分类: 互联网产品 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
谷歌对一个网站的评级用的是一个叫做pagerank的算法,此算法由Google的创始人拉里·佩奇谢尔盖·布林於1998年在斯坦福大学发明。pagerank算法依据的核心思想是:一个网页的重要程度于链接它的其他网页相关,如果链接它的那些网页自身的价值越大,那么这个被链接的网页价值也就越大。据说,两位创始人的灵感来自对学术论文的一个评分规则:如果一篇学术论文被越多的越有价值的论文所引用,那么这篇论文也就越有价值。 pagerank算法的核心思想可以为我们带来很大的启发。一个微博用户的影响力有多大,其最重要的参数是他(她)的粉丝数的数量和“质量”。 精确度和计算成本 最精确的微博影响力公式应该是一个类似求和的公式:某人的微博影响力=所有他的粉丝的影响力和函数。但是越“精确”的公式,其计算成本也越大。要计算的粉丝的影响力,需要知道他的粉丝的粉丝影响力数据,进而需要粉丝的粉丝的粉丝影响力……用数学的语言,为求得一个用户的影响力,我们必须解一个n元方程,N为网站所有的微博用户数。因此,为获得一个最精确的结果,我们可能需要把整个网站所有微博用户的粉丝数据都遍历一边,这样的公式显然是非常耗资源的。 因此,影响力公式的精确度和计算公式的成本是一个两难选择(tradeoff)——计算的越精确,需要付出的成本越大。就我们的实际应用而言,需要多大的精确度取决于我们要干什么。就微博影响力来说,毕竟我们不是搞核试验,大部分时候,对影响力的粗略估计已经可以达到我们要求了。打个比方,假如计算出来的潘石屹的影响力为95.3,而王石的影响力为95.4,那么我们可以认为,他们的影响力实际上没什么区别。 构建影响力指数思路 最简单的我们可以如此设定影响力指数公式:某用户微博影响力指数=某用户的粉丝数。……公式(1) 这个公式非常简单,但有明显的漏洞:没有计入粉丝的“质量”。比较两个微博用户A和B,两个人都只有一个粉丝(不妨分别称为D和E)。A的粉丝D “质量”高——D自己有一万个粉丝;而B的粉丝E “质量”低——E没有粉丝,显然,A的影响力应该大于B的影响力。但是,公式(1)没有体现这个重要的差别。 虽然简陋,但在一个较长的长时段看,这个公式也许足够精确了。因为在一个较长的时段,粉丝的质量和数量是有相关性的:一个人的粉丝“质量”好,那么他的粉丝数量也会多。 很显然,在短时段,我们应该把粉丝的粉丝这一级的影响也包括进来。容易想到的公式是:某用户微博影响力指数=粉丝的粉丝之和。……公式(2) 这个公式是否能满足我们的要求吗?再想象一个例子:两个用户A和B,A有一万个粉丝,其每个粉丝的粉丝为0,B只有一个粉丝C,C的粉丝是一万,按照公式(2),A和B的影响力相等。这合理吗? 为回答这个问题,我们回过头来考察下影响力指数的核心功能。  影响力公式的最核心的功能是要解决以下问题:如果我发一条信息,我们想知道有多少人能看到这条信息,也就是信息的覆盖面有多大?与电视广告类比,这个问题就是,在某个时间段,有多少人看某条广告? 假如A发一条信息,他的所有粉丝都阅读了这条信息,那么这条信息的覆盖人数是1万,同样的,如果B发一条信息,这条信息被他的唯一的粉丝C看到并转载,如果C所有的粉丝都看到了这条信息(而且并没有转载这条信息),那么这条信息的覆盖人数也是1万。在以上的考虑的这个苛刻条件下,这两种情况的覆盖面相等。 如果B的粉丝C碰巧没有看到B的这条信息,那么这条信息的覆盖人数等于零,而在一般情况下,A的一万个粉丝里,总有一些人会看到A发的这条信息,显然这两者的影响力不相等。相反的情况,如果B和C是好朋友,C转载B发的每条信息,那么我们可以认为B拥有C的影响力,其实我们需要比较的是C和A的影响力。 现在我们可以知道,如果以公式(2)为核心来构建影响力公式,必须对我的粉丝进行加权。 一个成本低效果好公式 通过对上面的例子的考察,一个低成本的公式已经呼之而出。首先我们提出两个构建公式必要的参数,关系强度R和共同粉丝数g. 关系强度 上面提到的最后一个例子启发了我们对权重的定义。对某个用户i的每个粉丝定义一个“关系强度”的权重,“关系强度”这样来定义:在某段时间内i的某粉丝j对i的微博的评论(包括转发回复)比率,其公式可以这样来表述:j对i关系强度Rij=j转发评论i的帖子数/这段时间内i的所有帖子数。从定义知道,一般来说Rij和Rji 不同共同粉丝数 如果我的粉丝的粉丝(第二级粉丝)和我的粉丝(第一级粉丝)有重合的,应该排除这些共同的粉丝(不妨把这个共同粉丝数定义为g),而得到一个有效粉丝数。 根据以上的分析,我们给出一个低成本的影响力公式: 我的微博影响力=对“(我的某粉丝的粉丝数—共同的粉丝数量)X他对我的关系强度”求和。用数学式表示为 图片1 ……(1) 其中,Pi为微博影响力,k为某个归一化常数(例如全体微博用户的倒数),其中,Rij为粉丝j对我的关系强度,fj 为粉丝j自己的粉丝数,gij为粉丝j和我共同粉丝数。 明显,这个公式只计入的第一级“粉丝质量”的影响,没有计入第二级粉丝质量(即粉丝的粉丝质量)的影响。不计入这个影响造成的误差有多大呢?我们知道,一般情况下,从稍长一点的时段来看,如果一个人的粉丝质量很高,那么一般而言他自己的粉丝数也会高。正是出于对粉丝质量的考虑,公式顾及了“一阶误差”,不计入粉丝的粉丝的质量产生的不过是二阶误差而已,应该在可以接受的范围内。 以后有时间探讨下更多的微博指数及其它们在社会媒体营销、企业舆情监测上的含义。
  评论这张
 
阅读(223)| 评论(2)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017