活跃用户数是衡量互联网公司价值最重要的标准之一。微博在这几年的发展中,其活跃度一直是数据研究机构的研究对象,最近香港大学公布了一份关于微博用户数据的报告,这份报告对微博注册用户判定以及后续媒体的解读与我们(指博瑞创科,下同)通过微博官方授权接口抓取的数据有比较大的差异。根据我们的数据,这份报告至少存在两处严重的缺陷:
首先,微博自从2年前就不公布注册用户数,因为注册用户中存在僵尸和垃圾用户,虽然我们也不能拿到全部信息,但是根据我们获得的授权数据测算,微博的总注册用户早已超过10亿,其中新浪冻结的垃圾粉就有几亿(新浪冻结垃圾用户,但是并不删除账号),港大教授用的连续用户ID遍历的抓站方式,会导致抓到的很多是新浪已经冻结(不能登录,不能发言)的账号,但官方数据接口会告知我们这些合作伙伴用户属性(是真实用户,还是冻结用户,还是实名用户)——也就是只有官方合作伙伴,才知道哪些用户是有价值值得分析的用户哪些不是,也才能进行更科学的数据分析。
其次,香港大学那份报告公布的原创和转发用户的比例是1:20,这个数据明显失准。根据我们从官方数据接口获得的数据统计,原创和转发的比例在不同月份会有所不同,但过去半年内从来没有低于1:3。
之所以得出不准确的结论,是因为通过抓站获取的数据本身就有问题,首先这些抓站用户不排垃圾,另外更重要的一点,为了防止抓取核心用户数据,对于识别的第三方抓站行为,站方会送一些混淆数据出去。因此港大很有可能是他们通过抓站方式获取的数据中,获取的数据从一开始就是不精确的。
博瑞创科通过对微博官方授权数据接口获得的数据进行分析,针对以上两个数据得出了以下结论。
每月发布微博用户人数约在4500万---5500万。2014年3月我们监测到的数据中,在月活跃用户中发布原创微博的用户比例在35--40%左右,以此折算大约在4500万--5500万用户每月发布过原创微博。社交平台的用户行为通常都遵循“二八定律”,即20%的人产生内容,80%的人阅读、消费信息。即使是Twitter这样的平台,其大部分内容(75%)也是被5%的活跃用户产生,从这个数据来看,微博的原创用户比例要远高于Twitter。3月微博的原创用户占比明显高于行业平均水平,这与马航事件、文章出轨等热点事件的刺激不无关系。
29%的原创用户发布的微博被转发、57%的原创用户发布的微博被评论。文章发表声明的单条微博互动量超过400万,大家觉得微博的互动量是很高的,但是数据告诉我们并非如此。我们的监测结果表明,只有29%的原创用户发布的微博被转发、57%的原创用户发布的微博被评论。与文章的声明形成强烈一个强大的反差,这说明微博传播一直存在金字塔效应,大量的互动都集中在“塔尖”的明星名人、意见领袖,数量巨大的“塔腰”和“塔基”用户发布的微博,互动量与“塔尖”用户存在比较明显的差距。这既是微博传播的优势,同时也是问题。要想进一步提高微博的活跃度,需要为“塔腰”和“塔基”用户带来更高的互动量,才能刺激他们发布高质量的原创微博。
我们也注意到,微博也在做出一些改变,正在通过扶植中小V计划对“塔腰”的用户做出一系列的扶植计划,同时推荐机制的形成也将对“塔基”部分的用户在信息生产和传播产生催化作用。针对这个话题,我们会过一段时间发布专门的研究报告。
作为微博官方的数据合作伙伴,一些第三方发布的微博用户数据经常会对我们的客户甚至是整个行业造成困扰。如上所述,微博一直在对各种抓站行为进行限制,甚至对识别出的抓站行为故意提供错误数据,以便保证数据的权威性并保护合作伙伴的利益。在国外,对网站的数据分析也需要首先与官方签署合作协议,通过官方提供的数据接口获取数据,我们看到的关于twitter、Facebook等社交网站的用户数据信息,都是通过这种方式进行研究得出的。