您的位置:首页>>移动互联

大道至简的数据分析方法论

发布时间:2016-02-03 14:30:41  来源:互联网 王桐   采编:阳光不锈  背景:

  作者 王桐 永洪科技副总裁

  引言:你有没有觉得学习数据分析方法时很痛苦?本文,笔者用简单易懂的文笔总结出来一套易学易用的数据分析方法论,让初学者快速掌握数据分析方法中最核心、最常用的要点,至少能满足90%的日常需求。

  学习对大多数人而言是一件痛苦的事情,尤其看着厚厚的专业书籍、各种难以理解又缺乏解释说明的术语定义,会让这种痛苦加剧。但是有些书或文章能将复杂的理论用非常通俗、口语化的方式讲述出来,让读者不费劲,一下就能明白。这些内容实在是读书人的一种福音。说到底,互联网思维中的用户思维谈了这么久,教育、培训类内容的创作者们也应该好好改变一下,站在读者的角度说话了。

  本文谈的是数据分析方法。根据笔者对众多企业的接触和了解,虽然现在大部分企业都对数据越来越重视,但目前仍有相当多的企业和从业者还没有摸清数据分析的门道,不知道自己的数据该怎么分析,希望得专业人员的到帮助。

  数据分析方法一点也不神秘

  笔者以前学习数据分析方法时也很痛苦,看了不少书,内容很多,但难以记全,更难以运用,后来加入永洪科技(www.yonghongtech.com)给众多企业做数据分析系统,通过大量的项目实践,才慢慢能谈得上入门。

  好的方法论应该是易学易用的。现在,本文就努力尝试用最简单易懂的文笔,让初学数据分析的人看完就能理解并掌握数据分析方法中最核心、最常用的要点,至少能满足90%的日常需求。做到这一点,必须将博大精深的数据分析方法提炼成人们能记得住的3点,而不是30点,再浓缩到一篇文章的篇幅,而不是一本书的厚度。

  数据分两种,维度和度量,分析就是维度和度量的组合

  下面是一个最简单的消费者购物的数据例子。

  先不管这个数据表是存在excel里还是数据库里,只关注数据本身。表里涉及到的数据项(或者叫字段)有“订单ID”、“用户ID”、“地区”、“年龄”、“订单金额”、“订单商品”、“订单时间”。

  这些数据项有什么差异呢?总体而言,数据分两种,一种叫维度,一种叫度量(或者叫指标)。上面这个例子里,“订单金额”是度量,其余数据项都是维度。

  可以看出,度量是具体的计算用的量化数值,而维度是描述事物的各种属性信息。我们在做数据分析时,归根结底就是在不停的做各种维度和度量的组合,比如北京地区的订单金额总和,21到30岁用户的订单金额平均数;或者单独对维度和度量进行数学公式计算,比如所有的订单金额总和,用户数(用户ID的不重复计数)等等。

  从数据类型上看,度量都是数值,但是数值不一定是度量,比如订单ID,虽然是数值,但是不是度量而是维度,而时间、文本类的数据都是维度。

  有一点需要格外注意,维度和度量是可以转换的。比如要看“年龄”的平均数,这里的“年龄”就是度量,要看19岁用户的订单情况,这里的“年龄”就是维度。对于一个数据项而言,到底它是维度还是度量,是根据用户的需求而定的,很像量子效应,状态只有需求确定后才会随之确定。

  另外,维度可以衍生出新的维度和度量,比如用“地区”维度衍生出一个大区维度,“北京”、“天津”都对应“华北大区”,或者用“年龄”维度衍生出一个年龄范围维度,20到29岁=“青年人”,30到39岁=“中年人”,40到49岁=“资深中年人”。再比如上述的平均年龄,就是用“年龄”维度衍生出一个度量。

  度量也可以衍生出新的维度和度量,比如用“订单金额”度量衍生出一个金额范围维度,100元以下对应“小额订单”,500元以上对应“大额订单”等等。再比如用“收入”度量和“成本”度量相减,可以得到一个“利润”度量。

  做判断用对比

  下面提出一个问题:企业A今年收入8000万,是高还是低?大家看着这个问题,应该会感到无从判断,因为没有参照物,即没有对比。因此,拿到一个数据,要判断是好是坏是高是低,必须要进行对比。

  首先,企业A可以跟自己比。如果前年收入2000万,去年收入4000万,那今年8000万算很好了。去年收入1个亿,今年8000万就是糟糕了。这叫纵向对比。

  其次,企业A也可以跟其他人比。同行的几家竞争对手企业今年都收入几个亿,那企业A的8000万就不理想。这叫横向对比。

  第三,企业A还可以对比不同的维度和度量。比如竞争对手都做全国市场,企业A只做山东市场。企业A在山东市场的收入比竞争对手在山东市场的收入高,那么就本地区而言,企业A做的更好,而放眼全国,企业A做的就有局限。比如如果竞争对手都做了十几年,而企业A刚做四五年,那企业A就算做的不错,但如果成立的时间相仿的竞争对手已经过亿了,那企业A就算做的不够好。这叫综合对比。

  孩子考试考了95分,家长很高兴,因为知道满分是100分,有参照物。最近一次考试考了80分,家长会发火,因为过去的95分成了新参照物。后来一问,发现这次卷子出难了,孩子已经是班级第一了,就又转怒为喜,这里其他孩子就成了参(xi)照(sheng)物(pin)。

  对比的参照物不同,得到的判断结论也就不同。为了避免结论片面、不客观,应该尽量多用综合对比。

  找原因用细分

  今年利润下降了,老板很生气,下令查找原因,缉拿“嫌犯”。原因怎么找呢?注意是找原因,不是找理由。很多人往往不知道如何查找原因,最后给出的都是理由。

  先看一个示例的原因结论是什么——“因为四季度华南区域洗衣机的销量下降了,导致了今年利润的下降”。让我们分析一下这个原因有什么特点。

  我们会发现,这个原因是由时间、区域、产品这三个维度和销量这一个度量组成的,于是我们可以知道,对于问题原因的查找定位,本质上就是在回答哪些维度下的哪些度量的下降或上升,导致了问题的发生。

  这就是在做细分。

  我们可以按维度细分,有多少维度,就可以有多少种细分的方向。比如看是去年所有月份都下降了,还是只有某几个月下降。如果是后者,那么就可以缩小查找的数据范围。聚焦到这几个月后,可以再看是哪些区域下降了,进一步细分。

  入手的维度的先后顺序影响不大,问题原因涉及的维度也无法预知,因此可以从任意一个维度作为入口开始进行细分。

  如果出问题的指标有相关的先导指标,则要想进一步挖掘问题原因,细分后还要看不同的度量,比如上述的原因结论示例是“因为四季度华南区域洗衣机的销量下降了,导致了今年利润的下降”,问题是“利润”而原因是“销量”,因为利润是通过别的度量计算衍生出来的。

  细分无止境,细到什么地步才够呢?答案是,到可操作的区间才够。

  比如就细分到“四季度利润下降,其它季度没有下降”,还是没有解决问题的办法,必须细到哪个时间段哪个区域哪条产品线,直到细到某一个最终责任人,才具有可操作性。需要注意的是,在真实情况中,问题往往不一定只有一个原因,而是多个原因综合起来形成的。

  我司永洪科技主推的一站式大数据分析平台软件,为什么提供“缩放”和“笔刷”两种交互操作,就是为了满足“对比”和“细分”两种场景。

  举一个例子,如下图,左图是各产品的收入毛利对比,右图是各品类利润趋势,现在用户想聚焦到“花茶”品类下的三种产品上,看看它们的利润如何。

  这时用户就可以使用“缩放”功能,圈选代表这3种产品的3根柱子,点击“缩放”按钮,这时左边图表只剩下这3种产品,而右边的利润趋势则显示这3个产品的利润总和趋势。这就是在做“细分”。

  有人可能会问,这个效果很类似筛选,为什么不在旁边放一些筛选器来实现呢?筛选器可以有,但现实情况中,当我们在一个图表上发现问题,不一定就能很容易地找到与其对应的筛选条件,尤其是散点图。因此,直接在图表上选择会非常方便高效。

  再举一个例子,下图是产品利润趋势分析,用户发现从2009年7月开始,利润有连续4个月的下滑(如红框所示),用户想知道为什么。

  这时用户就可以使用“笔刷”功能,在趋势图上选中这4个月的点,点击“笔刷”按钮,同一报告页面的其他图表就会淡化,然后突出显示用户选中的7到10月在这个图表上的占比,所以下图中左边的图表高亮显示出的矮的绿柱子,就是这些产品在这4个月的销售收入。

  与“缩放”不同,“笔刷”方便用户将局部数据和整体数据进行对比。因为在上面这个例子中,单纯看哪些产品这4个月销售收入的绝对值低,并不能说明什么,有些产品本来卖的就少,一定要看哪些产品在这4个月相对表现不好。

  先判断数据好不好,再分析原因是什么,数据分析的环节链条基本就算完整了。

  怎么看待机器学习、数据挖掘等这类高大上的东东

  什么时候去碰机器学习、数据挖掘这样高大上的东东。一句话,先把上述的数据发分析方法做到游刃有余,再搞那些高大上的。不要迷信复杂的算法,很多企业内部数据分析的大拿,往往都是深度理解业务,用的都是普通的计算方法,就能完成很精彩实用的分析过程。

  机器学习,数据挖掘等什么时候会用到?简单而言,数据项多到人眼看不过来的时候会用到。如果总共就十来个数据项,每个拿出来单独出张图看一眼就看出端倪了,其实就不太需要用挖掘算法。如果总共几百个数据项,想看某一个数据项是受哪几个数据项影响最大,人眼看不过来,用挖掘算法就比较合适。

  敬请期待笔者后续将写成的几篇文章:

  《大道至简的数据治理方法论》

  《大道至简的数据体系构建方法论》

  《大道至简的深度分析方法论》

  王桐 永洪科技 副总裁

  个人简介:北京航空航天大学工学硕士,拥有8年商业智能领域的产品销售、市场营销经验,此前效力于甲骨文和IBM,均在咨询、销售岗位担任重要职位,曾成功推进多个大型项目的实施,在电商、政府、金融、互联网等行业积累了丰富经验。王桐目前主要负责产品销售和渠道拓展,已为上百家企业用户提供了完善的数据可视化分析解决方案,这些企业既有宝宝树等电商领域的明星公司,也有中国移动等传统巨头。

  本文作者:作者 王桐 永洪科技副总裁




关注ITBear科技资讯公众号(itbear365 ),每天推送你感兴趣的科技内容。

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:互联网

本文评论
谷歌之前展示的黑科技,Pixel 3/3XL用户终于尝鲜
谷歌在今年的开发者大会中隆重介绍了谷歌助手Google Assistant中的新功能Duplex,Duplex是一个完全...
日期:11-23
小米林斌发出第一条5G网络微博,高通称X50助力
11月23日消息 昨日晚间,小米总裁林斌通过一台小米MIX 3工程机发微博称:“这可能是第一条5G网...
日期:11-23
关注用机健康,华为EMUI9.0为用户打造高品质数字生活
  长期以来,社会各界都对未成年人沉迷电子产品而忧心忡忡,但是随着移动互联网技术的发展,在绚烂的...
日期:11-23
英国电信:华为是目前唯一真正的5G供应商  其他供应商还需努力
在11月21日上于伦敦举行的全球移动宽带论坛上,英国电信(British Telecom,简称BT)高级管理者及首席...
日期:11-23
EMUI9.0 WLAN扫描由手动改自动,最佳网络让精彩时刻在线
“老板,你家的WiFi是哪个?怎么搜不到?”、“服务员,你家的WiFi密码是多少?”...
日期:11-21
关于5G手机  你想知道的都在这里!
我们现在用的4G手机,能用5G吗?
  答案显然是不能。
  5G是一次重大的科技革命,引...
日期:11-17
运营商表示5G网络还未完善 手机厂商不能一蹴而就
5G网络已经离我们越来越近了,不出意外,2019年就要开启5G网络商用的节奏。而对于5G手机,美国运营...
日期:11-16
应用宝澄清“被下架”:报道失实,不存在被下架
11月15日,有媒体报道相关部门检测并通知下架了90个恶意App,其中应用宝被检测为恶意App并下架。对...
日期:11-15
迅雷X正式版上线,更精简更轻便,专注下载体验!
近日,令用户们期待已久的迅雷X正式版终于上线。迅雷X正式版在创新和功能上相比以往,都有了长足的...
日期:11-15
轻松几步,华为云教您压测微信小程序性能
微信小程序作为手机页面的一种,相比传统的网站和应用来说存在比较特殊的地方:开发者往往对程序做了...
日期:11-15
Verizon:已在Moto Z3上测试3GPP 5G网络  成功上网
11月15日消息 据The Verge报道,日前,美国运营商Verizon宣布,其已经成功在Moto Z3手机上测试3GPP ...
日期:11-15
为什么要升级Android 9.0:这才是真相
对于安卓设备来说,有系统还是要即使升级的,特别是谷歌发布的那种大版本,因为越新的系统版本,安全性越高。
日期:11-14
中外网速大比拼  电信宽带以稳取胜
作者:丢丢
  你知道急的撒泼打滚,又无计可施的感觉吗?这就是Wi-Fi卡住的感觉。我在巴黎公...
日期:11-13
联通在湖南发动史无前例宽带提速风暴:不分时长无条件提速最低100M
湖南联通近日发布一则公告,迅速引发了当地民众关注和热议。
日期:11-13
爱上头条更新版本上线,新增咕咕鸡内容板块和本地推荐功能
11月7日,创新型资讯阅读分享APP爱上头条1.2.3版正式上线。作为新生代资讯APP,
日期:11-12
6G技术就要上马?工信部称年内启动6G技术研究
5G网络已经成为智能手机行业中的一大话题,随着5G时代的接近,智能手机也将迎来一波升级换代潮流,...
日期:11-12
能不能脱单就靠它了! 语玩APP送上撩妹秘籍
双十一,躁动的心无处安放?如果只是“买买买”,你们怕是忘了被单身狗支配的恐惧吧?语玩A...
日期:11-10
不换卡不换号  境外上网so easy
又到了一年一度的购物狂欢节了,各位是不是跟往年一样准备剁手啦?在家剁手不如出去走走,在这秋高气爽的...
日期:11-09
中国移动:2019年上半年推出5G智能手机
11月9日消息 今天是乌镇世界互联网大会的最后一天,在“5G时代:开放合作,共创未来”论...
日期:11-09
双11想省钱却成了“待宰的羔羊”?http诈骗了解一下
令人心潮澎湃的双11就要热力来袭,装满好货的购物车是否已经令人欲罢不能了呢。
日期:11-06