ITBear旗下自媒体矩阵:

阿里技术保障部:阿里云的幕后英雄

   时间:2014-10-13 10:37:35 来源:互联网编辑:星辉 发表评论无障碍通道

阿里技术保障部,外部听说的人并不多,然而这个团队在包括阿里云、天猫、淘宝、支付宝/小贷在内的各项业务,以及近几年双十一、飞天5K等诸多奇迹的背后,这个团队都发挥了关键性的基础作用。然而,对于刘振飞的团队以及与阿里云的渊源,还有许多不为人知的故事。

阿里集团上市前夕公布的最新27名合伙人名单中,出现了公司副总裁、技术保障部负责人刘振飞的名字。这当然既是对他个人的认可,也是对阿里技术保障部这一幕后英雄团队贡献的肯定。阿里集团包括阿里云、天猫、淘宝、支付宝、小贷在内的各项业务,以及近几年双十一、飞天5K等诸多奇迹的背后,这个团队都发挥了关键性的基础支撑作用。

然而,不仅外界听说过阿里技术保障部的人不多,就连我虽然与刘振飞已经相识多年,对他们团队的具体情况以及与阿里云的渊源也只是一知半解。近日我终于找到一个机会,在杭州和他好好聊了一上午。

阿里技术保障部的故事,要从2009年8月说起。今天的用户可能难以想象,当时淘宝网非常不稳定,动不动就访问不了,或者要停机维护,搞得领导们很生气很无奈。以至于当时淘宝的总裁陆兆禧感慨,淘宝2008年全年成交额是999.6亿,要是少宕几次机,就过千亿了啊。刘振飞说:“你想,当一个公司的CEO天天在琢磨这种事,就说明技术平台上真是出大问题了。”9月25日,为了解决淘宝系统的问题,成立淘宝技术保障部,将阿里妈妈和淘宝的运维、数据库等工作和团队合并,当时正在北京负责淘宝广告(阿里妈妈)技术团队的刘振飞被领导点将,负责组建这支团队。

刘振飞搬到杭州真正进入角色,已经到了2009年的11月2日,此后很长时间内,他和团队都处于救火队的状态,几乎每天大概都要处理几十起紧急情况。但更大的挑战却是阿里妈妈和淘宝两个运维团队的合并并不那么顺利。“你要知道是两套体系,两套人合起来,人的观念不一样,大家经历不一样,习惯不一样,工具不一样,什么都不一样。合起来真是非常痛苦的过程。”刘振飞甚至夸张地说这一经历给自己留下了不小的心理阴影。

而每年的双十一对刘振飞团队的成长帮助巨大。2009年第一个双十一销售额只有5000万,对系统影响不大,连刘振飞也是在活动要结束前半小时收到淘宝商城负责人逍遥子(张勇)的邮件才知道的。一年后的第二个双十一却是淘宝技术保障部经历的一次大挑战。由于业务部门事先估算的成交量2.5亿偏低(实际达到了9.36亿),系统准备不足,整个活动期间都如履薄冰,走在崩溃的边缘,曾经一度就要实施降级方案,限制部分宝贝图片的显示了。所幸,最后系统经受住了考验。2011年刘振飞决定不再盲从业务部门的预估,而是从技术角度做足准备。这一年还创立了由各部门技术骨干组成技术保障总指挥部、预先大规模压力测试、大量演习和详细的应急预案等流程和机制,很好地保证了总销售额从不到10亿到52亿、191亿和362亿的逐年飞跃。

2011年还有两件事儿至关重要。一是6月淘宝一分为四,除淘宝网、淘宝商城(后改名天猫)、一淘三个业务部门外,还有一个不太为外界注意到的阿里技术与公共服务共享平台。对此,刘振飞分析,当时的拆分可能是马云和王坚等集团高层想将公司技术底层统一起来,贯彻One Company战略的开始。后来,这个共享平台的技术部分改名为阿里集团技术保障部。

另一件事是刘振飞团队与阿里云运维的合并。由于上次合并的痛苦回忆,加上当时公司内外对阿里云有很多争议,刘振飞对这事起初并不积极,拖过了双十一之后,又有双十二,眼见着就往春节后拖了。可是阿里云的运维负责人道夫很主动,而且提出了很具体的方案,他的那句“这方案你听完以后,你爱怎么合怎么合”感动了刘振飞。双方很快达成了一致,合并总体也非常顺利。技术保障部发展到今天,涵盖业务运营(包括合作创新、标准化和知识产权),性能与容量(架构、性能、容量、优化),系统研发(网络平台、网络产品、SDN、服务器研发、无线技术、数据引擎、算法平台等),供应链管理(ODM管理),数据库(MySQL、OceanBase、SQL Server和RDS),平台与工具(工具、流程、监控、自动化、配置、研发协同平台、硬件管理平台),平安生产,系统运营和云PE等多个方面,猛将如云,而且同时具有运维的经验和自主研发的实力。

刘振飞还透露了一个鲜为人知的细节,因为对阿里云心里没底,在接手前他私下直接问过马云本人对阿里云到底是什么态度,我是全力去干,还是说应付应付就完了。当时马云是这么回答的:

在王坚加入阿里之前,我跟教授(指曾鸣)讨论公司的未来,觉得云计算和大数据代表未来,对国家、民族、社会的发展有长远的意义,所以我们要干,这是第一点。但是怎么做云计算大数据?我们谁也不知道。现在来了个人叫王坚,他说我知道怎么做,为什么不支持呢?这是第二点。第三点,即使万一做失败了,那也没关系,咱们的人倒下70 % ,还有30 % 活着,咱们活下来的人继续打扫战场,换个方向继续干,总要把它做出来。

有了老大的这种明确表态,刘振飞心里清楚该怎么做了。“云计算是公司战略,什么叫战略?战略就是公司一定要干,理解了执行,不理解你也要执行。”

接下来2012年的头几个月,他连续得罪了两个人。一个是负责阿里金融的孙权(胡晓明)。他们是阿里云的第一个重要内部客户。但是由于阿里云的产品当时仍不太成熟,问题很多,孙权找到刘振飞,表示不想用阿里云了,要改用淘宝的体系,让技术保障部来支持。刘振飞本着云计算是公司战略的精神,拒绝了这一要求。同时,阿里云和技术保障部专门抽调技术骨干组成团队,驻扎到滨江办公区为阿里金融提供贴身服务。最终获得了他们的认可。

下一个被得罪的,是时任淘宝副总裁的菲青(王文彬)。他为了上聚石塔项目(电商开放平台),来找刘振飞谈技术保障方面的事情,也是不愿意用阿里云,要用淘宝技术体系,同样吃了闭门羹。“我当时说如果用淘宝体系的话你自己找人去玩儿,要用云计算,我全力顶你。我就是这样非常粗暴地利用手中职权强迫大家往战略方向上去走。”刘振飞笑着说。

2012年的双十一,阿里云支撑聚石塔完成全部订单20 % 的处理,成为云计算的一大亮点。集团外部也有CCTV5的网上直播、浙江台风预警系统等出色的案例。

但阿里云最终真正证明自己,还是2013年的事情。除了依靠阿里云迅速成长为基金业土豪的余额宝之外,飞天5K项目具有决定性的意义。

事后总结,飞天5K这个项目并非人为规划而是逐步发展出来的,其中有几个历史节点很关键。第一个关键点就是去IOE,虽然去IOE最开始是王坚提出来的,但与云计算没有直接关系,可是做着做着就发现殊途同归了。去IOE内部的争议也非常大,但做到最后,大家发现这是一个有利于国计民生的大事。第二个关键点是2010年我们自己研发的海量关系数据库OceanBase立项,现在已经成为整个公司的基础数据库,包括支付宝交易和账务系统所用的Oracle,很多应用所用的MySQL,最终都会转到OceanBase上。第三个关键点是2010年的双十一,技术保障部的组织和双十一的保障流程建立起来了。然后的关键节点就是飞天5K项目,之后内部通过登月计划,正在争先恐后地将原有的数据处理平台全部迁移到基于飞天5K的ODPS上。最先动手的登月一号是支付宝,已经完成了。接下来的关键点还有今年ODPS的对外发布,外部客户现在所用的基础设施和内部支付宝、淘宝所用的,已经是完全一样的了。

刘振飞说,更长远地来看,5K这个项目将在阿里巴巴历史上留下很重的一笔。在此之后,阿里技术团队内部停止了争论,原来做两摊事儿不时竞争的人,兵合一处,并肩作战。与之对应的,是阿里云的口碑越来越好,网上能见到的吐槽也越来越少。马云后来说过一句话,他说飞天、ODPS和云OS这三个东西,是我们阿里巴巴要重心打造的重武器或者核武器,这是我们的技术的核心,一定要搞好。

刘振飞透露,最近淘宝系的负责人也向他表示,已经在认真考虑核心系统上云的问题了。内部对云计算达成共识之后,刘振飞和阿里技术保障部基于几年的实战经验,对云计算本身和自己要承担的责任与面临的挑战,做了全面思考。关于他们的思考结果和计划,我们留给下一期。

刘振飞其人

刘振飞这个名字,可能外界并不太熟悉。其实,对于技术圈,尤其是《程序员》杂志的老读者和CSDN网站的资深网友来说,刘振飞并不陌生。他是河南鲁山人,却有点山东大汉的意思,个子很高,性格直率。1996年获得北京大学硕士学位,C++程序员出身,曾在微软Office组任程序经理。早在2004年,他就因BugFree这款开源软件受到广泛关注。2005年《程序员》杂志从第1期开始连续三期刊出了对他的访谈《Bug管理的经验与实践》,第8、9期又连载了他撰写的《网站项目成功管理实践》。这一系列细论软件和互联网研发管理经验的文章广为流传,产生了很大影响。2007年和2008年两届SD 2.0大会,刘振飞又成为演讲嘉宾,这时他已经成为淘宝广告团队的技术总监。2009年,他受命组建淘宝技术保障部,后发展为整个阿里集团的基础技术支撑部门。2014年成为阿里27名合伙人之一。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version