ITBear旗下自媒体矩阵:

双11“隐身人”: 我们的狂欢, 他们的战场

   时间:2018-11-10 10:17:13 来源:天下网商编辑:星辉 发表评论无障碍通道

每年的双11背后都有一群隐身人,他们就是阿里云的工程师们。双11是他们的战场,他们的战斗是为了天猫双11消费者们的“和平”。

文/天下网商记者 刘磊

葡萄牙诗人佩索阿在《惶然录》中写过一个他的生活经验。他在电车上看到前面一个姑娘的外衣,接下来他会看到一整个“裸露的世界”:“我立即看见了面前的工厂,各式各样的工种:制造原材料的工厂,制造深色丝线以便装饰外衣弯曲领口的工厂。我还看见了这些工厂里各种各样的车间、机器、工人以及缝纫女工。”他甚至还“看见”了办公室里开始算账的家伙,经理和工人下班之后的家庭生活……如果我们有一双佩索阿这样的眼睛,当我们每年11月11日晚上在观看猫晚,等着零点“剁手”时,也可以“看见”很多隐身在淘宝页面背后的人。

今天故事的主角就是这些隐身人中的一个,他是阿里云高级解决方案架构师杨旭。杨旭和他的阿里云同事们在双11中的角色是“供电”。在阿里云内部,这个因双11而来的“虚拟”职务叫“双11技术队长”。

复杂

在阿里巴巴,关于双11的小故事每个人都能说出几个。

一个回老家结婚的同事,第二天早上七点接新娘,头天晚上还要和他们一起“压测”。老家没有网,只好找了一家网吧,从晚上五点一直待到第二天清晨。还有一个同事,老婆过生日,给老婆买了生日蛋糕,但当天没能回家,第二天、第三天也没能回家,后来“蛋糕都化了”。

阿里云双11技术队长杨旭

之前讲的都是别人的,现在轮到自己了。10月6日,杨旭接到阿里云总裁胡晓明的电话,让他到阿里巴巴西溪园区汇报工作。正在江苏老家准备第二天婚礼的他只好告诉老板,自己第二天要结婚,“这个来不了”。最后只好改成了网上远程汇报。“没有办法。你问题没解决,下一个压测点没有人会等你。”杨旭说。

阿里巴巴内部有一句话:没经历过双11的人不算阿里人。杨旭对这句话深有感受。每经过一次双11,团队的凝聚力都变得更强了,无论是BU之间,每个BU内部的不同部门之间,还是同部门的同事之间。在平时的工作中,同事们在合作中难免会有分歧或者摩擦,但到了双11,“大家真的是齐心协力。”在双11这场共同的战役中,你的工作就是我的工作,双11在所有人的工作列表里都共同享有最高优先级。阿里云每年参与双11的工程师都会换,目的就是为了“让更多的人能够参与进来,感受到(阿里)技术上的这样一个文化”。

IoT、边缘计算、区块链……今年的双11,阿里巴巴引入了更多的新技术,光是阿里云支撑双11的技术小分队就有18个。作为技术队长,杨旭负责总体的技术规划、风险把控和项目管理。每年的双11,就是阿里巴巴整个集团的大考,或者更形象地说,是各个BU、不同岗位协同作战的战役。

这已经是杨旭参与双11大考的第七年。从最初在AliOS时负责交易、物流两个核心系统到如今成为统筹管理500多人的阿里云双11团队的技术队长,杨旭一直身处双11最前线。在双11这个战场上,经验从来不会让压力有任何的减轻。每一年都是新的:前一年没有出现问题,不代表今年就不会出现问题。

更何况,每一年的担子都更重了。“玩法”随着外部环境的变化越来越丰富。杨旭介绍,今年双11与往年的一个明显不同是,在新零售大背景之下,多了不少与线上联动的线下活动。银泰百货在上海,太古汇在广州都将有大规模的线下活动。

新零售业务的同事给杨旭看了一些网络搜集的顾客砸店的视频,提醒他线下活动的特殊性。这种特殊性将阿里云作为基础设施的重要性进一步放大了。往年的双11,阿里云的目标是可用性支撑到4个9或5个9(出问题的概率控制在万分之一或十万分之一),而今年的要求“就是百分之百”。

云计算听上去像一个近乎虚幻的概念,但它的影响是实实在在的,就像电一样。双11的每一个环节,从用户下单、支付,卖家物流到晚会直播,都有阿里云工程师大量细致入微的工作。视频云、图片云、电商云、金融云、物流云的顺畅运转,都是杨旭和他的同事们的责任。这就好比你有一座大园子,每年要在11月11日这天开门迎客,客人是海量的,而且每年都在迅速增长。作为主人,之前要做的准备工作之巨量是可想而知的,要考虑的细节多如牛毛。

不到十年的时间,双11已经从当初普通的商家促销日进化成为整个中国的购物狂欢节。

工程师们在双11作战室

一组数字非常直观地反映了这一巨大的变化。从2009年开始,每年天猫双11全天销售额分别为0.52亿、9亿、52亿、191亿、350亿、571亿、912亿、1207亿,到了2017年,天猫双11交易总额达到1682亿元。2017年11月11日零点后的第一个小时里,天猫交易峰值32.5万笔/秒,这一数字是2009年的812.5倍——当年的交易峰值只有区区400笔/秒。几乎每一个阿里工程师初到阿里尤其是参加双11之后都体会过“震惊”,杨旭也不例外。2012年第一次参加双11,他终于体会到什么叫“限制了你的想像力”:在数据图上,平时的流量全都变成了底部几乎看不见的一条横线,只剩11月11日这天一个“非常大的峰值”。

“豁出命也要上”

采访中杨旭说的最多的一个词是“很复杂”。“这里面你要关注到的细节非常非常多”,就单单拿购物车来说:用户是放10件商品还是20件商品,这些商品是在同一个商家那里买的还是从10个不同商家那里买的,这些都直接影响后台的流量并对系统提出不同的计算需求。五花八门的优惠券组合、区域限售的大件商品……一个个的因素加进来,就更加复杂了。

正常情况下,杨旭和他的同事们都隐身在“剁手党”们顺畅的购物体验之后。他们在前线“厮杀”,为的是躺在床上一边看着猫晚一边等着抢购的用户们的“和平”——对他们来说,“剁手党”们意识不到他们的存在是理想状态,也是必须实现的目标。一旦人们意识到他们的存在,就是说,出问题了。就像你只有在停电时才会意识到电的存在一样。

阿里巴巴集团CEO张勇(第二排左三)、CTO张建锋(前排左一)与护航2017年双11的工程师们

杨旭坐在我面前接受采访是10月29日,离双11还有不到两周的时间。全链路压测正进入尾声。11月2日是最后一次压测的时间,在这之前,要解决掉“所有的问题”。这之后,就像大考前的考生一样,整个团队会进入一个“放空自己”“查漏补缺”的状态。

对“剁手党”们来说,双11只有一天,但对杨旭和他的同事们来说,每年的双11从前一年的12月份就开始了。这个时候集团会一起开一个会,确定新一年的双11目标。然后阿里云会从集团目标出发,用几个月的时间进行技术可行性调研,在四月底五月初确定自己的技术目标。

战场的硝烟从这时就开始弥漫了:此时确定的目标,没有任何回头路可走。“你只要决定上,豁出命也要上。”如果把备战双11比喻成盖房子,那么杨旭和他的同事们负责的就是地基部分。“盖了八个月了,你告诉我地基不行,我要拆掉重搞,别人肯定没办法继续做了。”

八月是集团正式启动双11备战的时间。阿里云的工程师们要与天猫等业务部门进行一轮轮的沟通。从这时候开始,“所有的问题都是倒计时的。”以前解决一个问题,可以是一周、两周,在双11这里,是全部以天来计的——业务部门提的要求都是“X天之内必须解决”。

双11前的一个多月里,每天“除了上厕所,都在解决问题”。通宵从来不是新鲜事。去年的双11,杨旭曾经连续一个星期都没有回家。每天待在项目室里,工作到凌晨四五点,甚至早上七八点,然后在公司睡几个小时,十点多起来继续干。

阿里这些年几乎所有重要的技术变迁,去IOE、异地多活、单元化……杨旭都是亲历者,作为阿里巴巴集团云化项目负责人,他主导设计了混合云方案在阿里集团的落地,从计算、网络、存储、大数据多个层面全面推动整个集团基于云的基础技术架构统一。双11是混合云落地的一个典型场景。混合云可以有效解决的正是这种突然出现的“非常大的峰值”,即所谓的脉冲式计算。

互联网时代的到来,使得脉冲式计算越来越成为计算资源使用的常态。微博上的热点事件、春运期间的火车购票、世界杯的计算需求都属于此类。这些场景尤其是双11会极大程度地放大和暴露技术问题,“平常是万分之一(的概率),那个时候可能是雪崩的效应。”所以在双11的场景中,“只要是问题,每一个问题都要有答案。”多小的概率都不能放过。

但人终究不是上帝,准备得再充分,意料之外的状况总是难免。杨旭和他的“战友”们踩过各种各样的“坑”。讲起这样的“坑”,杨旭信手拈来。比如,他们早年曾经遇到过一个问题。按照正常的购物流程,他们在每一个环节都做好了充分的准备。但真正到了双11的时候,他们意外地发现还是有一块出问题了。原来他们没有考虑到一个细节:付款失败的用户会从哪儿重新购买?现实告诉杨旭的答案是,他们都回到了“待付款”页面。忽略这个细节,也就意味着事先并没有分配给这个系统足够的流量,网络拥堵因此就成为必然。

问题像牛皮癣一样,“去年把这个东西修掉了,今年可能又以另外一种形式表现出来。”这样的防不胜防让杨旭和他的同事们更要尽最大可能地做好防范,“尽可能建筑围墙”。

这些年双11的工作经历深化了杨旭对工程师这个职业的理解。他把这个职业最重要的素质归为两点:耐得住寂寞、追求极致的精神。每年双11,都是坐着冷板凳一次次向极限发起的技术挑战,需要的是工匠一样的精益求精。“真的要非常非常细。每个数字都是要精确到小数点后两位。”杨旭感慨。

工程师的责任

这些“牛皮癣”、踩过的一个又一个“坑”,换一个说法就是极其丰富的场景,这是阿里巴巴的独特优势。双11像一个强有力的引擎,推动着阿里巴巴这台巨型机器的发展。阿里有一句话:你的技术好不好,要经过双11的检验,“是骡子是马拉出来遛遛”。这些复杂业务场景在不断驱动着阿里巴巴的技术迭代和发展。

媒体中心大屏幕,正在与双11作战室现场连线

作为“基础设施”的提供者,得到业务方面的认可是杨旭最有成就感的时刻。2013年双11,他还没加入阿里云,当时在AliOS技术事业群的他负责库存系统。超卖问题(所谓“超卖”,就是商家在系统中接单超过了实际的库存数,从而导致超出预期货量的订单不能正常发货)曾经一直是让商家头疼的问题,这年备战双11期间,他和同事们经过努力解决了这个“痛点”。

活动结束后,阿里巴巴CEO张勇拿起话筒,对参与双11的同事们讲的第一句话就是:“刚才有个商家打电话给我,说你们今年这个系统非常给力,一单都没有超卖。”这个瞬间杨旭至今记忆犹新。

杨旭感到,尽管内心的压力仍然很大,但相比往年,今年的双11还是更顺了。随着阿里云的数据积累和技术迭代,原先很多棘手的问题都找到了“科学的”解决办法。

比如以前分配系统流量时,都是靠工程师们“拍脑袋”,现在有了模型——每年他们都会基于往年的双11数据进行更为精准的预测。从2012年的最小单元验证开始,阿里云不断迭代优化到今天,已经成长为“应用+存储+缓存+数据库+网络+大数据”的全技术栈的混合云解决方案,可以有效地应对和处理双11这样的脉冲计算。

2013年开始,整个集团在双11备战工作中增加了全链路压测。所谓全链路压测,也就是通过大量的机器人模拟各种各样的用户从各种终端登陆,提前把双11的所有环节“演练”一遍,发现问题,再一次次地回过头排查,看问题出在哪儿。

阿里巴巴是技术路上的先行者,每一个困难,阿里巴巴先遇上了,解决了,丰富的经验和扎实的技术就此沉淀下来。现在阿里云正在用这些技术赋能360行。双11沉淀下来的很多技术都成为其他企业可以在阿里云上购买的产品。弹性裸金属服务器(神龙)、实例存储 、vbc(vpc) 虚拟专有网络,这些在阿里云上线的产品都是此前双11沉淀的技术。

像很多人一样,最初工作对杨旭来说只是一个谋生的饭碗,但到了阿里之后,工作开始产生了谋生之外的意义。在阿里云,他要和各行各业的客户打交道。在这些“接地”的工作中,他感到了工程师的责任。他开始意识到,自己工作中的每一个问题不再只是一个“小问题”,它对于客户和社会来说可能都会产生很大的影响。“比如小的创业公司,只有几百万去搞一个活动,因为你的这个问题导致活动没有完成,下面就没有钱了。别人把身家性命放在你这里,你就不只是谋生了,真的是有一种责任在里面。”

这份工作也让他养成了观察生活的习惯。在生活中遇到某个场景,他会想,有没有可能通过技术的方式改进它?对他来说,解决问题一直是他工作中乐趣的一个重要来源。以前做程序员时,有时遇到很难调的bug,夜里做梦甚至也会梦到,一下子惊醒过来,他会赶紧起来把梦到的思路在本子上记下来。

“最快乐的就是解决问题的一瞬间,比如你调调调忽然一下,这个接口就调通了。那种成就感真的不是金钱能带来的快乐。”对杨旭来说,这种快乐从没变过,只是“问题”正在变得越来越大,以前是代码中的bug,现在是阿里云各行各业的客户需求,是“让整个社会变得更好”。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version
关闭
ITBear微信账号

微信扫一扫
加微信拉群
电动汽车群
科技数码群