近年,国内云服务商迅速发展壮大,自建机房赶不上发展速度,云服务商普遍通过租用IDC的方式进行服务扩容。IDC供应商众多,而灾备能力却参差不齐,电力中断导致的故障最近更时有发生。
租用机房的做法,在国内云服务商提供海外云服务时更为常见,云服务商如何选择海外数据中心,通过什么手段保障联合运营效果,灾备能力是否足够,成为用户最关心的话题。
为此,我们对腾讯云专家进行了关于海外云服务和灾备能力建设的主题专访。若遇到电力中断等意外事故,腾讯的海外数据中心将如何处理?专家的解读,相信能给用户与云服务商提供更多借鉴。
Q :中国的云服务商在海外布局数据中心一般采取什么策略,共建、租用还是自建?
A:据我们了解,由于规模的原因,中国互联网公司在海外的数据中心很少自建,大多是租用。腾讯云在香港和北美的数据中心采取的方式是租用+定制化。
Q: 在租用+定制化的策略下,腾讯云对合作伙伴有着怎样的选择标准?
A : 近期的多起云服务商故障大多缘于IDC基础设施设计的冗余等级较低,且可用性运营经验匮乏。
腾讯自QQ业务开始自建数据中心,拥有超过15年的IDC经验,拥有亚洲最大的互联网数据中心,以及亚洲最大的数据中心群。在15年的发展过程中,腾讯不断组建及壮大自己的IDC专家团队,积累及沉淀IDC技术,构建运营及安全保障体系,技术实力在国内数据中心行业处于领先地位。
在海外,腾讯云采用的是租用+定制化方式,因此在选择合作供应商有严格的筛选要求,且每次机房选址都会投入技术专家参与数据中心选址。在香港,与腾讯云合作的供应商是全球数一数二的数据中心提供商,在全球拥有超过15年的建设和运营经验,有体系化严谨的运营安全及保障体系,机房有优异的可用性记录。
事实上,腾讯为了支撑自身海外业务的发展(如QQ、微信等),每个地区其实有多个IDC,我们根据实际运行水平,其中再挑选出其中最好的数据中心,开放出来做云服务。
Q: 腾讯云如何保证联合运营的效率,保障业务稳定?
A : 腾讯自身互联网业务众多,发展迅猛,服务器规模从10W到20W仅仅用了1年时间,给业务稳定运营带来了前所未有的压力。腾讯不单扛住了海量业务的挑战,更在这一过程中积累了丰富的运营商IDC及自建IDC运维经验。
腾讯IDC运营历史之悠久,自建和合作机房之多,均领先业界。我们将海内外的百家优势和经验汇聚在一起,通过总结、提炼和分享创造共同财富,不让同一问题在其他机房再出现。在安全可靠性运营方面,我们积累了非常丰富的经验。
着眼于安全可靠性运营的核心问题,我们早些年就开始与各大运营商建立了一系列卓有成效的联合运营机制。除了把腾讯自身积累的经验分享给IDC服务商之外,还提升到双方高效沟通、规范流程体系、数据量化、联合巡检、联合排查、联合整治、联合优化、技术平台共享的高度。一方面保障了腾讯的业务,同时也促进各大运营商不断进步,创造多方共赢。这的联合运营方式,也是腾讯在业界的首创。
随着联合运营的广泛落地,腾讯最近几年在基础设施层面的重大故障几乎为零,这也大大提升了行业内众多运营商的IDC运营水平。
Q :近日,有云服务商香港数据中心因断电,造成服务中断十多个小时。数据中心是否应当有备用发电设备,一旦断电作自动切换?腾讯云采取哪些措施来应对类似突发状况?
A : 就断电故障而言,对灾备能力有充足投入的IDC运营商是可以实现断电自动切换的,云服务商在选择合作伙伴的时候需要严格把关。
就供电系统而言,目前业界流行的是相对低成本的N+1设计,以及相对高成本的2N设计。整体而言,2N系统的可靠性比N+1系统要更高。
腾讯云香港数据中心的电力系统从市电进线、柴发、UPS系统,一直到机柜PDU,都是完全独立2N系统,中间不交叉,一旦其中一路系统的某个部件出现问题,都可以有另外一路进行全负载备份,可靠性更高。
Q :除了近期的断电事故,包括之前还有云服务商因机房遭受雷击而故障的事件,数据中心的灾备还需要考虑什么情况,腾讯云是怎么做的?
A : 机房遭受雷击,说明数据中心防雷设施可能存在一系列的问题。
腾讯建设数据中心,在建设阶段,会从数据中心全生命周期,设计、建设、验收进行管理,且不同领域包括电力、空调、安全、网络,都会有专业人员参与,而且这些专业人员都是从腾讯所有IDC身经百战过来。
运营阶段,我们通过上述提及的联合运营的机制,投入腾讯的专家人员,与运营商一起对相关IDC进行联合巡检、联合排查、确保在事故前发现问题,提早整改,规避隐患。对于可能发生的风险,腾讯是零容忍的,隐患只要在某一机房发现,就会进行全国排查。过去几年,我们曾在多个IDC发现过隐患,经过联合整改,最后规避了风险。
Q :在海外数据中心方面,异地灾备是必须的么?万一出现断电等问题,腾讯云将如何保证用户的业务安全?
以香港数据中心为例,腾讯云除了严格选择合作伙伴、建立紧密联运机制之外,在供电、防雷、制冷、UPS、底层光纤等方面,都具有较高的冗余设计,后续更计划扩展第二个可用区,为客户提供更高级别的可用性。
(备注:可用区,即同一地域下(如广州),电力和网络互相独立的物理区域(一般是一个物理机房),目标是能够保证可用区间故障相互隔离(大型灾害或者大型电力故障除外),不出现故障扩散,使得用户的业务持续在线服务。可用区类似同城容灾,用户可以选择在不同的可用区部署来达到跨机房的高可用。)
Q :中国很多云服务商,包括腾讯云在海外提供服务都首选香港,为什么?
A : 在海外选点部署IDC,网络覆盖是第一位的,在整个亚太区,香港能实现良好的网络覆盖。
香港大区目前的主要覆盖用户群体是东亚和东南亚区域,从亚太地区的海底光缆交汇点及互联网的POP点看,香港的优势非常明显,覆盖东南亚地区的网络质量也比较平均;对于机房底层的设施看,不论选点在哪里,都是需要提供较高的可用性给客户,腾讯云在香港提供了较高的服务能力。
Q :云时代,云服务商和IDC提供商应该是一个怎样的关系,腾讯对此是否有创新的举措?
A : 即便是在国内,云服务商的数据中心也很少是完全自建的,更多是和运营商租用或者合建。就腾讯云而言,IDC分布在多个运营商,各个IDC的基础设施情况不同,运营水平有高有低。运营商的运营水平,将直接影响云服务商,最后影响到用户。因此云服务商与运营商的依赖关系如同鱼和水的关系。
我们的CEO Pony说过腾讯把半条命都交给了合作伙伴,这句话用来形容腾讯与IDC合作伙伴的关系,也非常适用。刚才提到,腾讯在业界首创联合运营机制,不但确保了腾讯业务的安全可靠,同时也提升了运营商的运营能力。
我们认为,像腾讯、阿里这样,拥有海量数据中心的互联网企业,在某种意义上被赋予了一个使命,通过“云”这个特殊的媒介,与下游产业每一家IDC相互分享经验,完善运营体系,落实最佳实践,从而实现多方共赢,进而促进整个产业的进步。实际上,也只有像腾讯、阿里这样拥有海量规模的互联网公司才能承担这样的使命。
我们非常高兴看到许多运营商也持开放的态度,参与到腾讯IDC的联合运营中,我们也有理由相信,在整个云产业及数据中心行业的共同努力,我们为用户提供的云服务,一定会不断提升。