ITBear旗下自媒体矩阵:

百度:打造可信云存储服务

   时间:2013-01-15 11:08:26 来源:李敏 郭杏荣编辑:星辉 发表评论无障碍通道

近期关于网盘市场整合的消息很多,业内人士也注意到纯粹出售网络存储空间的商业模式存在很大的问题,连Dropbox这样的网络存储先锋企业也在收购在线音乐网站,实现业务的转型。百度云存储从2012年7月底正式发布到12月底,用户超过2600万,并且这个数字还在快速推进,在其迅猛增长的背后我们看到了强大的基础设施以及创新的商业模式,给网络存储行业提供了一些参考:

1. 构建在久经考验的基础设施之上的可信存储平台

2. 一人一云,真正实现用户数据唯一性、,不能被设备分割,也不能被应用分割

3. 存储平台要enable很多新的应用与体验;用户感兴趣的是应用,而不是硬盘

传统的互联网业务都是免费+广告模式,是Best-effort模式,而云存储运营服务则提出了非常苛刻的要求,毕竟用户要为此付费,自然会按照付费服务标准来要求。最简单的方法可以类比电信运营商,电信系统的要求就是不间断运行、大容量、高稳定性、高可靠性。之所以提出这么多要求,因为电信网络支撑了整个信息社会的基础,一旦发生故障就会带来巨大的损失。而云存储面临同样的问题,用户与企业将很多关键的数据放到供应商的数据中心,这里面除了一些娱乐信息以外,还有很多个人隐私的数据、甚至是开发者一些关键的商业数据,故障与安全问题带来的影响和损失也是非常巨大的。

可信的存储平台

百度在云存储后台使用了经过验证的Mola系统,稳定性达到4个9。Mola是一个分布式存储引擎采用Key-Value存储形式,适用于可扩展性强、访问并发性强的业务。Mola于2008年开始设计,2009年投入使用已经接近4年的时间,支撑了百度搜索、音乐、百度地图等相关应用。经过几年的演进升级,目前已经升级到第三代。

Mola是百度四大存储系统之一。百度目前要处理数百PB的数据,涉及到网页、日志、广告、UGC等相关内容。每一类的数据都有自己的特点,需要不同的存储系统来支持,以达到效率最大化。比如日志数据对实时性要求就不是太高,但是信息海量;有些数据比如广告,数据量不是很大,但是涉及到商业行为,对低延迟、高并发以及数据的可靠性等方面要求非常高。而Mola正是基于低延迟、高并发设计的存储系统。在Mola第三代系统中,又增加了对强一致性查询的支持。

高并发、易扩展

云存储的并发是非常大,比如百度个人云存储上线第一天,文件提交量达到7000万个。Mola是这样实现对高并发的支持:在Mola系统中有三个核心组成部分(图1):Meta Server,Update Server与Chunk Server。数据实际上式存储在Chunk Server上,Meta Server存储的是数据的组织和分布信息,记录了每一个表格都存在哪个Chunk Server,Update Server有点类似交换机,通过此Server将数据发送到具体的Chunk Server。, Mola系统中设置了多组Update Server以增加对高并发的支持,减少文件存储时延。当业务不断增长时,存储规模扩展可以通过增加新的Chunk Server来完成,可扩展性很强强。

在实际的存储文件过程中,如果文件太大,对整个文件进行存储,不是很安全,效率也不高,百度的做法是切成小单位,然后在保存在Mola系统里面去(可能存在不同的服务器上),读取的时候再按照拆分的顺序组合成原文件。

多副本存储与副本快速恢复

为了保证云存储的高可用性,数据采用3份冗余存储,读取数据时会按负载均衡选择一个Chunk Server上的副本,因此只要有一台Chunk Server存活,服务就可用。此外,如果某个Chunk Server出现问题,也可以进行副本快速恢复,因为数据的分片是打散在所有的Chunk Server上,单台Chunk Server在进行数据恢复时候,可以多机给一台机器传输数据。

在云存储中用户存储的数据中大部分是非结构化的可以通过Mola来存储;此外用户还是有一些结构化的数据,比如联系人、短信、收藏的音乐、电影以及游戏进度、装备、设置等;这些结构化数据则通过增加结构化存储来解决。

云端管多层次安全机制

在安全方面,百度也从云端管三个方面设置了多项安全的保障,确保用户安全放心地使用云存储服务。

1. 云:数据中心灾备;多副本冗余;数据隔离;安全监测用户分享内容

2. 端:OAuth2.0 安全认证;统一访问控制系统

3. 管:HTTPS加密数据传输

比如在云端,百度搭建了ACL(Access Control List)服务器,让开发者定义语法,界定存储对象是公开还是私有,或者允许某些特定用户访问。对个人用户而言,也可以指定哪些数据或者哪些子目录下的数据可以公开给某些应用使用,灵活控制数据的使用、同时提供安全保障。

实现数据唯一性

从国内主流的网盘来看,大都实现了数据在不同终端之间的同步,有些可以针对不同终端进行媒体的适配,提高用户体验。但并没有解决不同应用之间的数据共享问题。比如在微博上朋友分享的照片,如果要想同时在微信上分享给别的好友,那用户只能是先从微博上把照片单独拷贝到网盘,然后再到微博上去分享。理想的状态是只要有更新的照片,无论是来自哪个应用,只要用户许可,其他应用都可以看到这些数据,并且触发某些操作(当然用户也可以设置不这样做),百度云做到了这一点。

尽管网盘可以实现多终端之间的数据同步,但是针对不同应用产生的数据而言还是被分割的。而大多数的情况是,用户的数据产生都是伴随应用而来,比如在线音乐、视频、UGC(唱吧)等等。但是数据不能限制在这些应用的边界内。百度个人云存储则实现了数据真正属于个人,用户自己支配数据如何使用。

Enable新应用与商业模式

百度坚信云计算的本身不仅仅是IT资源新的使用方式,更重要的是要解决复杂异构性问题、构建创新业务与商业模式的基础平台,要IT商业的开源,而不仅仅是节流。

举一个例子,一个云enable的新应用:“云打印”,传统的方式就是PC上安装打印机驱动程序,更换打印机又要重新安装驱动,比较繁琐。而“云打印”就像把文件直接当成电子邮件发送给打印机,打印机要像用户的电脑一样读出文件、还原文件原本的格式,然后打印。用户根本不用关心打印机型号,也没必要安装驱动程序。这其实就是一个解决了众多用户的异构问题,把适配工作放在云端完成。

正是基于这样的考虑,百度云存储正在努力建设一个大的生态系统,让更多的开发者基于云存储开发新的应用,真正为用户构建应用体验。比如轻笔记就是一家基于百度云存储的云笔记应用,可以实现跨终端同步的记事软件,利用百度的平台,开发者可以把精力专注在应用的创新方面,快速将服务推向市场。目前基于百度云的注册开发者已经超过10万,未来两年将会有数千种创新应用推向市场。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version