您的位置:首页>>业界动态

XSKY打造Hadoop HDFS高性能客户端,构筑数据湖理想底座

发布时间:2019-08-22 15:15:19  来源:益群网    背景:

  随着全球数据呈爆发式增长,基于海量数据的挖掘和分析,为用户带来了巨大的商业价值。源于开源平台的Apache Hadoop,允许使用简单的编程模型跨计算机集群分布式处理大型数据集,成为大数据时代最受欢迎的技术之一。

  01性能瓶颈

  HDFS分布式文件系统作为Hadoop的三大组件之一,是分布式计算中数据存储管理的基础。但是在HDFS传统架构下,Hadoop扩展性受到了一定限制,容易出现性能瓶颈等问题。

图片来源:Hadoop官方文档

  例如,由于HDFS中每个文件、目录和数据块的元数据信息(大约150字节)必须存储在NameNode的内存中,这也就意味着对于一个拥有大量文件的超大集群来说,内存将成为限制系统横向扩展的瓶颈。

  同时,作为一个可扩展的文件系统,单个集群中支持数千个节点。在单个命名空间中DataNode可以扩展的很好,但是NameNode并不能在单个命名空间进行横向扩展。通常情况下,HDFS集群的性能瓶颈出现在单个NameNode上。

  虽然,在Hadoop 2.x发行版中引入了联邦HDFS功能,允许系统通过添加多个NameNode来实现扩展。但是,系统管理员需要维护多个NameNodes和负载均衡服务,这又无形中增加了管理成本。

  此外,大数据平台建设和应用中还亟待解决以下问题:

  ▪ 在传统的Apache Hadoop集群系统中,计算和存储资源紧密耦合。当存储空间或计算资源不足时,只能同时对两者进行扩容,不仅扩容不方便,且经济效率较低;

  ▪ Hadoop的数据备份方案昂贵,且难以实现;

  ▪ 不同部门、平台各自建大数据系统,数据不共享,导致大数据计算平台碎片化,逐渐形成大数据烟囱。

  02XSKY HDFS Client

  为了解决上述问题,业界一般采用对象存储来作为Hadoop的后端存储,解决上面HDFS的各种问题,构建数据湖解决方案。

  Hadoop社区也开发了S3A连接器,用来对接标准的S3对象存储。但是,标准的S3A连接器的性能一般比HDFS要差很多,而且不支持追加写,因此只能支持部分对性能不高的业务,或者作为Hadoop分层存储使用。

  为此,XSKY开发了基于对象存储XEOS的专用Hadoop HDFS高性能客户端XSKY HDFS Client。

XSKY HDFS Client和S3A架构对比

  通过XSKY HDFS Client,Hadoop应用可以访问存储在XEOS中的所有数据,这就避免了传统的Hadoop应用在进行数据分析前,还要将数据由业务存储移动到分析存储HDFS中。

  XSKY HDFS Client为Hadoop应用提供了标准的 Hadoop 文件系统操作接口。在每个计算节点上,Hadoop应用都将使用XSKY HDFS Client (JAR) 执行 Hadoop文件系统的操作,XSKY HDFS Client屏蔽了Hadoop应用与XEOS集群交互的复杂性。

  相比于原生Hadoop S3A对接对象存储的方式,XSKY HDFS Client可以直接访问存储集群的OSD,IO路径更短;同时,XSKY HDFS Client具有追加写的功能,可以匹配Hadoop文件系统对追加写的需求。

  XSKY内部对在业界最广泛应用的Hadoop商业发行版本之一Cloudera CDH的TestDFSIO测试中显示,部署了XSKY HDFS Client的 XEOS集群写性能超过采用Remote HDFS系统的94%,读性能超过77%(两种测试硬件配置一样,节点数都是8节点,其中存储和Datanode都是3节点)。

  WordCount测试中,性能瓶颈主要在CDH计算集群的CPU使用率,两组测试环境计算集群的CPU均达到了100%。HDFS对1TB数据进行WordCount计算的时间消耗为46分22秒,而XEOS的时间消耗为47分20秒,相差不大。

  HBase写测试中,HDFS对30,000,000条数据进行写入时间消耗为2分23秒,而XEOS的时间消耗为2分55秒,与HDFS比相差30秒左右。但是从HBase统计的IOPS来看,HDFS和XEOS相差不大。

  HBase读测试,HDFS对30,000,000条数据进行读取时间消耗为47秒,而XEOS的时间消耗为46秒,几乎没有差别。但是从HBase统计的IOPS来看, XEOS明显高于HDFS。

  03客户收益

  ▪ 计算存储分离部署,按需扩容,大幅降低TCO;

  ▪ 更加优化的性能,以及企业级存储特性;

  ▪ 适用于大数据平台的容灾备份;

  ▪ 同时支持生产业务、Hadoop、MPP、AI等计算业务,解决数据孤岛问题;

  ▪ 一套存储系统,承载多个异构平台的数据整合,加速数据流动;

  ▪ NFS、HDFS、S3三种协议互通,三种协议来源的数据都可以统一进行in-place分析,分析结果可以通过S3实时发布。

  XSKY目前已经实现块、文件、对象、HDFS支持,为企业用户构建了真正统一的数据存储平台,可实现用户从核心生产到海量数据分析的最大化数据整合,助力构筑企业数据湖理想底座!

特别提醒:本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页 本文来源:益群网

本文评论
头号玩咖参展2019世界VR产业大会 国务院副总理刘鹤莅临指导
2019年10月19日-21日, 2019世界VR产业大会在江西南昌举行。在同期举办的2019 VR/AR产品和应用展览...
日期:10-19
世界VR产业大会开幕 玖的揽获「中国VR50强企业」「VR/AR年度创新奖」两大奖项
10月19日,以“VR让世界更精彩——VR+5G开启感知新时代”为主题的第二届世界VR...
日期:10-19
开发者服务起风了:2019极光开发者大会,聚焦开发价值!
2019年10月19日,“2019极光开发者大会”在深圳召开,数千位互联网公司技术领袖、合作伙...
日期:10-19
华为:希望把VR/AR打造成下个智能手机产业
10月19日消息,2019世界VR产业大会在江西省南昌市举行。华为轮值董事长郭平发表了《打造VR/AR信息高...
日期:10-19
华为云受邀参加2019IDC中国数字化转型年度盛典,“5G+云+AI”助力企业数字转型
2019年10月18日,由IDC中国主办的“2019 IDC数字化转型年度盛典暨第四届中国数字化转型领军用...
日期:10-19
语音识别大拿Daniel Povey正式加入小米,将组团队开发下一代Kaldi
10月19日消息 据小米集团副总裁、小米技术委员会主席@崔宝秋-小米 消息,语音识别大拿Daniel Povey...
日期:10-19
蚂蚁金服共享智能平台打破数据孤岛,荣获“2019CCF 科技进步优秀奖”
10月18日,在2019中国计算机大会上,“蚂蚁金服隐私保护共享智能平台”荣获“CCF科...
日期:10-19
我国研发5款自主产权3D显卡:支持国产处理器及操作系统
   继国产处理器获得突破之后,国产GPU/显卡也取得了重大进展。
日期:10-19
华为开发者大会2020将于明年2月11日在深圳召开
10月19日消息 今日上午,据华为中国官方消息,华为开发者大会2020将于2020年2月11日-12日在深圳召开...
日期:10-19
Digitimes:英特尔将在2020年中发布Xe独显,采用10nm工艺
10月19日消息 根据TPU的报道,接近Digitimes的消息人士透露,英特尔将很快推出其首个10纳米独立显卡...
日期:10-19
AMD有望在11月5日发布新款线程撕裂者和TRX40芯片组
10月19日消息 根据VideoCardz的独家爆料,AMD计划发布三款Threadripper 3000处理器,分别是 3960X,...
日期:10-19
英特尔将于月底推出新款超低压处理器:10nm工艺,3D封装
10月19日消息 根据Notebookcheck的报道,英特尔将于2019年10月23日和24日在加州圣克拉拉的凯悦酒店...
日期:10-19
政企智能转型升级正当时 华为云打造西安智慧产业新高地
10月17日,由华为公司主办的“西安·选择不凡 华为云城市峰会2019”在西安如期举行...
日期:10-19
华为云依托5G+云+AI技术 加速政企转型升级
10月17日,“西安·选择不凡 华为云城市峰会2019”如期在西安举行。西安市市长李明...
日期:10-19
西安航天基地华为云人工智能创新中心正式发布
10月17日,西安·选择不凡 华为云城市峰会2019在西安举行,针对Cloud 2.0时代下的政企上云需...
日期:10-19
人才培养正当时,华为云联合7大高校发布西北鲲鹏人才培养计划
  10月17日,西安·选择不凡 华为云城市峰会2019在西安拉开帷幕,着眼西北地区科技创新发展,华...
日期:10-19
爱奇艺创新CDN系统奇速播荣获中国计算机学会 “CCF科学技术奖科技进步杰出奖”
10月17日-19日,由中国计算机学会(CCF)创办的2019中国计算机大会在苏州举办,爱奇艺融合边缘云的新...
日期:10-19
世界互联网大会开幕,UCloud优刻得展示企业上云新科技
10月18日上午,第六届世界互联网大会“互联网之光”博览会在浙江乌镇拉开帷幕。国家互联...
日期:10-19
Breeno语音“万物互融”丰富覆盖渠道,为开发者提供更多品牌精准客群
10月15日「OnePlus 7T 系列新品发布会」在北京举办。此次发布会除了发布了硬件端旗舰级一加手机,也...
日期:10-18
哈弗H6斩获第76个月销冠,不断刷新SUV市场销量记录
进入2019年下半年后,中国汽车市场发生了微妙的变化,轿车相较2018年依旧呈现下跌态势,而SUV异军突起,...
日期:10-18
  专栏介绍
王涵 的专栏
王涵发表的文章
积分:
自我介绍 :