微软在本周的Apache Spark高峰会(Spark Summit)上宣布正式推出Azure HDInsight for Spark。微软表示,Spark for Azure HDInsight带来企业级的Spark解决方案,提供完整的管理、安全与可靠性,以及更方便的操作界面。
Apache Spark是一个开源丛集运算框架,采用存储器内运算技术,内含核心、Spark SQL、Spark Streaming及分散式机器学习MLlib等元素,由于它具备速度快、易用、通用及多模式等特性,成为热门的大数据运算框架。
Azure HDInsight是微软用来部署及管理Apache Hadoop云端丛集的服务,目的在于针对大数据进行处理、分析及产生报告。开源的分散处理暨储存框架Hadoop及Spark已被看作是未来大数据领域最有前景的组合。
负责Hadoop、大数据及数据仓储的微软销售经理Oliver Chiu指出,Spark可在存储器内执行大规模的数据分析应用,与传统的大数据解决方案相比,Spark的查询速度会提高100倍,Spark for Azure HDInsight带来企业级的Spark解决方案,提供完整的管理、安全与可靠性,以及更方便的操作界面。
其实微软在去年7月便已发布Spark for Azure HDInsight公开预览版,经历近一年的推广之后,目前HDInsight的新丛集部署已经有半数采用Spark for Azure HDInsight。