数人云CTO肖德时：如何提升资源利用率成为大数据部署最大的挑战

数人云资源利用大数据部署

比特网 | 2016-05-03 13:33

【数据猿导读】以Hadoop、Spark为核心的大数据生态圈正在快速发展，层出不穷的大数据工具方便了企业处理海量数据，但也给大数据平台的部署和维护带来了挑战。肖德时指出，大数据部署最大的挑战在于如何提升资源利用率，以及如何用一套标准的解决方案去部署和升级大数据工具

4月28日，由工业和信息化部指导、中国信息通信研究院主办的“2016大数据产业峰会”在北京国际会议中心召开。数人云CTO肖德时应邀出席并做《容器化大数据应用部署实践》主题演讲，向与会者分享了如何用容器化的方式解决大数据的快速部署问题。

以Hadoop、Spark为核心的大数据生态圈正在快速发展，层出不穷的大数据工具方便了企业处理海量数据，但也给大数据平台的部署和维护带来了挑战。不同的大数据工具之间往往需要搭配使用，同时，随着大数据平台的集群规模越来越大，大数据工具组件越来越多，相互依赖越来越复杂，如何保证大数据平台的稳定性，保证高可用性?

肖德时指出，大数据部署最大的挑战在于如何提升资源利用率，以及如何用一套标准的解决方案去部署和升级大数据工具。

具体来讲，容器化大数据应用部署实现在统一平台上进行资源的混合部署，简化管理并消除重复数据，使资源的利用率从过去的30%提升到90%。此外。所有的大数据工具都是基于容器分发的，大大降低对底层技术的依赖。容器技术给大数据部署提供了更多的选择，用户可以选择更多的解决方案，而不仅仅是局限于用Hadoop建立集群。

容器化应用部署实践 – Hadoop Cluster

肖德时说道，“原来部署一个Hadoop，一定要到Apache的网站或者第三方网站下载一套Apache软件，再把它解压、安装，非常的繁琐。而通过采用容器技术部署大数据应用，只需到Docker仓库就可以拿到Hadoop Cluster，它是一个用容器包起来的Hadoop安装包，你要做的就是下载这个安装包。”

肖德时指出，容器化大数据有三个显著的好处：第一，可以快速安装大数据组件;第二，开发、QA、生产环节使用同一套镜像和流程;第三，一个节点到多个节点，步骤都是一样的启动服务。