企业大数据开源平台,从部署迈出第一步
最近应项目公司需求,我们需要为其构建一个大数据平台。开源的Hadoop生态应用 由于没有技术服务支持,公司不采用此种方案进行构建。因此我们选择采购具有技术支持的 第三方大数据平台,当然这些公司的平台也完全基于 Hadoop, 只不过他们有着一帮技术团队,可以为自己平台出现的问题提供技术服务。
第三方平台目前我们所接触了解的有四家:
而由于 Cloudera 提供了开源免费版本的产品,因此这篇博客主要对 Cloudera 公司产品的部署过程进行记录。
简要介绍
- Cloudera: Cloudera 公司目前是世界上最大的大数据平台提供商,其总部位于美国,且已经上市,2014进入中国市场,Hadoop 创始人 Doug Cutting 目前也就职于Cloudera,担任首席架构师,其内部有很多开源项目的 Committer,相比其他公司,其技术水平有着绝对的优势。
- CDH: Cloudera 公司目前主要的产品是 CDH ( Cloudera’s Distribution including Apache Hadoop ),是对 Hadoop 生态( hadoop + hive, hbase, flume, impala 等等)的一种封装融合,该产品是 完全免费下载和安装 的,其盈利方式是技术支持服务。
- Cloudera Manager: 由于大数据平台本身就是分布式,CDH 自然也不例外,为了便于用户快捷安装,Cloudera 公司提供了 Cloudera Manager 工具,可让用户在可视化的页面上组织自己的集群。
- 部署方式:首先,Cloudera 公司提供了产品的尝鲜版本,主要提供了Virtual Box、VMWare、KVM、Docker Image 等虚拟镜像,为了体验产品的用户可以尝试。此外,Cloudera 提供正式版本的安装说明,下面就按照正式版本正式生产环境进行安装部署。