因为当前硬件资源的限制,现先在本地搭建 centos 虚拟机并离线安装 CDH。
CDH
CDH(Cloudera’s Distribution Apache Of Hadoop)简单概括就是集成多种技术的一个框架。
CDH 是Apache Hadoop和相关项目的最完整,经过测试和最流行的发行版。
CDH 提供 hadoop 的核心要素–可扩展的存储和分布式计算,以及基于web的用户界面和重要的企业功能,是Apache许可的开源软件,并且是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的hadoop解决方案。
CDH 结构图
下面列举下 hadoop 的生态构成:
HDFS:分布式文件系统
+ZKFC:为实现 NameNode 高可用,在 NameNode 和 zookeeper 之间传递消息,选举主节点工具。
+NameNode:存储文件元数据
+DataNode:存储具体数据
+JournalNode:同步主 NameNode 节点数据到从节点 NameNode
MapReduce:开源的分布式批处理计算框架
spark:分布式基于内存的批处理框架
Zookeeper:分布式协调管理
Yarn:调度资源管理器
HBase:基于 HDFS 的 NoSql列式数据库
hive:是基于 hadoop 的一个数据仓库工具,将SQL转换为 MapReduce 进行计算
hue:是 CDH 的一个 UI框架
impala:是cloudera 公司开发的一个查询系统,类似hive,可以通过sql执行任务,但并不是基于mapreduce算法,而是直接执行分布式计算,这样就提高了效率.
oozie:是一个工作流调度引擎,负责将多个任务组合在一起按序执行
kudu:Apache kudu 是专为hadoop平台开发的列式存储管理器。和impala结合使用,可进行增删改查。
sqoop:将 hadoop 和关系型数据库互相转移的工具
flume:采集日志
cloudera manager
cloudera manager 简称 CM,是为了便于在集群中进行hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、hadoop、hive、spark等服务的安装配置管理做了极大简化。
cloudera manager结构图:
clients:客户端,通过 web 页面和cm和服务器交互
API:通过API和cm与服务器进行交互
Cloudera Repository:存储分发安装包
Management Server:进行监控和预警
Database:存储预警信息和配置信息
Agent:分布在多台服务器,负责配置,启动和停止进程。监控主机