CDH

Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建

Posted by 果然 on December 30, 2021

因为当前硬件资源的限制,现先在本地搭建 centos 虚拟机并离线安装 CDH。

CDH

CDH(Cloudera’s Distribution Apache Of Hadoop)简单概括就是集成多种技术的一个框架。 CDH 是Apache Hadoop和相关项目的最完整,经过测试和最流行的发行版。
CDH 提供 hadoop 的核心要素–可扩展的存储和分布式计算,以及基于web的用户界面和重要的企业功能,是Apache许可的开源软件,并且是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的hadoop解决方案。

CDH 结构图

cdh结构图
下面列举下 hadoop 的生态构成:

  • HDFS:分布式文件系统
       + ZKFC:为实现 NameNode 高可用,在 NameNode 和 zookeeper 之间传递消息,选举主节点工具。
       + NameNode:存储文件元数据
       + DataNode:存储具体数据
       + JournalNode:同步主 NameNode 节点数据到从节点 NameNode
  • MapReduce:开源的分布式批处理计算框架
  • spark:分布式基于内存的批处理框架
  • Zookeeper:分布式协调管理
  • Yarn:调度资源管理器
  • HBase:基于 HDFS 的 NoSql列式数据库
  • hive:是基于 hadoop 的一个数据仓库工具,将SQL转换为 MapReduce 进行计算
  • hue:是 CDH 的一个 UI框架
  • impala:是cloudera 公司开发的一个查询系统,类似hive,可以通过sql执行任务,但并不是基于mapreduce算法,而是直接执行分布式计算,这样就提高了效率.
  • oozie:是一个工作流调度引擎,负责将多个任务组合在一起按序执行
  • kudu:Apache kudu 是专为hadoop平台开发的列式存储管理器。和impala结合使用,可进行增删改查。
  • sqoop:将 hadoop 和关系型数据库互相转移的工具
    flume:采集日志

cloudera manager

cloudera manager 简称 CM,是为了便于在集群中进行hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、hadoop、hive、spark等服务的安装配置管理做了极大简化。

cloudera manager结构图
cm
clients:客户端,通过 web 页面和cm和服务器交互
API:通过API和cm与服务器进行交互
Cloudera Repository:存储分发安装包
Management Server:进行监控和预警
Database:存储预警信息和配置信息
Agent:分布在多台服务器,负责配置,启动和停止进程。监控主机