学习记录

好记性不如烂笔头

hadoop

分布式系统基础架构

Hadoop充分利用集群的威力进行高速运算和存储。hadoop框架最核心的设计就是: HDFS 和 MapReduce。 hdfs 为海量数据提供了存储; MapReduce 为海量的数据提供了计算。 hadoop 具有以下几个优点: 高可靠性 高扩展性 高效性 高容错性 低成本 hadoop 的安装有三种运行模式: 单机模式(Local(Standalone)Mode) had...

flume

Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

flume是一个分布式、可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,flume 提供对数据的简单处理,并写到各种数据接收方的能力。 flume 的数据流由事件(Event)贯穿始终。事件是flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息。 flume 的可靠性 提供了三种级别的可靠性保障,从强到弱依次分为: end-t...

docker

是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows操作系统的机器上,也可以实现虚拟化

Docker 是什么? 在理解docker之前,首先需要区分两个概念:容器和虚拟机。 每台虚拟机都需要自己的操作系统,虚拟机一旦被开启,预分配给它的资源将全部被占用; 容器技术是实现操作系统虚拟化的一种途径,可以让你在资源受到隔离的进程中运行应用程序及其依赖关系。 docker 是一个开源的应用容器引擎,基于Go语言并遵从 Apache2.0协议开源。 docker 可以让开发者打包...

数据仓库

是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合

数据仓库(Data Warehouse,简写为 DW/DWH)本身即不生产数据也不消费数据,只是作为一个中间平台集成化地存储数据。目的是构建面向分析的集成化数据环境。 数据仓库概念 数据仓库的特点 1) 数据仓库的数据是面向主题的 2) 数据仓库的数据是集成的 3) 数据仓库的数据是不可更新的 4) 数据仓库的数据是随时间不断变化的 数据仓库数据随着时间不断变化表现在3个方面:数据仓库随时间...

CDH

Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建

因为当前硬件资源的限制,所以尝试在本地搭建虚拟机 centos,并离线安装 CDH 集群。 前期准备工作 提前下载好以下软件包等: 扩展型 名称 rpm cloudera-manager-agent-6.2.0-968826.el7.x86_64.rpm rp...

CDH

Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建

因为当前硬件资源的限制,现先在本地搭建 centos 虚拟机并离线安装 CDH。 软件 版本 名称 Vmware Workstation Pro 12 VMware-workstation-full-12.0.0-2985596.exe ...

CDH

Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建

因为当前硬件资源的限制,现先在本地搭建 centos 虚拟机并离线安装 CDH。 CDH CDH(Cloudera’s Distribution Apache Of Hadoop)简单概括就是集成多种技术的一个框架。 CDH 是Apache Hadoop和相关项目的最完整,经过测试和最流行的发行版。 CDH 提供 hadoop 的核心要素–可扩展的存储和分布式计算,以及基于web的用户界面...