冰冻三尺非一日之寒

IDEA

IDEA 开发的 spark + maven 项目

因为在内网开发和使用大数据中心远程服务资源的缘故，所以将spark开发过程记录下来，以便参考。首先选用 idea 进行开发。idea的安装与激活过程，这里不在赘述;对scala代码/java 代码进行打包编译时，可以使用maven，也可以使用 sbt。这里，使用maven。相关项目管理工具软件等版本对应下载： idea：2021.1.1 maven：(apache-maven)3.5...

Posted by 果然 on December 31, 2021

kudu

由cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力

Apache kudu kudu是由cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。支持水平扩展，使用Raft协议进行一致性保证，并与cloudera impala和Apache spark等当前流行的大数据查询和分析工具结合紧密。实时性和完整性兼得，使用 kudu 和 impala 实现透明的分层存储管理。滑动窗口协议，属于TCP协议的一种应用，用于网...

Posted by 果然 on December 30, 2021

zookeeper

分布式应用程序协调服务

zookeeper 是一个分布式的、开放源码的分布式应用程序协调服务，是hadoop和hbase的重要组件。分布式应用程序可以基于 zookeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。说明：这里的记录基于菜鸟教程。 zookeeper 教程相关 CAP 理论 CAP 理论指出对于一个分布式计算系统来...

Posted by 果然 on December 30, 2021

这是一个测试文件

测试创建blog

this is a test files.

Posted by author on December 30, 2021

sqoop

用于在hadoop(hive)与传统数据库间进行数据传递

sqoop 是一款开源的工具，主要用于在 hadoop(hive)与传统的数据库(mysql/postgresql…)间进行数据的传递，可以将一个关系型数据库中的数据导进到 hadoop 的 HDFS(hive/hbase…) 中，也可以将 HDFS 的数据导进到关系型数据库中。 Apache Sqoop 是可以在 hadoop和关系型数据库之间转移大量数据的一款工具。 centos7 ...

Posted by 果然 on December 30, 2021

spark

专为大规模数据处理而设计的快速通用的计算引擎

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎，是伯克利分校的 AMP 实验室所开源的类 Hadoop MapReduce 的通用并行框架。 spark，拥有 Hadoop MapReduce 所具有的优点；但不同于 MapReduce 的是 ——— Job 中间输出结果可以保存在内存中，从而不再需要读写 HDFS，因此spark能更好地适用于数据挖掘与机器学习等需要...

Posted by 果然 on December 30, 2021

kafka

一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据

kafka是一种高吞吐量的分布式发布订阅消息系统，可以处理消费者在网站中的所有动作流数据。主要应用场景是：日志收集系统和消息系统。 kafka与zookeeper关系：通过 zookeeper 管理集群配置，选举 leader，以及在 consumer group发生变化时进行 rebalance。 zookeeper 作用：管理 broker、consumer，将元数据信息保存在 z...

Posted by 果然 on December 30, 2021

impala

新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据

impala 是大数据分析引擎，分为以下3部分进行记录说明。 impala概念与架构 impala 资源管理 impala 性能优化 impala 概念与架构 impala 简介 impala 基于 google 的Dremel 为原型的查询引擎，由 cloudera 推出，能查询存储在 hadoop 的HDFS和HBase的PB级大数据，具有高性能、低延迟的交互...

Posted by 果然 on December 30, 2021

hive

基于hadoop的一个数据仓库工具

hive 是基于 hadoop 的一个数据仓库工具。 hive 数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能使SQL语句转变成 MapReduce 任务来执行。十分适合对数据仓库进行统计分析。数据存储模型 hive 包含四类数据模型：表(Table)、外部表(External Table)、分区(Partition)、桶(Bucket)。 ...

Posted by 果然 on December 30, 2021

hbase

分布式的、面向列的开源数据库

hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。为什么 hbase 可以存储海量的数据？因为 hbase 是在 HDFS 的基础上构建的，HDFS 是分布式文件系统。关于 hbase 的详细介绍，可参见知乎回答。另外，hbase 是一个主从架构的集群，部署时可以一主多从，也可以多主多从形成高可用机制。 hbase 的写流程 client 通过 zk 的...

Posted by 果然 on December 30, 2021

学习记录

IDEA

IDEA 开发的 spark + maven 项目

kudu

由cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力

zookeeper

分布式应用程序协调服务

这是一个测试文件

测试创建blog

sqoop

用于在hadoop(hive)与传统数据库间进行数据传递

spark

专为大规模数据处理而设计的快速通用的计算引擎

kafka

一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据

impala

新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据

hive

基于hadoop的一个数据仓库工具

hbase

分布式的、面向列的开源数据库

FEATURED TAGS

ABOUT ME

MORE SITES