Blog

keep hungry keep foolish
大数据组件技术选型

spark相关


flink

Apache 开源的流处理引擎


数据库连接池

负责分配、管理和释放数据库连接


sparkstreaming 之foreachRDD


spark 持久化

通过持久化存储,提升spark应用性能,以更好地满足实际需求。


redis

一个高性能的key-value非关系型数据库


scala 异常(Exception)/throws关键字


spark - select where or filtering? withColumn

用于过滤/用于添加新字段、字段重命名、修改字段类型


spark 中的 dataframe 和 dataset

sparkSQL 中的两种数据类型


docker-compose

一个用来定义和运行复杂应用的docker工具。


Iceberg

一个面向海量数据分析场景的开放表格式(table format)


Flink 容错机制

Flink 之checkpoint 和savepoint的区别


hive 表操作

hive 数据分析


spark的二进制原始数据解析方法

spark实现大量数据的快速解析并写入hive表


kudu

由cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力


zookeeper

分布式应用程序协调服务


sqoop

用于在hadoop(hive)与传统数据库间进行数据传递


spark

专为大规模数据处理而设计的快速通用的计算引擎


kafka

一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据


impala

新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据


hive

基于hadoop的一个数据仓库工具


hbase

分布式的、面向列的开源数据库


hadoop

分布式系统基础架构


flume

Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统


docker

是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows操作系统的机器上,也可以实现虚拟化


数据仓库

是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合


CDH

Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建


CDH

Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建


CDH

Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建


杂记

杂记1


nginx

nginx