Toggle navigation
学习记录
Home
Resources
Blog
About
Blog
keep hungry keep foolish
大数据组件技术选型
学习资料
IDEA
实战训练
hue
Java
mkdocs
shell 命令
杂记
mysql
大数据问题型记录
nginx
scala
大数据组件技术选型
spark相关
flink
Apache 开源的流处理引擎
数据库连接池
负责分配、管理和释放数据库连接
sparkstreaming 之foreachRDD
spark 持久化
通过持久化存储,提升spark应用性能,以更好地满足实际需求。
redis
一个高性能的key-value非关系型数据库
scala 异常(Exception)/throws关键字
spark - select where or filtering? withColumn
用于过滤/用于添加新字段、字段重命名、修改字段类型
spark 中的 dataframe 和 dataset
sparkSQL 中的两种数据类型
docker-compose
一个用来定义和运行复杂应用的docker工具。
Iceberg
一个面向海量数据分析场景的开放表格式(table format)
Flink 容错机制
Flink 之checkpoint 和savepoint的区别
hive 表操作
hive 数据分析
spark的二进制原始数据解析方法
spark实现大量数据的快速解析并写入hive表
kudu
由cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力
zookeeper
分布式应用程序协调服务
sqoop
用于在hadoop(hive)与传统数据库间进行数据传递
spark
专为大规模数据处理而设计的快速通用的计算引擎
kafka
一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据
impala
新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据
hive
基于hadoop的一个数据仓库工具
hbase
分布式的、面向列的开源数据库
hadoop
分布式系统基础架构
flume
Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
docker
是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows操作系统的机器上,也可以实现虚拟化
数据仓库
是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合
CDH
Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建
CDH
Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建
CDH
Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建
学习资料
这是一个测试文件
测试创建blog
IDEA
IDEA
IDEA 开发的 spark + maven 项目
实战训练
datawarehouse-practice2
github 数仓实战
datawarehouse-practice
github 数仓实战
hue
hue
大数据交互平台
Java
java 线程与线程池
java 内存模型
JVM 内存结构和java内存模型
Java 设计模式之单例模式
HashMap 和 TreeMap 的本质区别
mkdocs
mkdocs-practics
快速、简单、华丽的静态网站生成器,适用于构建项目文档
mkdocs
快速、简单、华丽的静态网站生成器,适用于构建项目文档
shell 命令
linux shell 命令
杂记
杂记1
mysql
mysql 隔离级别
大数据问题型记录
hue 提交 spark 读取hdfs数据显示为空
nginx
nginx
scala
scala 惰性赋值