学习记录

Home
Resources
Blog
About

Blog

keep hungry keep foolish

大数据组件技术选型学习资料 IDEA 实战训练 hue Java mkdocs shell 命令杂记 mysql 大数据问题型记录 nginx scala

大数据组件技术选型

spark相关

flink

Apache 开源的流处理引擎

数据库连接池

负责分配、管理和释放数据库连接

sparkstreaming 之foreachRDD

spark 持久化

通过持久化存储，提升spark应用性能，以更好地满足实际需求。

redis

一个高性能的key-value非关系型数据库

scala 异常（Exception）/throws关键字

spark - select where or filtering? withColumn

用于过滤/用于添加新字段、字段重命名、修改字段类型

spark 中的 dataframe 和 dataset

sparkSQL 中的两种数据类型

docker-compose

一个用来定义和运行复杂应用的docker工具。

Iceberg

一个面向海量数据分析场景的开放表格式（table format）

Flink 容错机制

Flink 之checkpoint 和savepoint的区别

hive 表操作

hive 数据分析

spark的二进制原始数据解析方法

spark实现大量数据的快速解析并写入hive表

kudu

由cloudera开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力

zookeeper

分布式应用程序协调服务

sqoop

用于在hadoop(hive)与传统数据库间进行数据传递

spark

专为大规模数据处理而设计的快速通用的计算引擎

kafka

一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据

impala

新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据

hive

基于hadoop的一个数据仓库工具

hbase

分布式的、面向列的开源数据库

hadoop

分布式系统基础架构

flume

Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统

docker

是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows操作系统的机器上，也可以实现虚拟化

数据仓库

是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合

CDH

Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建

CDH

Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建

CDH

Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建

学习资料

这是一个测试文件

测试创建blog

IDEA

IDEA

IDEA 开发的 spark + maven 项目

实战训练

datawarehouse-practice2

github 数仓实战

datawarehouse-practice

github 数仓实战

hue

hue

大数据交互平台

Java

java 线程与线程池

java 内存模型

JVM 内存结构和java内存模型

Java 设计模式之单例模式

HashMap 和 TreeMap 的本质区别

mkdocs

mkdocs-practics

快速、简单、华丽的静态网站生成器,适用于构建项目文档

mkdocs

快速、简单、华丽的静态网站生成器,适用于构建项目文档

shell 命令

linux shell 命令

杂记

杂记1

mysql

mysql 隔离级别

大数据问题型记录

hue 提交 spark 读取hdfs数据显示为空

nginx

nginx

scala

scala 惰性赋值

Copyright © 学习记录 2022
Theme on GitHub |