学习记录

好记性不如烂笔头

Iceberg

一个面向海量数据分析场景的开放表格式(table format)

背景 数据湖是一个集中式存储库,可存储任意规模结构化和非结构化数据,支持大数据和AI计算。数据湖构建服务(Data Lake Formation,DLF)作为云原生数据湖架构核心组成部分,帮助用户简单快速地构建云原生数据湖解决方案。数据湖构建提供湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。 数据孤岛分为物理性和逻辑性两种。物理性的数据孤岛指的是,...

Flink 容错机制

Flink 之checkpoint 和savepoint的区别

flink:容错机制 一致性检查点(checkpoints) flink 故障恢复机制的核心,就是应用状态的一致性检查点。 有状态流应用的一致检查点,其实就是所有任务的状态,在某个时间点的一份拷贝(一份快照);这个时间点,应该是所有任务都恰好处理完一个相同的输入数据的时候。 可以理解为:checkpoint是将state数据定时持久化存储了。 检查点实现算法 flink的checkpoint...

java 线程与线程池

什么是线程安全和线程不安全 线程安全:多个线程在执行同一段代码时采用加锁机制,使每次的执行结果和单线程执行的结果都是一样的,不存在执行结果的二义性。 线程不安全:不提供加锁机制保护,有可能出现多个线程先后更改数据造成所得到的的数据是脏数据。 Java中Synchronized的用法解析 synchronized 是java中的关键字,是一种同步锁。它修饰的对象有以下几种: 修饰一个**...

java 内存模型

JVM 内存结构和java内存模型

在java开发中,经常被问到:JVM和java内存模型等问题。还可能会碰到OOM和StackOverflowError等错误。本篇对JVM内存结构和java内存模型知识进行简单汇总。 JVM内存结构和Java内存模型 JVM 的内存结构大概分为: 堆(heap):线程共享。所有对象实例及数组都要在堆上分配。回收器管理的对象。 方法区(Method Area):线程共享。存储...

hive 表操作

hive 数据分析

本文主要讲述数据写入hive表。主要有三种方法: Insert…Values Insert…Select Load 前期准备:已有gmall.dwd_ad_log表,且该表为分区表,dt日期为分区。 鉴于此,我们在创建表时,需要再额外添加一个字段。 show create table dwd_ad_log show partitions dwd_ad_log 建库与建表 ...

spark的二进制原始数据解析方法

spark实现大量数据的快速解析并写入hive表

原始数据为二进制数据,存储在本地MySQL5.7中,欲拿来进行数据分析需要提前进行解析。鉴于数据量较大,因此使用spark的解析方法。 申请资源:50cores 300G spark连接MySQL解析测试 首先,连接单张表进行测试: spark.read.format("jdbc") .option("url","jdbc:mysql://localhost:3306/db?useSSL...

Java 设计模式之单例模式

Java 设计模式之单例模式 概述 Java Singleton 模式的定义就是确保某一个类 class 只有一个实例,并且提供一个全局访问点。属于设计模式三大类中的创建型模式。 典型特点: 只有一个实例 自我实例化 提供全局访问点 优缺点 优点:由于单例模式只生成了一个实例,所以能够节约系统资源,减少性能开销,提高系统效率,同时能够严格控制客户对它的访问 缺点:...

scala 惰性赋值

scala 惰性赋值:lazy的使用 scala 里面的 lazy 一般是一个关键字,多用于放在一个变量的前面,表示这个变量是一个惰性变量。 在scala中,使用 lazy 关键字来实现延迟执行,如果使用了 lazy 定义某个变量,则这个变量只有在被使用时才会被执行初始化。 // 演示代码1 object lazyinitval{ def init():Int = { prin...

nginx

正向代理与反向代理 正向代理中,proxy和client同属一个LAN,对server透明。 如:由于防火墙的原因,借助VPN访问谷歌。正向代理“代理”的是客户端,而且客户端是知道目标的,而目标是不知道客户端是通过VPN访问的。 反向代理中,proxy和server同属一个LAN,对client透明。 如:外网访问百度时,其实会进行一个转发,代理到内网去,即反向代理“代理”的是服...

hue 提交 spark 读取hdfs数据显示为空

申请了大数据中心资源后,拟定使用计算引擎:spark。首先,使用spark读取hdfs数据,出现错误: DFSClient: Failed to connect to /192.168.137.2:50010 for block, add to deadNodes and continue. java.net.ConnectException: Connection timed out...