冰冻三尺非一日之寒

Iceberg

一个面向海量数据分析场景的开放表格式（table format）

背景数据湖是一个集中式存储库，可存储任意规模结构化和非结构化数据，支持大数据和AI计算。数据湖构建服务（Data Lake Formation,DLF）作为云原生数据湖架构核心组成部分，帮助用户简单快速地构建云原生数据湖解决方案。数据湖构建提供湖上元数据统一管理、企业级权限控制，并无缝对接多种计算引擎，打破数据孤岛，洞察业务价值。数据孤岛分为物理性和逻辑性两种。物理性的数据孤岛指的是，...

Posted by 果然 on May 11, 2022

Flink 容错机制

Flink 之checkpoint 和savepoint的区别

flink：容错机制一致性检查点（checkpoints） flink 故障恢复机制的核心，就是应用状态的一致性检查点。有状态流应用的一致检查点，其实就是所有任务的状态，在某个时间点的一份拷贝（一份快照）；这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候。可以理解为：checkpoint是将state数据定时持久化存储了。检查点实现算法 flink的checkpoint...

Posted by 果然 on May 10, 2022

java 线程与线程池

什么是线程安全和线程不安全线程安全：多个线程在执行同一段代码时采用加锁机制，使每次的执行结果和单线程执行的结果都是一样的，不存在执行结果的二义性。线程不安全：不提供加锁机制保护，有可能出现多个线程先后更改数据造成所得到的的数据是脏数据。 Java中Synchronized的用法解析 synchronized 是java中的关键字，是一种同步锁。它修饰的对象有以下几种：修饰一个**...

Posted by 果然 on May 7, 2022

java 内存模型

JVM 内存结构和java内存模型

在java开发中，经常被问到：JVM和java内存模型等问题。还可能会碰到OOM和StackOverflowError等错误。本篇对JVM内存结构和java内存模型知识进行简单汇总。 JVM内存结构和Java内存模型 JVM 的内存结构大概分为：堆（heap）：线程共享。所有对象实例及数组都要在堆上分配。回收器管理的对象。方法区（Method Area）：线程共享。存储...

Posted by 果然 on May 6, 2022

hive 表操作

hive 数据分析

本文主要讲述数据写入hive表。主要有三种方法： Insert…Values Insert…Select Load 前期准备：已有gmall.dwd_ad_log表，且该表为分区表，dt日期为分区。鉴于此，我们在创建表时，需要再额外添加一个字段。 show create table dwd_ad_log show partitions dwd_ad_log 建库与建表 ...

Posted by 果然 on April 13, 2022

spark的二进制原始数据解析方法

spark实现大量数据的快速解析并写入hive表

原始数据为二进制数据，存储在本地MySQL5.7中，欲拿来进行数据分析需要提前进行解析。鉴于数据量较大，因此使用spark的解析方法。申请资源：50cores 300G spark连接MySQL解析测试首先，连接单张表进行测试： spark.read.format("jdbc") .option("url","jdbc:mysql://localhost:3306/db?useSSL...

Posted by 果然 on April 8, 2022

Java 设计模式之单例模式

Java 设计模式之单例模式概述 Java Singleton 模式的定义就是确保某一个类 class 只有一个实例，并且提供一个全局访问点。属于设计模式三大类中的创建型模式。典型特点：只有一个实例自我实例化提供全局访问点优缺点优点：由于单例模式只生成了一个实例，所以能够节约系统资源，减少性能开销，提高系统效率，同时能够严格控制客户对它的访问缺点：...

Posted by 果然 on January 6, 2022

scala 惰性赋值

scala 惰性赋值：lazy的使用 scala 里面的 lazy 一般是一个关键字，多用于放在一个变量的前面，表示这个变量是一个惰性变量。在scala中，使用 lazy 关键字来实现延迟执行，如果使用了 lazy 定义某个变量，则这个变量只有在被使用时才会被执行初始化。 // 演示代码1 object lazyinitval{ def init():Int = { prin...

Posted by 果然 on January 6, 2022

nginx

正向代理与反向代理正向代理中，proxy和client同属一个LAN，对server透明。如：由于防火墙的原因，借助VPN访问谷歌。正向代理“代理”的是客户端，而且客户端是知道目标的，而目标是不知道客户端是通过VPN访问的。反向代理中，proxy和server同属一个LAN，对client透明。如：外网访问百度时，其实会进行一个转发，代理到内网去，即反向代理“代理”的是服...

Posted by 果然 on January 5, 2022

hue 提交 spark 读取hdfs数据显示为空

申请了大数据中心资源后，拟定使用计算引擎：spark。首先，使用spark读取hdfs数据，出现错误： DFSClient: Failed to connect to /192.168.137.2:50010 for block, add to deadNodes and continue. java.net.ConnectException: Connection timed out...

Posted by 果然 on January 4, 2022

学习记录