kudu

由cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力

Posted by 果然 on December 30, 2021

Apache kudu

kudu是由cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。支持水平扩展,使用Raft协议进行一致性保证,并与cloudera impala和Apache spark等当前流行的大数据查询和分析工具结合紧密。 实时性和完整性兼得,使用 kudu 和 impala 实现透明的分层存储管理。

滑动窗口协议,属于TCP协议的一种应用,用于网络数据传输时的流量控制,以避免拥塞的发生。
滑动窗口本质上是描述接受方的TCP数据报缓冲区大小的数据,发送方根据这个数据来计算自己最多能发送多长的数据。

step1:把kudu数据拷贝到HDFS,此时因为 time属性没变,所以 HDFS 上新增的 range数据扫描不到。
step2:修改view,使其包含HDFS增加新的分区,不包含kudu旧的分区,那么这部分数据的扫描就切换到HDFS了。
step3:增、删kudu分区

参考的一些链接

  1. 实时性和完整性兼得,使用 Kudu 和 Impala 实现透明的分层存储管理
  2. 使用Apache Kudu和Impala实现存储分层
  3. 一文读懂 Apache Kudu