zhizhesoft

  • 首页
Flink
Flink

Flink从入门到精通(一) - 简介

1. 什么是Flink? 官网的定义如下: Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed an…

2022年8月1日 0条评论 38点热度 0人点赞 risingsun 阅读全文
Flink

Flink从入门到精通(二) - 安装和部署

1. 本地模式   建议环境:Linux: CentOS 6.x版本(笔者用的是macOS Catalina)JDK: 8以上版本(需要配置好JAVA_HOME)(笔者用的是JDK14)   1-1) 从官网下载Flink安装包 笔者使用的是flink-1.10.1-bin-scala_2.12.tgz 解压安装包,拷贝到/usr/local目录下 1-2) 配置bash脚本 编辑bash配置文件: (Mac) vi ~/.bash_profile (CentOS) vi /etc/profile 添加FLINK_…

2022年8月1日 0条评论 27点热度 0人点赞 risingsun 阅读全文
BigData

大数据基础之Flink(1)简介、安装、使用

 Flink 1.7 官方:https://flink.apache.org/   一 简介   Apache Flink is an open source platform for distributed stream and batch data processing. Flink’s core is a streaming dataflow engine that provides data distribution, communication, and fault tolerance for distr…

2022年7月29日 0条评论 28点热度 0人点赞 risingsun 阅读全文
Flink

Apache Flink 1.12.0 正式发布,DataSet API 将被弃用,真正的流批一体

Apache Flink 1.12.0 正式发布 Apache Flink 社区很荣幸地宣布 Flink 1.12.0 版本正式发布!近 300 位贡献者参与了 Flink 1.12.0 的开发,提交了超过 1000 多个修复或优化。这些修改极大地提高了 Flink 的可用性,并且简化(且统一)了 Flink 的整个 API 栈。其中一些比较重要的修改包括: 在 DataStream API 上添加了高效的批执行模式的支持。这是批处理和流处理实现真正统一的运行时的一个重要里程碑。 实现了基于Kubernetes的高…

2022年7月23日 0条评论 50点热度 0人点赞 risingsun 阅读全文
Flink

Flink 集群安装部署

环境准备 CentOS:7.0 JDK:1.8 Flink 集群:node-01(Master)、node-02(Slave)、node-03(Slave) 安装与配置 SFTP 上传 Flink 安装包并解压 [[email protected] ~]# tar -zxvf flink-1.9.0-bin-scala_2.11.tgz -C apps/ [[email protected] ~]# rm -rf flink-1.9.0-bin-scala_2.11.tgz 配置运行环境变量 [[email protected] ~]# cd …

2022年7月22日 0条评论 26点热度 0人点赞 risingsun 阅读全文
Flink

Flink sql 之 AsyncIO与LookupJoin的几个疑问 (源码分析)

本文源码基于flink 1.14 被同事问到几个关于AsyncIO和lookUp维表的问题所以翻了下源码,从源码的角度解惑这几个问题 对于AsyncIO不了解的可以看看之前写的这篇  《Flink中异步AsyncIO的实现 (源码分析)》   问题一:AsyncIO 有(排序 / 非排序) 模式,非排序模式数据会乱序,那水印waterMarker会乱序吗 ??? 不想看源码的先直接给出答案 :不会乱序,接收到水印数据后非排序模式会,直接往下游发送waterMarker   问题二:LookUp维表join分为同步和…

2022年7月14日 0条评论 40点热度 0人点赞 risingsun 阅读全文
Flink

Flink的Job启动JobManager端(源码分析)

通过前面的文章了解到 Driver将用户代码转换成streamGraph再转换成Jobgraph后向Jobmanager端提交 JobManager启动以后会在Dispatcher.java起来RPC方法submitJob(jobGraph),用于接收来自Driver转化得到的JobGraph来启动任务 具体来看jobGraph提交到JobManager的submitJob方法 前面都是一些调用链没有什么好讲的,最后到createJobManager( )方法这里 先看一下1,创建了一个jobmanagerRunn…

2022年7月14日 0条评论 20点热度 0人点赞 risingsun 阅读全文
Flink

Flink sql 之 微批处理与MiniBatchIntervalInferRule (源码分析)

本文源码基于flink1.14 平台用户在使用我们的flinkSql时经常会开启minaBatch来优化状态读写 所以从源码的角度具体解读一下miniBatch的原理 先看一下flinksql是如何触发miniBatch的优化的  主要就是这个Calcite的rule了,来具体看一下 在对应的match方法中   会根据miniBatch的类型判断,是否需要添加一个Assigner的节点  这个assigner是干嘛的呢?这个Assinger是一个execNode和窗口的assigner是不一样的,这里主要是为了发…

2022年7月14日 0条评论 20点热度 0人点赞 risingsun 阅读全文
Flink

Flink中Periodic水印和Punctuated水印实现原理(源码分析)

在用户代码中,我们设置生成水印和事件时间的方法assignTimestampsAndWatermarks()中这里有个方法的重载 我们传入的对象分为两种 AssignerWithPunctuatedWatermarks(可以理解为每条数据都会产生水印,如果不想产生水印,返回一个null的水印) AssignerWithPeriodicWatermarks(周期性的生成水印) 来看一下源码中是如何实现这两种水印的 二话不说打开org.apache.flink.streaming.runtime.operators.T…

2022年7月14日 0条评论 27点热度 0人点赞 risingsun 阅读全文
Flink

Flink sql 之 两阶段聚合与 TwoStageOptimizedAggregateRule(源码分析)

本文源码基于flink1.14 上一篇文章分析了《flink的minibatch微批处理》的源码 乘热打铁分析一下两阶段聚合的源码,因为使用两阶段要先开启minibatch,至于为什么后面会分析到 两阶段聚合的原理,还是简单提一下 如下图,当聚合发生热点的时候,可以在聚合前,先进行一个本地的聚合,先减小数据量,后接正常的数据交换以后聚合,来达到一个解热点的目的, 先来看下两阶段聚合的Calcite优化rule  看下什么情况会匹配上 并且在onmatch方法中会判断开启了minibatch,以及二阶段聚合的时候会调…

2022年7月14日 0条评论 24点热度 0人点赞 risingsun 阅读全文
12345…53
Search

COPYRIGHT © 2022 zhizhesoft. ALL RIGHTS RESERVED.