Flink1.19源码剖析课程-flink源码课程2024

kuaidelasi · · 416 次点击 · 开始浏览置顶

这是一个创建于的主题，其中的信息可能已经有所发展或是发生改变。

一、Flink SQL Gateway概述（/s/1wpgRUxmQXOp46GoyitZ21w 提取码: p2sm） Flink Sql Gateway是Flink集群的“任务网关”，支持以rest api的形式提交查询、插入、删除等任务。 Sql Gateway其实内部说白了就是一个SessionManager会话管理器以及一个SqlGatewayEndpoint网络服务器。其中SqlGatewayEndpoint是基于runtime.rest.RestServerEndpoint实现的Netty服务器，通过统一的架构设计，实现了多种handler，如创建会话、提交任务、任务状态查询、任务取消、拉取数据等。所有handler使用公用的SessionManager进行会话管理。SessionManager中维护了一个sessionId和Session的Map，考虑到并发问题，底层采用ConcurrentHashMap作为并发存储。二、Flink chcekpoint作为flink中最重要的部分，是flink精准一次性的重要保证，可以这么说flink之所以这么成功和她的checkpoint机制是离不开的。之前大概学习了一下flink的checkpoint源码，但是还是有点晕乎乎的，甚至有点不理解我们作业中设置的checkpoint配置flink是如何读取到的，并且他是如何往下传播的。 flink的图结构在Yarn模式下不使用StreamGraph，而是用OptimizedPlan生成JobGraph。StreamGraph适用于其他情况，比如本地执行。 flink的图结构主要有JobGraph和ExecutionGraph。 JobGraph JobGraph表示一个被 JobManager 接收的底层的Flink dataflow program。所有上层API代码都会转化为JobGraphs。抽象来说，JobGraph是一张由 vertices 和 intermediate results 组成的DAG图。现在 iterations (feedback edges)已经不会被编译到 JobGraph 了，而是去到了一些建立了反馈管道的 vertices 中。JobGraph规定了 job 层面上的配置，而其所包含的 vertex 和 intermediate result 定义了具体算子的特征和中间结果。 ExecutionGraph 协调数据流的分布式执行的核心数据结构。它保持每个并行任务，每个中间流以及它们之间的通信的表示。它主要由以下三个部分组成： ExecutionJobVertex：对应 JobGraph 的 vertex，通常是一个算子，如map、join。它持有一组并行子任务的聚合状态aggregated state。由 JobVertex 确定。 ExecutionVertex：表示一组并行任务中的其中一个子任务。数量由并行度而定。由 ExecutionJobVertex 和 Execution：执行 ExecutionVertex ，一个 ExecutionVertex 可能有多个 Execution 来应对失败或重新计算。由 ExecutionAttemptID 确定。JM 和 TM 之间关于 task 的部署和更新都是根据 ExecutionAttemptID 来通知。 operator算子：一般operator的操作是通过反射获取所传入的function的返回对象，通过transform创建经过该function处理后得到的流实例。在返回生成的流实例之前，flink还会对转换进行登记，即.addOperator(resultTransform)。

有疑问加站长微信联系（非本文作者）