flink的基础介绍
Flink 学习资料
- 官方文档 :https://flink.apache.org
- Flink 中文社区视频课程:https://github.com/flink-china/flink-training-course
- Flink 中文社区 :https://www.slidestalk.com/FlinkChina
- ververica 教程 :https://training.ververica.com/
- ververica 教程中文文档:https://ci.apache.org/projects/flink/flink-docs-master/zh/
- 源码:https://github.com/apache/flink
- Flink 知识图谱:https://ververica.cn/developers/special-issue/
章 flink介绍
1.1 flink发展历程
2008,柏林理工大学一个研究性项目Stratosphere,Next Generation Big Data Analytics Platform(目标是建立下一代大数据分析引擎); 2014-04-16,Stratosphere成为Apache孵化项目,从Stratosphere 0.6开始,正式更名为Flink。由Java语言编写; 2014-08-26,Flink 0.6发布; 2014-11-04,Flink 0.7.0发布,介绍了重要的特性:Streaming API; 2016-03-08,Flink 1.0.0,支持Scala; 2016-08-08,Flink 1.1.0; 2017-02-06,Flink 1.2.0; 2017-11-29,Flink 1.4.0; 2018-05-25,Flink 1.5.0; 2018-08-08,Flink 1.6.0; 2018-11-30,Flink 1.7.0; 2019-02-15,Flink 1.7.2; 2019-04-09,Flink 1.8.0; 2019-07-10,Flink 1.8.1; 2019-09-12,Flink 1.8.2; 2019-08-22,Flink 1.9.0; 2019-10-18,Flink 1.9.1; 2020-02-11,Flink 1.10.0; 2020-05-08(昨天),Flink 1.10.1-rc3; 2019年初,阿里收购flink产品所属公;不久必然会升级到2.x。
老版本架构图:
1.2 Flink定义
Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any scale.
Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。
1.3 为什么选择flink
- 流式数据更为真实地反映了我们的生活方式
- 传统的数据架构是基于有限数据集
- 流批计算融合
- 基于事件进行纯实时计算(连续事件处理)
- 一款的实时流计算框架,应该满足: 低延迟 高吞吐 结果的准确性和良好的容错性
1.4 flink应用行业和场景
1.4.1 应用行业
电商和市场营销 数据报表、广告投放、业务流程需要
物联网 传感器实时数据采集和显示、显示报警、交通运输业
电信业 基站流量调配
银行和金融业 实时结算和通知推送,实时检测异常行为
1.4.2 应用场景
flink也常用于离线和实时数仓中!!!
首先我们来看看数仓架构演变(借用阿里云数仓架构)。演变如下图:
离线数仓架构:
Lambda架构:实时和离线计算融于一体。
Kappa架构:Lambda架构的简化版本,去掉其离线部分。
flink认为批次也是实时的特例!!!
相关文章