Flink Weekly | 每周社区动态更新

2020-07-01 00:00:00 用户 社区 进行了 发起 讨论

大家好,本文为 Flink Weekly 的第十五期,由张成整理,李本超 Review。本期主要内容包括:近期社区开发进展、邮件问题答疑、Flink 新社区动态及技术文章推荐等。



Flink 开发进展


1.Release

■ [releases] 李钰发起了 Flink 1.10.1 RC #3 的投票,投票已经通过,新动态请参考如下链接。

[1]apache-flink-mailing-list-archive.1008284.n3.nabble.com

■ [releases] Tzu-Li 发起了 Flink Stateful Functions Release 2.0.0 RC #4 的投票,经过讨论后决定将会在新开一个 RC。

[2]apache-flink-mailing-list-archive.1008284.n3.nabble.com


2.DEV


■ 阿里巴巴已经在 flink-packages.org 上发布了 SpillableHeapStateBackend 的预览版。该状态后端在 FLINK-12692 中贡献给 Apache Flink。SpillableHeapStateBackend 是一个基于 Java 堆的Statebackend(如 FilesystemStatebackend ),在堆耗尽之前将冷的状态溢出到磁盘。

[3]flink-packages.org/pack

3.FLIP


■ [FLIP-108] Yangze Guo 发起了有关类加载器和依赖项问题的讨论。问题是 mainClassLoader 无法识别 ExternalResourceInfo 的子类。ExternalResourceInfo 位于 ExternalResourceDriver jar 中,并通过 PluginManager 与 mainClassLoader 隔离。因此,程序会抛出 ClassNotFoundExeption 异常。Yangze Guo 提出了如下 3 个备选方案,大家在讨论中认为第 3 个方案比较好。Yangze Guo 发起了使用第 3 个方案修改 API 的投票,投票终获得通过。

  • 备选方案1:


不使用插件机制,只需将驱动程序加载到 mainClassLoader。缺点是用户需要处理依赖冲突。

  • 备选方案2:


强制要求用户构建两个单独的 jar,分别用于 ExternalResourceDriver 和 ExternalResourceInfo。然后把包含 ExternalResourceInfo 类的 jar 添加到“ / lib”目录。这种方法可能有效,但可能会使用户厌烦。

  • 备选方案3:


修改 RuntimeContext#getExternalResourceInfos 方法,让其返回 ExternalResourceInfo,同时在 ExternalResourceInfo 接口增加一个类似 “Properties getInfo()” 的方法。该方法的返回值可以由驱动程序提供者和用户指定。

[4]apache-flink-mailing-list-archive.1008284.n3.nabble.com[5]apache-flink-mailing-list-archive.1008284.n3.nabble.com[6]apache-flink-mailing-list-archive.1008284.n3.nabble.com


4.Discuss


■ [docker] Ismaël Mejía 发起的是否可以在 Flink 正式 release 之外发布 docker 镜像的讨论有了新的更新。

[7]apache-flink-mailing-list-archive.1008284.n3.nabble.com

■ [udf/udaf] Leerho 发起了关于 Flink 集成 DataSketches 的讨论。Arvid Heise 建议先放在 flink-package 中。

[8]flink-packages.org/[9]apache-flink-mailing-list-archive.1008284.n3.nabble.com

■ [connector] 李劲松发起了在 TableFactory 中引入 StatefulSequenceSource 的讨论。StatefulSequenceSource 能够方便用户更简单的进行 Flink SQL 测试。

[10]apache-flink-mailing-list-archive.1008284.n3.nabble.com

■ [connector] Leonard Xu 发起了重构 Flink JDBC Connector 的讨论。Leonard Xu 介绍,在重构之后,我们可以很容易地为表和数据流引入统一的可插拔 JDBC 方言,并且我们可以有更好的模块组织和实现。目前大家已经达成一致,Leonard Xu 已经创建了相关的 Jira。同时 Flink Hbase Connector 也有同样的问题,后续在做的时候会单独进行讨论。

[11]apache-flink-mailing-list-archive.1008284.n3.nabble.com[12]issues.apache.org/jira/[13]issues.apache.org/jira/

■ [configuration] Timo 发起了讨论如何在属性( Flink 配置以及 Connector 属性)中表示配置层次结构,以便生成的文件将是有效的 JSON / YAML。

[14]apache-flink-mailing-list-archive.1008284.n3.nabble.com

■ [hadoop] Robert Metzge 发起了讨论增加对 Hadoop 3 的支持,并讨论了是否将通过 flink-shaded-hadoop 的方式支持 Hadoop 3 的问题。

[15]apache-flink-mailing-list-archive.1008284.n3.nabble.com



邮件问题答疑


■ Kcz 在社区提问 Flink 内存设置问题(Metaspace OOM)。李劲松回答 Metaspace OOM 通常是 JVM 加载的类过多导致的。比如增加 slot 数量也会导致加载的类变多。同时,社区已经有些用户反馈 Flink 1.10.0 的默认 metaspace 大小可能不太合理。1.10.1 中会调大这个默认值。用户可以先通过 taskmanager.memory.metaspace.size 调到 256m 试一试。

[16]apache-flink.147419.n8.nabble.com

■ Lucas Wu 想单独设置某些 Flink SQL Job 的并行度,李本超回复目前无法做到这一点。目前 SQL 还不支持对单独的 operator 设置并行度,可以通过 table.exec.resource.default-parallelism 设置全局的并行度。

[17]apache-flink.147419.n8.nabble.com[18]apache-flink-user-mailing-list-archive.2336050.n4.nabble.com[19]apache-flink.147419.n8.nabble.com

■ 王磊在社区提问关于 Flink SQL Retraction 的问题。Michael Ran、李劲松进行了详细的回答。有兴趣的同学可以参考如下链接。

[20]apache-flink.147419.n8.nabble.com

■ Luan Cooper 在社区提问 Sink 表 Append Mode/Upsert Mode 的问题。比如使用 Upsert Mode 写 ElasticSearch 会遇到无法指定 primary key 问题。这个问题社区同学进行了详细的解答。其中 Jark Wu 回复 FLIP-95 和 FLIP-105 后,问题中的 query 就可以原生支持了。FLIP-95 和 FLIP-105 的核心工作就是识别 binlog 中的 update/delete/insert 消息,而不是全当成 append 消息。预计 1.11 能见到这些功能。

[21]apache-flink.147419.n8.nabble.com

■ Hb 遇到了时区相关的问题,李劲松和 Jark Wu 进行了回答。这是一个 bug。Blink 中默认使用了没有时区的 timestamp,而 proctime 目前还是带时区的产生了时间。这个问题已经有对应的Jira。社区会以很高的优先级进行修复。

[22]apache-flink.147419.n8.nabble.com

■ 1193216154 对 Flink watermark 对齐逻辑有些疑问。李本超进行了解答。watermark 就是取各个 input channel 的小值作为当前 subtask 的 watermark 的。同时唐云进行了补充。正是因为取各个 input channel 的小值,所以如果某一个上游一直没有获取到真实数据,发送下来的watermark 一直都是 Long.MIN_VALUE,这样会导致无法触发 window,社区采用 idle source 的方式 walk around 该问题。同时 FLIP-27 也会涉及到 Source 端的 watermark 对齐的相关问题。

[23]apache-flink.147419.n8.nabble.com[24]ci.apache.org/projects/[25]cwiki.apache.org/conflu

■ Lec Ssmi 在社区提问关于 async IO in UDFs 的问题,李本超进行了回复,目前暂不支持。

[26]apache-flink-user-mailing-list-archive.2336050.n4.nabble.com

活动 / 博客文章 / 其他


■ Flink 社区 2020 年首场 Meetup 在线直播免费报名中,来自袋鼠云、网易云音乐、有赞、阿里巴巴的技术四位技术专家将现场分享丰富技术干货。


[27]developer.aliyun.com/li

■ Fabian 在 Ververica 博客上发布了 Flink Foward Virtual 2020 的摘要。

[28]ververica.com/blog/flin

■ Flink Forward Virtual 2020 的所有记录已发布在 Youtube 上。

[29]youtube.com/watch?

■ Marta 在 Flink 博客上的社区更新博客中回顾了过去的几个月。

[30]flink.apache.org/news/2[31]flink.apache.org/news/2[32]meetup.com/Flink-China/[33]meetup.com/futureofdata


2 分钟快速订阅 Flink 中文邮件列表


Apache Flink 中文邮件列表订阅流程:


  1. 发送任意邮件到 user-zh-subscribe@flink.apache.org
  2. 收到官方确认邮件
  3. 回复该邮件 confirm 即可订阅


订阅成功后将收到 Flink 官方的中文邮件列表的消息,您可以向 user-zh@flink.apache.org 发邮件提问也可以帮助别人解答问题,动动手测试一下!


Flink Weekly 周报计划每周更新一期,内容涵盖邮件列表中用户问题的解答、社区开发和提议的进展、社区新闻以及其他活动、博客文章等,欢迎持续关注。


Tips:点击「阅读原文」查看本期 weekly 详情,扩展阅读链接可直接跳转~

qr.dingtalk.com/action/<br>weixin.qq.com/r/_y7l-d- (二维码自动识别)

作者介绍:


张成,小红书技术部基础平台开发工程师,目前主要在做基于 Flink 的实时计算平台开发。




# 社区推荐 #


5月16日,2020 首场 Meetup 重磅上线。一如既往,本次 Meetup 邀请了来自袋鼠云、网易云音乐、有赞及阿里巴巴的四位技术专家为您现场直播,让您足不出户,有直播看、有干货学、有奖品拿



相关文章