news 2026/6/10 21:18:43

记一次flink任务因sink表被锁住而引发的flink雪崩问题

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
记一次flink任务因sink表被锁住而引发的flink雪崩问题

前段线上用户频繁反馈,flink任务运行一段时间就失败了。然后查看flink UI管理界面,发现整个taskmanager都挂了

问题分析

收集了用户flink日志,主要是taskmanager日志

image

发现非内存因素OOM的,而是自主退出的。

关键因素由于取消任务超时180s引起的,taskmanager误判服务异常,自主退出

接着跟踪日志,找到经过多次重试,尝试恢复任务的地方

第一次重试

image

第二次重试,刚好间隔60s

image

总共重试3次了。超过180s

taskmanager打印退出日志

排查到根因是因为mysql业务操作引起的sink表被锁住导致无法写入。

接着排查60s时间,询问客户发现配置的数据源的socketTimeout为60s,对于实时场景,该超时时间过大了。

解决方案

业务层面,告知用户flink实时任务,尽量保证链路的纯粹,不要因为类似操作影响实时性。

flink层面:默认180s取消任务超时时间适当调大一些,task.cancellation.timeout

数据源层面: socket超时时间,不要过长,不然容易引起任务线程IO阻塞等待过大,无法及时响应一些内部状态变更,从而引发雪崩。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 19:41:45

C#运动控制框架实战:一套代码玩转多家控制卡

C# 运动控制系统。 雷赛运动控制卡控制系统。 像高川控制卡、高川控制器、或者固高运动控制卡以及正运动控制器、正运动控制卡可以用这个框架,自己替换一下库文件等代码就可以。 功能丰富,注释多,非常适合新手学习,也可以做框架。…

作者头像 李华
网站建设 2026/6/10 14:05:15

企业级MySQL迁移中的大小写敏感问题实战

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个MySQL数据库迁移案例模拟器,展示当源服务器(lower_case_table_names0)迁移到目标服务器(lower_case_table_names1)时可能出现的问题。模拟器应包含:…

作者头像 李华
网站建设 2026/6/10 19:02:38

前端新手必学:5分钟搞懂防抖和节流

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个交互式学习教程,通过以下方式解释防抖和节流:1. 用电梯和自动门的生活化比喻;2. 可视化时间轴展示函数执行过程;3. 可调节参…

作者头像 李华
网站建设 2026/6/10 20:26:06

企业级Python包打包发布实战指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个企业级Python工具包的打包配置,要求:1. 支持版本号自动管理(通过git tag);2. 包含单元测试和覆盖率检查的集成&a…

作者头像 李华
网站建设 2026/6/10 17:55:24

把 SAPUI5 支持与维护做成一套可运营体系:面向 SAP Fiori 的长期运维策略全景指南

把 SAPUI5 支持与维护做成一套可运营体系:面向 SAP Fiori 的长期运维策略全景指南 在很多企业里,SAP Fiori 项目上线那一刻,真正的挑战才刚刚开始。原因很现实:前端技术栈的变化速度远快于后端业务逻辑,浏览器升级、操作系统退役、Java Runtime 更新、开发工具链迭代,再…

作者头像 李华
网站建设 2026/6/10 4:35:12

黑客技术零基础怎么学?推荐这些国内优质网络安全论坛网站!

我们学习网络安全,很多学习路线都有提到多逛论坛,阅读他人的技术分析帖,学习其挖洞思路和技巧。但是往往对于初学者来说,不知道去哪里寻找技术分析帖,也不知道网络安全有哪些相关论坛或网站,所以在这里给大…

作者头像 李华