news 2026/4/16 14:08:23

可观测性实战:快速定位 K8s 应用的时延瓶颈

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
可观测性实战:快速定位 K8s 应用的时延瓶颈

摘要:本文分享了某物流公司使用DeepFlow平台快速定位Nginx网关时延瓶颈的实战案例。该公司发现特定域名在夜间持续出现1秒超时,传统APM追踪和监控数据均无法定位根因。通过DeepFlow的零侵扰调用日志,分析人员迅速排除了业务响应慢和网络延迟的可能性,将问题锁定在Nginx自身。进一步分析确认,瓶颈源于Nginx配置中使用HTTP/1.0协议。将其升级为HTTP/1.1后,超时问题立即消失。本案例突显了DeepFlow基于eBPF的全链路、多协议观测能力在复杂环境中快速、精准定位故障的价值。

关键词:DeepFlow、Nginx、可观测性、故障排查、时延瓶颈、零侵扰、物流行业

本文为云杉网络原力释放 - 云原生可观测性分享会第十七期直播实录中的【可观测性实战系列】“实战案例其一·物流行业篇”。回看链接[1]PPT下载[2]

一、背景介绍

本次案例为某物流公司在今年 4 月份左右,SRE 通过监控 Nginx 日志,发现一个域名在每天晚上 12 点后存在大量持续 1s 的超时情况,这个问题困扰了用户近一个月。通过查看 DeepFlow 的调用日志,立即排除了业务响应慢的可能性,最终发现问题是 Nginx 自身配置问题导致的。这个案例展示了如何快速的定位 7 层网关时延瓶颈点。

01-nginx_access_log

问题持续排查了近一个月,问题的阻塞点如下:

  • 服务之间的访问关系复杂,插码(APM)形式追踪断路严重,无法直接确定瓶颈点所在位置
    • 服务跨集群部署
    • 部分服务内部通信即需要过 Nginx,又需要走 Ingress
    • 服务通信涉及多协议,既有 HTTP 又有 Dubbo
02-topology
  • 现有监控数据除 Nginx 日志超时以外,无任何异常情况,问题推进无头绪
    • 业务日志无 Error
    • Nginx 其他业务无 Error、无超时
    • Ingress 日志无 Error、无超时
    • 业务实例基础指标无毛刺
    • Ingress 监控指标无毛刺
    • Nginx 监控指标无毛刺

SRE 偶尔一次与 DeepFlow 社区沟通过程中说到此问题,社区推荐使用 Request Log 试试,应该能快速回答瓶颈点在哪里,在此之前 DeepFlow 开源版已经在逐步覆盖的过程中,正好存在响应慢的业务被 DeepFlow 覆盖了,接下分享下借助 DeepFlow 排障的整个过程。

二、排障过程

step 1:利用调用日志(Request Log),输入 url (request_resource 字段)确定超时情况存在。从趋势图可知,与 Nginx 日志反馈的情况一致

03-request_log

step 2: 聚焦一个时间段,利用调用日志的客户端/服务端,分析上下游

首先,利用调用日志的客户端作为服务端,追踪上游服务是否存在影响,可发现上游服务的时延在增加,因此可分析出来,上游服务时延的增加是由当前服务造成的,需要继续聚焦分析当前服务及下游服务是否存在瓶颈。

04-request_log_client

假设目前分析服务svc_a访问 Nginx 这一段的调用情况,将刚刚分析的数据绘制为拓扑图来看,将svc_a作为服务端,查看访问svc_a的客户端svc_b这条路径的延迟情况,结果显示延迟达到了1.5秒。因此,我们可以得出结论,目前的延迟问题很可能是由 Nginx 或者 Nginx 下游的服务引起的

05-topology_client

接下来利用调用日志的服务端作为客户端,去不停迭代追踪下游服务,可发现 Nginx 往下的服务响应都非常快,基本为 25ms 左右的时延,因此可以锁定时延瓶颈是 Nginx 造成的

06-request_log_server
07-topology_server

step 3:追踪某次调用的网络流日志,确定网络是否存在时延瓶颈。从图中可以看出来,网络上的建连时延和系统时延都不高,因此可以确定与网络无关,仅看 Nginx 自身问题即可

08-flow_log

step 4:追踪问题根因

接下来转交给了 Nginx 运维同学来继续定位,最后通过修改 Nginx 配置,将此业务的 HTTP 协议从 1.0 改为 1.1 后,1s 时延问题消失

三、问题总结

问:为什么 Nginx 中配置的 HTTP 协议从 1.0 改为 1.1 时延就消失了?因为笔者和运维同学都未对 HTTP 协议有特别深入的了解,以下为 ChatGPT 的回复,供大家参考。

HTTP 1.1 相较于 HTTP 1.0,引入了多个性能优化方面的改进,包括: 1. 持久连接:HTTP 1.1 支持在同一个TCP连接上发送多个HTTP请求和响应,减少了连接的建立和关闭次数,提高了性能和效率。 2. 流水线传输:HTTP 1.1 可以同时发送多个请求,而无需等待每个请求的响应返回,降低了网络通信的延迟,加快了数据传输速度。 3. 分块传输编码(Chunked Transfer Encoding):HTTP 1.1 可以将响应消息分成多个块进行传输和接收,提供了更快的响应时间,特别适用于大型或动态生成的内容传输。 4. 请求管线化(Request pipelining):在不等待响应返回的情况下,连续发送多个请求,减少了等待时间和网络延迟,提高了效率。 5. 缓存控制:HTTP 1.1 引入了更丰富的缓存控制机制,例如ETag、Cache-Control头部字段等,可以实现更精确的缓存控制,减少了对服务器的请求,提高了性能。 这些性能优化的改进使得HTTP 1.1相较于HTTP 1.0具有更好的性能和效率,提供了更快速、可靠的数据传输和网络通信。

问:DeepFlow 在整个案例的价值点是什么

  • 利用零插桩的调用日志(Request Log),分钟级锁定时延瓶颈点
  • 利用零插桩的流日志(Flow Log),分钟级确定非网络时延瓶颈
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/5 16:05:05

Python毕设选题推荐:python基于协同过滤算法的理财产品推荐系统基于python的协同过滤理财产品套餐推荐系统设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/16 11:01:53

程序员必看:27个大模型应用场景详解与实战指南(值得收藏)

本文系统介绍27个AI大模型应用场景,涵盖自动结构化数据、文档智能比对、内容合规审核、人岗匹配、文本处理、图像识别等多元化领域,并提供企业级私域GPT、RAG知识库、AI Agent等大模型服务,以及AI在警务、政务、医疗、教育等行业的定制化开发…

作者头像 李华
网站建设 2026/4/13 12:15:03

大模型RAG性能提升的关键:一文吃透8种文本分块策略(小白进阶必读)

本文深入解析了RAG系统中决定性能的关键环节——文本分块。文章阐述了分块的三大核心原则(语义连贯、上下文完整、计算效率),并详细对比了从基础的固定尺寸分块到进阶的语义、递归、滑动窗口,再到前沿的智能体驱动分块等8种主流策…

作者头像 李华
网站建设 2026/4/8 20:29:29

IO编程相关知识

一.IO概念1.一切皆是文件1)b:block,块设备文件,按快扫描信息的文件,磁盘按快扫描设备信息2)c:character,字符设备文件,屏幕、键盘、鼠标按字符扫描设备信息3)…

作者头像 李华