背景:
日常的业务应用中,可能因为应用本身的可靠性问题导致内存泄漏,把机器搞挂,影响服务器中其他业务运行。这篇文档主要是简单介绍下 Linux 内核OOM killer功能,以及我们可以通过sytemd来限制服务的资源使用,避免服务一直去占用内存,导致服务器内存被耗尽。
关于OOM killer
OOM Killer 是 linux 内核在系统内存严重不足时使用的进程。出现这种情况是因为 linux 内核为其进程分配了过多的内存。
当一个进程启动时,它会向内核请求一块内存。这个初始请求通常是一个很大的请求,进程不会立即或实际上永远不会使用所有请求。内核意识到进程请求冗余内存的这种趋势,会过度分配系统内存。这意味着当系统具有例如 2GB 的 RAM 时,内核可能会为进程分配 2.5GB。
通常,这种情况不会导致问题。但是,如果有足够多的进程开始使用它们请求的所有内存块,那么将没有足够的物理内存来支持它们。这意味着正在运行的进程需要比物理可用更多的内存。这种情况很严重,必须立即解决。
linux内核采用的解决方案是调用OOM Killer来检查所有正在运行的进程并杀死其中一个或多个,以释放系统内存并保持系统运行
内核选择要杀死的进程的原则: 找到在短时间内占用大量内存的 进程,这些进程一般都是导致内存泄漏的罪魁祸首。
badness_for_task = total_vm_for_task / (sqrt(cpu_time_in_seconds) * sqrt(sqrt(cpu_time_in_minutes)))可以通过 cat /proc/$PID/oom_score 来查看进程的 score
Out of memory: Kill process 1245 (test4) score 930 or sacrifice child系统上关于OOM相关的一些sysctl配置:
vm.panic_on_oom
oom时重启系统,0 为不重启,1 为重启。部分情况下机器上只跑了一个关键服务,希望oom后重启机器来恢复业务可以设置为重启。 默认为0
vm.panic_on_oom=1vm.oom_dump_tasks
允许内核在oom的时候转储进程信息,pid,vm大小,score分数,进程名称等,默认是允许的。 如果系统上有非常多的进程,这里打开可能会有系统性能损耗。默认为1 。 https://sysctl-explorer.net/vm/oom_dump_tasks/
vm.oom_dump_tasks=1vm.oom_kill_allocating_task
如果将其设置为零,OOM killer 将扫描整个任务列表并根据打分选择要杀死的任务。这通常会选择一个流氓内存占用任务,该任务在被杀死时会释放大量内存。如果将其设置为非零,OOM 杀手只会杀死触发内存不足情况的任务。 默认是0 。 https://sysctl-explorer.net/vm/oom_kill_allocating_task/
vm.oom_kill_allocating_task=0vm.overcommit_memory
https://sysctl-explorer.net/vm/overcommit_memory/
vm.overcommit_memory = 0当此标志为 0 时,内核尝试估计用户空间请求更多内存时剩余的空闲内存量。
当这个标志为 1 时,内核假装总是有足够的内存,直到它实际用完。
当此标志为 2 时,内核使用“从不过度使用”策略来尝试防止任何内存过度使用
默认是0
资源监控
vmstat
sar
systemd/cgroup 资源监控管理
systemd-cgls 指令,根据 cgroup 将运行的进程分组来同时实现两者。 要显示您系统中的全部 cgroup 层级
systemd-cgls
查看 memory 资源管控器的 cgroup 树
systemd-cgls memory
systemd-cgls cpu
systemd-cgls devices
要查看按资源使用量(CPU、内存和 IO)排序的、正在运行的 cgroup 动态描述请使用: systemd-cgtop
slice: 控制组单元配置
以 ".slice" 为后缀的单元文件,用于封装管理一组进程资源占用的控制组的 slice 单元。slice 单元用于包含其他管理进程的单元(一般是 scope 与 service 单元)。 对 slice 单元施加的资源限制,将会作用于此 slice 单元所包含的全部进程的集合。 全部的 slice 单元按照树形层次结构组成一棵资源控制树。 slice 单元的名称由一系列"-"连接的字符串组成,对应着该单元在资源控制树层次结构中的位置。 根 slice 单元的名称固定为 -.slice 。例如, foo-bar.slice 是位于 foo.slice 之下的单元, 而 foo.slice 则位于根 -.slice 之下。
默认情况下,所有 service 与 scope 单元都位于 system.slice 之中
所有由 systemd-logind.service处理的用户会话都位于 user.slice 之中。
使用systemd-run临时创建cgroup
systemd-run可用于创建和启动瞬态的service/timer/scope。并在其中运行指定的命令。
systemd-run --unit=test --scope --slice=jkksl sleep 20
systemd-run --unit=test --slice=jkksl --remain-after-exit sleep 20
systemd-run --unit=test --remain-after-exit sleep 20 [常用]
systemd-run sleep 20
--unit 指定unit 名称,不加的话会自动生成一个
[root@TEST system-generators]# systemd-run sleep 789 Running as unit run-9864.service. [root@JKK-ASSIST-TEST system-generators]# systemctl status run-9864 ● run-9864.service - /usr/bin/sleep 789 Loaded: loaded (/run/systemd/system/run-9864.service; static; vendor preset: disabled) Drop-In: /run/systemd/system/run-9864.service.d └─50-Description.conf, 50-ExecStart.conf Active: active (running) since 日 2022-02-27 17:03:34 CST; 9s ago Main PID: 9865 (sleep) CGroup: /system.slice/run-9864.service └─9865 /usr/bin/sleep 789 2月 27 17:03:34 TEST systemd[1]: Started /usr/bin/sleep 789.--scope 创造一个过渡期。范围单位,而不是默认的瞬态。服务单位 ,不指定的默认是在system.slice 下。
--slice 创建一个新的.service或者.scope unit来替代system.slice
临时 cgroup 所包含的进程一旦结束,临时 cgroup 就会被自动释放。通过将 --remain-after-exit 选项传递给 systemd-run,您可以在其进程结束后,让单位继续运行来收集运行时的信息
永久的创建cgroup: 创建修改.service
systemd-cgls 命令默认显示整体cgroup层级,cgroup 树的最高层由 slice 构成
systemd-cgls 后面可以加上参数显示cgroup层级特定部分
systemd-cgls cpu systemd-cgls memory systemd-cgls devices
查看特定进程的cgroup信息
cat proc/PID/cgroup
监控资源消耗量
systemd-cgtop
#include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #define KB (1024) #define MB (1024 * KB) #define GB (1024 * MB) int main() { while(1) { void *m = malloc(KB); memset(m,0,KB); sleep(0.1); } return 0; }[Unit] Description=cgroup demo test Before=shutdown.target Conflicts=shutdown.target [Service] ExecStart=/root/test RemainAfterExit=yes MemoryLimit=800M TimeoutSec=0应用内存达到限制后,会被systemd kill
systemd[1]: cgtest.service: Main process exited, code=killed, status=9/KILL资料链接
《ook-killer》
https://www.kernel.org/doc/gorman/html/understand/understand016.html
https://www.oracle.com/technical-resources/articles/it-infrastructure/dev-oom-killer.html
《redhat 7资源管理指南》
https://access.redhat.com/documentation/zh-cn/red_hat_enterprise_linux/7/html/resource_management_guide/index