Linux OOM 触发后的系统行为

发布时间 - 2026-01-27 00:00:00    点击率:
OOM Killer基于/proc/PID/oom_score打分选择进程,分数越高越优先被杀;可调oom_score_adj(-1000免疫,+1000最优先);容器中按cgroup内存限制计算分数;日志见dmesg中“Kill process”及Mem-Info快照;进程退出后内存释放存在延迟,受page cache、匿名页回收机制及cgroup统计延迟影响;应通过oom_score_adj调优、内存限制和MemAvailable监控降低误杀。

OOM Killer 是怎么选中进程的

Linux 内核在内存彻底耗尽时不会直接 panic,而是启动 oom_killer 机制,主动杀掉一个或多个进程来释放内存。它不随机选择,而是基于每个进程的 oom_score(位于 /proc/PID/oom_score)打分,分数越高越可能被干掉。

  • 分数计算主要看进程占用的 RSS 内存,但会按比例惩罚那些“吃得多、优先级低”的进程
  • oom_score_adj(范围 -1000 到 +1000)可手

    动干预:设为 -1000 表示该进程完全免疫,+1000 则最优先被杀
  • root 启动的进程默认不享特权,oom_score_adj 仍为 0,照样可能被选中
  • 容器环境里,cgroup 的 memory limit 会压缩可用内存上限,导致更早触发 OOM,且容器内进程的 oom_score 是相对于 cgroup 边界计算的

系统日志里能看到哪些关键线索

OOM 触发后,内核会往 dmesg/var/log/kern.log(或 journalctl -k)写入结构化信息,重点盯住三类内容:

  • 开头有 Out of memory: Kill process,后面紧跟着被杀进程名、PID、UID 和占用页数
  • 中间有 Mem-Info: 快照,列出各内存域(DMA、Normal、HighMem)的空闲页、活跃/非活跃匿名页、文件页等,能帮你判断是缓存没回收干净,还是真的物理内存见底
  • 结尾常带 page allocation failure,附带调用栈(如 alloc_pages_current),说明哪个子系统(比如 ext4、net、kvm)在申请内存时卡住了

注意:syslog 可能因缓冲区满而丢掉早期 OOM 日志;建议用 dmesg -T 查看带时间戳的原始输出,别只信 rsyslog 转发后的记录。

为什么有时候 kill 了进程,内存还是没释放

这不是 OOM Killer 失效,而是进程退出后,其占用的内存未必立刻归还给系统:

  • 如果进程持有大量 page cache(比如刚做完大文件读写),这些页面属于“可回收”,但内核可能暂未触发回写或释放
  • 进程用了 mmap(MAP_ANONYMOUS)brk 分配的匿名页,kill 后会立即标记为可回收,但实际回收时机取决于 lru_lock 竞争和当前内存压力
  • 容器场景下,cgroup v1 的 memory subsystem 存在延迟统计问题:进程死后,memory.usage_in_bytes 可能滞后几秒才下降;cgroup v2 改进明显,但需确认内核版本 ≥ 4.5 且已启用

验证方法:在 OOM 后立刻执行 free -hcat /sys/fs/cgroup/memory/memory.usage_in_bytes(v1)或 cat /sys/fs/cgroup/memory.current(v2),对比变化节奏。

如何降低误杀关键服务的概率

不能靠禁用 OOM Killer(vm.oom_kill = 0 会导致 kernel panic),得用组合策略:

  • 对数据库、消息队列等核心服务,在启动前设置 echo -999 > /proc/PID/oom_score_adj(需在 fork 后、exec 前设,或用 systemd 的 OOMScoreAdjust=-999
  • 限制单个服务最大内存用量,比依赖 OOM Killer 更可靠:systemd 用 MemoryLimit=,Docker 用 --memory,Kubernetes 用 resources.limits.memory
  • 避免全局 vm.swappiness=0:虽然它减少 swap 使用,但也抑制了内核对 file cache 的回收积极性,反而让 OOM 更易触发;建议保持默认值 60 或设为 1~10
  • 监控要覆盖 /proc/meminfo 中的 MemAvailable(不是 MemFree),它反映真正可用内存,包含可快速回收的 cache;低于阈值时提前告警,比等 OOM 更可控

OOM 的本质是资源配额与使用节奏错配,日志只是结果,真正要调的是内存预算、回收策略和进程韧性设计。


# linux  # docker  # app  #   # ai  # kubernetes  # 为什么  # echo  # var  # 数据库  # 被杀  # 设为  # 越高  # 可调  # 的是  # 多个  # 是怎么  # 帮你  # 用了  # 得多 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: Windows驱动无法加载错误解决方法_驱动签名验证失败处理步骤  弹幕视频网站制作教程下载,弹幕视频网站是什么意思?  在线ppt制作网站有哪些软件,如何把网页的内容做成ppt?  公司门户网站制作流程,华为官网怎么做?  Laravel怎么实现API接口鉴权_Laravel Sanctum令牌生成与请求验证【教程】  如何快速使用云服务器搭建个人网站?  HTML5打空格有哪些误区_新手常犯的空格使用错误【技巧】  高端网站建设与定制开发一站式解决方案 中企动力  如何利用DOS批处理实现定时关机操作详解  js代码实现下拉菜单【推荐】  高端建站如何打造兼具美学与转化的品牌官网?  Laravel怎么配置.env环境变量_Laravel生产环境敏感数据保护与读取【方法】  如何用ChatGPT准备面试 模拟面试问答与职场话术练习教程  SQL查询语句优化的实用方法总结  Java Adapter 适配器模式(类适配器,对象适配器)优缺点对比  Laravel如何实现API版本控制_Laravel版本化API设计方案  iOS发送验证码倒计时应用  如何用5美元大硬盘VPS安全高效搭建个人网站?  香港服务器部署网站为何提示未备案?  Android 常见的图片加载框架详细介绍  如何用搬瓦工VPS快速搭建个人网站?  Claude怎样写结构化提示词_Claude结构化提示词写法【教程】  怎么用AI帮你设计一套个性化的手机App图标?  猪八戒网站制作视频,开发一个猪八戒网站,大约需要多少?或者自己请程序员,需要什么程序员,多少程序员能完成?  如何自己制作一个网站链接,如何制作一个企业网站,建设网站的基本步骤有哪些?  利用python获取某年中每个月的第一天和最后一天  Laravel如何从数据库删除数据_Laravel destroy和delete方法区别  标题:Vue + Vuex 项目中正确使用 JWT 进行身份认证的实践指南  如何获取上海专业网站定制建站电话?  大连网站制作公司哪家好一点,大连买房网站哪个好?  Laravel如何生成API文档?(Swagger/OpenAPI教程)  今日头条微视频如何找选题 今日头条微视频找选题技巧【指南】  如何在Windows 2008云服务器安全搭建网站?  Bootstrap CSS布局之列表  javascript读取文本节点方法小结  如何在搬瓦工VPS快速搭建网站?  Laravel项目如何进行性能优化_Laravel应用性能分析与优化技巧大全  Python文件操作最佳实践_稳定性说明【指导】  iOS中将个别页面强制横屏其他页面竖屏  Laravel如何发送系统通知?(Notification渠道示例)  Laravel如何使用软删除(Soft Deletes)功能_Eloquent软删除与数据恢复方法  三星网站视频制作教程下载,三星w23网页如何全屏?  网站制作报价单模板图片,小松挖机官方网站报价?  laravel怎么配置Redis作为缓存驱动_laravel Redis缓存配置教程  Laravel全局作用域是什么_Laravel Eloquent Global Scopes应用指南  Laravel怎么实现模型属性的自动加密  香港服务器网站搭建教程-电商部署、配置优化与安全稳定指南  高端企业智能建站程序:SEO优化与响应式模板定制开发  用yum安装MySQLdb模块的步骤方法  深圳网站制作平台,深圳市做网站好的公司有哪些?