井源:运维几何

发布时间 - 2023-06-09 00:00:00    点击率:

编者著:井老板是我11年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《运维百家讲坛》第 1 期,开讲!

嘉宾介绍

井源,左一,前百度运维架构师,前小米运维负责人,前美菜CIO

有些运维人员反映公司对运维的价值所知甚少,您当年是怎么给公司讲清楚运维的价值的呢?

首先需要和公司讲清楚运维的岗位职责(运维是干什么、产出什么)和关键指标(度量产出成果),比如工作围绕稳定、安全、高效等方向展开,开展了哪些运维项目,如何主动推进关键指标的达成。

关键指标,不仅仅包含服务可用性,还有比如服务器资源达标率、服务故障数据(故障分类、故障响应时间、平均故障恢复时间、故障告警覆盖率)、服务安全指标、服务资源到位时长等等。

比如搭建一套完善的监控系统:

监控服务器资源使用率,找出使用率不达标的服务器进行回收或资源重新分配,通过虚拟化、容器化等手段提升资源使用率梳理告警阈值,规范P0、P1、P2、P3告警级别;监控系统提供告警合并、智能定位建议,提供活跃告警聚合,提供时间纬度的告警分析。方便更快的告警响应和故障定位,提升故障响应时间、故障恢复时间等服务的告警和预案梳理,缩短平均故障恢复时间,提升故障告警覆盖率

业内有观点认为云和Kubernetes这样的基础设施的崛起会让运维岗位逐渐消亡,您是怎么看待这样的观点呢?

很多年前我们运维团队的口号是NO Ops,博客是noops.me。

很早就说过,运维岗位会逐渐消亡,或者部分工作职责会消亡。拿系统运维来举例,以前管理的团队需要服务器工程师、内核工程师、网络工程师、CDN工程师、机房运维工程师等小20人的团队。后来通过引入公有云,团队只有4个人,云资源管理员1人、CDN调度工程师1人、网络工程师1人、内核工程师1人,他们只需要管理和调度好第三方公司提供的资源和服务即可。

随着K8s和云的普及,以及研发代码工程化的不断成熟,运维在这个过程中的参与度会越来越少。在部署框架成熟的情况下,为了节省运维人力,提升部署效率,二、三级服务的部署已经交给研发自助完成。

随着科技的发展,时代的变化,一个岗位的消亡是很正常的事情,及时做好调整和规划才是思考的重心。

在企业大范围上云的当下大环境里,您觉得运维人员应该做出哪些调整才能更适合当下的人才需求?

在上云的大环境下,运维工程师更应该面向业务、面向架构,拓展自己的业务范围,成为保障业务稳定的关键人才。如果还是和以前一样,仅仅只关注监控报警,只负责服务部署变更,那么势必会被淘汰。

另一方面,可以往专精的方向走,成为某个领域的专家(监控、大数据、K8s、数据库等等),走运维研发专家的方向。

人生的建议,多寻找一些副业,运维工作只是生活的一小部分。

AIOps热炒了几年,但是最近明显声量变小了,您觉得企业现阶段应该落地AIOps么?应该注意哪些问题?

就拿智能监控为例,看到了很多文案说要通过AI预测故障、智能定位。到现在没有看到任何靠谱的案例。在一个服务变更快、依赖关系复杂、故障影响因素多的互联网业务系统中,如果真能通过历史数据,实现故障预测。那还不如去做地震预测,有几千年的地震数据积累,能够产生很大的社会价值。

做AIOps的前提,是真的懂AI,清楚机器学习和神经网络的原理。有多少人工才有多少智能,AIOps才能不是一个口号。

chatGPT这样的AI能力您觉得未来是否有可能解决运维行业的问题?

比如在故障管理中,根据故障的设备、数据、描述,通过知识库、历史故障库等等,给出故障可能的辅助建议(suggestbot)

BTW,如果你已经可以玩转chatGPT了,把这个技术投入到其他更能产生价值的领域吧,别老在运维这个领域耗着……

业务程序的部署,到底应该交给研发来做还是应该交给运维来做,在很多公司争论不休,您是怎么看待这个问题呢?

之前提到过,我们二、三级的服务是完全由研发去做,一级服务是运维和研发轮流去做,主要目的主要是让运维清楚当前服务的变化情况而已。运维人员在公司一开始做部署,更多是规范线上环境,规范服务部署方式,从而更好的研发部署系统,掌控所负责的服务架构。

安全问题、流程问题,完全可以通过部署系统去解决。运维就不要守着这个没任何价值,没任何沉淀的工作不放了。

您最想对(运维)行业说的一句话是?为什么?

“物理学没有不存在,只是我们认为的物理学,可能不存在。” 运维行业可能也不存在了,多少运维人的梦想是AIOps、NOOps,要么自己去干掉这个行业,要么在这个行业被干掉。

工具选型这块,到底是自研,还是使用开源,还是使用商业产品,是如何抉择的?

有能力有时间就使用开源,能力一般时间有限就使用商业产品。有钱有闲还很自负的话,可以尝试下自研。

您所在的公司是否也是多云架构?您觉得多云场景下哪些能力应该依托云厂商哪些能力应该自建?

我们是多云架构。专线或者数据传输的能力,这个需要自建。基于多云之上的公共能力也可以自建,比如监控系统、数据备份系统、部署系统、微服务核心组件等,其他的交给云厂商就好了。

您印象最深的一次故障是什么?对您有何启示?

运维这么多年,遇到的诡异故障太多了,root cause让你根本想象不到。只能说,故障很难避免,只能设法减少故障的频率、影响面和影响时间。

所以你的绩效不是故障次数和故障级别,而是故障影响面、故障响应、恢复时间等。

面对当下快速发展的基础技术,您对给刚入行和入行已久的运维人员,分别有什么职业规划的建议吗?

比较偏激哈~刚入行的,建议尽快转行!入行已久的,转行技术相对困难,已经打上了深深的运维烙印。我见过太多运维人员转行其他技术,多数都是运维研发、运维产品经理的岗位,还是找一下副业吧。

您觉得传统运维和SRE的区别是什么?您的团队做出这样的转型,其背后的思考是?

这都2025年了,聊这个话题就跟互联网运维弄个NOC监控值班一样,开倒车。

如果现在还在考虑要不要转型SRE、怎么转型SRE、SRE的变化这些问题,就跟5g时代,还在考虑用2g,还是3g……都会被时代所淘汰。

是否有种戛然而止的感觉?哈哈,这是《运维百家讲坛》第1期,我们会持续邀请业内大佬前来分享,越是有不同的观点才越有意思,越是能够引发思考,咱们一起,抱着开放的心态,聆听百家之言。下一期,再见!


# 去做  # 监控系统  # 互联网  # 在这个  # 还在  # 您是  # 不存在  # 更快  # 已久  # 来做 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: Win11摄像头无法使用怎么办_Win11相机隐私权限开启教程【详解】  Laravel如何配置中间件Middleware_Laravel自定义中间件拦截请求与权限校验【步骤】  原生JS获取元素集合的子元素宽度实例  Edge浏览器提示“由你的组织管理”怎么解决_去除浏览器托管提示【修复】  简历没回改:利用AI润色让你的文字更专业  Laravel任务队列怎么用_Laravel Queues异步处理任务提升应用性能  公司网站制作价格怎么算,公司办个官网需要多少钱?  黑客入侵网站服务器的常见手法有哪些?  Win11搜索栏无法输入_解决Win11开始菜单搜索没反应问题【技巧】  php8.4header发送头信息失败怎么办_php8.4header函数问题解决【解答】  javascript中闭包概念与用法深入理解  Laravel Vite是做什么的_Laravel前端资源打包工具Vite配置与使用  EditPlus中的正则表达式 实战(4)  猎豹浏览器开发者工具怎么打开 猎豹浏览器F12调试工具使用【前端必备】  php结合redis实现高并发下的抢购、秒杀功能的实例  如何自定义建站之星模板颜色并下载新样式?  如何在阿里云香港服务器快速搭建网站?  如何在建站主机中优化服务器配置?  如何在宝塔面板中修改默认建站目录?  高性能网站服务器配置指南:安全稳定与高效建站核心方案  Laravel事件监听器怎么写_Laravel Event和Listener使用教程  小视频制作网站有哪些,有什么看国内小视频的网站,求推荐?  Laravel的.env文件有什么用_Laravel环境变量配置与管理详解  Laravel如何设置自定义的日志文件名_Laravel根据日期或用户ID生成动态日志【技巧】  HTML5段落标签p和br怎么选_文本排版常用标签对比【解答】  Laravel怎么实现搜索功能_Laravel使用Eloquent实现模糊查询与多条件搜索【实例】  Laravel策略(Policy)如何控制权限_Laravel Gates与Policies实现用户授权  微信小程序 闭包写法详细介绍  潮流网站制作头像软件下载,适合母子的网名有哪些?  Swift中switch语句区间和元组模式匹配  Java类加载基本过程详细介绍  阿里云网站搭建费用解析:服务器价格与建站成本优化指南  如何为不同团队 ID 动态生成多个独立按钮  北京的网站制作公司有哪些,哪个视频网站最好?  zabbix利用python脚本发送报警邮件的方法  如何在 Pandas 中基于一列条件计算另一列的分组均值  jquery插件bootstrapValidator表单验证详解  如何登录建站主机?访问步骤全解析  Laravel中的withCount方法怎么高效统计关联模型数量  如何用虚拟主机快速搭建网站?详细步骤解析  用yum安装MySQLdb模块的步骤方法  创业网站制作流程,创业网站可靠吗?  Laravel软删除怎么实现_Laravel Eloquent SoftDeletes功能使用教程  北京网站制作的公司有哪些,北京白云观官方网站?  Win10如何卸载预装Edge扩展_Win10卸载Edge扩展教程【方法】  python中快速进行多个字符替换的方法小结  Laravel如何处理JSON字段_Eloquent原生JSON字段类型操作教程  如何快速查询域名建站关键信息?  Laravel如何使用Vite进行前端资源打包?(配置示例)  如何获取免费开源的自助建站系统源码?