井源:运维几何
发布时间 - 2023-06-09 00:00:00 点击率:次编者著:井老板是我11年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《运维百家讲坛》第 1 期,开讲!
嘉宾介绍
井源,左一,前百度运维架构师,前小米运维负责人,前美菜CIO
有些运维人员反映公司对运维的价值所知甚少,您当年是怎么给公司讲清楚运维的价值的呢?
首先需要和公司讲清楚运维的岗位职责(运维是干什么、产出什么)和关键指标(度量产出成果),比如工作围绕稳定、安全、高效等方向展开,开展了哪些运维项目,如何主动推进关键指标的达成。
关键指标,不仅仅包含服务可用性,还有比如服务器资源达标率、服务故障数据(故障分类、故障响应时间、平均故障恢复时间、故障告警覆盖率)、服务安全指标、服务资源到位时长等等。
比如搭建一套完善的监控系统:
监控服务器资源使用率,找出使用率不达标的服务器进行回收或资源重新分配,通过虚拟化、容器化等手段提升资源使用率梳理告警阈值,规范P0、P1、P2、P3告警级别;监控系统提供告警合并、智能定位建议,提供活跃告警聚合,提供时间纬度的告警分析。方便更快的告警响应和故障定位,提升故障响应时间、故障恢复时间等服务的告警和预案梳理,缩短平均故障恢复时间,提升故障告警覆盖率
业内有观点认为云和Kubernetes这样的基础设施的崛起会让运维岗位逐渐消亡,您是怎么看待这样的观点呢?
很多年前我们运维团队的口号是NO Ops,博客是noops.me。
很早就说过,运维岗位会逐渐消亡,或者部分工作职责会消亡。拿系统运维来举例,以前管理的团队需要服务器工程师、内核工程师、网络工程师、CDN工程师、机房运维工程师等小20人的团队。后来通过引入公有云,团队只有4个人,云资源管理员1人、CDN调度工程师1人、网络工程师1人、内核工程师1人,他们只需要管理和调度好第三方公司提供的资源和服务即可。
随着K8s和云的普及,以及研发代码工程化的不断成熟,运维在这个过程中的参与度会越来越少。在部署框架成熟的情况下,为了节省运维人力,提升部署效率,二、三级服务的部署已经交给研发自助完成。
随着科技的发展,时代的变化,一个岗位的消亡是很正常的事情,及时做好调整和规划才是思考的重心。
在企业大范围上云的当下大环境里,您觉得运维人员应该做出哪些调整才能更适合当下的人才需求?
在上云的大环境下,运维工程师更应该面向业务、面向架构,拓展自己的业务范围,成为保障业务稳定的关键人才。如果还是和以前一样,仅仅只关注监控报警,只负责服务部署变更,那么势必会被淘汰。
另一方面,可以往专精的方向走,成为某个领域的专家(监控、大数据、K8s、数据库等等),走运维研发专家的方向。
人生的建议,多寻找一些副业,运维工作只是生活的一小部分。
AIOps热炒了几年,但是最近明显声量变小了,您觉得企业现阶段应该落地AIOps么?应该注意哪些问题?
就拿智能监控为例,看到了很多文案说要通过AI预测故障、智能定位。到现在没有看到任何靠谱的案例。在一个服务变更快、依赖关系复杂、故障影响因素多的互联网业务系统中,如果真能通过历史数据
,实现故障预测。那还不如去做地震预测,有几千年的地震数据积累,能够产生很大的社会价值。
做AIOps的前提,是真的懂AI,清楚机器学习和神经网络的原理。有多少人工才有多少智能,AIOps才能不是一个口号。
chatGPT这样的AI能力您觉得未来是否有可能解决运维行业的问题?
比如在故障管理中,根据故障的设备、数据、描述,通过知识库、历史故障库等等,给出故障可能的辅助建议(suggestbot)
BTW,如果你已经可以玩转chatGPT了,把这个技术投入到其他更能产生价值的领域吧,别老在运维这个领域耗着……
业务程序的部署,到底应该交给研发来做还是应该交给运维来做,在很多公司争论不休,您是怎么看待这个问题呢?
之前提到过,我们二、三级的服务是完全由研发去做,一级服务是运维和研发轮流去做,主要目的主要是让运维清楚当前服务的变化情况而已。运维人员在公司一开始做部署,更多是规范线上环境,规范服务部署方式,从而更好的研发部署系统,掌控所负责的服务架构。
安全问题、流程问题,完全可以通过部署系统去解决。运维就不要守着这个没任何价值,没任何沉淀的工作不放了。
您最想对(运维)行业说的一句话是?为什么?
“物理学没有不存在,只是我们认为的物理学,可能不存在。” 运维行业可能也不存在了,多少运维人的梦想是AIOps、NOOps,要么自己去干掉这个行业,要么在这个行业被干掉。
工具选型这块,到底是自研,还是使用开源,还是使用商业产品,是如何抉择的?
有能力有时间就使用开源,能力一般时间有限就使用商业产品。有钱有闲还很自负的话,可以尝试下自研。
您所在的公司是否也是多云架构?您觉得多云场景下哪些能力应该依托云厂商哪些能力应该自建?
我们是多云架构。专线或者数据传输的能力,这个需要自建。基于多云之上的公共能力也可以自建,比如监控系统、数据备份系统、部署系统、微服务核心组件等,其他的交给云厂商就好了。
您印象最深的一次故障是什么?对您有何启示?
运维这么多年,遇到的诡异故障太多了,root cause让你根本想象不到。只能说,故障很难避免,只能设法减少故障的频率、影响面和影响时间。
所以你的绩效不是故障次数和故障级别,而是故障影响面、故障响应、恢复时间等。
面对当下快速发展的基础技术,您对给刚入行和入行已久的运维人员,分别有什么职业规划的建议吗?
比较偏激哈~刚入行的,建议尽快转行!入行已久的,转行技术相对困难,已经打上了深深的运维烙印。我见过太多运维人员转行其他技术,多数都是运维研发、运维产品经理的岗位,还是找一下副业吧。
您觉得传统运维和SRE的区别是什么?您的团队做出这样的转型,其背后的思考是?
这都2025年了,聊这个话题就跟互联网运维弄个NOC监控值班一样,开倒车。
如果现在还在考虑要不要转型SRE、怎么转型SRE、SRE的变化这些问题,就跟5g时代,还在考虑用2g,还是3g……都会被时代所淘汰。
是否有种戛然而止的感觉?哈哈,这是《运维百家讲坛》第1期,我们会持续邀请业内大佬前来分享,越是有不同的观点才越有意思,越是能够引发思考,咱们一起,抱着开放的心态,聆听百家之言。下一期,再见!
# 去做
# 监控系统
# 互联网
# 在这个
# 还在
# 您是
# 不存在
# 更快
# 已久
# 来做
相关栏目:
【
网站优化151355 】
【
网络推广146373 】
【
网络技术251813 】
【
AI营销90571 】
相关推荐:
Win11摄像头无法使用怎么办_Win11相机隐私权限开启教程【详解】
Laravel如何配置中间件Middleware_Laravel自定义中间件拦截请求与权限校验【步骤】
原生JS获取元素集合的子元素宽度实例
Edge浏览器提示“由你的组织管理”怎么解决_去除浏览器托管提示【修复】
简历没回改:利用AI润色让你的文字更专业
Laravel任务队列怎么用_Laravel Queues异步处理任务提升应用性能
公司网站制作价格怎么算,公司办个官网需要多少钱?
黑客入侵网站服务器的常见手法有哪些?
Win11搜索栏无法输入_解决Win11开始菜单搜索没反应问题【技巧】
php8.4header发送头信息失败怎么办_php8.4header函数问题解决【解答】
javascript中闭包概念与用法深入理解
Laravel Vite是做什么的_Laravel前端资源打包工具Vite配置与使用
EditPlus中的正则表达式 实战(4)
猎豹浏览器开发者工具怎么打开 猎豹浏览器F12调试工具使用【前端必备】
php结合redis实现高并发下的抢购、秒杀功能的实例
如何自定义建站之星模板颜色并下载新样式?
如何在阿里云香港服务器快速搭建网站?
如何在建站主机中优化服务器配置?
如何在宝塔面板中修改默认建站目录?
高性能网站服务器配置指南:安全稳定与高效建站核心方案
Laravel事件监听器怎么写_Laravel Event和Listener使用教程
小视频制作网站有哪些,有什么看国内小视频的网站,求推荐?
Laravel的.env文件有什么用_Laravel环境变量配置与管理详解
Laravel如何设置自定义的日志文件名_Laravel根据日期或用户ID生成动态日志【技巧】
HTML5段落标签p和br怎么选_文本排版常用标签对比【解答】
Laravel怎么实现搜索功能_Laravel使用Eloquent实现模糊查询与多条件搜索【实例】
Laravel策略(Policy)如何控制权限_Laravel Gates与Policies实现用户授权
微信小程序 闭包写法详细介绍
潮流网站制作头像软件下载,适合母子的网名有哪些?
Swift中switch语句区间和元组模式匹配
Java类加载基本过程详细介绍
阿里云网站搭建费用解析:服务器价格与建站成本优化指南
如何为不同团队 ID 动态生成多个独立按钮
北京的网站制作公司有哪些,哪个视频网站最好?
zabbix利用python脚本发送报警邮件的方法
如何在 Pandas 中基于一列条件计算另一列的分组均值
jquery插件bootstrapValidator表单验证详解
如何登录建站主机?访问步骤全解析
Laravel中的withCount方法怎么高效统计关联模型数量
如何用虚拟主机快速搭建网站?详细步骤解析
用yum安装MySQLdb模块的步骤方法
创业网站制作流程,创业网站可靠吗?
Laravel软删除怎么实现_Laravel Eloquent SoftDeletes功能使用教程
北京网站制作的公司有哪些,北京白云观官方网站?
Win10如何卸载预装Edge扩展_Win10卸载Edge扩展教程【方法】
python中快速进行多个字符替换的方法小结
Laravel如何处理JSON字段_Eloquent原生JSON字段类型操作教程
如何快速查询域名建站关键信息?
Laravel如何使用Vite进行前端资源打包?(配置示例)
如何获取免费开源的自助建站系统源码?

