流水的运维,铁打的锅
发布时间 - 2023-06-08 00:00:00 点击率:次在 6 月 5 号,唯品会发布了 23 年 3 月 29 号的故障报告,因为南沙 idc 冷冻系统故障导致唯品会线上商城停止服务,造成了数以亿计的损失(作为小运维的我,瑟瑟发抖)。
对于唯品会来说,线上商城是其核心业务入口,故障不可避免,但是故障如此之长却不能容忍,为什么会造成这种事情发生呢?在我们这种小运维的眼里,这种事故不应该发生在这种量级的公司中,我们都是在模仿、学习他们的 PPT 中寻找运维之路。
但是,PPT 的高大上,无法压住故障不发生,这是为什么呢?
我个人斗胆说几种猜测:
- PPT≠ 现实
- 故障演练=走过场?
- 多活,说说而已?
- 巧妇难为无米之炊
PPT≠ 现实
现在国内各种技术大会,然后邀请一些知名企业的 CTO、技术负责人等到场演讲,从演讲来看,每家公司都很强(至少 PPT 上是这样展示的),每次我听完都会豁然开朗,大受裨益,打心底佩服这些公司,佩服他们超强的思维、超高的能力以及超酷的团队。
但是,PPT 毕竟只是一个辅助工具,它不能代替现状。
漂亮的 PPT 只是给想看的人看的,不漂亮的事情是要独自去承受的。
之前有看多唯品会在 GOPS 上的分享,PPT 上呈现的确实很棒,如果拿着这个向上汇报,老板也会觉得我们公司的技术真厉害,做的真好,给了老板一切都很好的假象。
出了问题,不办你办谁?
从自己嘴里吹出去的牛逼,也会回到自己嘴里。
故障演练=走过场?
在《SRE:Google 运维解密》这本书中,故障演练占了很大的篇幅。通过故障演练,可以提高系统的可靠性和容错性,可以让团队更好的了解系统的架构和工作原理,可以更好的理解各模块的相互影响,可以更快的发现系统架构中的漏洞和故障。
可以说,故障演练是整个稳定性保障的核心环节,因为它可以帮助团队最大限度的减少实际故障的同时,也能更高效的应对可能出现的问题。
但是,实际中是这样的么?
在实际进行故障演练的时候,要预定故障点,要整理输出具体的应对措施,要指定全面的计划,要准确描述每个人的工作职责和任务。
光这些前置工作就需要耗费很大的人力物力,很多团队、很多人就会精简步骤、精简措施,抱着做了就行的心态看待故障演练,抱着侥幸心态看待故障本身,把希望寄托在别人不出问题的情况下。
比如把希望寄托于公有云,公有云不出问题,整个系统就是稳定的,但是公有云 ≠ 完全可靠,谷歌云、阿里云、腾讯云等都发生过重大事故,然而买单的还是用户自己。
所以,对于运维团队或者 SRE 团队,需要认真对待故障演练,不仅要做好演练的前置准备工作,在演练中也要密切关注计划,发现问题及时采取措施并进行修正。
不要让演练成为走过场,不要让演练成为 KPI,不然你就是下一个优化对象。
多活,说说而已?
3 月 29 日唯品会的问题,可以从侧面反映:多活,也许
真是说说而已。
随着业务的发展,系统架构会不断演变,因为我们对高可用的要求越来越高。
例如,从单机架构在同一机房升级到主备架构,再升级到同城多机房架构,最终到达两地三中心架构等级。
如果唯品会做了同城多机房,就算最简单的同城主备,也不至于宕机 12 个小时。
更别说如果做了同城双活。
但是,我只是站在上帝视角猜测。也许他们也做了多活,只是假多活罢了。
巧妇难为无米之炊
上面总总,到头来都会走到财力、人力、物力上来,就拿多活来说,搞一个同城灾备,投入的成本就不是 dubbo 那么简单,每当 SRE 负责人向上汇报申请资金的时候,如果上面的领导不予支持(钱,钱没挣,还要花这么多),什么都是白搭。
领导要压成本,下面要钱做事,成本不足导致入不敷出,也就会出现 PPT 漂亮,实际很烂的局面。
纵有一腔抱负,乃无用武之地。
出了问题,还要用你祭天。
最后
上面所说纯属虚构,如有雷同,请点赞~
在很多公司,运维的话语权很低,低到离谱,这就导致运维在做事或者推进事情的时候寸步难行。
但是,一旦出现问题,运维却是被第一个推出来的,所以“背锅侠”一直被扣在运维头上。
那作为运维应该怎么做呢?
- 走出去——不要局限于运维团队内部,要走出去,让业务部门知道运维的价值。
- 走进去——运维知识体系复杂多变,要走进知识内部,深度理解背后的原理,用你的专业来为团队服务。
- 走上去——要提升运维影响力,通过专业的能力和积极的态度争取更多的信任和支持,改变现状,提升地位。
最后,说归说,闹归闹,别拿生产开玩笑。
# 同城
# 走过场
# 巧妇难为无米之炊
# 就会
# 也会
# 出了
# 不出
# 是这样
# 抱着
# 线上
相关栏目:
【
网站优化151355 】
【
网络推广146373 】
【
网络技术251813 】
【
AI营销90571 】
相关推荐:
Laravel如何处理JSON字段_Eloquent原生JSON字段类型操作教程
如何在腾讯云服务器上快速搭建个人网站?
非常酷的网站设计制作软件,酷培ai教育官方网站?
宙斯浏览器视频悬浮窗怎么开启 边看视频边操作其他应用教程
Laravel Eloquent性能优化技巧_Laravel N+1查询问题解决
为什么要用作用域操作符_php中访问类常量与静态属性的优势【解答】
Laravel如何使用withoutEvents方法临时禁用模型事件
浅谈Javascript中的Label语句
如何用AI一键生成爆款短视频文案?小红书AI文案写作指令【教程】
今日头条微视频如何找选题 今日头条微视频找选题技巧【指南】
佐糖AI抠图怎样调整抠图精度_佐糖AI精度调整与放大细化操作【攻略】
百度输入法ai组件怎么删除 百度输入法ai组件移除工具
如何挑选最适合建站的高性能VPS主机?
Laravel如何实现本地化和多语言支持?(i18n教程)
如何彻底卸载建站之星软件?
如何在IIS中新建站点并解决端口绑定冲突?
Laravel如何发送邮件_Laravel Mailables构建与发送邮件的简明教程
个人摄影网站制作流程,摄影爱好者都去什么网站?
JavaScript数据类型有哪些_如何准确判断一个变量的类型
浅谈javascript alert和confirm的美化
如何用花生壳三步快速搭建专属网站?
购物网站制作费用多少,开办网上购物网站,需要办理哪些手续?
北京网站制作公司哪家好一点,北京租房网站有哪些?
高防服务器租用如何选择配置与防御等级?
手机网站制作平台,手机靓号代理商怎么制作属于自己的手机靓号网站?
PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
微博html5版本怎么弄发超话_超话进入入口及发帖格式要求【教程】
如何在IIS中新建站点并配置端口与IP地址?
打造顶配客厅影院,这份100寸电视推荐名单请查收
关于BootStrap modal 在IOS9中不能弹出的解决方法(IOS 9 bootstrap modal ios 9 noticework)
如何快速搭建二级域名独立网站?
Laravel如何使用Eloquent ORM进行数据库操作?(CRUD示例)
Laravel项目怎么部署到Linux_Laravel Nginx配置详解
大连企业网站制作公司,大连2025企业社保缴费网上缴费流程?
Edge浏览器如何截图和滚动截图_微软Edge网页捕获功能使用教程【技巧】
Laravel如何实现密码重置功能_Laravel密码找回与重置流程
什么是JavaScript解构赋值_解构赋值有哪些实用技巧
如何快速查询网址的建站时间与历史轨迹?
魔毅自助建站系统:模板定制与SEO优化一键生成指南
jimdo怎样用html5做选项卡_jimdo选项卡html5实现与切换效果【指南】
如何快速打造个性化非模板自助建站?
Laravel如何集成Inertia.js与Vue/React?(安装配置)
html如何与html链接_实现多个HTML页面互相链接【互相】
如何制作公司的网站链接,公司想做一个网站,一般需要花多少钱?
如何为不同团队 ID 动态生成多个独立按钮
Python制作简易注册登录系统
在Oracle关闭情况下如何修改spfile的参数
Laravel如何实现多语言支持_Laravel本地化与国际化(i18n)配置教程
敲碗10年!Mac系列传将迎来「触控与联网」双革新
如何用景安虚拟主机手机版绑定域名建站?

