阿里云“崩”上热搜,重大故障背后的导火索是什么? |
珠江路在线
2023年11月15日
【
转载
】八戒影视
|
|
“淘宝崩了”“钉钉崩了”“闲鱼崩了”……11月12日晚间,阿里云因多款 利用 产生故障登上热搜榜,话题激发很多网友 探讨,知乎、小红书、脉脉等平台对于“阿里云崩了”的话题也层出不穷 。此前,阿里云也出过 屡次故障,但此次影响 规模之广,实属 罕见 。
阿里云实时“官宣” 解决进度:11月12日18:14,阿里云公布布告称,自17:44起,阿里云云产品操纵台 拜访及API调用浮现 异样,工程师正在紧急介入排查;17:50,阿里云确认故障缘由:与某个底层服务组件有关;18:54,布告显示杭州、北京等地区的操纵台及API服务已 复原;19:20,布告称工程师通过分批重启组件服务,绝大多数地区操纵台及API服务已 复原;21:11,布告显示受影响云产品均已 复原 。
这并非阿里云的第一次 事变,2018年6月,阿里云被曝出 延续近半小时的重大技术故障;2019年3月,疑似浮现宕机 事变,给 部分互联网公司造成影响;2022年12月,香港Region可用区C 产生大规模服务中断事件,对较多客户的业务带来重大影响,影响面 扩充到香港可用区C的EBS、OSS、RDS等云服务……6年内 产生 屡次不同程度的故障,不禁让人心生疑虑:阿里云还值得信任吗?
底层服务组件故障
“牵一发而动全身”
从事发当日的首个回应布告至当晚公布的“云产品均已 复原” 后果,整起 事变耗时3个小时,地区 规模波及甚广,国内如华南1(深圳)、西南1(成都)、华南3(广州)、华东1(杭州)、华北5(呼和浩特)等,海外如印度(孟买)、英国(伦敦)、美国(硅谷)、韩国(首尔)等 。
昕荣(化名)所在的公司用了阿里云的服务,她告诉《IT时报》记者,公司 有关业务的 运行受到了较大影响,研发的 共事“被迫”在周日加班数个小时 。“我看这次重要是阿里云的AK鉴权 产生 异样,从而影响到了OSS和MQ这两个组件 。 其余公司很多服务都是用阿里云的这两个组件,所以当它们受损时,便会受到 株连 。”昕荣说道 。
底层服务组件在中台 施展 要害的作用 。业内专家王淇(化名)告诉《IT时报》记者,阿里云 本身 使用的是一个大中台的技术架构,中台 存在高度复杂性和集约性,当底层浮现 舛误,要 实现灾备切换 复原 存在较高的难度 。“相当于‘大脑’瘫痪了 。”王淇 示意, 只管目前这个故障已 复原 结束,但 假使 解决不周或不防患于未然,随时会再次面临“瘫痪” 。
而中台浮现故障不只会 产生在阿里云身上,在王淇看来,任何一家 存在云计算服务企业都会存在故障风险 。
裁员、治理或成“导火索”?
《IT时报》此前报导,今年5月,对于阿里裁员的 信息在微博、脉脉等各大社交媒体上激发热议,裁员风波 波及淘天 集团、菜鸟、当地生活、云智能 集团、大 娱乐等板块 。其中,作为阿里六大业务之一的阿里云智能,被曝裁员比例约 7%,彼时,阿里云方面回应 示意,这是公司进行的 畸形组织岗位和人员优化 。
阿里云智能人士对媒体 示意:“每年公司会进行 畸形的组织岗位和人员优化 。此次人员调整的 工夫为5月份,是在4月底发放完年终奖后启动的,整体优化比例约 7%,赔偿 标准为 N+1+1,未休的年假、陪伴假等均可折现 。”
据阿里巴巴第二季度的业绩报告,截至今年6月底,阿里巴巴的员工人数较之于3月份的235216人少了6541人,仅2023年上半年,阿里巴巴便裁员11065人 。阿里巴巴 集团官微此前回应,2023年六大业务 集团总计需新招15000人,其中校招超过3000人 。
外界 广泛认为,裁员,特殊是高级技术人员的缺失,或是阿里云这次大规模故障激发的重要缘由 。王淇也 示意, 保护一个复杂的中台需求大量专业的开发和 经营人员,而阿里云今年的裁员对此或多或少产生了影响,另外,治理亦是因素之一 。
独立 综合师付亮也 示意,今年阿里巴巴治理模式的大调整可能带来新的治理隐患 。“从治理层面,阿里全面推动各业务 集团及下属公司独立,各实体中间‘公司化 协定运作’,各业务 集团及具备条件的公司独立盈亏, 后果必定是各业务 集团和公司 加强了盈利 名目,压缩了非盈利 名目,跨业务 集团的 支撑很难幸免不受到盈利 指标的影响 。”
“阿里云内部精力从‘云’向仍处于投入期的AI大模型转移 。”付亮说道 。
就在本月初 举办的云栖大会上,阿里云公布机器人大模型解决 方案, 声称集成了通义千问、通义万相等 根底模型及阿里云物联网平台,给予机器人 常识库问答、工艺流程代码生成、机械臂轨迹规划、3D 指标检测和动态环境 了解等全方位 威力,可大幅减低机器人开发的门槛 。付亮认为,阿里云高管的调整、业务团队的变动,以及精力的转移添加了不确定性,业务 巩固性亦在减低 。“利润考核逐渐下压,减低成本,以添加利润,但削减了资源配置,这是阿里云业务 支撑浮现隐患的重要缘由 。”