܄

云计算事故频发,赔偿很敷衍,还要上云么?

【数据猿导读】 近期,一则消息引发广泛关注。蚂蚁集团旗下的在线文档编辑与协同工具语雀遭遇服务器故障,导致无法访问在线文档和官网。此事件引发了用户的担忧和不便,尤其那些将重要工作和面试资料存放在语雀上的用户,受到了较大的影响。

云计算事故频发,赔偿很敷衍,还要上云么?

近期,一则消息引发广泛关注。蚂蚁集团旗下的在线文档编辑与协同工具语雀遭遇服务器故障,导致无法访问在线文档和官网。此事件引发了用户的担忧和不便,尤其那些将重要工作和面试资料存放在语雀上的用户,受到了较大的影响。

用户对语雀的运维提出质疑,认为这次的长时间故障明显与存储问题有关,甚至担心用户数据可能会丢失。对此,语雀于10月24日21时发布了官方公告,详细解释了23日故障的原因和应对措施,并公布了一项赔偿计划。

根据官方公告,事件的起因是服务语雀的数据存储运维团队在进行升级操作时,新的运维升级工具存在漏洞,导致华东地区的生产环境存储服务器被误下线。这一操作失误导致了严重的数据故障,引发广泛的服务中断。为了尽快恢复服务,语雀团队和数据存储运维团队共同进行了数据恢复工作。尽管在数据恢复过程中受到多种因素的限制,整体耗时较长,但最终在22点时,成功地恢复了语雀的全部服务,语雀表示,用户的所有数据都未丢失。

语雀表示,作为一款为千万用户提供文档服务的产品,他们深刻认识到在技术风险保障和高可用架构设计方面需要更加完善,尤其是针对技术变更操作,需要建立"可监控、可灰度、可回滚"的系统化流程,并进行流程审计。他们计划将高可用能力从同一区域多副本扩展到两地三中心,增加数据和系统的冗余,以实现更快的恢复速度,并定期进行容灾应急演练,以根本性地避免此类故障再次发生。

为了改进现状,语雀制定了以下措施:

升级硬件版本和机型,以实现离线状态下的快速上线,这一措施在本次故障修复中已经完成;运维团队将加强运维工具的质量保障与测试,以杜绝类似的运维错误再次发生;缩小运维动作的灰度范围,增加灰度时间,以提前发现问题;从架构和高可用性层面改进服务,为语雀增加存储系统的异地灾备能力。

此外,语雀团队还宣布了以下赔偿方案:针对个人用户,他们将提供六个月的会员服务,用户只需在工作台的"账户设置"中点击"会员信息",然后在会员信息页面点击"立即领取"即可获得免费服务。针对团队用户,由于情况较为复杂,语雀团队将单独制定赔偿方案,并会通过站内信与空间管理员联系。

事故频发

事实上,云故障的事情也并不是个例。

2018年7月18日,亚马逊核心产品AWS云服务出现了中断,客户使用帐户登录时遇到间歇性错误,无法访问AWS管理控制台。即使并未对亚马逊的消费者业务产生任何有意义的影响,但该故障持续了将近6小时才修复完成。

2018年9月4日,微软在部分地区的数据中心的冷却系统发生故障,数据中心的自动化措施强制关闭了系统电源,这一事故引发了Azure中断,整个故障中断时间超过24小时才恢复正常。在已知发生的云服务故障修复中,修复时间在短至40秒长至24小时不等。

2019年7月2日,谷歌云计算东部一区出现网络和负载均衡问题,原因是部分光纤受到了物理损坏所致。该故障导致部分服务近10小时无法访问。

国内云厂商出现云服务器故障事故更是屡见不鲜。自2010年以来,作为第一家混合云上市公司——青云QingCloud发生过约4次故障宕机事件;阿里云发生过约5次故障宕机事件,腾讯云发生过约8次故障宕机事件。

2018年,腾讯云上面发生了一起因为服务器故障,导致创业公司数据丢失的事件。两家就赔偿问题展开了讨论,创业公司要求赔偿1100万元的损失,但腾讯云却只能提供13万元现金的赔偿。两家在赔偿问题上,僵持不下。

2022年6月,“同花顺崩了”的消息登上微博热搜。部分客户反映同花顺出现了无法进入页面交易、界面卡顿等情况。据悉,此次故障是由于为其提供相关服务的华为云产生了故障导致,从而引发了市场对于云计算服务的担忧。

基于此,华为云官方微博当日发布通知表示:2022年6月13日10:45-11:19,华为云检测发现华为云华南-广州区域公网访问异常,目前故障已排除、服务已恢复,问题根因正在进一步定位中。同时了解到华为云内部已经成立专项组分析故障原因。据了解,华为云在2020年4月10月也曾经因部分主机异常发生一次较大范围的故障,故障修复时间大约为2小时左右,具体原因未公开披露。

云计算_语雀_赔偿-1

国内外部分云厂商云服务器故障

云并不像他们宣称的那样安全可靠

云计算厂商一直给客户讲的故事是:由于云计算强大的弹性调度能力,以及充足的灾备,客户上云之后的业务可靠性将得到提升,由于系统问题导致的业务中断问题将得到解决,这也是很多企业上云的一个重要原因。

然而,从实际情况来看,云厂商讲的这个故事并不那么可信。无论是国外还是国内,都经常发生由于各种事故导致的大规模云服务中断事件。人们不禁要问,不是建立了完备的灾备体系么?不是一个地方出现故障,其他地方可以立马补上,不会导致服务中断么?现在看来,灾备体系还远远不够完备,也没有发挥出应用的作用。

从目前的情况来看,还有另外一个问题,那就是针对云计算事故损失的赔偿体系还很不完备。在上面的案例中,语雀团队的云系统故障给用户带来了很大麻烦,但他们最终只给个人用户赔偿了半年的会员服务。根据语雀的官网定价,其专业会员价格为99元/年,超级会员为299元每年。也就是说,此次事故给用户造成的损失,语雀只赔偿个人用户几十元,最多不超过200元,而且这些钱还不是直接给用户,还必须买他们的会员。

对于不少用户而言,相信此次事故造成的损失肯定是要超过200元的,那这部分损失谁来弥补呢?如果再发生几次这样的事故,给用户造成不小损失,而语雀每次都只是象征性赔偿几十元,那用户还可以信任它么?

云计算_语雀_赔偿-2

同样的事情在腾讯云上也发生过,上面提到的腾讯云在2018年的那次服务器故障导致创业公司数据丢失的事件。客户要求赔偿超千万元,腾讯云智给了十几万元,这其中有巨大的鸿沟。客户索赔千万应该有点多,但十几万大概率是没有弥补客户损失的。这种情况下,该企业还敢用腾讯云么?其他类似的企业知道了这个情况,还会再放心将数据放在腾讯云上么?

云服务事故应该怎么赔偿?

随着IT越来越依赖云服务,云中断事件对于用户和服务提供商都可能带来严重的经济损失。超过60%使用公共云的组织在2022年报告了损失,因此云中断并不是公司不太可能面临的异常事件。由此可见,建立云服务事故赔偿体系是至关重要的,以确保在云中断事件发生时客户和服务提供商之间的权益得到充分保护。

一般而言,云服务事故可以分为两类:一类是服务故障导致客户的业务中断,带来的业务损失,另一类,则是客户数据泄露带来的损失。

那么该如何建立云服务的事故赔偿体系,更好的进行责任认定、损失评估,建立完善的赔偿甚至保险制度?这些问题始终困扰着云用户以及云服务商。

首先,法律合规是建立赔偿体系的基础。合同和赔偿体系必须遵守适用的法律法规,特别是数据隐私和数据保护法。考虑到跨境数据流动的法规差异,合同和赔偿体系需要在全球范围内合法有效。

透明的服务级别协议(SLA)对于客户了解所期望的服务水平至关重要,包括性能指标、可用性、备份策略和恢复时间。SLA还应包括明确的故障通知和恢复流程,以确保客户在发生事故时了解发生了什么,以及服务提供商将采取哪些措施来解决问题。赔偿规定应明确定义在合同中,包括何种情况下客户有资格获得赔偿、赔偿的类型和金额。是否有赔偿上限也需要明确定义,以确保客户知晓如何提出赔偿要求和获得赔偿。

数据责任和隐私应该在合同中得到详细规定,包括数据的所有权和责任。这还包括数据隐私和合规性方面的要求,如数据加密、访问控制和数据泄露通知。

另外,购买云服务责任保险是增加保护的方式。这种保险可以为数据泄露或网络安全事件提供额外的保障,但保险政策的范围和限制需要明确了解,以确保与合同要求一致。

服务提供商还应具备详细的事件响应计划,以确保在事故发生时能够迅速采取行动,包括通知客户、法律顾问的参与、调查和恢复计划。团队需要经过培训,以确保了解如何应对事故和客户的需求,以最小化潜在的损失。

最后,定期审查和更新云服务事故赔偿体系是必要的,以确保其与业务需求和法律要求保持一致。技术和法规的变化可能需要更新赔偿体系,以适应新的挑战和威胁。这将有助于确保在不可预测的云中断事件中,客户和服务提供商都能够更好地处理责任认定、损失评估以及赔偿和保险申请。


来源:数智猿

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

GPU对云计算意味着什么?很多人还一无所知!
GPU对云计算意味着什么?很多人还一无所知!
国家数据局正式揭牌;“语雀”故障,蚂蚁赔钱;美的要去港交所IPO;小马智行获沙特1亿美元投资丨每日大事件
国家数据局正式揭牌;“语雀”故障,蚂蚁赔钱;美的要去港交所...
【数智化人物展】同方有云联合创始人兼总经理江琦:云计算,引领数智化升级的动能
【数智化人物展】同方有云联合创始人兼总经理江琦:云计算,引领...

我要评论

数据猿微信公众号
2023第七届上海AI大会暨医药和医疗创新峰会
2023深圳物联网展
人工智能博览会
FMW2023全球闪存峰值
2023世界农业科技创新大会暨世界农业科技博览会
返回顶部