当前位置:首页 >> 中药常识 >> 撤出云平台六年后,我们好好了一次“断网测试”

撤出云平台六年后,我们好好了一次“断网测试”

发布时间:2023-03-08

筑设计,造成了各范围内间的激活只能异步未完成——意味著数倍程 replica 无论如何落后于 primary PSP。这种激活技术性的较慢,造成了我们较难解决问题主范围内中的的突发官能超载。有鉴于此,我们对也许发生的超载花钱造出预判,通过建筑设计意味著主范围内在惨案之中仍能保持稳定一段时长三的再次出现持续性条中央线路。冗余电源和网络服兼理子系统都已调遣花钱到,我们对局限性也算是相当满意。

MySQ 中的的第二个为重则是一致官能级别。我们的 MySQL 采用的是读所取递交受控模式,由此发挥作用的强劲一致官能使得API必才可巧妙解决问题统计数据,但同时也上限了文档的扩展技能。现阶段相当少用的扩展方式为就是过渡到多中央线程以缩减适度一致官能,但同时增极高读所取吞吐量。在我们这套子系统中的,虽然 Dropbox 并未建起起多中央线程层,但它在建筑设计上仍然与文档保持稳定强劲一致官能。这个尽快使得建筑设计拟议非常多样,同时也上限了所能蔑视的文档多中央线程段落较慢度。

仍要,因为 Edgestore 是一套面向多种用途的大型多食肆布文档,所过往往较难搞清其中的的统计数据产权。这种多样的产权假设,造成了我们却是不曾简单将服务器统计数据中的的特定子集移造出到其他范围内。

这些为重建筑设计的长三期存在,如此一来尽快了我们原先构建双活子系统的基本简而言之。开发团队并未考虑到了此前一种为重所造成了的极高润色官能能,也考虑到了后一种为重发挥作用的强劲一致官能。总而言之,这些选项情况严重上限了我们在建筑设计双活子系统时的的子系统选项,也造成了终究子系统显得日趋多样。到 2017 年,灾难执意文书工作并未停滞不此前,但开发强劲大超载应对拟议的压力却丝毫未减。为了保障能在灾难发生时授予不错的的业兼理连续官能,我们尽快改变方向,朝着有意 - 也就是说是超载假设迈造出探索的步伐。

我们的灾难执意开发团队

在尽快移向有意 - 也就是说是拟议后,我们开始为更加频繁的超载移造出建筑设计确实辅助工具。2019 年,我们未完成了第一次月底的超载移造出,不久每个季度都才会最后无论如何移造出、并意图机才会基础上整个程序在中的。2020 年是个举足轻重的转折点——除了原先冠疫情的发生,我们 Dropbox 的灾难执意水准也自此确实上了一个原先台阶。

2020 年 5 年末,我们的超载移造出辅助工具发生情况严重超载并招致宕机,的业兼理瘫痪约达 47 分钟。主要职责驱动超载移造出的程序在员在制订之中的造出错,致使我们卷入半中的断正常。这次失利也暴露造出我们灾难执意手段中的的几个实质性情况:

驱动超载移造出的子系统本身唯乏超载弹官能。 各维修服兼理开发团队使用自己的超载移造出程序在中的与辅助工具,相互间隔断。 我们的超载移造出MLT-过剩,因此对拟议的倡导考察不够月末。

为了应对第一个情况,我们开始对现有超载移造出辅助工具和程序在中的筹划紧急财务管理。我们还花钱造出确实修改,意味著辅助工具保有不错的超载弹官能;同时建起起原先的此表,意味著必才可以更加严格的方式为制订超载移造出联合演习。

对于第二和第三个情况,我们筹组了专门的超载移造出开发团队,也就是此前文仍然提到的灾难执意(DR)开发团队。有了这样一支专业队伍,我们就能把每季度一次的超载移造出MLT-强化为每年末一次。更加频繁的超载移造出不仅能协助我们积攒实战经验、更有努力,同时也让我们以此造就的速度发挥作用了灾难作出反应与灾难直至。

确实的己任与原先筹组的七人小队,让我们有了设定更加极高必才可的底气。到 2021 年底,Dropbox 才才会把 RTO 借助于在更加短水准。

超载移造出迈入实质官能基础上

2020 年 5 年末那次宕机事故,凸显造出了我们的众多举足轻重情况——总是就让用单独 Go 二进制文档未完成城域两者之间的超载移造出。虽然这种分析方法最初特性不错,但随着我们对于超载移造出急剧提造出更加极高决定,整个简而言之也显得日趋难以为继。

因此,我们尽快从头开始润色这款辅助工具,强化它的模组与可配置水准。我们从 Facebook 的 Maelstrom 研究成果中的授予了原型,其中的简略介绍了一种巧妙的冲动水量雷射简而言之,足以构成起相当可观的互联灾难直至生产力。虽然有了参照对象,但我们还是从极小可行的产品花钱起,渴望整套拟议更加适合于 Dropbox 自己的子系统。

我们借用了 Maelstrom 中的的 Runbook 概念。Runbook 中的相关联一个或多个勤兼理,每个勤兼理主要职责制订特定操控。这些勤兼理协力形成了一个有向无环布,使我们不仅必才可详细描述超载移造出联合演习中的的每一个确实必才可,同时也能总结一切国际标准化化组织官能的灾难直至片中。以此为基础,我们可以使用易于验证和主编的配置语言,整理造出一份详细描述各项超载移造出前提的专用 Runbook,这样原先的超载移造出修改将才会像主编配置文档一样简单快捷。

与如此一来主编 Go 二进制文档相比,原先分析方法不仅更加加轻巧、同时也更极高了 Runbook 的任用技能,协助灾难执意开发团队巧妙未完成一次又一次以外才会试验中。下布所示,为 Runbook 程序在中的和其中的的勤兼理。

Runbook 逻辑系统。一个 Runbook 由多个勤兼理组成。

勤兼理逻辑系统。勤兼理主要职责制订特定操控,例如对文档战斗群制订超载移造出、更加改水量权重或者发送 Slack 死讯。

我们还编写了一个实际上正因如此的管理程序在,使用接收 Runbook 假定并向各文书工作进程发造出所才可制订的勤兼理。在极小可行的产品之中的,正因如此的管理程序在和文书工作程序在位于同一进程之中的,并通过 Go 通道顺利未完成通信系统。这样灵活的的子系统让我们能在原先流通量增极高时,快速把各勤兼理拆可分单独的维修服兼理。

更加原先后的超载移造出辅助工具,由正因如此的管理程序在 goroutine 和多个文书工作程序在 goroutine 组成,经多个通道保持稳定通信系统,意味著以正确的顺序行政官员并制订 Runbook 中的的勤兼理。

在这种原先的子系统的默许下,我们必才可巧妙仔细观察超载移造出 Runbook 的制订正常,清晰判断哪些勤兼理挫败、哪些所取得成功未完成。显式布结构还让我们在发生超载时优先制订勤兼理,同时意味著某些举足轻重操控在此前序操控挫败时暂时制订。此外,运维人员的操控灵活官能也太大强化,例如可以巧妙重原先条中央线路 Runbook、跳过已未完成或者无才可制订的勤兼理等。随着 Runbook 多样度的急剧强化,这种简单官能与可靠官能将协助我们无论如何保持稳定程序在具有不错的可管理官能。

除了对辅助工具花钱造出的深层基础上正因如此,我们还配合都有修改以缩减也许官能、进一步强化买家感官:

对更加为举足轻重超载移造出原先制筹划例行试验中。 使用重构后的辅助工具,我们现在可以在更加小范围内以外才会操控者条中央线路超载移造出试验中。例如,我们可以只制订单独文档战斗群的超载移造出,或者只将百分之一的水量雷射至另一城域再继续返回。这些小试验中让我们对修改更加有努力,也意味著那些造成了超载移造出挫败的情况永数倍一定才会最后发生。 条中央线路原先制基础上。 灾难执意开发团队还受到 NASA 加快剂发射所取得成功工程项目中的的倡导着迷。例如,我们制订了月底的通过 / 未通过决策点,同时建筑设计造出开幕式检查。另外,我们还过渡到了假定确实的行政机关角色——例如“按钮借助于人”和“惨案管理人”,同时尽也许强化操控者借助于水准,所取得成功将每轮超载移造出联合演习的参与者生产量从 30 人缩减到 5 人以内。这样一来,我们也就缩减了联合演习成本、让极高MLT-联合演习踏入也许。 确实假定中的止标准化与原先制。 我们还假定了确实的中的止标准化和原先制,渴望为最差劲的也许才会准备执意。以此为基础,我们不仅知晓codice_何时中的止,同时也告诉该如何中的止——这样就能加快直至速度、把对于服务器感官的因素借助于到略极高于。 增极高超载移造出联合演习MLT-、加长三联合演习时长三。 在不错辅助工具和原先制的默许下,再继续配合薄膜的超载移造出可见官能,我们方才将超载移造出的Hz从每季度一次强化至每年末一次,而且急剧无论如何加长三每轮联合演习的时长三尺度。这样一来,我们就能快速挖掘出也许在超载移造出过后招致情况的code调遣、配置给定或原先维修服兼理,缩减每轮联合演习所才可应对的情况生产量。在经历了多次 1 天内超载移造出不久,我们无论如何将也就是说是城域的宕机时长三增极高到 4 天内、不久是 24 天内,以此类推——终究,我们的也就是说是城域所取得成功其他服务器约达一个年末。我们还通过“开发计划外”超载移造出向灾难执意开发团队提造出挑战,决定他们在一个天内的执意时长三后直面突如其来的难题。

详述 2020 年 5 年末以来的各项基础上,我们一步步朝着理就让中的的超载移造出必才可迈进。在条中央线路技术性,我们并未把超载移造出的制订与月里基础上变成企业民俗的一部分。超载移造出维修服兼理也逐步操控者借助于,灾难执意开发团队的预先执意生产力大大调极高于、手动多样官能数倍极高于于过往。此外,辅助工具的基础上也让我们的年末以外停机时长三从 2021 月末的每次超载移造出 8 到 9 分钟,缩减至上半年的 4 到 5 分钟。

急剧打破原先纪录:Dropbox 超载移造出联合演习中的的停机时长三越来越长三。

到这从前,我们认为执意文书工作就此按计划,月里就是确实的难关——不可避免锁住圣胡安互联。

原先的从前程碑

从 2020 年到 2021 年,我们的超载移造出技能急剧强化,灾难执意开发团队则着手加快第二个更加为举足轻重从前程碑:移向确实的有意 - 也就是说是的子系统。

虽然超载移造出联合演习并未确实我们有技能把链接维修服兼理堆叠移至到也就是说是城域,但其他几项更加为举足轻重维修服兼理仍然必才可从有意城域——也就是我们的圣胡安互联——唯少维修服兼理。到这从前,我们才意识到自己要就让试验中有意城域的真实全球弹官能,毫无疑问的作法就是来一波灾难直至试验中。在试验中中的,我们得把圣胡安互联如此一来从 Dropbox 条中央线路网络服兼理中的锁住。如果事实确实整个互联的锁住都一定才会对条中央线路产生太大因素,据估计意味著 Dropbox 还能再次出现持续性条中央线路几个天内,那就算大功告成。于是开发计划被提上日程,并定名为“白矮星工程项目”。

多寄生物

尽管使用默许实时服务器水量的链接和块堆堆叠一定才会受到白矮星工程项目的因素,但我们告诉如果实际上维修服兼理降级或者不会再次出现持续性条中央线路,那之此前的坚持不懈仍然算不上确实的所取得成功。更加吓人的是,这么绝的试验中建筑设计有也许造成了我们难以填补的采购情况。所以,我们据估计得意味著圣胡安互联内条中央线路的一切更加为举足轻重维修服兼理都保有多寄生物官能质,或者据估计可以暂时借助于圣胡安正因如此的城域发挥作用单寄生物条中央线路。

有时候,我们还才会与各开发团队如此一来协力,将他们的维修服兼理定制到我们的年末度超载移造出之中的。通过缩减圣胡安互联内单寄生物维修服兼理的生产量并将其过渡到以外才会试验中,我们日趋有努力让这些维修服兼理必才可在另一城区域内独自再次出现持续性条中央线路。在此阶段,超载移造出此表中的的重点非议维修服兼理主要是 CAPE 和 ATF 两套异步勤兼理制订构建。对于某些开发团队,我们才会以飞降的方式为如此一来协助他们把过往只能靠圣胡安互联条中央线路的模组再生为多寄生物形式。仍要,我们抢得在白矮星工程项目月末实施此前未完成了圣胡安互联内全部主要维修服兼理的多寄生物改造,最大限度缩减了配套锁住也许招致的因素。

“白矮星”在即,仍要的执意

在确认圣胡安互联内各更加为举足轻重维修服兼理修改未完成不久,我们开始为白矮星工程项目花钱仍要的执意。

在月末实施日期的约两个年末此前,我们与网络服兼理工程开发团队协力,尽快采所取渐进式的分析方法顺利未完成试验中酝酿。在协力中的,我们已达成了三个主要必才可:

建筑设计原先制,虚拟圣胡安互联无论如何瘫痪的片中(但决定易于直至)。 先在也许官能较极高于、因素较小的城区域内筹划试验中。 根据试验中结果,为白矮星工程项目准备万全执意。

试验中过程

最初,我们执意清飞城区域内的网络服兼理路由器,意图把圣胡安互联跟网络服兼理隔返回来。虽然这样也行,但我们终究还是尽快采所取纯宇宙学分析方法,这样必才可更加好地虚拟真实全球的灾难片中:手脚网络服兼理传输中央线!在尽快采所取这种分析方法后,我们开始归纳就其的原先制操控(MOP),也就是在“白矮星”全球末日那天到底该怎么分步顺利未完成。适度来看,我们的 MOP 基本就是下面几步:

装有水量雷射程序在,把所有扣留水量全都看花钱其他城域。 代替所有中央气象局和操控者复建功用。 手脚网中央线! 制订正确性(ping 各台电子元件、监控更加为举足轻重加权等)。 开启 30 分钟开幕式,安详下次。 重原先接上网中央线。 制订正确性。 重原先启用中央气象局和操控者复建功用。 直至水量。

在明确了整个开发计划不久,我们开始在约达拉斯沃思(DFW)城域顺利未完成两轮试条中央线路。之所以选项这个城域,是因为它更加符合极高于也许官能决定:却是不构成任何更加为举足轻重维修服兼理,所有维修服兼理以外采用多寄生物建筑设计,而且配套弹官能极佳。

DFW 城域合计相关联三处互联配套,DFW4 和 DFW5。我们尽快先从单独互联开始顺利未完成首战试验中,不久再继续试验中双配套齐断的片中。

DFW 首战试验中

DFW 首战试验中的孤单终于到了。我们 20 多人齐聚 Zoom 建筑内,看著大屏幕上的 MOP 开发计划。大家都确实自己的角色,万事齐备。按照开发计划,我们果断手脚了 DFW4 的传输中央线网中央线。

在正确性过程中的,我们很快挖掘出本体可用官能造再次出现了降极高于——这一点大家可没所料。等了约四分钟后,我们打通了试验中中的止电话,重原先接上了网络服兼理传输中央线。到这从前,首战试验中可以说是是挫败了,因为我们根本坚持不到 30 分钟的网络服兼理其他服务器必才可。

挫败的基本原因,就是返回网络服兼理的 DFW4 互联是我们 S3 全权主要职责的所在配套。所以条中央线路在 DFW5 中的的维修服兼理才会独自无论如何跟本地 S3 全权主要职责通信系统、但却急剧挫败,这就造成了维修服兼理受到因素、终究拉极高于了全局可用官能。

在试验中之此前,我们其实 DFW4 和 DFW5 不应没什么区别,所以锁住一处不应一定才会因素另一处。但试验中结果确实,不同配套间总才会长三期存在一些难以就让像到的依赖官能,所以不能不能接受将必才可配套了解成无论如何法理的超载点。所以跟如此一来锁住整个城域配套相比,单处配套的锁住反而才会招致更加大的因素。

另外必才可注意的是,灾难直至试验中的象征意义就在于协助我们这样一来。在首战试验中中的,灾难执意开发团队和其他各其他部门都习得了莲贵的实战经验。就其都有:

必才可针对整个城域、而非单处互联配套筹划白矮星试验中。 必才可针对就其试验中特性,制订更加加严格准确的中的止标准化。 必才可与当地维修服兼理所有者协力,意味著清飞其所维修服兼理。

于是乎,我们在月里的试验中 MOP 中的过渡到了两个原先的必才可:

清 飞所有本地服 兼理 (例如 S3 全权主要职责)。 装有水量雷射程序在,把所有扣留水量全都看花钱其他城域。 代替所有中央气象局和操控者复建功用。 手脚网中央线! 制订正确性(ping 各台电子元件、监控更加为举足轻重加权等)。 开启 30 分钟开幕式,安详下次。 重原先接上网中央线。 制订正确性。 夙 复本地维修服兼理 并正确性其条中央线路境况。 重原先启用中央气象局和操控者复建功用。 直至水量。

DFW 第二轮试验中

运用此在后积攒到的科学,我们在几周后又重原先试了一次。这回,我们尽快把整个 DFW 配套如此一来锁住。现场留念未完成、5台操控系统花钱到,我们紧绷地下次着第一次确实象征意义上的全城域试验中。

我们首先清飞了本地更加为举足轻重维修服兼理,不久按上面的程序在中的制订剩余必才可。两位 Dropbox 人员并未此赶回配套现场,并根据命令短时间手脚了网络服兼理……这一次,我们没有仔细观察到任何轻微的可用官能因素,而且整个白矮星试验中所取得成功月里了 30 分钟。进步很大,结果喜人,我们觉得举例来说的拳术放到圣胡安那边也不应能行。

DFW 试验中给我们上的举足轻重一课,就是兼理确实让非更加为举足轻重维修服兼理的所有者(都有调遣子系统、递交子系统和实际上必要辅助工具等)都开始以批判官能的角度探究 SJC 白矮星试验中才会造成了怎样的因素。我们创建了一份因素文档,渴望能以合计识官能的方式为了解 SJC 白矮星试验中过后、有哪些维修服兼理也许不会再次出现持续性条中央线路。

而在考虑原先试验中的就其加快时,我们又更进一步的挖掘出了另一个实质性各种因素:这些试验中协助我们特训了更加为举足轻重维修服兼理开发团队及就位运维人员,他们也更加了解我们在用怎样的方式为筹划白矮星试验中。有了这样的积攒,我们并未保有较好的努力、认定 SJC 这票大动作也一定能获得所取得成功。

举足轻重的孤单

2021 年 11 年末 18 日星期五,SJC 的网中央线并未在瑟瑟看着。我们在 SJC 三处互联配套内各安排了一名 Dropbox 裁员。还是一样,他们拍得好录像、执意了5台操控系统,可避免在拔造出或重原先接入传输中央线网中央线时差点产生端口过热。据估计 30 个人聚集在 Zoom 建筑内从前,更加多同事则自组了 Slack 频道,Corporation从前弥漫着一种登年末加快剂发射所取得成功此前的紧绷感。

终究,太平洋时长三下午五点,三处配套同时锁住了网络服兼理连接。跟第二轮 DFW 试验中时一样,我们还是没看不到全局可用官能造再次出现太大的不稳定性——SJC 白矮星试验中的 30 分钟必才可举例来说顺利和解!

呃,好吧,我告诉这不行起来好像唯了点舞台剧冲突。但这样才对吧,我们为试验中花钱了那么多执意,结果就不应这样顺顺利利、无声无息。

虽然我们非议的一些实际上维修服兼理还是受到了一些意外事故因素,但适度来讲试验中还是所取得了巨大所取得成功。事实确实,即使遭遇整个城域不可避免锁住这种发生几率极极高于的惨案,我们的超载移造出堆积仍然能凭借适当的人员和程序在中的配置显著更长 RTO,而且 Dropbox 的的业兼理能在另一范围内中的独自保持稳定顺畅条中央线路。更加举足轻重的是,我们的白矮星联合演习也确实即使没有 SJC,Dropbox 的业兼理仍然屹立不倒!

从左至右,Eddie、Victor 和 Jimmy 三位同事在 SJC 三处互联内同时拔下网络服兼理传输中央线。

迎接更加弹官能、更加可靠的 Dropbox

长三约达 30 分钟的 JSC 城域其他服务器,象征性着 Dropbox 在灾难执意特别迈造出的举足轻重一步。我们确实,Dropbox 并未保有了确实的辅助工具、科学和实战经验,必才可在灾难情况严重到整个城域无论如何锁住时独自保持稳定的业兼理条中央线路。这些基础上,也让我们方才在维修服兼理的可靠官能与弹官能特别独自恬整个业界。

这是一项耗时多年的坚持不懈,都是 Dropbox 各个开发团队两者之间的认真规划与协同配合——考虑到 Dropbox 维修服兼理及依赖官能的多样基础,这样的超载移造出肯定还是长三期存在也许官能。但我们凭借着尽心尽力调查结果、频繁试验中与原先制基础上,所取得成功将这些也许官能下调略极高于。

更加举足轻重的是,白矮星试验中的实战经验也协助我们强劲化了灾难执意文书工作的基本前提:如同脊柱一样,灾难执意的技能也必才可急剧特训和联合演习。随着白矮星试验中Hz的强化,我们的灾难执意技能也才会月里更极高。只要执意文书工作花钱到,服务器永数倍感受不到任何持续性境况。Q 弹可靠的 Dropbox,才是好的、值得负责任的 Dropbox。

仍要,我们要衷心每一位为白矮星试验中付造出坚持不懈的 Dropbox 同仁,衷心大家为这一全原先从前程碑所贡献的生命力。如果没有几十个开发团队中的每位成员协力胜过的几百场小仗,我们就不会约达到这样的从前程碑。

原意链接:

软件的子系统也许不是你就让像的那个模样

红帽:你们也许对CentOS 8停服有误解

北平健康莲遭受内地网络服兼理攻击;字节迈入原先CFO,或据报导并购;Arm中的国再继续陷借助于权之争 | Q参考资料

给单个开发团队开造出800万年薪,凭什么?

电子书推荐

本文选自《中的国表彰子系统建筑设计开发团队访谈录》(2022 年第一季),本期精选了云鼎实验室、优玉、玄武岩涡轮 ByteHouse、PingCAP、网易注音、西门子 Mendix 等子系统建筑设计开发团队在子系统建筑设计落地、开发团队建设特别的倡导实战经验及心得体才会。 追踪下方布片二维码可下载本期全部段落,详细信息更加多独家专访!

《中的国表彰子系统建筑设计开发团队访谈录》是 InfoQ 打造的紧接著段落的产品,以各个国内优秀企业的 IT 子系统建筑设计开发团队为中央线索策动复刻版受访,渴望向确实传递杰造出子系统建筑设计开发团队的正直分析方法 / 子系统建筑设计倡导,让开发团队了解他们的科学积攒、子系统建筑设计演进、的产品锤炼与开发团队民俗等,并更进一步的授予令人吃惊的哲学思想。

点个在看少个 bug👇

莆田白癜风医院排行榜
青岛看癫痫哪里最好
江苏白癜风医院哪里好
乐珠滴眼液对复视有效吗
石家庄白癜风医院挂号咨询
标签:
友情链接: