Datacentrum a tornádo

Ve čtvrtek 24. 6. 2021 v půl osmé večer zasáhlo v jihomoravských Lužicích datové centrum společnosti DataSpring bez nejmenšího varování, tornádo stupně EF4.

Ačkoliv je datacentrum stavěné tak, aby ho jen tak něco nerozhodilo, tato událost znamenala poměrně velký test. Následující text je určen především čtenářům z řad odborné veřejnosti a klade si za cíl popsat, jak jsme se vyrovnávali s následky živelné pohromy. Chceme trochu přiblížit i samotnou atmosféru, proto ho vyprávíme formou příběhu.

Představení datacentra

DataSpring provozuje lužické datacentrum již sedmým rokem a za dobu jeho existence jsme už museli řešit nejeden operační problém. Vždy se to ale obešlo bez výpadku datového centra. Zásluhu na tom pravděpodobně má nejen pečlivý počáteční návrh a realizace s certifikací designu Tier III, ale zejména důsledná údržba a dodržování doporučených postupů a testovacích harmonogramů pro všechny provozní technologie. V tomto směru rozhodně nešetříme. Říká se, že štěstí přeje připraveným, ale až při zpětném pohledu si uvědomujeme, jak moc to byla v našem případě pravda. Ale popořádku.

Předehra události

Tomáš, vedoucí a architekt datacentra Lužice, tráví poklidný čtvrteční večer doma nedaleko Prahy. Rozsvícená obrazovka telefonu s výstrahou bezpečnostního systému o rozbití okna v 19:34 mu napovídá, že dnes si večerní pohody moc neužije. Volá do datacentra, telefon ale nikdo nezvedá.

Petr, náš infrastrukturní architekt, bydlí pár kilometrů od Lužic v nedalekém Hodoníně. Když zpozoruje blížící se pohromu, také se pokouší dovolat, ale ani on nemá úspěch. Do Hodonína se totiž tornádo vydalo právě přes Lužice. Vzápětí vypadává proud, Petrovu obydlí se však přírodní živel naštěstí vyhýbá. Výpadky napájení ale budou jeho rodině ztrpčovat život ještě několik dalších dní.

Tornádo přichází

Jako obvykle touto dobou sedí na recepci datacentra Michal, pracovník dohledu. Všude je zatím klid, venku je sice trošku větrno, ale nic zvláštního. V 19:29 přichází informace o výpadku napájení jedné větve, tornádo si zřejmě zrovna někde pohrává se sloupy vysokého napětí. Protože takovéto výpadky nejsou v naší lokalitě úplně neobvyklé, máme poměrně velkoryse dimenzované UPS a motorgenerátory díky tomu můžou startovat se zpožděním.

Tentokrát ale nastartovat nestihnou, v 19:34 přichází hlavní úder. Michal bere okamžitě nohy na ramena a utíká se schovat do strojovny. Jenže už je pozdě. Poryv větru mu přivírá nohu ve dveřích a on tak jen bezmocně sleduje okénkem ve dveřích strojovny, jak se přírodní živly zakusují do budovy.

Trvá to nekonečné dvě minuty. A potom ticho. Naštěstí jediné, co si z otřesného zážitku odnáší, jsou pocuchané nervy. Tedy, ticho je docela relativní pojem, z dálky se zřetelně ozývá hukot vzdušného víru, který již tou dobou pustoší obydlí nebohých lužických obyvatel. Za sebou nechal bez zájmu ležet i raněné datové centrum.

Po odchodu nezvaného hosta se Michal vydává na opatrnou obhlídku budovy. Datové centrum je místy ohlodané až na základní stavbu. Motorgenerátory, které stojí v kontejnerech vedle budovy, jsou zahrabané v hromadě šestimetrových plechů a jsou zticha. Nenaběhly. Situace vypadá docela hrozivě. S obavami otevírá dveře hlavního sálu. Sál ale běží!

Stav po útoku

Závěry z obhlídky: diesel off, elektrické přípojky off, klima off, sál běží z UPS, konektivita funguje. Tomáš se tyto informace od Michala dozvídá chvíli po události, předává je vedení společnosti a na service desk a začíná koordinovat záchranné práce. V průběhu pár minut je již na cestě do Lužic. Než tam dorazí, vyřídí přes padesát hovorů.

Asi půl hodiny po tornádu přijíždějí na místo David s Martinem, naši operační a systémoví specialisté. Celé Lužice působí jako válečná zóna, většině domů zbylo jen přízemí, někdy ani to ne. Kdysi krásná hlavní ulice plná stromů vypadá jako po kobercovém náletu. Hotová apokalypsa.

Při příchodu k budově se naši specialisté vyhýbají troskám, kdo ví odkud, pod nohama se jim hýbe zámková dlažba. Vítr měl takovou sílu, že zpod ní vymlel písek, místy kostky dokonce vytrhal a odnesl o pár metrů dál.

Kromě datového sálu a dalších technologických místností, které nemají okna, je zbytek budovy děravý jak ementál. Nepoškozené snad nezůstalo jediné okno. Těžkou kopírku na horním poschodí přesunul živel o čtyři metry dál na druhou stranu místnosti. Prosklená stěna zasedačky v prvním patře je pryč. Stejný osud potkal i obdobnou stěnu na terasu. Ve zdi terasy je zapíchnutý jakýsi ocelový profil a jen nepřirozený úhel, který svírá se stěnou, dává tušit, že to tak asi úplně nemá být.

Jak zůstat naživu

Stano, náš technický ředitel, si v první chvíli myslí, že si Tomáš dělá legraci, velice rychle mu ale dochází, že tento večer si moc zábavy neužijeme. Zčervenalá obrazovka monitoringu kolínského dohledového centra je zcela zjevně stejného názoru. Rychle se začínají formovat kontury naší strategie. Musíme sál udržet co nejdéle naživu a dát tak lužickému týmu maximum času na záchranu datového centra.

Podkladem pro další aktivity se stává zpracovaný BCP. Ten v tuto chvíli rozhodně nikdo aktivovat nechce, sál běží a má konektivitu. Ale obsahuje seznam kritických systémů a VM i s vazbami, který je až na výjimky aktuální, včetně zákaznických VM. A ten se stává základem pro náš další postup. Vše, co není nezbytně nutné, musí dolů. Zároveň obvoláváme zákazníky a domlouváme s nimi vypínání nekritických VM a hostovaných technologií. Sál datového centra tak postupně vklouzává do podobného režimu, jako když medvěd usíná zimním spánkem. Nakonec běží jen ty naprosto vitální systémy. Hibernace, ačkoliv obvykle tak říkáme v IT trošku něčemu jinému.

Paralelně s omezováním spotřeby lužického datového centra probíhá ověřování DR procesu v záložním datovém centru, kontrola DR síťového prostředí a další přípravné práce. Pro případ, že by nakonec přeci jen došlo na nejhorší. A protože tak nějak tušíme, že půjde o běh na dlouhou trať, vzniká i rámcový rozpis služeb až do neděle.

Potřebujeme motory

Mezitím v Lužicích pokračují další práce na záchraně datového centra. Už jsme odklidili “naváté” plechy a všudypřítomnou skelnou vatu od motorgenerátorů a pokoušíme se je zprovoznit. Zatím úplně nevíme, proč nezabral automatický start, který jinak pravidelně testujeme. Faktem ale je, že kontroléry obou motorgenerátorů jsou v chybovém stavu a odmítají spolupracovat. Nakonec se je podaří přesvědčit a zrovna když přestává pršet, oba motorgenerátory nabíhají. Utekli jsme hrobníkovi z lopaty, UPS v okamžiku startu generátorů hlásily poslední minuty do vybití. Hibernace datového centra zabrala, UPS udržely sál v běhu neuvěřitelných 90 minut.

Vzduchotechnika a chlazení

Vzápětí po obnovení napájení se probouzí vzduchotechnika. Primární chlazení je ale mrtvé, stejně tak je v poruše i jedna z UPS. Vzduchotechniku normálně používáme pro dochlazování teplých uliček, teď to ale musí stačit pro celý sál. Po ověření, že to sál opravdu zvládá, startujeme další důležité systémy a VM. Mezitím do Lužic vyrážejí technici, kteří se starají o technologické zázemí. Ověřujeme stav datacentra, máme naftu na 38 hodin, teplota sálu drží. Pro jistotu na ráno objednáváme cisternu pro doplnění nádrží motorgenerátorů.

Chvíli před půlnocí přijíždí do areálu datového centra Tomáš. Cesta přes okolní vesnice nebyla vůbec jednoduchá, množství silnic je zcela neprůjezdných. Stihl to na poslední chvíli, pár minut poté policie celou oblast pro civilní vozidla uzavírá. Další specialisté už určitě takové štěstí mít nebudou, začínáme jim tedy už za cesty vyřizovat potřebné dokumenty pro průjezd přes stanoviště integrovaného záchranného systému.

V krátké době po Tomášově příjezdu začínáme s pokusy oživit chlazení sálu. Suché chladiče na střeše budovy schytaly pár přímých zásahů a vytekla z nich chladicí kapalina. Pokoušíme se tedy identifikovat děravá místa doplňováním chladiva, ale teče to prostě všude. Až po rozpojení všech okruhů zjišťujeme, že jedna jednotka je nepoškozená. Primární chlazení se okolo půl třetí ráno rozbíhá a nás se začíná zmocňovat mírný optimismus.

Přibližně ve stejné době, kdy nabíhá chlazení, přijíždějí další technici. Zprovozňují odstavenou UPS a provádějí revizi dvou nefunkčních suchých chladičů. Zjišťují, že jedna jednotka je zřejmě na odpis, druhá má ale pouze jednu díru. Objednáváme proto servisní zásah, máme přislíben termín na páteční dopoledne.

Systémy v provozu

Po páté hodině ranní nám pozitivní trend nepokazí ani to, že jeden z motorgenerátorů umírá, selhalo chlazení. Závada vypadá poměrně jednoduše, technici začínají shánět náhradní součástku. A pozitivní je, že funkční suchý chladič drží tlak, takže jeho okruh je zřejmě v pořádku.

Okolo osmé hodiny dostáváme informaci o stavu jiných okruhů – těch datových. Jedna linka je závislá na technologiích v zasažené oblasti a běží na záložní napájení, je tedy poměrně vysoké riziko, že ji poskytovatel neudrží. Druhá linka je ale stabilní, jsme v relativním bezpečí.

Rozhodujeme se tedy, že zahájíme spouštění dosud vypnutých redundantních prvků našich systémů. Povolujeme také start dalších důležitých zákaznických VM s varováním, že může dojít k opětovnému omezení provozu. Obě UPS už jsou ale téměř plně nabité, takže víme, že bychom případně měli minimálně hodinu na kontrolovaný shutdown.

Káva na terase

V dopoledních hodinách přijíždí servis na děravý suchý chladič. Oprava je úspěšná a před jedenáctou hodinou máme redundantní chlazení. Chvíli poté dorazí cisterna Čepra s naftou pro motorgenerátory. Když za půl hodiny zase odjíždí, máme v každém z nich 3000 l nafty, což nám stačí na celkem 92 hodin provozu.

Mezitím se v okolí rychle rozkřikne, že jsme v obci jediná budova s elektrikou a začínají se k nám trousit zájemci o nabití mobilů. Což je fajn, jsme rádi, když můžeme pomoct. Okolo poledne zjišťujeme, že se tornádo slitovalo nad naším kávovarem a zřizujeme polní kavárnu na terase. Kdybychom měli dveře, určitě by se netrhly. Chvíli po obědě přichází policejní hlídka, jestli něco nepotřebujeme. Ani oni neodmítají pohoštění v provizorních podmínkách. Na všech je vidět obrovská úleva, že si mohou na chvíli oddechnout, vychutnat si teplou kávu a aspoň na pár okamžiků zapomenout na aktuální strasti.

Žhavíme naplno

Oprava vadného motorgenerátoru se nakonec protahuje až do večera, hlavní ale je, že se to podařilo. V pátek v půl sedmé večer probíhají jeho poslední testy a ve třičtvrtě už tahá celé datové centrum. Startujeme zbylé systémy a povolujeme spouštění všech zákaznických VM. V celé firmě propuká nezřízené veselí.

Necelých 24 hodin od živelní pohromy jsme v plném provozu. Oba elektrické přípoje jsou tedy zatím bez napětí, ale to se pravděpodobně ještě pěkných pár dní nezmění a nic s tím nenaděláme. Do firmy začíná chodit obrovské množství gratulací od zákazníků. Tolik podpory jsme fakt nečekali a jsme z toho hodně naměkko.

Ještě není konec

V sobotu v půl osmé sice skutečně dochází v souladu s předchozím varováním k výpadku jedné z linek, ale provoz spolehlivě zvládne linka druhá a v deset hodin jsme už opět plně redundantní i v oblasti konektivity.

Skutečný problém ale nastává až v neděli. Ráno chvíli po osmé přepínáme z opravovaného motorgenerátoru na ten, který nás podržel v nejtěžších chvílích po přírodní katastrofě, až do pátečního večera. Jenže už toho má zřejmě chudák dost a chvíli po půl páté odpoledne to vzdává. Vracíme se zpět na opravovaný motorgenerátor a na místo neprodleně vyráží technici. Myslíme i na doplnění nafty. V mezičase probíhají provizorní opravy vnějšího pláště budovy a nejnutnější úpravy interiéru.

V jedenáct hodin v noci, z neděle na pondělí zjišťujeme, že tentokrát to nebude tak jednoduché. Chlazení poškozeného motorgenerátoru zjevně něco nasálo a výsledkem je pořádná paseka. Neprodleně začínáme shánět záložní motorgenerátor, nakonec pro jistotu objednáváme rovnou dva a hodinu po půlnoci jsou již oba na cestě do Lužic. Krátce po deváté ráno v pondělí je už vše zapojeno, máme tři funkční generátory, přičemž každý by měl být schopen utáhnout celé datové centrum. Odpoledne dokončujeme provizorní opravy pláště budovy, je to v suchu.

A co na závěr

Že ani tohle není tak úplně závěr. Aktuálně řešíme rekonstrukci elektroměrů a probíhají testy VN kabelů, ale datum obnovy přípojek nám zatím nikdo nechce sdělit. Z nejhoršího jsme ale už snad venku.

Poučení na závěr od nás teď ještě taky nečekejte, ačkoliv pokud jste to dočetli až sem, určitě byste si ho zasloužili. Technologicky jsme byli zřejmě připraveni dobře, jinak bychom teď psali spíše post-mortem. V oblasti zákaznických systémů máme díky proběhlým událostem vytipovaných pár adeptů, u nichž budeme doporučovat, nahradit lokální clustering geografickým. Taky máme pár docela dobrých tipů, jak stávající technologie DC lépe ochránit.

Zajímavou stránkou věci je také odborné hledisko. Minimálně v Evropě jde o unikátní událost, jediné datacentrum, které kdy přežilo tornádo bez neřízeného výpadku. A protože se průmysl vždy snaží z takových událostí poučit, už nyní se na nás sypou dotazy ohledně nabraných zkušeností. I proto doufáme, že toto není naše poslední slovo.

Rádi bychom touto cestou vyslovili poděkování našim dodavatelům za skvělou práci, kterou všichni odvedli při řešení mimořádné situace živelné pohromy. Velké díky patří také našim zákazníkům, kteří projevili úžasné pochopení pro naši situaci a po celou dobu nás zahrnovali svojí podporou. A v neposlední řadě bychom rádi poděkovali všem zaměstnancům, kteří neúnavně pracovali s obrovským nasazením, bez ohledu na denní či noční dobu i vlastní únavu a nepohodlí.

Chcete více informací?