Verschillende online diensten werden donderdagavond platgelegd, met een fout bij Google Cloud als oorzaak.
Door de storing werd Cloudflare uitgeschakeld, dat tevens leidde tot het offline gaan van onze eigen website. Prominente diensten die in verschillende mate werden geraakt, waren Google’s eigen diensten, AWS, Spotify, Discord en meer. Wie niet van Google en/of Cloudflare afhankelijk was, leek geen problemen te ervaren.
Wel problemen, geen problemen
Tegenover Forbes stelt AWS overigens dat alle diensten operationeel zijn. Tegelijkertijd waren er duizenden klachten in korte tijd op Downdetector over onbereikbare AWS-onderdelen. Google zelf communiceerde wel dat het problemen ondervond en dat er later een root cause-analyse zou volgen.
Cloudflare benadrukt dat er geen sprake is van een Cloudflare-storing, die weleens wil voorkomen. In plaats daarvan meldt de CDN-leverancier dat dit een “Google Cloud-storing” is. Voor de eindklant maakt dit natuurlijk niet veel uit; het roept de vraag op of een wereldwijde service wel van één cloud afhankelijk kan zijn op deze manier.
Wachten op antwoorden
De statuspagina van Google Cloud is op moment van schrijven (23:30) bezaaid met waarschuwingstekens, wijzend op aanhoudende problemen. Wel stelt Cloudflare dat de eigen diensten weer grotendeels zijn opgekrabbeld. Het feit dat u dit artikel kunt lezen, suggereert dat dit klopt.
De precieze oorzaak moet nog blijken, maar Google heeft een goede reputatie op dit gebied. Een langdurige storing in januari 2022 werd voorzien van een uitgebreide uitleg, die wellicht lijkt op wat we later vanuit Google zullen horen. Dat is echter speculatie.
Routine-onderhoud van een SDN-component leidde destijds namelijk tot een onverwachte fout binnen Google Cloud. Dit onderhoud leidde volgens Google tot een applicatie-failover, waarbij een nieuwe actieve replica vanuit een eerder checkpoint werd opgeroepen. Normaliter gaat dit frictieloos; de replica nam echter een kritiek stukje configuratie-informatie niet mee. Deze fout werd verspreid naar grofweg 15 procent van de netwerkswitches die de regio us-west1-b bedienen. Het herprogrammeren van de switches triggerde echter een race condition in de firmware, waarna ze crashten. Dit alles verliep automatisch, waardoor er handmatig herstel nodig was. Uiteindelijk lag Google Cloud er destijds grofweg 3,5 uur uit in de us-west1-b-regio.
Lees ook: Rapport biedt inzicht in grote impact CrowdStrike-storing