Quan pensem en el cloud, sovint tenim la sensació que és una infraestructura gairebé “intocable”. Però la realitat és que darrere del núvol hi ha centres de dades físics, amb servidors, electricitat, refrigeració i connexions de xarxa. I, com qualsevol infraestructura real, també poden patir incidents.
Això és exactament el que va passar recentment a Amazon Web Services (AWS) a la regió de l’Orient Mitjà.
Segons diverses fonts, un incident físic en un centre de dades va provocar un incendi i una interrupció del subministrament elèctric en una de les zones de disponibilitat. Com a conseqüència, es van produir interrupcions i degradacions en diversos serveis cloud durant diverses hores.
Impacte en serveis cloud
La incidència va afectar principalment la regió ME-CENTRAL-1 (Emirats Àrabs Units) i va impactar serveis molt utilitzats dins l’ecosistema AWS, com ara:
- Instàncies de computació
- Bases de dades gestionades
- Serveis d’emmagatzematge
- Altres components de la infraestructura cloud
En molts casos els clients van experimentar errors de connexió, increments de latència o indisponibilitat temporal dels serveis.
Aquest tipus de situacions recorda una cosa important: el cloud no elimina els riscos d’infraestructura, simplement els gestiona d’una altra manera.
La importància de la redundància
Incidents com aquest posen de manifest la importància de dissenyar sistemes amb:
- Arquitectures multiregió
- Plans de recuperació davant desastres (DR)
- Monitoratge continu de la infraestructura
Moltes organitzacions que tenien desplegaments redundants en altres regions van poder redirigir càrrega o fer failover, reduint així l’impacte de la incidència.
On consultar l’estat dels serveis d’AWS
Quan es produeixen problemes d’aquest tipus, una de les primeres comprovacions que convé fer és revisar el panell oficial d’estat d’AWS:
https://health.aws.amazon.com/health/status
En aquest portal AWS publica informació actualitzada sobre:
- Incidències actives o recents
- Serveis afectats
- Regions amb problemes
- Evolució de la recuperació
Per als equips de sistemes, SOC o DevOps, aquest panell és molt útil per determinar ràpidament si una incidència és interna de la nostra infraestructura o bé un problema global del proveïdor cloud.
Els nostres serveis InCloud
Infordisa també disposa del seu propi panell públic d’estat dels serveis, on es pot consultar en temps real qualsevol incidència, tasques de manteniment o l’estat de les diferents plataformes.
Aquesta informació està disponible a: https://status.infordisa.com, i permet als clients conèixer ràpidament si hi ha alguna afectació en els serveis i seguir-ne l’evolució.
En definitiva, aquest incident físic torna a demostrar que, fins i tot al núvol, la resiliència i la planificació continuen sent claus per garantir la continuïtat del servei.























