mercoledì 27 aprile 2011

Tutti a piangere per PSN, ma chi pensa ad Amazon?

Cosa può esserci di peggio di PSN che va giù per un'intera settimana? Beh, qualsiasi altra violazione o frode informatica, tipo quelle che di routine avvengono alla vostra banca, oppure quella avvenuta ai servizi in cloud di Amazon dal 21 al 24 Aprile.

Qui potete ammirare lo stato dei nodi del Nord America:


Mentre i nerd disperavano per non poter giocare a Killzone 3, il nodo West Virginia del cloud di Amazon è andato giù. Incluso quello di backup che, teoricamente, dovrebbe essere in una struttura diversa e ragionevolmente distante proprio per evitare questo tipo di incidenti (almeno stando alle pratiche di disaster recovery e le norme di service continuity).

Il 25 Aprile ancora moltissimi siti erano totalmente oscurati, nonostante il nodo funzionasse. Se un sito ospitato su EC2 va in down, esso torna disponibile entro 6 ore. Su quei nodi c'erano ospitati centinaia di grandi servizi online che si sono spenti contemporaneamente, da qui i ritardi nel tornare online ed i problemi di performance che ci sono ancora oggi.

Forbes scrive che ci vorrà parecchio per calcolare esattamente l'entità del disservizo: la maggior parte dei siti colpiti sono piattaforme Software as a Service, come Foursquare o Heroku I più fortunati hanno avuto solo problemi di performance ma moltissimi clienti di Amazon (in particolare quelli locali che non hanno una ridondanza planetaria o distribuita geograficamente) sono stati al buio per almeno 4 giorni.

Timidamente si inizia a parlare di molti milioni di dollari l'ora di business perso. La cautela è d'obbligo perché il contratto di servizio del cloud di Amazon prevede al massimo 4 ore di downtime consecutive. Potete immaginare cosa accadrebbe se tali cifre fossero confermate con certezza.

Ma è davvero un duro colpo per il cloud computing? Diciamo che è un duro colpo all'immagine di Amazon, nonostante nel settore l'azienda fosse già nota per aver sempre avuto dei cloud service "ballerini" (ma anche molto economici). Più che per il cloud in sé ci sarebbe da discutere se l'architettura di Amazon sia quella migliore possibile (non è l'unica possibile, questo è sicuro), visto che basta il down di un nodo geografico (in un continente dove peraltro ce ne sono molti) per causare disservizi gravi. Forse è ora di ammettere che un cloud service economico ha un'affidabilità paragonabile a quella di un web service economico.

Se siete curiosi di sapere quali sono stati i siti/servizi coinvolti, potete consultare questa lista, di cui allego uno snapshot fatto il 26 Aprile (a crisi teoricamente finita ma con ancora molti problemi):

Nessun commento:

Posta un commento