¿Por qué GMail estuvo caído por casi 2 horas ayer?

Screen shot 2009-09-02 at 8.41.34 AM

Una caída mundial del servicio de correo electrónico Gmail durante el pasado martes 1ro de Septiembre de 2009 fue causada por un apilamiento de tráfico en sus servidores, de acuerdo al blog oficial de Gmail.

El problema fue dado a cambios recientes los cuales fueron diseñados para mejorar el flujo del tráfico en los enrutadores, servidores que se encargan de redirigir los pedidos (requests) a los servidores apropiados de Gmail. Estos cambios sobre cargaron el sistema después de que los trabajadores desconectaron algunos servidores de Gmail para realizar mantenimiento rutinario.

El Czar de confiabilidad de sistemas Ben Treynor dice en el blog de Gmail “Por lo que sabemos ahora, habíamos sub-estimado la carga causada por los cambios recientes a los enrutadores, cerca de las 12:30pm hora del pacífico, algunos enrutadores se sobrecargaron y en efecto le dijeron al resto del sistema ‘dejen de enviarnos tráfico, estamos demasiado lentos!’. Esto transfirió la carga a los enrutadores que quedaban, causando sobrecargas en estos, en cuestión de minutos casi todos los enrutadores estaban sobrecargados.”

Esta sobrecarga tuvo como resultado personas en todas partes del mundo sin acceso a Gmail por unos 100 minutos, aunque el acceso IMAP/POP continuaron funcionando correctamente.

Los ingenieros de Gmail fueron alertados del problema segundos después de las fallas y luego de darse cuenta cuál era el problema pusieron mas enrutadores en línea. Ahora, Gmail es mas que 99.99 por ciento disponible a sus usuarios.

“Hemos puesto toda nuestra atención para ayudar a asegurar que este tipo de eventos no vuelva a suceder”, dijo Treynor.

Una de las reparaciones que la compañía planea es asegurarse que los enrutadores funcionen mejor haciéndolos bajar sus velocidades cuando se sobre cargan en vez de rechazar tráfico. Treynor dijo que los enrutadores necesitan tener suficiente aislamiento a fallas para que el problema en un Centro de Procesamiento de Datos (Datacenter) no afecte otros servidores en otro Datacenter.

[ad#Gubatron-Adsense-336x280IMG]