EDICIóN GENERAL

Cómo un comando mal escrito por un ingeniero de Amazon dejó buena parte de Internet inaccesible durante horas

#68 Hombre, causado fue causado por un typo. Que no hubieran sistemas para paliar/bloquear este error, o que no hubiesen hecho pruebas de reinicio controlado en años es otro tema. Nadie (ni el articulista) está echándole la culpa al sysop/sysadmin/SRE/llamale_como_quieras que le ha dado "enter" al comando equivocado
#90 Sí, el error es de un typo. El impacto viene derivado de lo mucho que han escalado y que los checks de consistencia se fueron muchísimo respecto a los tiempos esperados. Y hasta no completar los checks, no pudieron levantar los servicios dependientes.

No sólo es el typo, derivado de una intervención manual según un procedimiento establecido ejecutado por una persona autorizada. Es el impacto que causó el typo.

Una intervención manual va a tener errores. No sabes cuando ni con qué frecuencia, pero cualquier intervención manual algún día tendrá un error. Lo que Amazon va hacer es limitar su impacto y minimizar los procedimientos manuales.

menéame