Tecnología, Internet y juegos
148 meneos
621 clics
Un fallo de DNS puso a AWS de rodillas [ENG]

Un fallo de DNS puso a AWS de rodillas [ENG]

Amazon ha publicado un informe detallado que explica cómo una falla crítica en el sistema de administración de DNS de DynamoDB derivó en una interrupción que duró un día e interrumpió importantes sitios web y servicios de múltiples marcas, con estimaciones de daños que potencialmente podrían alcanzar cientos de miles de millones de dólares.

| etiquetas: amazon , aws , dns , dynamodb
80 68 0 K 209
80 68 0 K 209
El incidente comenzó a las 23:48 PDT del 19 de octubre (7:48 UTC del 20 de octubre), cuando los clientes informaron un aumento en la tasa de errores de la API de DynamoDB en la región US-EAST-1 del norte de Virginia. La causa principal fue una condición de carrera en el sistema automatizado de gestión de DNS de DynamoDB que dejó un registro DNS vacío para el punto final regional del servicio.

El sistema de gestión de DNS consta de dos componentes independientes (por razones de disponibilidad):…   » ver todo el comentario
#1 La condición de carrera se produjo cuando un Enactor de DNS experimentó retrasos inusualmente altos mientras el Planificador de DNS continuaba generando nuevos planes. Un segundo Enactor de DNS comenzó a aplicar los planes más nuevos y ejecutó un proceso de limpieza justo cuando el primero completaba su ejecución retrasada. Esta limpieza eliminó el plan anterior por obsoleto, eliminando inmediatamente todas las direcciones IP del punto final regional y dejando el sistema en un estado

…   » ver todo el comentario
#1 Esto es un fallo en cadena si alguna vez he visto uno. o_o
Pues si esto os parece inaceptable o increíble, esperaos a que las IAs vayan tomando el control de estas infraestructuras prioritarias. Son básicamente cajas negras de las que esperas unos resultados que a veces no son los que debieran, así que el día que ocurra algo con alguna de ellas, no van a tener forma de saber en donde se originó la cagada... :tinfoil:  media
#9 Equivocarse es humano, pero para amplificar el error hasta proporciones catastróficas hace falta un ordenador.
#15 Por eso inventamos los ordenadores, para poder cagarla más gorda aún xD
Las IA son el siguiente paso lógico en esa línea :troll:
#15 El CTRL-C / CTRL-V moderno
Siempre son las DNS!
#3 Venia a decir esto. Ultimamente los fallos gordos que veo en estos servicios cloud son debidos a algun tema raro con las DNS. Debe ser un follon el tema de enrutamientos dinamicos de infraestructura.
¿Cómo es que no habian descubierto antes este bug en la infraestructura?
Descubrir la posibilidad de que este problema ocurriese para haberlo resuelto con antelacion.
¿No tienen suficientes personas o equipos dedicados a calidad y testing de todos los sistemas?
¿El fallo no seria ese en vez del de DNS descrito?
#4 todo usuario con experiencia sabe que us-east-1 es SPOF de toda la amazonia. Si eso cae, no existe.
Decidieron eso, y así funciona.
¿Funciona bien?, pues sí, en general. Pero cuando tienes un problema ahí se va todo el universo a hacer puñetas.
#4 tienen un equipo de calidad/testing.

Pero si el equipo es capaz de detectar el 99,999% de los casos. Te acabas de encontrar el caso 0,001%...
#13 Hace poco hemos tenido un caso similar con el apagón electrico iberico del 28 de abril de 2025.
Ha habido tambien varias caidas de los sistemas de aeropuertos, facturacion y lineas aereas que han dejado vuelos en tierra por bastantes horas.
#4 it's not a bug, it's a feature.
#0. Relacionado. En este video explican con sencillas definiciones, esquemas y ejemplos exactamente lo que ocurrio en la caida de los servicios globales en Internet de AWS. El video está tan bien planteado que no solo queda al alcance de cualquiera sino que se trata de una excelente introducción a AWS.
'...La caída de AWS que rompió Internet. LA EXPLICACIÓN COMPLETA...'
www.youtube.com/watch?v=LamFqifaAJ8
Algunos decían que no se explicaría.

Incluso se activarsn compensaciones por SLAs incumplidos.
#2
1 - La explicación es bastante basura. A algunos les valdrá esa explicación. A mí no. Pero es una guerra que ya sé que tengo perdida.
2 - Te voy a cumplir con un SLA garantizado que, ¡uy! esto no lo contempla.
#2 donde? A mi no me consta ninguna compensación.
#27 Si, si lo entiendo. Es simplemente que últimamente tengo la impresión de que la mayoría de problemas en la red viene por ahí.
¿Soy yo o últimamente parece que la mayoría de fallos de la red vienen del sistema de DNS?
#24 al final es el punto de entrada a cualquier sistema, si no puedes resolver eso, por muy robusto q sea un sistema no le llegan los clientes....
¿Por qué un cagadón en una región en un servicio no relacionado afecta a IAM en otro continente?

Porque IAM es una basura espectacular.

Todo servicio AWS "viejo" es un engendro. Los nuevos son "engendrados".
#6 La vieja coña de "la nube son servidores de otros" nunca tiene en cuenta que los programadores son "programadores de otros".
#6 porque los servicios "globales" en realidad son "us-east-1".
estimaciones de daños que potencialmente podrían alcanzar cientos de miles de millones de dólares.

Ya no se puede hacer nada sin ordenadores. No existe alternativa.

Por ejemplo, esos genios que dicen de quitarle la criptografía a internet, no creo que sepan que eso pararía toda la producción manufacturera, la just in time, inmediatamente.
Nos veo a todos hablando, como si no se nos escapara algún where, en un delete from ...

menéame