edición general
138 meneos
1839 clics

Cloudflare postmorten 18 noviembre [eng]

El problema no fue causado, directa o indirectamente, por un ciberataque o actividad maliciosa de ningún tipo. En cambio, fue provocado por un cambio en los permisos de uno de nuestros sistemas de base de datos, lo que hizo que la base de datos generara múltiples entradas en un "archivo de características" utilizado por nuestro sistema de gestión de bots. Ese archivo de características, a su vez, duplicó su tamaño. El archivo de características, más grande de lo esperado, se propagó luego a todas las máquinas que componen nuestra red.

| etiquetas: cloudflare , postmorten , caída , servicio
Comentarios destacados:                  
#6 #3 Es aún más cojonudo que simplemente eso: Creemos una tecnología de comunicación redundante, resiliente, a prueba de fallos, lo suficientemente "inteligente" como para, en caso de corte de la red, restablecer la comunicación por otras rutas... y pongamos la red en manos de empresas privadas que hagan lo que les salga de los cojones... y luego centralicemos todos los servicios distribuidos en tres o cuatro megaempresas, privadas también por supuesto, localizadas todas en el mismo sitio.

De auténticos retrasados mentales. Cómo echarle margaritas a los cerdos.
Dejemos todos nuestros servicios esenciales en servidores alojados en EEUU. Que podría pasar.
#3 Es aún más cojonudo que simplemente eso: Creemos una tecnología de comunicación redundante, resiliente, a prueba de fallos, lo suficientemente "inteligente" como para, en caso de corte de la red, restablecer la comunicación por otras rutas... y pongamos la red en manos de empresas privadas que hagan lo que les salga de los cojones... y luego centralicemos todos los servicios distribuidos en tres o cuatro megaempresas, privadas también por supuesto, localizadas todas en el mismo sitio.

De auténticos retrasados mentales. Cómo echarle margaritas a los cerdos.
#6 ¿Qué alternativa propones? ¿Más servidores?
#6 Cómo? Me estás diciendo que las políticas económicas liberales lo que hacen es restringir la libertad en vez de aumentarla? Me caigo muerto.
#19 El método es conocido, propones un mercado donde dices muy alto y muy fuerte que no se pueden permitir los monopolios mientras creas todas las condiciones necesarias para que dicho mercado quede en manos de monopolios privados y destruyes el único organismo capaz de hacerles frente.

Y la gente aplude con las orejas.
#6 literalmente Cloudflare es mucho mas estable que muchas webs del propio gobierno. Pero que si, que el gobierno lo gestionaria mucho mejor xD

Pero estoy de acuerdo que lo de centralizar en Cloudflare una gran cantidad del trafico de Internet es un problema. La cosa esque no hemos encontrado ninguna solucion efectiva contra los ciberataques que no sea ponerse detras de alguien con el suficiente musculo para defenderte.
#31 Hay muchas soluciones y servicios más allá de cloudflare.

Creo que la diferencia es que ellos dan mucho por una cuenta gratuita. Pero si es por seguridad siempre puedes pagarle a otro.
#41 bueno, estoy simplificando. Obviamente Cloudflare tiene sus competidores, pero lo mismo es.
#31 Evidentemente, si dejas el Gobierno en manos de liberatas cuya idea de "gestión" es contratar a empresas privadas para que te lo hagan todo y pagar pastizalámenes a empresas privadas que luego agan salarios de mierda a sus trabajadores... en vez de contratar directamente a esos trabajadores, pues sí.

Literalmente, centralizar servicios en Cloudflare ha supuesto un outage de la puta hostia en todo el mundo en páginas y servicios de todo tipo y color. Literalmente, Tebas puede joderte simplemente bloqueando CloudFlare, una única empresa. Internet no se pensó para eso, se pensó precisamente para que nada de esto pasara.
#60 puedes auto engañarte lo que quieras. No conozco nada del estado que funcione de forma eficiente. Y eso que la recaudación fiscal está en máximos históricos en porcentaje de PIB.

Sobre el segundo punto. Estoy de acuerdo en la esencia pero como digo, no hemos encontrado una solución efectiva contra el DDOS que no sea que alguien grande te filtre el tráfico.
#63 No conoces. Simplemente. Y habla de autoengañados. Vete a Somalia a autoengañarte.
#3 Cloudflare es en CDN, lo que quiere decir que sus servidores están alojados a lo largo de todo el mundo, no en un único país.
Es la base de su funcionamiento.

Por otra parte, ha sido un fallo técnico, nada relacionado con legislaciones. Podría haber pasado con cualquier otra empresa, como cuando menéame daba errores 500 sin estar esta web alojada en EEUU.

No entiendo tu comentario.
#7 Ha sido un fallo, pero esa empresa de una potencia extranjera puede decidir desconectar nuestros servicios esenciales cuando le de la gana. Y eso se visualiza cuando falla.
#13 ¿Y porqué haría eso una empresa? ¿Para perder al 80% de los clientes y quebrar?
#15 El gobierno de su país lo puede usar como extorsión, espionaje industrial...
Microsoft ya ha reconocido que si el gobierno de EEUU quiere acceder a los datos de europeos de cualquiera de sus servidores, no puede negarse a ello. Estás cediendo soberanía.
#18 Y si metes un CDN español y mañana gobierna los fachas, lo mismo le dan los datos igual.

Mira lo que está pasando en España con la Liga y repite que es mala idea irse a servidores USA.

Si el problema es "los gobiernos pueden", usar una solución local tampoco resuelve nada

Es más, casi mejor tirar de infraestructura de un país donde las empresas manden más que los gobiernos.
#42 Si el servidor está en España el problema lo tenemos los españoles y lo tenemos que arreglar en casa, por la vía que nos sea posible. Si interfiere otro país en el proceso tendremos que lidiar con ese país directamente y eso es más peligroso, o tenemos más que perder.

Por otro lado también tienes parte de razón que en el caso de querer defender derechos civiles de los propios ciudadanos estamos más seguros de depender de un país extranjero que no tenga intereses en ellos que en manos nuestro propio país que si pueda querer limitarlos de alguna manera.

Es un debate interesante.
#49 Yo es que creo que es un falso debate. Decir que no podemos usar servicios extranjeros porque lo mismo mañana viene Trump y los bloquea y nos deja sin servicio me parece un argumento tan improbable como cuando los fachas decían que ojo con el votar a Podemos que te van a expropiar la vivienda como tuvieras más de dos.

Que además, imaginemos que pasara. Que Cloudflare dijera, a tomar por saco, dejamos de dar servicio a Europa de un día a otro.
Es un servicio TAN sencillo de sustituir que el problema que podría suponer no es un motivo para seguir usándolo en base a los beneficios que da.
#42 la diferencia esta en que ahora mismo pueden joderte dos gobiernos en lugar de uno :troll:
#18 En un CDN solo pones datos públicos para que los distribuya desde el centro de datos más cercano al usuario. No pones ahí nada privado.
Cloudflare también maneja otras cosas como el certificado SSL y la protección contra ataques DoS.

El arreglo de ayer para muchas empresas fue simplemente desactivar la integración con Cloudflare y cambiar el DNS para que apuntara a tu web en vez de a Cloudflare. Eso las dejaba sin CDN y sin protección DoS, pero era mejor eso que estar sin servicio.
#55 Con el acceso al panel caído no se podía hacer nada, salvo hacerlo por API (que no lo pensé en el momento)
#70 Yo no use Cloudflare, así que no sé todos los detalles, ¿pero no eres tú quien controla el DNS? No puedes redirigirlo a otra IP?
#75 generalmente usas los DNS de Cloudflare tambien.

Aunque bueno, la DNS de Cloudflare seguia funcionando con normalidad. Solo que estaba caido el panel web para poder editarlas...
#75 Si activas el proxy de cloudflare, en el panel solo ves la zona tipo A que has creado, pero por detrás ellos crean 3 zonas A y 3 zonas AAAA, y van rotando las IPs.
No pueden decirte "éstas son tus IPs para que las configures en tu hosting"
#55 eh no es correcto.

La idea es poner toda tu web detras de Cloudflare. Eso significa que todo tu trafico pasa por Cloudflare y teoricamente podrian ver todo (el cifrado se cierra en Cloudflare y se vuelve a abrir luego).
#15 En un escenario normal no lo haría, pero en un escenario de guerra o conflicto sí. No es seguro confiar el funcionamiento de la infraestructura de un país a otro país. Esto es como darle las llaves de tu casa al vecino para que te las guarde, en vez de guardarlas tú.
#20 Internet no tiene (no tenía) países.

Precisamente un CDN soluciona muuuuchos de los problemas con las naciones.
#23 Sí, por eso Cloudflare ha ido a quejarse al gobierno de USA por los bloqueos de La Liga en España, porque es internacional. No seamos ingenuos.
#37 Dale una vuelta a tu razonamiento. ¿Crees que La Liga lo habría tenido más fácil sin un CDN por en medio? ¿Incluso con un servidor en España? Cerrado en cero coma.
#13 Si quieres usas cloudfare, si quieres usas otro CDN, los hay a cientos, o si no, con tu server a pelo aguantando todo el tráfico como toda la vida.

Aquí nadie te obliga a usar potencias extranjeras ni cosas raras.
#13 Es cambiar los DNS de cloudflare a otra compañía y problema solucionado. No tiene sentido que EEUU pida nada a cloudflare.
#3 Pongamos mensajes populistas nada más subirse la noticia aunque no tenga nada que ver con lo que realmente ha pasado. Qué podría pasar.
A ver, meneantes, si vais a opinar, al menos saber que es Cloudflare, que es un CDN y para que se usa, que viendo algunos comentarios, parecería que la gente viene aquí a soltar la chorrada demagógica y a correr.

Si, claro que es mejor usar una tecnología redundante que permita redirigir conexiones cuando cae un servidor y que redistribuya geograficamente los contenidos para no tenerlos localizado en un único punto geográfico.

Y eso es justo lo que hace un CDN como Cloudflare. Tener todo en…   » ver todo el comentario
#10 La peña ya no tiene ninguna vergüenza al ridículo. Te sueltan el comentario chorra, quedan como gilipollas y se quedan tan contentos.
#27 Yo controlo


.  media
#10 será una cdn no un cdn, que duelen los ojos!!
Muy buen postmorten. Para aprender como redactar uno.
Resumido en 30 segundos: youtu.be/QNTZbJSQVis
#2 siempre siento curiosidad de que será de esta chica, y como se sentirá cada vez que alguien la haya liado parda por un error, nos acordemos de esta entrevista
#5 No se que ha sido de ella, pero deberían contratarla los políticos para pedir perdon cuando metan la pata... se la ve sincera y no puedes evitar empatizar.

Como hubiesen cambiado las cosas para Mazón si el día de la DANA hubiese salido esta chica dicendo que todo era culpa suya que se había confundido de teléfono para llamarlo o algo...
Postmorten de los meneantes: Cloudflare está en USA y sus clientes son tontos.
chmod 777 * y ale. :troll:
#4 y si no funciona reboot
#4 El comando sería chmod 777 -R /
Y el mayor problema de ese comando no es que de permisos de escritura y ejecución para todo el mundo, como muchos piensan, sino que quita los permisos especiales como sticky bit y setuid
#0 Cloudfare -> Cloudflare

también en etiquetas
#28 correcto @Eirene si puedes cambiar el titulo y etiquetas lo agradeceria
#29 Hecho.
Post morteM :professor:
#16 Por dios, un @admin que cambie el título o a algunos nos va a dar un parraque.
#16 Da las gracias que al menos no se han comido la primera T también. O que hayan juntado las dos palabras. Siempre puede ser peor...
posmorten
www.youtube.com/watch?v=i_cVJgIz_Cs

Me da igual el error que fuera, para mi siempre es que han olvidado poner el WHERE en el DELETE FROM.
#25 En este caso parece que en lugar del WHERE se olvidaron del GROUP BY
#38 No, faltó el where. Porque hicieron una consulta FROM system.columns sin el where del schema. Le dieron permisos a mas schemas, y trajo mas información de la que debería.
¿Y cómo sabemos que lo que dicen es verdad?
Y si fué una ataque, una intrusion y prefieren decir que fue un fallo de un trabajador cambiando unos permisos.

Muchas cosas fallan ultimamente. Un apagon, aws, cloudflare. Y ademas en un mundo con mas guerra hibrida que nunca.
Todos los que dependen de cloudflare ¿tendran un procedimiento de emergencia sobre qué hacer cuando este cae como en este caso?
O veian que era tan poco probable que no merecia la pena estudiarlo y hacerlo.
#12 Si tienes un servidor de respaldo puedes prescindir de Cloudflare mediante un cambio de DNS.

Yo sé lo comenté a algún cliente, aunque decidimos que compensaba esperar a que Cloudflare volviera. Mi cliente tampoco tiene una tienda online con decenas de compras al minuto, claro. Podía permitirse estar un par de horas sin web.

Que por otra parte, es un poco la pescadilla que se muerde la cola. Si tienes una tienda con mucho tráfico necesitarás en CDN tipo Cloudflare para poder aguantar el tráfico diario sin necesidad de montar una infraestructura propia mucho más compleja y cara.
#14 Si tienes una tienda con mucho tráfico, rollo megaempresa, directamente no usas un CDN. Te montas toda la infraestructura de redundancia y protección propia.
#33 Ya, si eres Amazon o El Corte Inglés pues te montas tú infraestructura propia.

Pero hay un montón de tiendas de rango medio, que no tienen capacidad de montarse un sistema de redundancia propio y que tampoco son tan pequeñas como para no necesitarlo.
#39 Hay muuuuuuuuchas webs ~pequeñas que usan la cuenta gratuita de Cloudflare no ya por el CDN, simplemente por protección básica (bots, spam, bloquear países...)
#40 Pues más a mí favor.

Si, Cloudflare dió problemas ayer.
¿Cuantos problemas ha evitado a cuantas webs durante estos años?
#39 #33 el corte inglés usa Akamai de CDN. Amazon ya te imaginas cual. Todas las megaempresas que dices usan una CDN o varias como: Akamai, Fastly, Cloudflare...
#12 Normalmente tienen un proxy para usar de bypass, pero debes conocer el dominio de dicho proxy. Si los usuarios no lo conocen tampoco sirve de nada.
#12 cuando Cloudflare cayo, todavia funcionaba la API. La solucion era desconectar el modo "proxy" desde la API.

Obviamente te quedas expuesto al mundo. Pero no se puede tener de todo al final.
Aqui se mezclan muchas cosas, por un lado, este tipos de fallos son intrinsecos a servicio global, es una cagada, pero ya sabemos, mal de muchos.....pero al ser un mal de muchos es que todo el mundo conoce a cloudfare. Realmente lo potente de este tipo de soluciones es que son agnosticas a la aplicacion y la infra de los clientes, es decir, cualquier cosa que sea http encaja, acercado el contenido estatico al usuario y descargando a los servidores. Este tipo de servicios son tanto para clientes…   » ver todo el comentario
no fue para tanto y con reconfigurar a dónde apuntaba las DNS ya se tenía solucionado. No sé qué más pies le queréis ver al gato los que comentáis que lo suyo sería tener algo propio montado. Claro que sí, de un día para otro y sin casi ningún mantenimiento me monto los servidores "pepinos" redundantes en número y espacio geográfico para mi tienda Paco. Mira, un presupuesto rápido te hago: 6k€ por servidor (tampoco nos vamos a pasar) * 4 (zonas geográficas) + alquiler del sitio físico…   » ver todo el comentario
#61 Si quieres usar la mayoría de servicios de Cloudflare necesitas si o sí usar sus NS.
El panel estaba caído (excepto por API pero tampoco lo dieron como alternativa), por tanto no podías entrar a desactivar el proxy. Es decir, no había manera de desactivarlo salvo por API

Si cambias los NS en el dominio (suponiendo que no lo tengas registrado en Cloudflare), tarda entre 6 y 24h en propagarse, no es como las zonas DNS que puedes poner TTL de 1 minuto.
#71 Muchos de los servicios extra de cloudflare (entiendo que te refieres a los de enrutado eficiente blablabla aunque seguramente, no lo mirado, que algunos de los demás, como el de imágenes también cayó. Se me haría raro no tener un servicio así en su cdn) tienen un coste bastante elevado, no me veo a una empresa media pagando esas cantidades. De todas formas te doy la razón, si empresa Paco ha creado tantos puntos de fallo, está vendida y no había solución "fácil".

Lo de la propagación sí que es echar la moneda. Hay muchas veces que funciona en poco tiempo y otras en las que pierdes.
No empezó a currar hace poco en cloudflare el hacker del gorrito?? :troll: :troll: :troll:
Pero vamos a ver, ¿a estas alturas no sabemos que no podemos tocar las BBDD en producción?? xD

youtube.com/watch?v=i_cVJgIz_Cs
Y no fué el DNS... Da para reflexionar
también cayó el CDN de cientos de JS esenciales en millones de webs, así que aunque una web no use directamente cloudflare, no cargaban porque los JS daban error 500 y no funcionaban al 100%
#35 Las puñeteras dependencias.
Si necesito una librería, me la descargo y ya la iré actualizando, es más trabajo pero no estás expuesto a que se joda el acceso a esa librería o a que saquen una actualización con problemas.
Ya os dije que yo no quería tener acceso a esa maldita base de datos, que yo no quiero hacer nada ahí!!! Pues ale
Lo que me gustaría saber y no van a decir en el postmortem es si esto ha sido un resultado de la avaricia de los directivos de la empresa, como consecuencia de reducir los equipos de operaciones y DevOps al mínimo y sustituirlos por IA. Vamos, que si este mismo error hubiese ocurrido hace un par de años, cuando todas las comprobaciones estaban respaldadas por un equipo humano.
Edit que el tipo me tiene en el ignore.
Pusieron al becario a hacer pequeños cambios en la base de datos para que se fuera fogueando

menéame