Hace 1 año | Por blodhemn a hipertextual.com
Publicado hace 1 año por blodhemn a hipertextual.com

Tanto Google Cloud como Oracle, de cuyos servidores dependen cientos de empresas y servicios de internet, tuvieron que tomar medidas drásticas debido a la ola de calor que está sufriendo Reino Unido esta semana.

Comentarios

I

#20 Hombre, para la condensadora (parte exterior de la máquina de frio) no será lo mismo trabajar a 40 que a 20 grados

g

#20 Es probable que las elevadas temperaturas hayan tenido parte de la culpa.
Ejemplo, en el datacenter se recoge el aire a 30ºC para volver a inyectarlo a 16ºC. En teoría esto es igual en invierno que en verano, pero a la máquina enfríadora si le costará más bajar la temperatura si el aire exterior es muy alto (el intercambio de calor será menos eficiente).

SaulBadman

#20 Lo que me sorprende es que no haya alguna máquina de aire acondicionado extra para este tipo de casos. Ya no sólo para cuando se estropea (porque previsiblemente se va a estropear), sino para usarlo mientras otras máquina está reparándose o se le está haciendo algún mantenimiento.

g

#34 Creo que la certificación Tier2 creo que ya obliga a tener n+1 unidades de refrigeración.
Ahora bien, que si tienes 4 máquinas y la 5ª de respaldo, el poner la 5ª a funcionar a la vez solo subirá un 20% la capacidad de refrigeración, con temperaturas abnormalmente altas quizá no sea suficiente.

https://cliatec.com/diseno-data-center/

SaulBadman

#35 Ahora bien, que si tienes 4 máquinas y la 5ª de respaldo, el poner la 5ª a funcionar a la vez solo subirá un 20% la capacidad de refrigeración, con temperaturas abnormalmente altas quizá no sea suficiente.

Completamente cierto.

B

#34 en un data center de un nivel medio la hay, te lo garantizo. Trabajo en una ingeniería diseñando eta clima, asíque lo sé de buena tinta. Lo normal es que si tienes 4 máquinas por ejemplo, una este de reserva (necesitas 3, tienes 4. Esto se llama N+1. En algunos CPD tienen 2N, si necesitas 3 tienes 6.
El problema es cuando la máquina te da 100kw de frío con temperaturas exteriores de 32 grados (condición de diseño, nunca se penso que pasaría de ahí) pero 70 kW con 42 grados. 70x4 280, menos que los 300 necesarios y no te queda redundancia... Y a lo mejor tienes una avería.en un compresor, osea que 230 por ejemplo

Peta todo.

D

#11 Pues eso, que aprovechen la energía.

#14 Están perdiendo millones por no contratarla, yo lo veo claro.

Alt126

#11 Caldo de pescado, pal caso también es útil

Kipp

#9 Y con ese agua se mueven turbinas que generan electricidad. Al final va a ser de utilidad todos esos ordenadores que se calientan/queman mas que la moto de un hippy.

ccguy

#18 es google, lo mismo te crees que es un servidor web guarro que si se jode el disco se pierden los datos 😊

Para que se pierdan datos en Google tiene que haber una catástrofe. Para que no estén disponibles temporalmente, depende del nivel de servicio del usuario. En Google cloud puede elegir si quieres réplicas entre regiones separadas o no.

D

#32 Tiene que haber una catástrofe... Hasta que la hay.

Díselo a OVH

Un sistema sin copias de seguridad no pasa una auditoría de seguridad y un sistema sólo con copias en el mismo proveedor pasa, pero frunciendo el ceño y con muy mala cara y si no lo arreglas igual el año siguiente no te renuevan el certificado.

ccguy

#42 ovh alquila servidores físicos. Depende de cada usuario contratar varios en sitios distintos (como Rbx y Canadá por ejemplo) si necesita redundancia

T

#30 Quiero pensar que lo dices porque has entendido que toda su explicación iba con la ola de calor, pero yo para nada lo he entendido así.

Simplemente detalla el hecho de cómo afecta el calor (en este caso, calor por falta de refrigeración) a la latencia en las aplicaciones que google u oracle tengan alojadas allí.

T

#26 5 Lo ha explicado muy bien, no puedo aportar mucho más.

Acuantavese

No cuadra que haya incrementos de latencias por problemas de refrigeración, o funciona o no funciona

T

#1 Si que cuadra.

Acuantavese

#3
El comunicado por parte de Google Cloud ha sido similar. La compañía reveló que múltiples productos de su división Cloud estaban sufriendo "tasas de error elevadas, latencias o indisponibilidades del servicio" debido a "un fallo de refrigeración en uno de los edificios" que la empresa tiene en Reino Unido para hospedar la región europe-west2.

Entonces las latencias se deben a causas concretas como apagado de recursos o componentes de las distintas piezas del sistema, pero no es que vayan lentas o den errores por el calor que es lo que dice aqui, a mi parecer de forma incorrecta y que es a lo que me refiero, que no es como una vespa esto

#10 Lo soy y con muchos años de experiencia, cosa que tu estoy seguro que no eres

i

#26 Supongo que lo de la latencia puede ser porque si te apagan un servidor local el servicio te lo va a dar un servidor remoto de otra región más lejano y que va a soportar una carga mayor a la habitual por lo que vas a tener más latencia

Acuantavese

#38 Pues que expliquen que primero han apagado recursos y que esto ha ocasionado latencias, no que el calor las ha ocasionado que es lo que digo que es incorrecto y por lo que me frien a negativos

Armandorev

#26 si dice que por problemas de refrigeracion se producian errores mas o menos vendria a decir que por el calor se han producido errores no?

r

#5 eh? petaron dos aires acondicionados, no te líes.

T

#17 Por curiosidad, ¿en qué crees que se ha liado?

r

#24 En el aire acondicionado: A cooling related failure in one of our buildings that hosts zone europe-west2-a for region europe-west2 is affecting multiple Cloud services.

https://status.cloud.google.com/

D

#5 IOkese

Acuantavese

#5 Muy bien coño, te lo has currado!

D

#5

Esa es la teoría. La práctica es mucho peor (porque es eso mismo multiplicado por cada servidor afectado)

Un DC es un generador de calor como una mala bestia. Si falla la refrigeración no solo pasa eso que dices, encima se acumula todo el calor de cientos de servidores, se pueden parar incluso para protegerse de la temperatura, joder los routers (el otro día vi uno sobre el que no se podían poner la mano encima porque te quemabas, literalmente, nunca he visto uno así)

¿Y que pasa cuando cuando se paran los servidores? que empiezan a salir error, conmutar, buscar espacio para meter VMs ... total, que se lía pardísima.

r

#8 y los datos en el sistema petado? No es tan sencillo.

g

#18 Estan replicados, a ver si crees que según ven que tienen que apagar, no se aseguran la replica remota

r

#22 No todos. Si tienes un disco zonal, que es lo más normal (y lo único que era posible hasta hace poco en GCP) entonces ahí te quedas. Y el tema es que con subida de temperaturas, puede haber mucho hardware que necesite reemplazo inmediato. Es de sobras conocido que Google Cloud tiene los centros de datos más calentitos que la competencia, en el límite de temperaturas aceptables, para $$$ costes. Tiene sus riesgos también.

https://www.google.com/about/datacenters/efficiency/#:~:text=Our%20data%20centers%20use%20much,cooling%2C%20and%20build%20custom%20servers.

i

#33 Cualquiera que monte sus datos en un cloud sabe que o bien tiene que tirar de object storage que tiene replicación automática en diferentes zonas de disponibilidad, o que si te montas una máquina virtual, tienes que montarte un sistema de HA por si se lia en un CPD.

Tampoco creo que sea algo que no pueda pasar. Por eso se recomienda montar todo siempre en HA o con servicios serverless que autorepliquen en otras zonas.

marcumen

#1 gracias ingeniero

D

#1 Claro que cuadra. El dato existe replicado. Por ejemplo,en GCP, si una zona no está hablitada puedes usar otra y si esta está más lejos del solicitante del dato tendrá mayor latencia.

Acuantavese

#25 Pues que lo expliquen, y los errores? fallan las válvulas no? lol lol

i

#27 Está explicado. En este punto de hecho:
"Debido a temperaturas no estacionales en la región, un subconjunto de la infraestructura de enfriamiento dentro del Centro de Datos del Sur de Reino Unido (Londres) ha sufrido un problema"

En el caso de Oracle hablan directamente de un problema con una región de disponibilidad.

En el caso de google hablan de problemas de latencias tasas de error elevadas. Que viene a ser, muy probablemente paquetes perdidos/no recibidos.

"tasas de error elevadas, latencias o indisponibilidades del servicio"

Si no entiendes esto es otro tema. Pero cualquier arquitecto de sistemas que monte una plataforma en una única región de disponibilidad sabe que se expone, potencialmente a este tipo de problemas llegado el caso. Sea en GCP, AWS, Azure, o en su propio CPD privado.

Acuantavese

#41 Si han activado centros de contingencia que lo digan y ya está, pero el orden de los hechos es incorrecto
De verdad que no sé que estamos discutiendo aquí, el articulo está mal explicado o sencillamente está hecho de forma sensacionalista para el oyente medio

i

#43 No hace falta activar un centro de contingencia para tener tasa elevada de errores. Con que la tarjeta de red vaya mal por problemas de refrigeración los paquetes se van a perder (No todos, gran parte)*.

Respecto a los centros de contingencia para las capas serverless no tienen que explicarlo, va implicito, simplemente entiendo que no sabes como funcionan estos tipos de CPD's

*Edit

Acuantavese

#44 A ver lumbreras, a que temperatura crees que una tarjeta de red pierde paquetes? Crees que han esperado a esa temperatura para apagar servicios?
Y ahora me sales con polladas new age de serverless que se ejecutan en el aire,, sin servidores roll . Teniamos kubernetes y tienen que inventar más nombres absurdos. Déjame que adivine, estudias y no trabajas
lol

i

#46 Kubernetes no es serverless, kubernetes no es más que una forma de orquestar contenedores, la filosofía no es la misma. Kubernetes puede ser serverless sino administras los servidores que hay detrás, como es el caso de Fargate en AWS, en vez de usar EC2 para alojar los pods. Trabajo, aunque realmente en el sector de la informática nunca dejas de estudiar, y si han apagado por problemas de refrigeración obviamente es porque el hardware no estaba dando buen rendimiento. Si.

D

#27 Aunque no te lo dicen en la publicidad, las zonas cuentan con un número limitado de servidores y recursos, como no podría ser de otra manera, dimensionados para la máxima carga esperada y un poco mas. Pero si una zona entera cae, el número de peticiones a la zona o zonas inmediatamente mas cercanas va a aumentar exponencialmente y lo que va a ocurrir es similar a lo que ocurre en un ataque DDos o de denegación de servicio pero auto generado, que los sistemas caerán, total o parcialmente, dependiendo del momento.

Acuantavese

#49 No es exponencial, simplemente coges la carga del otro centro. Normalmente se dimensionan para funcionar con un solo centro, o ante la falla de uno, en caso contrario mal diseñado
Evidentemente no todos los IAAS,SAAS, PAAS y demás inventos tienen los mismos SLAs ni cuestan lo mismo

D

#50 Si asumes que las cargas están repartidas entre las zonas relativamente homogéneas, si tienes zonas con cargas Z , va a ocurrir que si cae una zona, la zona inmediatamente cercana aumentará en Z * 2, pero si cae una segunda zona será Z * 2 * 2 es decir Z * 2^2 (donde ^ es elevado). Si N zonas caen, es obvio que el factor de aumento de carga será 2^N, y eso amigo es un crecimiento exponencial.

A lo mejor debí especificar exponencialmente de acuerdo al número de centros específicos caídos y al número de zonas alternativas al que se balancee la carga.

Acuantavese

#51 Oh perdón, es que mi empresa solo tiene 3 CPDs y que caiga uno ya es una crisis como para estar pensando en N centros.
Ni la noticia habla de que haya caído más de un centro ni nada parecido

D

Microsoft, no. Losers!

Bernard

En Molina de Aragón les esperan con los brazos abiertos

Pacman

#4??
Van a poner un data center?

p

#16 Azure data center en Madrid próximamente 

B

¿y porque estaban encendidos?

L

#6 para llegar al otro lado.

D

#7 La respuesta es 42.

D

#6 porque no estaban apagados.