Hace 7 años | Por ccguy a theregister.co.uk
Publicado hace 7 años por ccguy a theregister.co.uk

Gitlab.com, una empresa de gestión de código fuente, ha perdido datos de producción. Un administrador cansado ejecutó un rm -rf sobre un directorio incorrecto que contenía 300 GB. Cuando se dio cuenta sólo quedaban 4.5 GB de datos. Los sistemas de backups que tienen no estaban probados y no han servido para nada. Se están recuperando los datos de un snapshot con algunas horas de antigüedad que además no es completo. La pérdida afecta a la base de datos (incidencias y merge requests) pero no a los repositorios.

Comentarios

Robus

#1 Da para camiseta!

D

#7 eso parece: http://bfy.tw/9ozc

Cantro

#18

lol

TocTocToc

#1 ¡Eso le pasa por no usar la papelera de reciclaje!

P

#38 Yo lo hice una vez con "Archivos de programa", quería entrar dentro para borrar uno a mano pero se me fue la pinza y le di antes de entrar. Por suerte entre que calculaba y empezaba me di cuenta y no hubo grandes daños lol

TocTocToc

#38 Eso te pasa porque no habrás vivido épocas pasadas. La papelera de reciclaje fue una bendición que igual no valoráis bien.

Unregistered

#52 Empecé con MS-DOS, como sabes las capacidades de los discos duros siempre era muy limitada (de aquella), creo que la 'Papelera de reciclaje' apareció con W95 y juraría que de aquella tenía un disco duro de unos 800 Mb, vamos que con 3 o 4 CDs ripeados en MP3 ya tenía petao el disco duro, y la manía ya me quedó desde aquella lol

TocTocToc

#75 ¿Empezaste ya con discos duros? Qué suerte, yo empecé con una sola disquetera de 5 1/4. Bueno, en realidad antes con una cinta de casete...

Aún no había salido ni el MS-UNO .

Unregistered

#88 Bueno, el CPC no lo cuento porque era de mi primo, pero sufrí las interminables cargas con su error después de 35 minutos esperando y esas cosas jajja lol , el primer PC creo que lo tuve a finales del 93, 486 DX con ¿4 Mb? de RAM, no recuerdo exactamente. #MomentoViejuno

Abeel

#75 los CDs con lectura Mp3 no fueron lanzados al mercado hasta el 2002 y con un precio bastante alto, por lo que es muy improbable que en tu Windows 95 de 7 años y 800mb te pusieras a ripear Mp3

atatat

#75 yo empece con unas pinturas en una caverna

M

#82 Con ese programa si lo acabas de borrar tienes un 99.9% de probabilidades de poder recuperarlo todo.

g

#38 c: -> boton derecho -> propiedades -> versiones anteriores -> boton derecho encima de la que te cuadre -> abrir en nueva ventana.

De nada.

angelitoMagno

#28 Fuera de coñas, cuando estudié sistemas operativos una de las prácticas que tuvimos hacer fue crear un sustituto para rm que en vez de borrar enviara a una unidad que funcionase como "papelera de reciclaje"

Es para pensarlo. Que en entornos críticos un rm no borre, sino que mueva a una unidad externa a modo "papelera".

P

#28 ¿De qué serviría? Si lo que necesitaba era eliminar una carpeta para liberar espacio, pasarlo a la papelera no resolvía el problema. Además, suele pasar que no te das cuenta del error hasta mucho después de borrar y vaciar la papelera.

n

#1 A cualquiera se le olvida el punto en un sudo rm -rf ./

D

#48 Wow... qué putadón.

pitercio

#c-48" class="content-link" style="color: rgb(227, 86, 20)" data-toggle="popover" data-popover-type="comment" data-popover-url="/tooltip/comment/2729433/order/48">#48 Mal de muchos... conozco a uno que hizo algo parecido, desde la / ejecutó # rm -Rf . /ruta/completa/copiada/y/pegada/para/no/equivocarse

I

#48 A mi se me colo un espacio borrando unos directorios en vez de rm -fr nombDir* hice rm -fr nombDir *. No veas la gracia. En todo caso a los que nos dedicamos a trastear con sistemas es algo que en mayor o menor medida nos ha pasado alguna vez.

M

#48 Por eso aunque sea aburrido como confirmar los password 2 veces, es interesante el parametro -I quedando como rm -rfI .

sillycon

#48 Me apunto a este carro... Y no una sola vez...

PauMarí

#48 hace muuuucho tiempo que cogí la manía de hacer ls /home/user/folder, cursor arriba, inicio suprimir suprimir rm -rf

DrLove

#48 yo hice un

rm -rf ~ *

el espacio entre * y ~ no debía estar, era para borrar backups creados por el editor (no recuerdo si era emacs), me borró un proyecto de la universidad a 5 minutos de cerrar el servidor de entregas

D

#48 Sí, yo también le dí una vez al botón derecho -> elimimar -> si. Luego entre en la papelerá y repetí: boton derecho->eliminar->sí, seguro.
Todo eso sin darme cuenta.

(no, en realidad un formateo a propósito por estar haciendo el tonto;luego descubrí que quizás podría haber recuperado todo, o casi todo, pero no lo sabía... )

Neochange

#1 Diselo al que lo ejecutó que debe estar en su casa

ochoceros

#76 Más bien estará en caza para ser ejecutado.

sk11z00

#1

sesión en directo de como lo intentan arreglar

D

#1 Eso en Windows no pasa

xenko

#1 Todo.

D

#1 ¿EXplicación para no iniciados?

sandra67

#57 Coincido, todos somos humanos y todos metemos la pata.

woopi

#14 #57 Ya lo dice el antiguo aforismo latino "Errare humanum est, et maior calamitas cum abaco."

Es decir: "Errar es humano, pero para cagarla bien hace falta un ordenador."

M

#57 Culpa del sysadmin, pero segun mi experiencia es un tema de politica de empresa. Ocurre lo mismo en desarrollo. Cuantas veces un desarrollador ha dicho que un sistema no estaba listo para ir a produccion, pero desde arriba se ha dicho que se ponga en produccion igualmente.

El problema es que la gente que esta tocando directamente los sistemas son jovenes y no tienen la experiencia y/o el valor para decir NO a segun que cosas. Yo hoy en dia no tocaria un sistema en producccion sin estar segurisimo de que los backups funcionan perfectamente...

Libertual

#57 No testear el sistema de backups también es un error humano...

Goto #180

p

#57 El error no es justificable cuando eres un profesional, te la juegas, datos críticos dependen de ti y especialmente cuando existen formas de testear que la operación peligrosa que vas a ejecutar hace lo que tú crees que le has mandado hacer.

Para dedicarse a esto hay que tener una mínima autodisciplina. Un día te saltas eso, y casualmente pasa. A nadie le da por cerrar los ojos a propósito mientras conduce porque le pican o los tiene doloridos. Esto es lo mismo.

A mí ejecutar esto sin testearlo antes cuando había lo que había en juego me parece una negligencia grave.

anxosan

#8 Eso pienso yo; no me puedo creer que un Administrador introduzca "por error" una instrucción que sabe que lo va a borrar todo; aquí alguien no está contándolo todo.

Edito. La explicación que señala #12 ya tiene más sentido. Los nombres de los directorios eran muy semejantes, pero aún así el fallo es de cuidado.

Closmick

#12 este no encuentra otro trabajo en su vida.

D

#14 En EEUU puede que no pero en España seguro que se lo rifan muchos polí...

Ya, ya, ya me lo cojo yo:

frg

#14 Solo el que toca puede equivocarse.

l

#81 Con esa frase seguro que ligas un montón.. lol

skgsergio

#14 Pues precisamente aunque YP fue quien originó el error humano (que tal como está explicado yo lo entiendo ya que tienes varias terminales de maquinas de un cluster que son prácticamente idénticas y si no te fijaste bien en el prompt la lias) también es el que ha originado la posibilidad de recuperar los datos ya que hizo un snapshot del LVM antes de meter la zarpa y el resto de backups no funcionan, salvo ese....

e

#12 Las claves de acceso deberían ser distintas las de prod que dev/pprod y a prod, solo deberías poder realizar tareas automatizadas y si pasa algo, entras manualmente a la maquina a la maquina.

mmm_

#19 A la máquina a la máquina a la máquina.

D

#19 se le pide al máquina que mire la máquina a ver si máquina.

r

#19 Salvo que se usen claves de ssh... sin password (que los hay... y muchos... roll )

dreierfahrer

#19 claves de acceso???? lol se valida con clave criptografica, habitualmente

r

#12 Culpa de Linux por ser tan rápido! si hubiera tardado más, como otros SO, se hubieran perdido menos cosas...

cybervirtualman

#34 el ser humano es extraordinario.

dulaman

#26 Yo me quedé en los "extragos"

D

#29 Si nos vamos a poner puntillosos las oraciones terminan con un "." por norma general, no con un emoticono lol

PD: Es solo por tontear, acepto las correciones

Aokromes

#51 de nada sirve un backup si no compruebas que esta bien hecho lol

e

#69 sí sí. Pero la cagada es esa.

JungSpinoza

#69 no tienes un backup hasta que intentas recuperar los datos de el

d

#69 según Schrödinger el Backup esta bien hecho, hasta que lo compruebas ...

Nandove

Demasiado poco nos pasa a los sysadmin... el día que nos organicemos, paramos el mundo de verdad, y a vivir como mad max pero matando lusers! VIVA WARDOG!

b

#35 Que de tiempo sin actualizar lleva el tio.
Y me quedé con las ganas de leer el final de un nuevo mundo.

mmm_

#58 Pues compra el libro, que ahí viene.

b

#92 lo sé.

PauMarí

#35 ahí ahí, yo podría dejar a un par de muy grandes empresas, de las del ibex, bien jodidas, pero seamos realistas, no lo haremos nunca....

D

No entiendo casi nada pero suena a marronazo gordo

D

#6 Para no entender lo has pillado bien

D

#9 Es un monton de mierda que huele desde aquí.

b

#6

Pongamos un poco de música a la situación.

m

#30: Y con error de inconsistencia.

Jakeukalane

#44

Jakeukalane

#44 ah. No vi a #30

juliander

#30 veo esta mas apropiada

D

docs.google.com/document/d/1GCK53YDcBWQveod9kfzW-VCxIABGiryG7_z_6jHdVik/pub

Via reddit. Es una cagada de proporciones industriales ..

natrix

¿De verdad hay gente que mete sus proyectos en la nube y no se guarda una copia?

mmm_

#37 Si lees la noticia verás que el problema no es de los repositorios (código y Wiki), sino de la base de datos (incidencias y merge requests)

az1d0

#37 Gitlab es un repositorio remoto, o sea que tu proyecto lo tienes en el repositorio local siempre y una copia en el remoto. Si Gitlab perdiera todo pues lo metes en otro remoto (github, bitbucket, etc...).

dreierfahrer

#37 eeeeeeeeeeeste....

Eeeeeeeee

mangrar

#37 git es distribuido, tu siempre tienes el repositorio local. Pero no se han borrado los datos sino los metadatos del repositorio por así decirlo. o sea, información de commits, pull requests, cosas así.

e

Por suerte gracias a git, cualquiera que tenga copia del repositorio puede restaurarlo.

D

#16 Lo malo es que no fueron los repos lo que se perdió.

alfgpl

Me da que si ejecutas rm -rf, a poco que lleves un tiempito administrando, no lo haces sin querer.

n

#8 Yo tuve una cagada similar en un servidor de desarrollo hace años sudo rm -rf /

dreierfahrer

#33 esas cosas pasan...

Solo se moja el q se mete al rio.

frg

#8 Nop, pero puedes haber realizado un mierdascript en dos minutos, en el que se cuela un "/" en los parámetros, y dejas la máquina pelada.

Suerte que los backups eran "de verdad", no como los de la noticia, mágicos lol

sorrillo

#8 A poco que lleves un tiempito administrando sabes que es la forma más sencilla de borrar una serie de archivos y/o carpetas sin tener que ir uno por uno y/o tener que repetir comandos por que una carpeta no está vacía u otros motivos.

Que sí, que es arriesgado y puedes cagarla mucho pero también es desesperante responder a los errores que van saliendo cuando quieres borrar el contenido y el comando no es suficientemente agresivo para ello.

Y como indican en un script es aún más fácil cometer ese tipo de errores, una variable mal inicializada o con una "/" de más y el destrozo es monumental.

El error es el que es, lo que sí es una negligencia muy grave es tener unas copias de seguridad sin comprobar de forma periódica que se pueden restaurar.

a

#99 Nota: rm -rf / no hace nada. Hace tiempo que rm incorpora una medida de seguridad para no borrar la raiz:
rm -rf /
rm: it is dangerous to operate recursively on '/'
rm: use --no-preserve-root to override this failsafe

Black_Diamond

Don't drink and root.

p

Yo hice una vez "rm -rf http://". Vivía en la Atlántida en aquel momento.

D

#83 suerte que google tenía backup de todo, incluídas las contraseñas y las cestas de compra de toda la intelnet

nemesisreptante

Por favor todos los que hayais ido de vacaciones a Gitlab mandad todas las fotos que sacasteís. Necesitaremos toda la ayuda posible para recuperar los datos.

D

#42 Ha sido un rm -rf en un servidor, no una banda de islamistas dedicándose a arrasar las obras de arte de un museo.

Pezzonovante

Vamos, que "la ha liao parda"

Aokromes

Tengo un repositorio en gitlab, desde las 12 de la noche intentando mandar un push, veo que esta en mantenimiento, espero media hora, sigue en mantenimiento, recargo la web en algun momento de la noche, veo la cagada, menos mal que tickets y PRs tengo pocas lol

TocTocToc

#66 Puede que tengas algo de lisdexia.

D

#85 No creo, nunca he tenido problemas relacionados con eso, simplemente no presto mucha atención ni le dedico el esfuerzo que debería para corregirme como es debido (no estoy orgulloso de ello, es solo por aclararlo). No se por qué he adquirido esa forma de escribir, pero es más dejadez que un problema.

D

#90 Pregunta: ¿eres programador, o administrador de sistemas? Porque si lo eres, esa dejadez sería criminal, y básicamente de lo que va esta noticia: escribir db1 en vez de db2.

mefistófeles

Debe ser una putada nivel épico, pero me he quedado obsoleto y ya no entiendo la terminología informática, aunque me ha parecido entender, en román paladín, que ha borrado lo que no debía borrar y las copias seguridad no funcionaron.

Pero cucha, que el no comprender la terminología y no estar seguro de qué dice la noticia, no es óbice o valladar para que un digno meneante haga comentarios como si supiera de qué estoy hablando

Abeel

#46 Señor lanzó orden de eliminación de todos los archivos del servidor 1, cuando quería hacerlo en el 2. El 2 es el de pruebas y el 1 es el bueno, el que ve el público, el de producción. Cuando se dio cuenta pidió copia de seguridad, pero una de las mayores empresas gestoras vieron que no había (no fucionaba) . Recuperó una copia idéntica de como estaba el servidor hace un día (snapshot) pero aun faltaban datos.

chemari

#40 "índole" lleva tilde

D

#65 y análisis lol

editado:
Y pérdida, si hay unas pocas.

D

Y el "administrador cansado" ... ¿ya está más descansado?

JungSpinoza

#32 Si ahora ya puede descansar en la cola del paro

Todo Ops que se precie ha dicho mas de una vez: "mierda" ejecutando un comando en producción.

D

Consecuencias para los que tenemos repositorios?

mr_b

#15 Los repositorios están intactos (y las wikis, que también están en git). El problema es la información adicional que se guarda en la base de datos, como pull requests, comentarios, etc.

dreierfahrer

#15 no han borrado repos, solo su db

D

#15 Lo que tenemos nuestra propia instancia de GitLab en nuestro propio servidor porque no nos fiamos de que no pasen cosas de estas... ninguna en absoluto

PacoJones

No me gustaría estar ahora mismo en esa oficina.

Qban

#84 Lo cierto es que están todos desde casa:

a

Para que luego digan que los admin no tenemos responsabilidad. Te puedes cargar de una sentada millones se horas se trabajo.

Shinu

#43 Pues la verdad es que nunca he oído a nadie decir que los admins no tienen responsabilidad.

D

Y yo a punto de pagar por tener Github... y ahora investigando GitLab (que no conocía) veo que Bitbucket tiene repos privados gratis también.

¿Alguna recomendación? El único problema es que necesitamos GitLFS para subir assets gráficos MUY pesados.

(Aunque ver que GitLab tiene tan poca seguridad me escama muchísimo)

H

#78 Si eres universitario tienes 2 años gratis de Github pro. Si no lo eres, puedes usar bitbucket para repos privados y github para los públicos.

D

#100 Me sobran diez años para volver a ser universitario Pero gracias de todos modos.

tunic

#78 BitBucket va muy bien, personalmente lo prefiero a GitHub (el desarrollo basado en PR no me gusta, favorece a los llaneros solitarios o es la sensación que me da, cada uno trabajando en su propia copia del repo).

Tiene soporte para GitLFS, pero no sé exactamente las condiciones. En mis repos dice que tengo 110Gb disponible para GitLFS, pero no sé si es compartido entre todos los repos o cada repo. Supongo que será compartido.

https://confluence.atlassian.com/bitbucket/git-large-file-storage-in-bitbucket-829078514.html

reithor

Ignatius J Reilly seal of approval.

D

A great power comes with a great responsibility. Think before you type.

chemari

Vamos, que mas les vale a todos los empleados de esta empresa ir actualizando su perfil de infojobs...

Azucena1980

Que entradilla más fashion.

TiJamásLlevaTilde

#2 Si esto lo lee mi madre, se queda igual no, peor.

D

#4 Peor que una completa ignorante, lo dudo.

ccguy

#4 ¿cómo lo pondrías tú para que lo entendiese tu madre?

D

clap

D

Tomo nota de esta 'graciosa anécdota' para exponérsela al próximo amigo o conocido que me recomiende ciegamente la subida y almacenamiento de todos mis archivos en 'la nube'.

e

#62 las veces que se pierden datos en la nube comparadas con las que se pierden en un ordenador personal deben ser 1 a mil. No pondría algo que no quiero que se borre en un pendrive o un disco duro de mi casa.

M

#62 El problema no es la nube, el problema es no conservar los archivos también en local, como también es un problema no tener una copia de tus archivos en local. Con lo fácil que es hacer copias.

r

La pesadilla de cualquier sysadmin... estar cansado y darle al enter luego de cualquier "rm ..."

#77 Y sin estar cansada, lo que os podría contar.

Un chupito por la eliminación de un fichero que no es, el reboot del servidor equivocado, destruir alguna base de datos haciendo el animal y otros actos semejantes.

El lunes detecté que unos backup de bases de datos que no funcionaban desde mayo del año pasado. Dos días corrigiendo unos scripts que no sé por qué dejaron de funcionar, ni quien fue el psicópata que los puso en producción de manera tan chapucera (daban miedo).

D

Mariano rajoy habrá apuntado el código para un amigo ?

D

Voy a hacer un clone de mis repositorios relevantes. Son de Github, pero estas cosas lo acojonan a uno.

D

Me quedo con las jetas de los inutiles de la foto del artículo.
Se les ve la gota de sudor bajando por la frente ante un despido inminente, por jaberla cagado.

dreierfahrer

#47 No jodas, no puedes echar a nadie por una mierda asi.

#47 El problema no es equivocarse, el problema es equivocarse siempre en lo mismo.

Cualquier administrador de sistemas competente ha metido la pata más de una vez. Son esas metidas de pata las que nos hacen mejorar y llegar a la expertez. Si por meter la pata se despidiese a la gente mi director de recursos humanos debería despedirse a si mismo varias veces, porque le ha declarado nulos los jueces varios despidos, dos ERE y la empresa se ha comido una multa por cesión ilegal de trabajadores.


La conclusión de este asunto es que se hará un informe postmortem, y se decidirá llevar a cabo una serie de medidas para que si el problema raiz se reproduce (borrado de un directorio en el servidor de producción) las consecuencias sean mitigadas, es decir, se harán backups, se establecerán políticas de supervisión y recuperación de backups, que harán la plataforma más robusta a errores humanos.

Y quien, sabe, quizás también automaticen la destruccción y creación de entornos de pruebas para evitar más errores humanos.

D

#47 Si despides a gente por cometer un error... contratarás a gente que todavía no lo ha cometido.
Eso sí que es de inútiles.

Howard

Bueno, pues seré yo el primero en preguntarlo: ¿esta mierda por qué es relevante?

Howard

#21 Gracias

mmm_

#21 Te perdono las tildes pero ese "deribar" duele.

D

#26 Ya no me deja editar

TocTocToc

#26 #27 Las prisas al escribir causan a veces extragos.

D

#61 No te creas que son las prisas, asumo mi parte de culpa. Esa se me ha escapado sin prisas.

mmm_

#61 También, también.

barkalez

#61 Extragos de Whisky...

Torrente, me debes 5000 pesetas de Whisky...

Thelion

#26 Hace extragos.

BiRDo

#21 derivar

D

#39 Por que me corrijais 7 veces no lo voy a poder editar lol. Ya se pasó el tiempo.

D

#93 No tengo pulmón para eso lol

D

#93 Y por cierto, las interrogaciones en español se abren con el signo "¿".

Ya vais dos que me corregís cometiendo faltas lol

dreierfahrer

#21 hombre... es git.... en ese sentido no es tan sumamente grave....

Pero es un marron muy gordo y es gracioso q no me pase a mi....

Howard

#53 ¿Pero solo 300 GB? ¿Quién guarda su información ahí? ¿Obama?

mangrar

#63 no se han borrado los datos en si, o sea, el código. Sino la base de datos con pull requests y demás. Sino, sería mucho mas que 300Gb.

dreierfahrer

#91 jajajajajajajajaajja

Abeel

#53 pero existe un snapshot, así que en tu ejemplo es tienes los papeles en el escritorio, el conserje lo tira, pero en tu caja fuerte tienes los papeles de ayer, y sólo has perdido los de hoy.

Jakeukalane

#53 #20 -> #148

angelitoMagno

#20 Aquí hay muchos informáticos y hacer un "rm -rf" en el sitio equivocado es nuestra segunda mayor pesadilla.
La mayor pesadilla es la que describe este vídeo:

Howard

#97 Ya me imaginaba. Solo pretendía meterme un poco con vosotros.

Aokromes

#97 o hacer drop a la base de datos erronea lol

redscare

#20 Porque abundamos los frikis de IT en meneame y estas cosas nos molan

1 2 3