Hace 10 años | Por NPC1 a twitter.com
Publicado hace 10 años por NPC1 a twitter.com

El mastodóntico robots.txt del BOE,8133 líneas para que Google no indexe condenas e indultos a corruptos

Comentarios

Schwepps

Noticia de 2011 sobre el BOE, el derecho al olvido y la AEPD

http://elpais.com/diario/2011/07/07/radiotv/1309989602_850215.html

delawen

#2 No hace falta ser un genio. El robots.txt es un código de buena conducta, pero realmente puedes poner un spider a bajarse toda la información y ponerla tú en tu propia página web para que Google la indexe. Eso sí, la protección de datos no sé cómo andará...

OCLuis

#1 "Esas son las reglas. Si quieres cambiarlas preséntate y gana las elecciones."
Cita irónica.

arn01d

#3 No encontrar nada en una búsqueda de "BOE" en google encendería las alarmas.

Es extraño el criterio que han utilizado para generar las reglas. Por ejemplo, si han intentado "ocultar" el último PDF (http://boe.es/boe/dias/2013/09/07/pdfs/BOE-B-2013-33156.pdf) entonces algo ha fallado porque el texto se encuentra buscando en google: http://www.boe.es/diario_boe/txt.php?id=BOE-B-2013-33156&lang=eu

teseo

#39 epic win

ChingPangZe

#11 tambien hay de multas y retiradas de premios y titulos universitarios, amonestaciones a funcionarios...variedad.

Nitros

#4 El BOE es público.

procrastinator

La casa real comunica a traves de su robots.txt el destierro de Urdanga:

http://www.casareal.es/robots.txt

noexisto

Incide especialmente al principio en una fecha: 11 noviembre de 1969 https://boe.es/boe/dias/1967/11/09/index.php?s=c Será por los aspirantes al Registro Mercantil? https://boe.es/boe/dias/1967/11/09/pdfs/A15457-15459.pdf
No entiendo lo de "legislación", "Consejo de Estado", "Jurisprudencia Constitucional". La de Personal es comprensible (ascensos, nombres de policia, jueces, etc)

#11 lo de los indultos es compresible hasta cierto punto, pero y no es por comparar, pero en otros paises la trasparencia es máxima. Obama: http://www.justice.gov/pardon/obamapardon-grants.htm ("te he perdonado, reduciendo una sentencia de todo un sistema judicial en el que se basa mi estado con la ley: esto es público, amigo") Si tiras para atrás ves los de otros presidentes: Clinton http://www.justice.gov/pardon/clintonpardon_grants.htm

Catacroc

#2 Pero es que al final se ven igual, puedes pillar el archivo de robots y buscar las referencias que no quieren que se indexen y descargarlas todas. Ademas el formato del archivo hace casi trivial el generar un script para hacerlo automaticamente.

delawen

Anda, las cosas que se descubren poniendo el "site:boe.es" en Google. No sabía que tenían merchandaisin: http://tienda.boe.es/

CerdoJusticiero

#38 Sí, y si alguien quiere hacer un uso pernicioso de esa información no te preocupes que como te explican #9 y #10 hay formas de hacerlo. Este robot, por lo tanto, sólo sirve para dificultar el acceso a la información, no para defender de manera efectiva el derecho al olvido. Copio de la referencia de #20:

Para Pérez, los robots txt no son efectivos porque es un protocolo informático pensado para facilitar a los buscadores que no rastreen textos irrelevantes o duplicados. "Que los buscadores no publiquen un texto protegido por un robot txt es únicamente resultado de un pacto de caballeros porque técnicamente pueden obviar el bloqueo".

La diferencia es que con el robot no puedes escribir en google el nombre de un sobrino de Rita Barberá y ver cuándo y por qué sale, pero sigues pudiendo bajarte todos los disallowed y rastrearlos uno por uno.

#39 WOW, enorme.

Andor

#48 Qué discreto todo...

User-agent: *
Disallow:
Disallow: /_*/
Disallow: /ES/FamiliaReal/Urdangarin/
Disallow: /CA/FamiliaReal/Urdangarin/
Disallow: /EU/FamiliaReal/Urdangarin/
Disallow: /GL/FamiliaReal/Urdangarin/
Disallow: /VA/FamiliaReal/Urdangarin/
Disallow: /EN/FamiliaReal/Urdangarin/
Sitemap: http://www.casareal.es/sitemap.xml

D

Eh visitado sólo cinco enlaces de los desindexados... y ninguno era de indultos ni de corrupción. Alguien debería hacer alguna estadística con ellos antes de seguir cargando las tintas.

Stash

#14 El primero al azar que he cogido http://boe.es/boe/dias/2013/09/02/pdfs/BOE-B-2013-32828.pdf
Resulta que es un extravío de un título.
Y punto.

Pancar

#78 En el BOE se puede buscar por contenido

http://www.boe.es/buscar/boe.php

marioquartz

#8
Lo más vendido
1 CÓDIGO DE SEGURIDAD PRIVADA
2 LOS PROCESOS CÉLEBRES SEGUIDOS ANTE EL TRIBUNAL SUPREMO EN S...
3 CÓDIGO DE TRÁFICO Y SEGURIDAD VIAL
4 GUÍA LABORAL DEL MINISTERIO DE EMPLEO Y SEGURIDAD SOCIAL 201...
5 CÓDIGO CIVIL Y LEGISLACIÓN COMPLEMENTARIA (DOS TOMOS)

Definitivamente es el Amazon de los abogados, juristas y demas ramas del derecho...

CerdoJusticiero

#16 Tienes razón, seguro que en la próxima rueda de prensa a la que asista nuestro presidente alguna de las muchas preguntas que contestará será sobre este aspecto, y seguro que la respuesta será clara, contrastable y completamente lógica.

No hay que ser mal pensados.

#17 Es para que buscadores como Google no accedan al interior de los .pdfs enlistados a mirar palabras, por así decirlo. Así si en uno de esos archivos está escrito el nombre Pepito cuando lo busques en google no te aparecerán entre los resultados la página del BOE donde se le menta.

sotanez

#78 Mírate enlaces bloqueados y verás que la grandísima mayoría son de personas corrientes con multas por hacer botellón, sentencias de temas laborales y divorcios, aparecer en las listas de algún partido político y demás historias que no te gustaría que fueran fáciles de encontrar.
Es más, os reto a todos a encontrar algún caso de interés público que no haya salido a la luz por otros canales.

r

No me gusta. He leído al azar cinco o seis artículos que venían deshabilitados en el robots.txt y ninguno mencionaba corrupción o indultos.

D

#75 Lo siento pero no, no tiene sentido. O sí lo tiene, el tratar de ocultar la información que por algo se hace pública.

Esto es aprovecharse del teórico "derecho al olvido", para establecer en la práctica el "derecho a que nadie se entere". Ya que en el BOE no se puede buscar por palabras (que alguien me corrija si no es así), ocultar sentencias a los buscadores supone hacer desaparecer la información. El uso del ROBOTS.TXT no es opcional para los grandes buscadores (que son los que usa el público), si decidieran saltárselo se liaría parda.

NPC1

#27 El BOE es público

M

Si alguien ve una referencia suya en el BOE que puede ir contra su derecho al honor o a la intimidad (recordemos que pueden aparecer datos muy completos de cualquiera, incluyendo datos sensibles) puede solicitar que lo eliminen.

Artículos relacionados:
http://www.joaquinmunoz.com/2009/03/08/borrar-datos-personales-de-google/
http://contencioso.es/2011/07/01/como-borrar-los-datos-personales-del-boe-digital-y-no-morir-en-el-intento/
http://lapaginateka.wordpress.com/2013/04/19/info-como-borrar-los-datos-personales-del-boe-digital-y-no-morir-en-el-intento/
http://elpais.com/diario/2011/01/07/sociedad/1294354801_850215.html

Creo que merecen un meneo (si alguien quiere, adelante)

D

Aunque la he meneado, esta noticia es más falsa que Judas:
El BOE, obligado a impedir el rastreo de los buscadores
http://elpais.com/diario/2011/07/07/radiotv/1309989602_850215.html

U

Pero la gente que comenta sabe como funciona el robots? enserio las URLs son las que son, si buscáis indulto en ese fichero no os va a salir nada porque los enlaces no llevan esa cadena, no porque lo hayan hecho queriendo, a no ser que todas las urls que genera el BOE fueran friendly URL excepto los 'no-follow', no se puede destacar nada de los nombres de los PDF. Por otra parte, el BOE se vio obligado en 2011 a aplicar este tipo de cosas para los trámites aceptados, es decir, como ciudadano sólo tienes acceso y derecho a esa información a través del BOE, y esa info no puede indexarse en ninguna otra fuente.. Estoy leyendo cada comentario que es la puta risa y pena. Hay que criticar cuando se hace algo a conciencia, pero sinceramente, creo que en este caso no es así. Si denunciamos algo tan serio hagámoslo bien. No inventemos, al igual que hace la casta, pues eso nos desacredita y nos hace igual que ellos.

D

#112 Siento que sea así, pero es como te comportas si no ves la diferencia entre tener que ir a buscar en el BOE algo en concreto o encontrártelo en google.

Si no ves que la difusión es mayor, si no ves que el derecho al olvido se vulnera y si no ves que hay un abismo entre ambas, entonces es que sigues viendo el mundo con ojos de niño, donde todo es o blanco o negro.

angelitoMagno

Sensacionalista, SoydelBierzo está presuponiendo intencionalidad.

.habéis abierto todos los pdf?.. digo, cuál es el argumento para concluir que hay mayoría de indultos?..

alehopio

#26 También


La siguiente es una lista de indultos concedidos en España.
http://wiki.15m.cc/wiki/Lista_de_indultos


MÁS DE 10.000 INDULTOS
http://www.elindultometro.es/indultos.html

D

#10 Ale: http://pastebin.com/mgwGFxv3

Eso es un código Python para descargarte todos los PDFs, Los SUM.pdf me dan siempre error 404; el script lleva descargando cosas desde hace un buen rato y aun no ha terminado así que no se cuantos archivos hay o cuanto ocupan.

Si alguien puede modificarlo para luego subirlo a MEGA estaría guay. Yo estoy estudiando como hacer eso mientras

sotanez

En el BOCM se mete en el robots.txt aquellos enlaces a anuncios que conciernen a personas que han puesto una reclamación de protección de datos. Básicamente, gente que no quiere que aparezcan en Google sentecias judiciales, multas por droga y demás historias cuando se busca su nombre.
En el BOE supongo que se hará lo mismo.

D

#1 Lo mejor es que sin quererlo (?) han hecho un criterio fácil para filtrar los datos del BOE y encontrar cosas chungas como dice #10 .

sotanez

#103 En el BOE en formato físico no se puede buscar de forma rápida e indiscriminada. Tienes que saber a qué anuncio dirigirte. Lo más parecido sería hacer fotocopias de un anuncio en concreto e ir pegándolas por todo el barrio.

#119 No has podido buscar un ejemplo más fácil de defender. Le faltó al colega comérsela cruda a la menor esa.

Lo cierto es que, al menos en el BOCM, la mayoría de reclamaciones de bloqueo de enlaces son por:

- Multa de la agencia antidrogas. Al típico que pillan de botellón, o dio positivo en un control de alcoholemia.
- Sentencia judiciales por un tema laboral. El típico que denunció a su empresa cuando lo despidieron de forma fraudulenta.
- Gente que ha percibido de forma incorrecta una subvenció, ya sea con intento de fraude por enmedio o no (no suele ponerlo), y se pide que la devuelva.
- Sentencias judiciales de otro tipo: divorcios, cargos por posesión o tráfico, agresión, etc.
- Otras cuestiones varias, como aparecer en las listas electorales de algún partido político. Esto antes era especialmente sensible en el País Vasco.

Yo no creo que toda esa información deba tener difusión máxima e indiscriminada durante toda la vida, la verdad.

De todas formas, cuando dices que vas a difundir esa informacion: ¿te refieres a que vas a intentar que lo sepa todo el planeta o te vas a reducir al ámbito doméstico? Aquí el grado de difusión importa y mucho, y nunca es cero porque el BOE y el resto de boletines deben ser públicos.

g

#17 Es un listado de las direcciones web que no quieres que sean encontrables mediante una búsqueda en google, es un fichero de texto que leen los procesos de google y lo utilizan para ignorar esas direcciones.

WarDog77

¡VIVA LA TRANSPARENCIA!

xkill

Alguien sabe si lo que dice #10 es legal? He visto que el BOE está permitido replicarlo, pero no tengo muy clara la parte de la LOPD y demás puntos mencionados en:
http://boe.es/sede_electronica/informacion/aviso_legal.php#reutilizacion

sotanez

#59 Sí, bueno, pero todo lo que reduzcas bueno es. Ya te digo yo que al BOCM le llegan muchas reclamaciones de bloqueo de enlaces, y no son precisamente de corruptos indultados.
Es curioso lo que defendemos luego la privacidad cuando sale la noticia de la última gracieta de Facebook, pero cuando se nos insinúa que el derecho a la misma también se aplica a gente que nos cae mal ya no nos hace tanta gracia.

teseo

Excelentísimo Señor Don Iñaki Urdagarin en Google (A description for this result is not available because of this site's robots.txt )

Pancar

#109 La mayoría de los fragmentos del BOE que aparecen en el robots son oposiciones, concursos, citaciones, etc. De hecho en 2012 y 2013 no aparece ningún indulto ni condena (lo más parecido es una sentencia de divorcio de un juzgado de Jerez de la Frontera).

sotanez

#42 A priori no se puede saber cuáles son sensibles o no. Se bloquean los anuncios solicitados mediante reclamación por los afectados.
A posteriori no sé qué dificultad puede tener mover esos documentos a un directorio. Supongo que depende del gestor de contenidos utilizado.

D

¿Dónde se prohíbe la indexación? ¿Se le prohíbe a una empresa privada que luego saca beneficios con esa información pública que uno mismo puede buscar en el BOE? No me parece grave. Ese robots.txt está ahí para proteger datos personales y si en esos BOE coincide que se publican listados de indultos, es lo que hay.
Este meneo es sensacionalismo máximo.

Manolitro

Como siempre, el sensacionalismo se apodera de menéame y de cientos de atúnidos que votan sin pensar por si mismos.

D

#15 Eso ya es cogérsela con pinzas...

El robots.txt del boe lleva siendo así desde Zapatero (que yo recuerde) y puede que anterior, así que no creo que sea tan retorcida la cosa.

D

#107 Esto no tiene que ver con los indultos, tiene que ver con la privacidad.

D

#109 Claro, pero no es lo mismo compartir una foto tuya en facebook que colgarla en todas las paradas de bus.

El mundo es analógico, cuando algunos entendáis que no sólo existe el blanco y el negro vais a flipar.

CerdoJusticiero

#50, #51 Insisto: para un banco, empresa de contratación o cualquiera que quiera hacerte un background check este robot es sólo una leve molestia. Si te dedicas a mirar a ver si alguien tiene antecedentes te va a dar igual el robot. La diferencia es que un particular sin muchos conocimientos informáticos lo va a tener mucho más difícil para informarse.

Cuñado

#43 Totalmente legal. El contenido del BOE es público. Lo que no puedes hacer, obviamente, es dar a entender que tienes algún tipo de vínculo institucional especial ni tergiversar la información.

De todos modos no tengo muy claro que el motivo del robots.txt sea ése. He cogido varios resultados al azar y hablan de sanciones de todo tipo (anulaciones de becas, por ejemplo) y una búsqueda de "indulto site:boe.es" devuelve alrededor de 25.000 resultados... Aparece incluso el indulto a Alfredo Sáenz.

Polmac

#71 Sólo era un ejemplo de un posible caso en el que esto puede suceder. En cualquier caso:
a) No se elimina toda referencia. Sigue estando en la fuente original.
b) El robots.txt es de uso opcional, nadie obliga a respetarlo.

Como he dicho, no es la mejor solución, pero tiene sentido.

r

#10 Buena suerte con la multa de 300.000€ por incumplir la LOPD.

#9 ¿Te refieres a http://www.elindultometro.es?

sotanez

#105 Osea, que consideras que buscando tu nombre en Google deberían aparecer de por vida todas tus sentencias judiciales, multas por aparcamiento o consumo de drogas, si estuviste en la cárcel...
Lo siento, pero no puedo estar de acuerdo con eso.

D

#15 Pues hombre, yo salgo en el BOE (nada ilegal) y junto a mi nombre completo (nombre compuesto más dos apellidos) sale mi DNI.

A mí, psé, porque salgo en el BOE por un buen motivo, pero ya me dirás si otro no está en su derecho de no salir.

D

#20 #27 Es que lo del derecho al olvido en Internet también tiene tela. Hay que analizar al detalle hasta que punto puede ser eso terreno abonado para cercenar la libertad de información en asuntos que no tienen realmente que ver con la privacidad.

De todos modos, siempre puedes meterte al buscador del BOE para buscar sentencias y publicaciones. No funciona tan bien como un buscador convencional, aunque las veces que lo he utilizado más o menos hacía el apaño.

r

#98 Si haces una lista de los numeros del BOE que no pueden indexarse evidencias que hay algo en ellos que no quieres que se vea


Ojo, no es que no se quiera que se vea. Es que no se quiere que sea indexado por Google. Son dos cosas diferentes. No se intenta ocultar el hecho, si no que se busca el derecho al olvido por parte de Google.

Ademas de que dejas fuera todo un BOE
No. Se deja fuera lo mínimo necesario. Ejemplo http://boe.es/boe/dias/2013/09/07/pdfs/BOE-B-2013-33156.pdf

M

#14 y #11 A mí personalmente me parecen MAL todos los indultos, sean de políticos o de cualquier otro tipo de delincuente.

Ya está bien de impunidad. Cero indultos o reducidos a la mínima expresión...

j

Esto en otros foros seria un gol de señor! jaja pero si esto ya salio por el 2011 ya ahroa a vueltas otra vez por lo mismo. Al BOE le obliga la AEPD a desindexar ese contenido.

http://elpais.com/diario/2011/07/07/radiotv/1309989602_850215.html

D

Esto me parece surrealista y más propio de una dictadura bananera que de un país del primer mundo.

Neochange

#91 No hay que buscar mejores soluciones a nada, la información tiene que ser más pública y estar mejor indexada.

D

#27 Claro, y para evitar "la afrenta" cuando "ya ha cumplido su pena", eliminamos toda referencia desde el primer momento, cuando se comunica la sentencia en el BOE, para que no se entere nadie ¿no? Como les gustaría a algunos volver a la época del NO-DO...

PD. Sinvergüenzas me parece poco...

thorin

#88 Ahora mismo no se donde encontrar una fuente y hablo un tanto de memoria, pero una profesora de derecho penal me comento una vez que por la LOPD una vez cumplida la condena las personas podían pedir la retirada de sus datos públicos y que el BOE, aunque sea público, tiene que cumplirlo de cierta manera.

He mirado en google y estos posts hablan de ello, son del año 2011 ambos: http://elprofedefisica.naukas.com/2011/06/23/los-misterios-del-boe/

V

Que asco de titular, lo peor es que los "librepensadores" se lo creen.

s

#3 la justicia no es igual para todos.

sotanez

#53 Ni que en las empresas fueran unos lumbreras o tuvieran tiempo de hacer un estudio tan exhaustivo de cada persona que entrevistan...
Lo que hace el de recursos humanos es poner el nombre en Google, y punto pelota. Evidentemente, si te quiere contratar la NSA lo llevas claro.

D

#4 la protección de datos no sé cómo andará
Es el BOE. Son datos públicos.

Catacroc

#97 No entiendo lo que quieres decir. Lo que digo en mi comentario es exactamente lo mismo que comentan en el articulo que citas. Si haces una lista de los numeros del BOE que no pueden indexarse evidencias que hay algo en ellos que no quieres que se vea, por lo que los haces mas visibles para el que busque ese tipo de material. Ademas de que dejas fuera todo un BOE que puede ser necesario indexar para buscar referencias a leyes o a otros asuntos.

pipulo

Qué grandes. Iba a preguntar que cómo es que en el robot.txt no sale "indulto" haciendo una búsqueda, y resulta que al parecer meten las páginas enteras, a pinrel:
boe/dias/1992/05/14/pdfs/A16442-16443.pdf

Vamos, que encima de tapadillo. Qué cracks.

PS: Y que después de hacer meter más horas a los funcionarios tengan a un machaca haciendo estas labores tan importantes para la reducción del déficit.

cardogar

#39 qué poca vergüenza que tienen

sotanez

#83 #87 Eso ya lo sabemos. Pero los buscadores principales, que usa la gran mayoría, hacen caso al robots.txt.
Se trata de minimizar el impacto, no de imposibilitar.
De todas formas, sigo esperando soluciones mejores, teniendo en cuenta que no se puede ni tachar páginas de los boletines oficiales, ni dejar de hacerlos públicos.

JanSmite

Sensacionalista hasta decir basta

Polmac

#99 disculpa, voté negativo sin querer... El voto era positivo.

CerdoJusticiero

#74 Es que ahora depende de los buscadores, como te han explicado más arriba, con referencias y demás. Basta con programar un buscador que ignore el robot y ya está. Google no es el único buscador que existe ni desde luego los buscadores más conocidos son el único modo de encontrar información en internet.

Lo ha vuelto a escribir #83, más claro y resumido.

r

#99 Mira en #97

CerdoJusticiero

#67 todo lo que reduzcas bueno es

¡En absoluto! No es bueno si la reducción no está bien repartida. Implementar una medida que a la ciudadanía en general le supone una merma de un derecho, aun con el objetivo de proteger otros (información versus olvido, privacidad...), es un error cuando esa misma medida no protege en absoluto dichos derechos frente a actuaciones perniciosas.

Es como si yo no te pongo trabas para acceder a tu historial clínico con la intención de que las empresas de seguros sanitarios no abusen de esa información, pero a la vez permito que se salten mis medidas con un esfuerzo ridículo. Al final ellos van a pasar prácticamente igual y tú vas a tener más problemas.
Es un ejemplo que no tiene demasiado que ver con lo que aquí discutimos, pero creo que muestra con claridad que no todas las medidas encaminadas a preservar tu intimidad son necesariamente lógicas o deseables.

sotanez

#72 Sí, sobre todo cuando el enlace es a un PDF firmado...

M

#108 No hay privacidad ni en condenas ni en indultos.
El BOE es eso precisamente, hacer algo público.

ktzar

Que un político pida que se haga esto, me parece mal. Pero peor me parece que un funcionario bloquee la indexación de ciertos documentos del BOE a petición del poder político. La gracia de que a un funcionario no le puedan echar, es que pueda negarse a hacer cosas que no se deben, como esta por ejemplo. Yo echaba o sancionaba a los funcionarios del BOE, y les metía en la cárcel si no indican de quién partió la orden.

Ya está bien de usar nuestros impuestos para su propio beneficio, cojones.

D

vaya pillada

sotanez

#15 El problema es que si apareces en el buscador de Google basta con poner tu nombre y darle a buscar, y te sale cualquier multa e historia que hayas hecho.
El BOE no se puede tachar ni nada por el estilo, ya que es información que debe ser pública, pero también hay que tener en cuenta la protección de datos. Las autoridades competentes pueden solicitar formalmente el acceso a la base de datos del BOE completa si es necesario.

drogadisto

#52 lo que esté en el boe tiene que quedar fuera por necesidad de la protección de datos o no publicarse de entrada.
publicarlo pero dificultar el acceso es simplemente hipocresía.

Polmac

#88 Efectivamente. Y por eso, aunque no se indexe en Google, la información sigue estando disponible en el propio BOE.

M

#113 bufff

D

Sin relación con la noticia, pero sin desperdicio:

http://sgae.es/robots.txt

D

Lo del derecho al olvido de Google es un argumento con sentido #27 pero... crees que todos los ciudadanos que aparecen ahí han solicitado este derecho a Google?. Podría argumentarse también que el Gobierno se ha anticipado a todo esto, pero no creo que esa sea la causa. Como dice #88 es público, y no deberían ser ellos los que perdieran su tiempo con algo así, no? O al menos, no tendría sentido práctico.
En mi opinión, la causa es que pretender entorpecer en todo lo posible la vinculación y la búsqueda sencilla, que suele ser buscar en Google.

m

Por si a alguien le interesa, he hecho un script (en progreso) para que quien quiera pueda construirse una granja con los enlaces descartados por el robots.txt: https://github.com/miguelff/boe-transparente

angelitoMagno

#39 Es que esas direcciones ya no existen. SEO básico.

drogadisto

#15 hipocresía en estado puro.

1 2