#14:
#2#12#13 en realidad no.
El archivo robots.txt lo que se encarga es de decirle a los bots que archivos del propio sitio web - en este caso sgae.es - no quiere que indexe. Por ejemplo Disallow:/?SGAE=LADRONES=MONOPOLIO significa: no indexes sgae.es/?SGAE=LADRONES=MONOPOLIO
básicamente los de la SGAE no entendieron nada. En vez de arreglar su buscador para que no les hicieran cross scripting hicieron esta chapuza del robots.
#9 Yo he mirado un par y nada interesante Supongo que los usarán para pruebas o algo, lo que tenga que estar oculto no estará accesible públicamente por lo que los robots de google no lo pueden ni ver así que da igual. Habrá que hacer un script que baje la página cada x minutos y si detecta cambios avise para ver para qué sirven esas urls
#36 Pero eso es por que los datos eran públicos, no así los links. Si quieres ocultar algo no lo haces accesible de forma pública confiando en que nadie va a conocer el enlace
#36 No me hagas mucho caso, pero cuando entras a un sitio desde marcadores el HTTP_REFERER no se envía. Otra cosa seria que el documento ultra secreto incluyese un enlace a google.com, y ahi se enviase tal dirección. A partir de ahi a saber lo que hace google con sus peticiones.
#2#12#13 en realidad no.
El archivo robots.txt lo que se encarga es de decirle a los bots que archivos del propio sitio web - en este caso sgae.es - no quiere que indexe. Por ejemplo Disallow:/?SGAE=LADRONES=MONOPOLIO significa: no indexes sgae.es/?SGAE=LADRONES=MONOPOLIO
básicamente los de la SGAE no entendieron nada. En vez de arreglar su buscador para que no les hicieran cross scripting hicieron esta chapuza del robots.
#1,#2,#12, el robots.txt es un fichero público con el que informar a los robots de internet lo que quieres o no quieres que indexen de tu página web. No han hackeado nada pues es de acceso público y además lo utilizan mal, como dice #14 (te adelantaste..)
El fichero robots.txt sólo evita que el 'googlebot' y similares escaneen las páginas o directorios mencionados, pero no evita su indexación si alguien (incluído Google) ha visitado ya la página antes. Vamos, que lo que han hecho es una chapuza impresionante, como dice #14.
Por ejemplo, el enlace que aparece en el robots.txt "a no indexar"
Pues no es por nada, pero con lo zote que soy yo, de letras, y sin zorra idea de estas cosas, y que haya sido capaz de darme cuenta de la chapuza que han hecho... #14 ¿a quién le pagan por hacer esa web?
Ni en el todo a 100 lo harían peor.
#14 Tenéis que daros cuenta compañeros. Que por mucho que la SGAE vaya de defensora de la Cultura, no tiene NPI de ella, y menos tecnológica. Así que no esperéis algo bien hecho por ellos.
#1 Aunque mi karma da menos que una castaña y, aunque sí sé de que va esto, como dice #34, es una gilipollez absoluta que te voten negativo por ser claro y sincero.
Ya, la verdad es que no se que tiene de malo decir que no se sabe algo...gracias a eso me he enterado de que va la cosa. En fin...será que tenían un mal día.
Cuanto hoygan comentando y riéndose de lo que no sabe...
Hace unos años los pre−anonymous hispanos intentaron hacer un bombing a google promocionando elances tipo www.sgae.es/?ladrones , provocando que cuándo alguien buscase sgae el primer enlace que ofrecía el buscador era ese. Pues bien, aunque no es la solución más elegante sí es una solución para evitar la trolleada, pues permite que falle el enlace y así google no lo indexe.
Esto ¿que es? ¿Hackeado o que han puesto ese archivo para que no salga la web de la SGAE al buscar eso? Es que de informática y estas cosas no sé nada.
Comentarios
Que levante la mano el que haya ido a ver lo que hay en los directorios "no tocar"
#9 o/
#9 Yo he mirado un par y nada interesante Supongo que los usarán para pruebas o algo, lo que tenga que estar oculto no estará accesible públicamente por lo que los robots de google no lo pueden ni ver así que da igual. Habrá que hacer un script que baje la página cada x minutos y si detecta cambios avise para ver para qué sirven esas urls
#9 Oye Manolo, no olvides de poner
Disallow:/documentos-muy-secretos/
en el robots.txt, no vaya a ser que la gente se entere de que existe, y nos caiga una bronca...
#24 lo que tenga que estar oculto no estará accesible públicamente por lo que los robots de google no lo pueden ni ver así que da igual.
No subestimes el poder de Google...
1. Uno de la SGAE está mirando un documento ultrasecreto en su navegador, ubicado en http://www.sgae.es/documentos-muy-secretos/cuentas_en_suiza_de_teddy.pdf
2. En un momento dado, se va a sus marcadores, y pincha en cualquier dirección que quiera consultar, por ejemplo: http://www.foroblanqueo.ky . Y resulta que ese servidor guarda los logs de los accesos web y genera automáticamente las estadísticas en un dirección de consulta "típica", por ejemplo, http://www.foroblanqueo.ky/stats o http://www.foroblanqueo.ky/aw-stats
#36 Pero eso es por que los datos eran públicos, no así los links. Si quieres ocultar algo no lo haces accesible de forma pública confiando en que nadie va a conocer el enlace
#36 No me hagas mucho caso, pero cuando entras a un sitio desde marcadores el HTTP_REFERER no se envía. Otra cosa seria que el documento ultra secreto incluyese un enlace a google.com, y ahi se enviase tal dirección. A partir de ahi a saber lo que hace google con sus peticiones.
Esos putos egoístas utilizan wordpress...
¿Habrán pagado por el CD de wordpress?
Los autores de wordpress se mueren de hambre con tanta descarga
#6
creo que esa entrada a wordpress quiere decir que no reciban ninguna visita que venga de un blog de wordpress, no estoy seguro de todas formasEDITO:
Pues no, http://www.sgae.es/wp-admin
#6 #8 http://builtwith.com/sgae.es
Nunca en mi vida pensé que podría llegar a reírme leyendo un robots.txt. Se me rompen los esquemas.
User-agent: *
Disallow:/portal/
Disallow:/portal/
Disallow:/wp-*
Disallow:/?SGAE=LADRONES=MONOPOLIO
Disallow:/?ladrones
Disallow:/?mafiosos
Disallow:/?
Disallow:/?*
Disallow:/author/
Disallow:/category/
Disallow:/portal/
Disallow:/search/
Disallow:/home2/
Disallow:/sg0-no-tocar/
Disallow:/sg1-no-tocar/
Disallow:/sg2-no-tocar/
Disallow:/sg3-no-tocar/
Disallow:/sg4-no-tocar/
Disallow:/sg5-no-tocar/
Disallow:/sg-5-no-tocar/
Disallow:/sg-4-no-tocar/
Disallow:/sg-3-no-tocar/
Disallow:/sg-2-no-tocar/
Disallow:/sg-1-no-tocar/
Disallow:/sg*
Disallow:/search/search-es.jsp?texto=ladrones
Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E
Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E
Lo GORDO está realmente en las dos últimas líneas.
Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E
Efectivamente, somos unos ladrones
Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E
Somos unos ladrones salgamos primeros en google o no
#23 que bueno
http://www.sgae.es/
efectivamente somos unos ladrones
===
Pd. A ver si indexa esto google
#41 jejeje... sí l@ index@
https://www.google.es/search?q=efectivamente+somos+unos+ladrones&rlz=1C1RNKA_enES501ES501&oq=efectivamente+somos+unos+ladrones&sugexp=chrome,mod=17&sourceid=chrome&ie=UTF-8
Ni p...a idea de que va esto.
Al menos tienen asumido lo que son.
#1 Son las búsquedas por la que no quieren aparecer en los navegadores.
#2 Aaah. Gracias por el dato.
#2 #12 #13 en realidad no.
El archivo robots.txt lo que se encarga es de decirle a los bots que archivos del propio sitio web - en este caso sgae.es - no quiere que indexe. Por ejemplo Disallow:/?SGAE=LADRONES=MONOPOLIO significa: no indexes sgae.es/?SGAE=LADRONES=MONOPOLIO
básicamente los de la SGAE no entendieron nada. En vez de arreglar su buscador para que no les hicieran cross scripting hicieron esta chapuza del robots.
#1,#2,#12, el robots.txt es un fichero público con el que informar a los robots de internet lo que quieres o no quieres que indexen de tu página web. No han hackeado nada pues es de acceso público y además lo utilizan mal, como dice #14 (te adelantaste..)
Para más información
http://support.google.com/webmasters/bin/answer.py?hl=es&answer=156449
El fichero robots.txt sólo evita que el 'googlebot' y similares escaneen las páginas o directorios mencionados, pero no evita su indexación si alguien (incluído Google) ha visitado ya la página antes. Vamos, que lo que han hecho es una chapuza impresionante, como dice #14.
Por ejemplo, el enlace que aparece en el robots.txt "a no indexar"
http://www.sgae.es/?SGAE=LADRONES=MONOPOLIO
Está indexado, porque hay otras páginas que hacen referencia a ésta (está explicado por google en el enlace de #15).
Pues no es por nada, pero con lo zote que soy yo, de letras, y sin zorra idea de estas cosas, y que haya sido capaz de darme cuenta de la chapuza que han hecho... #14 ¿a quién le pagan por hacer esa web?
Ni en el todo a 100 lo harían peor.
#14 Tenéis que daros cuenta compañeros. Que por mucho que la SGAE vaya de defensora de la Cultura, no tiene NPI de ella, y menos tecnológica. Así que no esperéis algo bien hecho por ellos.
Salu2
#2 Donde dije navegadores quise decir buscadores. Error tipográfico.
#1 ¿Te han votado negativo por no saber leer un código? Cómo. Está. El. Patio.
#1 Aunque mi karma da menos que una castaña y, aunque sí sé de que va esto, como dice #34, es una gilipollez absoluta que te voten negativo por ser claro y sincero.
#34
#39
Ya, la verdad es que no se que tiene de malo decir que no se sabe algo...gracias a eso me he enterado de que va la cosa. En fin...será que tenían un mal día.
Como minimo tienen claro lo que son. Y a www.sgae.es/robots.txt me remito
Parece una confesión en toda regla firmada por su puño y letra...
Yo lo que no entiendo es porque enviais este tweet que es un RT y no el original:
Vaya chapuza de envío también, al nivel del robots.txt
Todo eso viene a cuenta de este post de hace casi 6 años :
http://telendro.com.es/2007/03/01/jugando-a-policias-y-ladrones-con-google-y-la-sgae/
Los enlaces "ladrones" linkaban con esos textos.
Lean a #28 y #35 Y olvídense del resto de indocumentados
Lleva tiempo llamando la atención: El robots.txt de la SGAE
El robots.txt de la SGAE
sgae.esUsan un WordPress viejísimo... 2.3.2 cuando ahora ya van por la 3.5
#33 Como has averiguado la versión ?? Que de ser
#43 por el ?ver=2.3.2 que se meten algunos css y js y por los estilos del panel de admin
#45 Mirando el RSS he sacado que es la 3.0.5 ...
#47 Es verdad! Aun así seguro que hay exploits para esa versión
Cuanto hoygan comentando y riéndose de lo que no sabe...
Hace unos años los pre−anonymous hispanos intentaron hacer un bombing a google promocionando elances tipo www.sgae.es/?ladrones , provocando que cuándo alguien buscase sgae el primer enlace que ofrecía el buscador era ese. Pues bien, aunque no es la solución más elegante sí es una solución para evitar la trolleada, pues permite que falle el enlace y así google no lo indexe.
Desde luego si intentan ser más lamers no lo consiguen.
pero da igual todos sabemos lo que sabemos...
Esto ¿que es? ¿Hackeado o que han puesto ese archivo para que no salga la web de la SGAE al buscar eso? Es que de informática y estas cosas no sé nada.
#12 lo primero que comentas.
Ladrones.
pues pongamos SGAE MANGANTES CHORIZOS
#25 Podemos poner "Drones de Los Ángeles". (En inglés: L.A. Drones)
Probad nikto con www.sgae.es
Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E
Todo este tiempo reconociéndolo y nosotros sin saberlo. ¿Qué pasa ahora con sus denuncias por derecho al honor?
¿se podrá usar el robots en los juicios que hay de gente que los ha insultado?
Ese robots.txt lleva varios años así. No es novedad como para salir en portada de meneame...
Quien dice ladrones, dice escoria. Deberian currarse un poco mas el robot.txt
Yo solo digo que SE HAN HERNIADO...o mejor dicho HAN CHAPUCEADO.
HDP se ríen en nuestra cara
Al menos estan conscientes de como los evalua una buena parte de la comunidad WEB, Efecto Streissand en 3, 2, 1...
el puesto numero 2 de Search Query: "ladrones" con un 2.09%
http://www.alexa.com/siteinfo/sgae.es
Hubo una época en la que el microblogging se votaba como microblogging