460 meneos
11156 clics

Un vistazo al robots.txt de la SGAE

Enlace directo: www.sgae.es/robots.txt
etiquetas: robots, sgae
usuarios: 239   anónimos: 221   negativos: 7  
55comentarios mnm karma: 609
  1. #1   Ni p...a idea de que va esto.
    votos: 15    karma: 93
  2. #2   Al menos tienen asumido lo que son.

    #1 Son las búsquedas por la que no quieren aparecer en los navegadores.
    votos: 43    karma: 361
  3. #3   Como minimo tienen claro lo que son. Y a www.sgae.es/robots.txt me remito xD xD xD xD xD xD xD xD
    votos: 8    karma: 76
     *   yende yende
  4. #4   #2 Aaah. Gracias por el dato.
    votos: 5    karma: 58
  5. #5   pero da igual todos sabemos lo que sabemos...
    votos: 1    karma: 25
  6. #6   Esos putos egoístas utilizan wordpress...

    ¿Habrán pagado por el CD de wordpress? :troll:
    Los autores de wordpress se mueren de hambre con tanta descarga :-(
    votos: 28    karma: 214
  7. #7   Hubo una época en la que el microblogging se votaba como microblogging
    votos: 10    karma: -26
  8. #8   #6 creo que esa entrada a wordpress quiere decir que no reciban ninguna visita que venga de un blog de wordpress, no estoy seguro de todas formas

    EDITO:
    Pues no, www.sgae.es/wp-admin
    votos: 1    karma: 21
     *   Cidwel Cidwel
  9. #9   Que levante la mano el que haya ido a ver lo que hay en los directorios "no tocar" xD
    votos: 24    karma: 217
     *   mandelbr0t mandelbr0t
  10. #10   #9 o/
    votos: 6    karma: 73
  11. #11   User-agent: *

    Disallow:/portal/

    Disallow:/portal/
    Disallow:/wp-*

    Disallow:/?SGAE=LADRONES=MONOPOLIO
    Disallow:/?ladrones
    Disallow:/?mafiosos
    Disallow:/?
    Disallow:/?*
    Disallow:/author/
    Disallow:/category/
    Disallow:/portal/
    Disallow:/search/
    Disallow:/home2/
    Disallow:/sg0-no-tocar/
    Disallow:/sg1-no-tocar/
    Disallow:/sg2-no-tocar/
    Disallow:/sg3-no-tocar/
    Disallow:/sg4-no-tocar/
    Disallow:/sg5-no-tocar/
    Disallow:/sg-5-no-tocar/
    Disallow:/sg-4-no-tocar/
    Disallow:/sg-3-no-tocar/
    Disallow:/sg-2-no-tocar/
    Disallow:/sg-1-no-tocar/
    Disallow:/sg*
    Disallow:/search/search-es.jsp?texto=<a href="">ladrones</a>
    Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E
    Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E
    votos: 15    karma: 118
  12. #12   Esto ¿que es? ¿Hackeado o que han puesto ese archivo para que no salga la web de la SGAE al buscar eso? Es que de informática y estas cosas no sé nada.
    votos: 0    karma: 20
  13. #13   #12 lo primero que comentas.
    votos: 1    karma: 14
  14. #14   #2 #12 #13 en realidad no.
    El archivo robots.txt lo que se encarga es de decirle a los bots que archivos del propio sitio web - en este caso sgae.es - no quiere que indexe. Por ejemplo Disallow:/?SGAE=LADRONES=MONOPOLIO significa: no indexes sgae.es/?SGAE=LADRONES=MONOPOLIO

    básicamente los de la SGAE no entendieron nada. En vez de arreglar su buscador para que no les hicieran cross scripting hicieron esta chapuza del robots.
    votos: 55    karma: 501
  15. #15   #1,#2,#12, el robots.txt es un fichero público con el que informar a los robots de internet lo que quieres o no quieres que indexen de tu página web. No han hackeado nada pues es de acceso público y además lo utilizan mal, como dice #14 (te adelantaste..)

    Para más información
    support.google.com/webmasters/bin/answer.py?hl=es&answer=156449
    votos: 9    karma: 84
     *   saraguato saraguato
  16. #16   Nunca en mi vida pensé que podría llegar a reírme leyendo un robots.txt. Se me rompen los esquemas. xD
    votos: 18    karma: 162
  17. #17   Parece una confesión en toda regla firmada por su puño y letra...
    votos: 6    karma: 64
  18. #18   HDP se ríen en nuestra cara
    votos: 0    karma: 6
  19. #19   Ladrones.
    votos: 1    karma: 19
  20. #20   Yo solo digo que SE HAN HERNIADO...o mejor dicho HAN CHAPUCEADO.
    votos: 0    karma: 6
  21. #21   Lleva tiempo llamando la atención: www.meneame.net/story/robots-txt-de-sgae
    votos: 3    karma: 37
  22. #22   El fichero robots.txt sólo evita que el 'googlebot' y similares escaneen las páginas o directorios mencionados, pero no evita su indexación si alguien (incluído Google) ha visitado ya la página antes. Vamos, que lo que han hecho es una chapuza impresionante, como dice #14.

    Por ejemplo, el enlace que aparece en el robots.txt "a no indexar"

    www.sgae.es/?SGAE=LADRONES=MONOPOLIO

    Está indexado, porque hay otras páginas que hacen referencia a ésta (está explicado por google en el enlace de #15).
    votos: 4    karma: 34
     *   gaia26 gaia26
  23. #23   Lo GORDO está realmente en las dos últimas líneas.

    Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E

    Efectivamente, somos unos ladrones

    Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E

    Somos unos ladrones salgamos primeros en google o no
    votos: 12    karma: 111
     *   Jiraiya Jiraiya
  24. #24   #9 Yo he mirado un par y nada interesante :-P Supongo que los usarán para pruebas o algo, lo que tenga que estar oculto no estará accesible públicamente por lo que los robots de google no lo pueden ni ver así que da igual. Habrá que hacer un script que baje la página cada x minutos y si detecta cambios avise para ver para qué sirven esas urls :-P
    votos: 0    karma: 7
  25. #25   pues pongamos SGAE MANGANTES CHORIZOS
    votos: 1    karma: 15
  26. #26   Desde luego si intentan ser más lamers no lo consiguen.
    votos: 2    karma: 27
  27. #27   Yo lo que no entiendo es porque enviais este tweet que es un RT y no el original: twitter.com/HackHispano/status/283879226778718208

    Vaya chapuza de envío también, al nivel del robots.txt
    votos: 4    karma: 45
     *   dadelmo dadelmo
  28. #28   Todo eso viene a cuenta de este post de hace casi 6 años :

    telendro.com.es/2007/03/01/jugando-a-policias-y-ladrones-con-google-y-

    Los enlaces "ladrones" linkaban con esos textos.
    votos: 3    karma: 39
     *   Rembrandt Rembrandt
  29. #29   #2 Donde dije navegadores quise decir buscadores. Error tipográfico.
    votos: 0    karma: 5
  30. #30   ¿se podrá usar el robots en los juicios que hay de gente que los ha insultado?
    votos: 0    karma: 8
  31. #31   Quien dice ladrones, dice escoria. Deberian currarse un poco mas el robot.txt :-)
    votos: 0    karma: 7
     *   --348446-- --348446--
  32. #32   Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E

    Todo este tiempo reconociéndolo y nosotros sin saberlo. ¿Qué pasa ahora con sus denuncias por derecho al honor? :-)
    votos: 0    karma: 9
  33. #33   Usan un WordPress viejísimo... 2.3.2 cuando ahora ya van por la 3.5 xD
    votos: 2    karma: 34
  34. #34   #1 ¿Te han votado negativo por no saber leer un código? Cómo. Está. El. Patio.
    votos: 8    karma: 70
  35. #35   Cuanto hoygan comentando y riéndose de lo que no sabe...

    Hace unos años los pre−anonymous hispanos intentaron hacer un bombing a google promocionando elances tipo www.sgae.es/?ladrones , provocando que cuándo alguien buscase sgae el primer enlace que ofrecía el buscador era ese. Pues bien, aunque no es la solución más elegante sí es una solución para evitar la trolleada, pues permite que falle el enlace y así google no lo indexe.
    votos: 3    karma: 31
     *   merogos merogos
  36. #36   #9 Oye Manolo, no olvides de poner

    Disallow:/documentos-muy-secretos/

    en el robots.txt, no vaya a ser que la gente se entere de que existe, y nos caiga una bronca...


    o_o

    #24 lo que tenga que estar oculto no estará accesible públicamente por lo que los robots de google no lo pueden ni ver así que da igual.

    No subestimes el poder de Google...

    1. Uno de la SGAE está mirando un documento ultrasecreto en su navegador, ubicado en www.sgae.es/documentos-muy-secretos/cuentas_en_suiza_de_teddy.pdf
    2. En un momento dado, se va a sus marcadores, y pincha en cualquier dirección que quiera consultar, por ejemplo: www.foroblanqueo.ky . Y resulta que ese servidor guarda los logs de los accesos web y genera automáticamente las estadísticas en un dirección de consulta "típica", por ejemplo, www.foroblanqueo.ky/stats o www.foroblanqueo.ky/aw-stats
    3. Google indexa esa dirección y, escaneando los datos, resulta que en las estadísticas sale que hubo una visita a www.foroblanqueo.ky que entró (HTTP_REFERER) desde la dirección www.sgae.es/documentos-muy-secretos/cuentas_en_suiza_de_teddy.pdf
    4. En su afán de dominar el mundo, Google indexa todos los enlaces que encuentra visitándolos y escaneando lo que contienen, incluyendo www.sgae.es/documentos-muy-secretos/cuentas_en_suiza_de_teddy.pdf que nadie debería de saber que existe
    5. Un día cualquiera no sabes qué hora es, y tecleas "teddy cuentas suiza" en el buscador de Google.
    6. Envías el enlace a meneame y se lía parda.

    :-D

    Algo así pasó con un proxy de una universidad española, que guardaba los datos de las direcciones visitadas públicamente y accesibles vía web.
    votos: 13    karma: 119
  37. #37   Pues no es por nada, pero con lo zote que soy yo, de letras, y sin zorra idea de estas cosas, y que haya sido capaz de darme cuenta de la chapuza que han hecho... #14 ¿a quién le pagan por hacer esa web?
    Ni en el todo a 100 lo harían peor.
    votos: 0    karma: 20
     *   reemax reemax
  38. #38   Lean a #28 y #35 Y olvídense del resto de indocumentados :-)
    votos: 1    karma: 15
  39. #39   #1 Aunque mi karma da menos que una castaña y, aunque sí sé de que va esto, como dice #34, es una gilipollez absoluta que te voten negativo por ser claro y sincero.
    votos: 4    karma: 40
  40. #40   #25 Podemos poner "Drones de Los Ángeles". (En inglés: L.A. Drones) xD
    votos: 1    karma: 20
  41. #41   #23 que bueno

    www.sgae.es/

    efectivamente somos unos ladrones


    ===
    Pd. A ver si indexa esto google
    votos: 0    karma: 7
     *   hmbregris hmbregris
  42. #42   Probad nikto con www.sgae.es :-D :-D :-D
    votos: 0    karma: 12
  43. #43   #33 Como has averiguado la versión ?? Que de ser <= a 2.3.2 no deberia de hacer esto esta URL : www.sgae.es/wp-admin/admin-footer.php
    votos: 0    karma: 6
  44. #44   #34
    #39

    Ya, la verdad es que no se que tiene de malo decir que no se sabe algo...gracias a eso me he enterado de que va la cosa. En fin...será que tenían un mal día.
    votos: 5    karma: 51
  45. #45   #43 por el ?ver=2.3.2 que se meten algunos css y js y por los estilos del panel de admin
    votos: 0    karma: 11
  46. #46   #36 Pero eso es por que los datos eran públicos, no así los links. Si quieres ocultar algo no lo haces accesible de forma pública confiando en que nadie va a conocer el enlace :-P
    votos: 1    karma: 16
  47. #47   #45 Mirando el RSS he sacado que es la 3.0.5 ...
    votos: 0    karma: 6
  48. #48   #47 Es verdad! Aun así seguro que hay exploits para esa versión
    votos: 0    karma: 11
  49. #49   #36 No me hagas mucho caso, pero cuando entras a un sitio desde marcadores el HTTP_REFERER no se envía. Otra cosa seria que el documento ultra secreto incluyese un enlace a google.com, y ahi se enviase tal dirección. A partir de ahi a saber lo que hace google con sus peticiones.
    votos: 3    karma: 33
  50. #50   Ese robots.txt lleva varios años así. No es novedad como para salir en portada de meneame...
    votos: 0    karma: 8
  51. #51   Al menos estan conscientes de como los evalua una buena parte de la comunidad WEB, Efecto Streissand en 3, 2, 1...
    votos: 0    karma: 6
  52. votos: 0    karma: 6
  53. votos: 0    karma: 7
  54. #54   el puesto numero 2 de Search Query: "ladrones" con un 2.09%
    www.alexa.com/siteinfo/sgae.es
    votos: 0    karma: 6
  55. #55   #14 Tenéis que daros cuenta compañeros. Que por mucho que la SGAE vaya de defensora de la Cultura, no tiene NPI de ella, y menos tecnológica. Así que no esperéis algo bien hecho por ellos.

    Salu2
    votos: 0    karma: 10
comentarios cerrados

menéame