460 meneos
11155 clics

Un vistazo al robots.txt de la SGAE

Enlace directo: www.sgae.es/robots.txt
etiquetas: robots, sgae
usuarios: 239   anónimos: 221   negativos: 7  
55comentarios mnm karma: 609
  1. #14   #2 #12 #13 en realidad no.
    El archivo robots.txt lo que se encarga es de decirle a los bots que archivos del propio sitio web - en este caso sgae.es - no quiere que indexe. Por ejemplo Disallow:/?SGAE=LADRONES=MONOPOLIO significa: no indexes sgae.es/?SGAE=LADRONES=MONOPOLIO

    básicamente los de la SGAE no entendieron nada. En vez de arreglar su buscador para que no les hicieran cross scripting hicieron esta chapuza del robots.
    votos: 55    karma: 501
  2. #2   Al menos tienen asumido lo que son.

    #1 Son las búsquedas por la que no quieren aparecer en los navegadores.
    votos: 43    karma: 361
  3. #9   Que levante la mano el que haya ido a ver lo que hay en los directorios "no tocar" xD
    votos: 24    karma: 217
     *   mandelbr0t mandelbr0t
  4. #6   Esos putos egoístas utilizan wordpress...

    ¿Habrán pagado por el CD de wordpress? :troll:
    Los autores de wordpress se mueren de hambre con tanta descarga :-(
    votos: 28    karma: 214
  5. #16   Nunca en mi vida pensé que podría llegar a reírme leyendo un robots.txt. Se me rompen los esquemas. xD
    votos: 18    karma: 162
  6. #36   #9 Oye Manolo, no olvides de poner

    Disallow:/documentos-muy-secretos/

    en el robots.txt, no vaya a ser que la gente se entere de que existe, y nos caiga una bronca...


    o_o

    #24 lo que tenga que estar oculto no estará accesible públicamente por lo que los robots de google no lo pueden ni ver así que da igual.

    No subestimes el poder de Google...

    1. Uno de la SGAE está mirando un documento ultrasecreto en su navegador, ubicado en www.sgae.es/documentos-muy-secretos/cuentas_en_suiza_de_teddy.pdf
    2. En un momento dado, se va a sus marcadores, y pincha en cualquier dirección que quiera consultar, por ejemplo: www.foroblanqueo.ky . Y resulta que ese servidor guarda los logs de los accesos web y genera automáticamente las estadísticas en un dirección de consulta "típica", por ejemplo, www.foroblanqueo.ky/stats o www.foroblanqueo.ky/aw-stats
    3. Google indexa esa dirección y, escaneando los datos, resulta que en las estadísticas sale que hubo una visita a www.foroblanqueo.ky que entró (HTTP_REFERER) desde la dirección www.sgae.es/documentos-muy-secretos/cuentas_en_suiza_de_teddy.pdf
    4. En su afán de dominar el mundo, Google indexa todos los enlaces que encuentra visitándolos y escaneando lo que contienen, incluyendo www.sgae.es/documentos-muy-secretos/cuentas_en_suiza_de_teddy.pdf que nadie debería de saber que existe
    5. Un día cualquiera no sabes qué hora es, y tecleas "teddy cuentas suiza" en el buscador de Google.
    6. Envías el enlace a meneame y se lía parda.

    :-D

    Algo así pasó con un proxy de una universidad española, que guardaba los datos de las direcciones visitadas públicamente y accesibles vía web.
    votos: 13    karma: 119
  7. #11   User-agent: *

    Disallow:/portal/

    Disallow:/portal/
    Disallow:/wp-*

    Disallow:/?SGAE=LADRONES=MONOPOLIO
    Disallow:/?ladrones
    Disallow:/?mafiosos
    Disallow:/?
    Disallow:/?*
    Disallow:/author/
    Disallow:/category/
    Disallow:/portal/
    Disallow:/search/
    Disallow:/home2/
    Disallow:/sg0-no-tocar/
    Disallow:/sg1-no-tocar/
    Disallow:/sg2-no-tocar/
    Disallow:/sg3-no-tocar/
    Disallow:/sg4-no-tocar/
    Disallow:/sg5-no-tocar/
    Disallow:/sg-5-no-tocar/
    Disallow:/sg-4-no-tocar/
    Disallow:/sg-3-no-tocar/
    Disallow:/sg-2-no-tocar/
    Disallow:/sg-1-no-tocar/
    Disallow:/sg*
    Disallow:/search/search-es.jsp?texto=<a href="">ladrones</a>
    Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E
    Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E
    votos: 15    karma: 118
  8. #23   Lo GORDO está realmente en las dos últimas líneas.

    Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E

    Efectivamente, somos unos ladrones

    Disallow:/search/search-es.jsp?texto=%3Ch1%3ESomos%20unos%20ladrones%20salgamos%20primeros%20en%20google%20o%20no%3C/h1%3E

    Somos unos ladrones salgamos primeros en google o no
    votos: 12    karma: 111
     *   Jiraiya Jiraiya
  9. #1   Ni p...a idea de que va esto.
    votos: 15    karma: 93
  10. #15   #1,#2,#12, el robots.txt es un fichero público con el que informar a los robots de internet lo que quieres o no quieres que indexen de tu página web. No han hackeado nada pues es de acceso público y además lo utilizan mal, como dice #14 (te adelantaste..)

    Para más información
    support.google.com/webmasters/bin/answer.py?hl=es&answer=156449
    votos: 9    karma: 84
     *   saraguato saraguato
  11. #3   Como minimo tienen claro lo que son. Y a www.sgae.es/robots.txt me remito xD xD xD xD xD xD xD xD
    votos: 8    karma: 76
     *   yende yende
  12. #10   #9 o/
    votos: 6    karma: 73
  13. #34   #1 ¿Te han votado negativo por no saber leer un código? Cómo. Está. El. Patio.
    votos: 8    karma: 70
  14. #17   Parece una confesión en toda regla firmada por su puño y letra...
    votos: 6    karma: 64
  15. #4   #2 Aaah. Gracias por el dato.
    votos: 5    karma: 58
  16. #44   #34
    #39

    Ya, la verdad es que no se que tiene de malo decir que no se sabe algo...gracias a eso me he enterado de que va la cosa. En fin...será que tenían un mal día.
    votos: 5    karma: 51
  17. #27   Yo lo que no entiendo es porque enviais este tweet que es un RT y no el original: twitter.com/HackHispano/status/283879226778718208

    Vaya chapuza de envío también, al nivel del robots.txt
    votos: 4    karma: 45
     *   dadelmo dadelmo
  18. #39   #1 Aunque mi karma da menos que una castaña y, aunque sí sé de que va esto, como dice #34, es una gilipollez absoluta que te voten negativo por ser claro y sincero.
    votos: 4    karma: 40
  19. #28   Todo eso viene a cuenta de este post de hace casi 6 años :

    telendro.com.es/2007/03/01/jugando-a-policias-y-ladrones-con-google-y-

    Los enlaces "ladrones" linkaban con esos textos.
    votos: 3    karma: 39
     *   Rembrandt Rembrandt
  20. #21   Lleva tiempo llamando la atención: www.meneame.net/story/robots-txt-de-sgae
    votos: 3    karma: 37
  21. #22   El fichero robots.txt sólo evita que el 'googlebot' y similares escaneen las páginas o directorios mencionados, pero no evita su indexación si alguien (incluído Google) ha visitado ya la página antes. Vamos, que lo que han hecho es una chapuza impresionante, como dice #14.

    Por ejemplo, el enlace que aparece en el robots.txt "a no indexar"

    www.sgae.es/?SGAE=LADRONES=MONOPOLIO

    Está indexado, porque hay otras páginas que hacen referencia a ésta (está explicado por google en el enlace de #15).
    votos: 4    karma: 34
     *   gaia26 gaia26
  22. #33   Usan un WordPress viejísimo... 2.3.2 cuando ahora ya van por la 3.5 xD
    votos: 2    karma: 34
  23. #49   #36 No me hagas mucho caso, pero cuando entras a un sitio desde marcadores el HTTP_REFERER no se envía. Otra cosa seria que el documento ultra secreto incluyese un enlace a google.com, y ahi se enviase tal dirección. A partir de ahi a saber lo que hace google con sus peticiones.
    votos: 3    karma: 33
  24. #35   Cuanto hoygan comentando y riéndose de lo que no sabe...

    Hace unos años los pre−anonymous hispanos intentaron hacer un bombing a google promocionando elances tipo www.sgae.es/?ladrones , provocando que cuándo alguien buscase sgae el primer enlace que ofrecía el buscador era ese. Pues bien, aunque no es la solución más elegante sí es una solución para evitar la trolleada, pues permite que falle el enlace y así google no lo indexe.
    votos: 3    karma: 31
     *   merogos merogos
  25. #26   Desde luego si intentan ser más lamers no lo consiguen.
    votos: 2    karma: 27
  26. #5   pero da igual todos sabemos lo que sabemos...
    votos: 1    karma: 25
  27. #8   #6 creo que esa entrada a wordpress quiere decir que no reciban ninguna visita que venga de un blog de wordpress, no estoy seguro de todas formas

    EDITO:
    Pues no, www.sgae.es/wp-admin
    votos: 1    karma: 21
     *   Cidwel Cidwel
  28. #12   Esto ¿que es? ¿Hackeado o que han puesto ese archivo para que no salga la web de la SGAE al buscar eso? Es que de informática y estas cosas no sé nada.
    votos: 0    karma: 20
  29. #37   Pues no es por nada, pero con lo zote que soy yo, de letras, y sin zorra idea de estas cosas, y que haya sido capaz de darme cuenta de la chapuza que han hecho... #14 ¿a quién le pagan por hacer esa web?
    Ni en el todo a 100 lo harían peor.
    votos: 0    karma: 20
     *   reemax reemax
  30. #40   #25 Podemos poner "Drones de Los Ángeles". (En inglés: L.A. Drones) xD
    votos: 1    karma: 20
  31. #19   Ladrones.
    votos: 1    karma: 19
  32. #46   #36 Pero eso es por que los datos eran públicos, no así los links. Si quieres ocultar algo no lo haces accesible de forma pública confiando en que nadie va a conocer el enlace :-P
    votos: 1    karma: 16
  33. #25   pues pongamos SGAE MANGANTES CHORIZOS
    votos: 1    karma: 15
  34. #38   Lean a #28 y #35 Y olvídense del resto de indocumentados :-)
    votos: 1    karma: 15
  35. #13   #12 lo primero que comentas.
    votos: 1    karma: 14
  36. #42   Probad nikto con www.sgae.es :-D :-D :-D
    votos: 0    karma: 12
  37. #45   #43 por el ?ver=2.3.2 que se meten algunos css y js y por los estilos del panel de admin
    votos: 0    karma: 11
  38. #48   #47 Es verdad! Aun así seguro que hay exploits para esa versión
    votos: 0    karma: 11
  39. #55   #14 Tenéis que daros cuenta compañeros. Que por mucho que la SGAE vaya de defensora de la Cultura, no tiene NPI de ella, y menos tecnológica. Así que no esperéis algo bien hecho por ellos.

    Salu2
    votos: 0    karma: 10
  40. #32   Disallow:/search/search-es.jsp?texto=%3Cscript%3Ealert(%22efectivamente,%20somos%20unos%20ladrones%22);%3C/script%3E

    Todo este tiempo reconociéndolo y nosotros sin saberlo. ¿Qué pasa ahora con sus denuncias por derecho al honor? :-)
    votos: 0    karma: 9
  41. #30   ¿se podrá usar el robots en los juicios que hay de gente que los ha insultado?
    votos: 0    karma: 8
  42. #50   Ese robots.txt lleva varios años así. No es novedad como para salir en portada de meneame...
    votos: 0    karma: 8
  43. #24   #9 Yo he mirado un par y nada interesante :-P Supongo que los usarán para pruebas o algo, lo que tenga que estar oculto no estará accesible públicamente por lo que los robots de google no lo pueden ni ver así que da igual. Habrá que hacer un script que baje la página cada x minutos y si detecta cambios avise para ver para qué sirven esas urls :-P
    votos: 0    karma: 7
  44. #31   Quien dice ladrones, dice escoria. Deberian currarse un poco mas el robot.txt :-)
    votos: 0    karma: 7
     *   --348446-- --348446--
  45. #41   #23 que bueno

    www.sgae.es/

    efectivamente somos unos ladrones


    ===
    Pd. A ver si indexa esto google
    votos: 0    karma: 7
     *   hmbregris hmbregris
  46. votos: 0    karma: 7
  47. #18   HDP se ríen en nuestra cara
    votos: 0    karma: 6
  48. #20   Yo solo digo que SE HAN HERNIADO...o mejor dicho HAN CHAPUCEADO.
    votos: 0    karma: 6
  49. #43   #33 Como has averiguado la versión ?? Que de ser <= a 2.3.2 no deberia de hacer esto esta URL : www.sgae.es/wp-admin/admin-footer.php
    votos: 0    karma: 6
  50. #47   #45 Mirando el RSS he sacado que es la 3.0.5 ...
    votos: 0    karma: 6
  51. #51   Al menos estan conscientes de como los evalua una buena parte de la comunidad WEB, Efecto Streissand en 3, 2, 1...
    votos: 0    karma: 6
  52. votos: 0    karma: 6
  53. #54   el puesto numero 2 de Search Query: "ladrones" con un 2.09%
    www.alexa.com/siteinfo/sgae.es
    votos: 0    karma: 6
  54. #29   #2 Donde dije navegadores quise decir buscadores. Error tipográfico.
    votos: 0    karma: 5
  55. #7   Hubo una época en la que el microblogging se votaba como microblogging
    votos: 10    karma: -26
comentarios cerrados

menéame