cultura y tecnología
126 meneos
556 clics

[EN] Perplexity está ofuscando su identidad para robar la información de los sitios web

Cloudfare detalla una investigación sobre como Perplexity está usando técnicas de scraping para ofuscar su identidad y evitar los bloqueos por parte de las webs, ignorando así el deseo de sus dueños como se define en el fichero robots.txt. Entre las tecnicas que usan: rotación de ips, usar browser fingerprint falsos, ignorar el robots.txt.

| etiquetas: perplexity , ai , bots , amenaza , cloudfare
El articulo es muy bueno, han usado un honeypot (unas web falsas) para inducir a Perplexity a robar el contenido de estas. Lo más interesante es que cuando CloudFare se lo pone complicado usando reglas avanzadas para detección de bots entonces la IA directamente alucina y da contenido incorrecto.  media
#1 Muy mal lo de Perplexity... salvo que seas usuario de Perplexity. :-D
#13 Ojo que es la IA que posiblemente compre Apple.
#13 Soy usuario de Perplexity Pro y sus respuestas dejan muchísimo que desear
#1 Hay que leer el artículo de perplexity, no hay honeypot, ya lo han explicado, las requests hechas por un user agent de Chrome son requests hechas en nombre de usuarios individuales que piden acceder a datos frescos, no un crawler capturando datos para entrenar IAs. Ese gráfico es una fantasía. Personalmente estoy de acuerdo con Perplexity, si una request se hace en nombre de un usuario, es igual que si un usuario fuera él mismo personalmente a su navegador y metiera la URL, estás automatizando ese paso por él, y no tiene sentido respetar el robots.txt.

www.perplexity.ai/hub/blog/agents-or-bots-making-sense-of-ai-on-the-op
#17 gracias por compartirlo, no sabía que habían respondido.

La cosa no está tan clara, aunque ellos están usando el user agent de la persona qué hace la búsqueda están haciendo el scraping y almacenando el contenido con sus bots, como un proxy, incumpliendo el deseo que se especifica en el robots.txt de no ser indexados. Con esa información entrenan su LLM por lo que a fin de cuentas no hay diferencia sobre quien inicia la petición. El hecho de que roten IPs , usen IPS residenciales y modo…   » ver todo el comentario
#19 Sí, hacen de proxy, pero precisamente un proxy no sigue el robots.txt, no? Porque hace requests en nombre de un usuario. En el artículo dicen que no hacen eso de guardar los datos:

> On Perplexity and all other agentic AI platforms, this happens in real-time, in response to your request, and the information is used immediately to answer your question. It's not stored in massive databases for future use, and it's not used to train AI models.

Además dicen claramente "all other…   » ver todo el comentario
#17 Si tu me invitas a tu casa yo no puedo mandarte a amigo en mi nombre, el mundo no funciona así. Lo de que no tiene sentido respetar robots.txt te lo sacas de tus cojones morenos porque el dueño del servidor es quien pone las normas y el visitante el que tiene que respetarlas. Si accedes ilegalmente sin respetar las normas te pueden denunciar y espero que lo hagan y les caiga un buen puro
#23 Pero qué dices de amigo? Si usas el Firefox para navegar por internet estás usando a tu amigo? Si a chrome se le añade funcionalidades por IA para navegar por internet siguiendo instrucciones de voz, sería tu amigo? Y si navegas usando un proxy que está en otro país o una VPN? Si haces un curl cuenta como bot o estás navegando tú? Hay que construirse las peticiones TCP/IP con el notepad.exe para poderle hacer una request a Cloudflare o qué? No confundas un crawler que es una herramienta que…   » ver todo el comentario
#55 No soy tu amigo. Si creas un producto comercial que roba contenido y lo presenta como propio a costa de degradar el servicio de páginas web accediendo a ellas de forma fraudulenta saltándote robots.txt y falseando maliciosamente tu User-Agent y rotando IP's para evadir bloqueos te mereces que te denuncien y empuren hasta la bancarrota por ladrón y por gilipollas. SI no tienes ni zorra de lo que hablas mejor no hagas el ridículo
#17 Por supuesto que tiene sentido respetar el robots.txt. Para eso existe
#28 Por su puesto, y Perplexity respeta el robots.txt, si lo que dicen en su artículo es cierto.
#59 Pues en la enrradilla dice literalmente "ignorando así el deseo de sus dueños como se define en el fichero robots.txt. "
#61 Una pregunta. Respeta el Firefox el robots.txt? Podría Menéame expresar su deseo de que nadie que use el Firefox entre a Menéame? Si Menéame decidiera bloquear al Firefox por user agent nos parecería razonable o pondríamos el grito en el cielo? De verdad, déjate de entradillas y lee el artículo de Perplexity. El robots.txt no es para bloquear ese tipo de requests. Es para bloquear peticiones automatizadas detrás de las cuales no está un usuario.

Están confundiendo que el usuario haga una petición ayudándose de una herramienta de IA con las peticiones masivas que hace una empresa de IA para obtener datos para entrenarla. No tienen nada que ver.
#64 Respeta el Firefox el robots.txt?
Firefox no visita sitios web.
Es como si preguntas si LibreOffice escribe novelas.

Podría Menéame expresar su deseo de que nadie que use el Firefox entre a Menéame?
Si, podría.
Y tiene derecho a hacerlo.

Si Menéame decidiera bloquear al Firefox por user agent nos parecería razonable o pondríamos el grito en el cielo?
Tu y yo y cualquiera tenemos derecho a que nos parezca bien o mal cualquier decisión que tome un tercero. En este…   » ver todo el comentario
#67 Si hablamos de lo mismo y esa es tu opinión es respetable. Yo por si acaso aclaro.

> Perplexity NO es un usuario.

Estamos de acuerdo, el usuario está usando Perplexity igual que si usa Firefox o LibreOffice, y estas requests se realizan en respuesta a una petición del usuario, en el momento de la petición del usuario, y el resultado no se almacena posteriormente.

> Perplexity te da resultados de búsqueda porque visita sitios web para examinar si es lo que buscas, de modo muy…   » ver todo el comentario
#17 Yo lo entiendo igual. No se está scrapeando el contenido para entrenar su modelo. Un usuario está pidiendo información sobre una página. Hay muchos otras sites / servicios que te dan información sobre webs, sobre el software que corren, sobre versiones de servicios, ... lo veo como algo similar. Pero no está "robándole" el contenido.
La IA se está cargando Internet.
#4 Bueno, eso ya lo empezaron haciendo las grandes empresas que se dedican a la publicidad. Aunque prefieren ser llamadas "grandes tecnológicas".  media
#4 internet es un foro
#9 por desgracia tu definición es bastante acertada. Recuerdo en tiempos en los que aún se usaban distintos buscadores y estaba todo "desperdigado", la realidad es que había un cojón de contenido oculto en la web pero encontrabas de todo si sabías "cabar" bien.

Hoy en día absolutamente son todo redes sociales, donde además te dirigen al contenido que les interesa que veas. Por no mencionar el scroll infinito que nos aboba haciendo que la gente simplemente pierda el tiempo con ello fin de que veas publicidad.
#4 ya estaba bastante roto por el SEO, bots etc, esto es la estocada final.

No se de que manera se podría hacer pero necesitamos un internet de solo humanos. Pero no se me ocurre ninguna forma ni realista ni "ciencia ficción" (pero teoricamente realizable) de hacerlo ni he visto ninguna propuesta viable. Y menos a esta altura donde un bot asistido por IA puede suplantar a un humano de una forma cada día mas creible.

En mi humilde opinión en la próxima década vamos a ver el regreso de los criticos especializados, humanos que seleccionen contenido de calidad en todos los ambitos
#12 La IA ha acelerado la pérdida de autenticidad en internet, que ya venía golpeado por el SEO y los bots. La idea de un “internet solo para humanos” suena utópica, pero refleja una necesidad real: recuperar espacios donde la curaduría y la creatividad humana tengan peso.

Tu predicción sobre el regreso de los críticos especializados tiene mucho sentido. En medio del ruido algorítmico, vamos a necesitar voces humanas que seleccionen, recomienden y den contexto. Plataformas como Substack o…   » ver todo el comentario
#16 ...y parece escrito con IA...
#22 ya pero estamos en la misma, eso no impide a los bots entrar, si la comunidad triunfa y hay mucha gente se llenará de bots igualmente. Quizá menos, pero los bots de propaganda/astroturfing pagarán la mebresia si hay suficiente gente a la que impactar (además de que si la gente tiene la percepción de estar a salvo de bots tendrá la guardia baja) y los bots que se dediquen a vender o a recolectar datos entrarán en el momento en que la mebresía cueste menos que el dinero que van a ganar.


La batalla por ahora está mas que perdida, la respuesta de #16 tiene casi el mismo karma que mi comentario original y está generada por IA, solo reordena las palabras de mi comentario original, no aporta nada y lo único que genera es ruido
#12 Están los sitios de membresía, pero pagar por ello es otra cosa.
Joder, ignorar el txt no es ofuscación. :shit:
#2 hay que leer, no ofuscarse
#3 no se ofusque con este terror tecnologico que ha construido xD
#3 La ofuscación se refiere a encubrir el significado de una comunicación haciéndola más confusa y complicada de interpretar.

#5

Que saltarse un txt no os ofusque.
#2 El robots.txt siempre me pareció una medida de seguridad? privacidad? de mierda. "Oye, porfavorcito scraper, no entres en la carpeta 'matematicas' de mi servidor"
#7 Una declaración de permisos entre caballeros. Pero de esos quedan pocos.

Lo que sí debería servir es para demandas. "Yo no sabía que no estaba permitido leer el contenido" - "Lo pone en el robots.txt que es el estándar para estas cosas"
#10 no es estándar y su uso no está recomendado. Te lo dice hasta Google.
#18 Si te lo dice Google que no uses robots.txt entonces es de lo más recomendable usarlo
#25 supongo que lo mío es una falacia de autoridad, pero si el propio google te dice que el robots.txt no es seguro ni efectivo, quizás deberías hacerle caso cuando ha sido el principal buscador y crawler...
#37 Precisamente porque son un crawler tienen un conflicto de interés y su opinión no es válida. Y realmente me la suda lo que digan, es el dueño del servidor el que pone las normas y el visitante el que tiene que atenerse a ellas, y una forma de hacerlo entendible a los crawlers es con robots.txt
#41 lo que dicen es que no lo tengas visible. Si no quieres que algo no sea visible, no lo tengas visible. Es sentido común.
Con saber un mínimo de ciberseguridad sabes que así tiene que ser.
Pero vamos, yo estoy totalmente en contra de los robots.txt desde hace más de una década (soy archivista web) así que no nos vamos a poner de acuerdo.
Un saludo :-)
#48 No se trata de "visibilidad", se trata de términos de uso aceptable y leyes de copyright que dictan quien, como y de que forma puede acceder y como y de que forma se puede usar, copiar o redistribuir la información. Los servidores cuestan dinero, y la electricidad y el ancho de banda también. Si los robas y encima causas daños al degradar el servicio, te mereces que te denuncien
#51 me parece bien, denuncia a quien consideres. La realidad seguirá por otro lado.
#52 Por que iba a denunciar yo a nadie :shit:
#7 El robots.txt son las normas del servidor escritas de forma entendible para máquinas. Igual que no puedes entrar en un restaurante en pijama y con el rabo colgando por fuera, que es básicamente lo que está haciendo Perplexity al pasarse por el forro los deseos de los dueños de las páginas web
#7 No es una medida de seguridad, es un documento de cortesía que indica que visitantes no son bienvenidos.

Si todo el mundo respetara estas cosas Internet seria un sitio mejor
#29 lo que tienes que hacer es usar un .htaccess
#62 Repito: robots.txt NO es una medida de seguridad. Su objetivo no es IMPEDIR nada, si no indicar quienes son visitantes indeseados. Y los visitantes deberían respetarlo.

.htaccess es para otra cosa.
#33 Si yo como persona humana accedo a ese contenido y uso lo que he aprendido (no el contenido en sí) para mejorar mis habilidades ¿Estoy utilizando el contenido con fines comerciales contra la licencia de uso?

¿ Que es eso de "persona humana" ? ¿ Que otro tipo de personas hay ?
Y la licencia de uso la incumples si no cumples alguno de sus términos. Una IA es un robot. No se diferencia en nada de una araña de un indexador.
#33 No te flipes, una empresa que utiliza scrapers para copiar ilegalmente e íntegramente contenido para su beneficio económico y causando un perjuicio a las webs a las que accede de forma ilegal y a las que causa costes económicos y degradación de servicio no son una persona humana accediendo a contenido y aprendiendo. La legislación prohíbe el acceso ilegal a sistemas informáticos y las normas las ponen los dueños de las webs no el visitante. Y ya sin mencionar las leyes de copyright, donde evidentemente el autor o creador decide quien puede copiar su contenido y de que forma
#39 una empresa que utiliza scrapers para copiar ilegalmente e íntegramente contenido
En esto estoy de acuerdo.

En lo que no estoy de acuerdo es en la premisa que perplexity y otras tecnologías hacen eso.

Tampoco estoy de acuerdo en que el acceso sea ilegal. No hay ninguna obligación legal de seguir el robots.txt.
#45 Si que hay una obligación legal de seguir robots.txt, se llama código penal. Dice que no puedes acceder a sistemas informáticos sin permiso, igual que no puedes entrar en casas ajenas sin permiso. Si lo haces y te denuncian, tienes un problema grave. Si el archivo robots.txt no te permite acceder y encima te saltas otros mecanismos de seguridad utilizando User-Agent falsos y rotando IP's, estás cometiendo un crimen y de forma muy muy muy deliberada
#47 A ver pasa esas condenas por acceder a sitios sin seguir el robots.txt o por cambiar el user agent y rotar ips.
#50 Si quieres información buscala tu que no soy tu secretaria
#50 #_53 No puedo encontrar lo que no existe.

En tu anterior comentario has dicho que si yo me hago un script que accede a un sitio y descarga su contenido sin mirar en el robots.txt antes si puedo o no hacerlo, o cambiando el user agent para similar que soy un navegador, estoy cometiendo un delito.

Lo cual es absurdo.

Edit: se ha dado cuenta que su argumento es una mierda y me ha ignorado
Las tecnológicas llevan por mucho menos a personas corrientes a juicio y las acusan de delitos informáticos y piden penas de prisión. Espero que no haya dobles baras de medir y que el CEO y los responsables de este robo indiscriminado y acceso ilegal a infraestructuras informáticas acaben entre rejas por mucho tiempo
#34 La LLM no, pero la empresa con la LLM sí.
#38 Te pongo mejor ejemplo que el que me has dado.

Yo entro a tu casa y veo varios cuadros tuyos pintados con tu propio estilo de diferentes objetos cotidiano.

Luego voy a mi casa y uso lo que he aprendido de tus cuadros para hacer uno con un estilo similar de un objeto cotidiano. Mi creación se parece a las tuyas, pero no es ninguna de las tuyas, es original inspirándome en tu estilo.

¿Te estoy robando o estoy vulnerando tus derechos de autor? (Teniendo en cuenta que no se pueden patentar estilos).

Y si cuando lo hago yo no te estoy robando, ¿Por qué que cuando lo hace un LLM o cualquier tecnología sí?
#43 Te medio-compro el ejemplo que me das, pero con reservas.
Porque sí que es verdad que "usas lo que has aprendido de mis cuadros para hacer uno con un estilo similar". Pero, en el caso de la IA, el esfuerzo no es parecido ni de lejos. Por eso en mi ejemplo ponía lo de hacer una foto vs el cuadro original: para dar a entender la diferencia de esfuerzo entre la obra de un humano y la de una IA.
Y bueno, no podrás negar que, si me encuentro con pinturas que tienen exactamente mi mismo…   » ver todo el comentario
También desde IPs de Alibaba hacen parecido. Tuve que bloquear todo un rango porque entraban a saco rotando cientos de IPs y "scrapeando" a toda velocidad sin hace caso al robots.txt
Ojalá les revienten los servidores
#11 a los que no respetan al robots.txt habría que mostrarles contenido incorrecto y confuso para contaminar sus resultados.
#35 Me suena que alguien me habló hace un tiempo de que usaban un tarpit en determinados ataques para bloquearles las IPs durante el máximo tiempo posible, pero claro, gastar recursos de un servidor de producción en vez de bloquearles directamente puede ser una locura.
La idea que propones me hace gracia, pero para hacerlo bien hay que pensar y hacer cambios sutiles para que no los detecten y descarten directamente.
Perplexity no roba nada.

O no roba nada de la misma manera que si tú o yo entramos en un sitio de acceso público y aprendemos algo allí no estamos robando nada.

Referenciar material no va contra la propiedad intelectual del sitio si lo hace un humano, y por lo tanto debería serlo si lo hace un LLM.

Las webs están son libres de intentar bloquearles, pero eso es todo lo que pueden hacer.
#15 Usan el contenido con fines comerciales en contra de la licencia de uso y no es solo para referenciarlo. Esas mismas empresas tecnológicas han denunciado a personas normales y corrientes por mucho menos. Espero que el puro que les caiga los lleven directos a la bancarrota
#26 #30 Si yo como persona humana accedo a ese contenido y uso lo que he aprendido (no el contenido en sí) para mejorar mis habilidades ¿Estoy utilizando el contenido con fines comerciales contra la licencia de uso?

¿En que legislación prohíben que si ves varios dibujos de un artista no puedas hacer dibujos con el mismo estilo? ¿O escribir algo diferente con el mismo estilo?

Si la respuesta es que yo puedo hacerlo, un LLM también.
#15 Los limites de uso de un contenido los establece el autor. Y legalmente se deben respetar
#15 Yo diría que un ejemplo más realista sería que tú entres en mi casa, hagas fotos de mis pinturas y cuadros que a mí me cuestan un porrón de hacer, las imprimes y las vendes por ahí sacándote una pasta. Pues oye, robar, lo que es robar, no me has robado nada, pero hincharme los cojones sí que me los hinchas, y mucho, y estás usando el fruto de mi trabajo para sacarte tú una pasta.
#31 Eso no es lo que hace un LLM.
#15 siguiendo este argumento obtuso, si yo puedo entrar en el supermercado también debería poder hacerlo mi coche, y creo que va a ser que no. El propietario pone las condiciones, y si no te gustan tienes muchas otras webs donde puedes entrar como quieras.
#36 El robots.txt no es de obligado cumplimiento.

Tú haces tu web pública y entra quien quiera. Si no quieres que alguien entre usas heurísticos para bloquearles y ya.
#15 A ver, si te dicen "no entres en un sitio, no te doy permiso" y tú aún así entras y te llevas el contenido que te han dicho que no tienes permiso para usar ... pues un poco yo creo que sí roban.
#_27 pues usa un .htaccess para evitar todo eso
Anda, me ha bloqueado el tío este. Pues nada, a pastar.
#_65 ¿Que no tengo ni idea? Trabajé en una empresa de scraping, payaso. Sé perfectamente lo que es legal y lo que no. Y nunca he dicho que seas mi amigo, siento decepcionarte.
Se debe legislar contra la exploración no consentida de sitios web por parte de bots, es la única forma de proteger y dar valor a la información. La información, como cualquier otra cosa, si puede ser tomada por cualquiera pierde su valor (para su propietario).

menéame