Cloudfare detalla una investigación sobre como Perplexity está usando técnicas de scraping para ofuscar su identidad y evitar los bloqueos por parte de las webs, ignorando así el deseo de sus dueños como se define en el fichero robots.txt. Entre las tecnicas que usan: rotación de ips, usar browser fingerprint falsos, ignorar el robots.txt.
|
etiquetas: perplexity , ai , bots , amenaza , cloudfare
Básicamente lo puedo resumir en que no son las respuestas que necesito. Me da detalles que no le he pedido, pero no me proporciona los que si. O en muchas muchas ocasiones, me dice que para obtener el resultado que busco tengo que entrar en tal página y mirarlo yo (Y me da la url). Y eso aunque le ha ya dicho yo antes "entra en la página 1 2 y 3 y búscame qué dicen sobre este tema". Es… » ver todo el comentario
www.perplexity.ai/hub/blog/agents-or-bots-making-sense-of-ai-on-the-op
La cosa no está tan clara, aunque ellos están usando el user agent de la persona qué hace la búsqueda están haciendo el scraping y almacenando el contenido con sus bots, como un proxy, incumpliendo el deseo que se especifica en el robots.txt de no ser indexados. Con esa información entrenan su LLM por lo que a fin de cuentas no hay diferencia sobre quien inicia la petición. El hecho de que roten IPs , usen IPS residenciales y modo… » ver todo el comentario
> On Perplexity and all other agentic AI platforms, this happens in real-time, in response to your request, and the information is used immediately to answer your question. It's not stored in massive databases for future use, and it's not used to train AI models.
Además dicen claramente "all other… » ver todo el comentario
Even more embarrassing, Cloudflare published a technical diagram supposedly showing "Perplexity's crawling workflow" that bears no resemblance to how Perplexity actually works.
Y… » ver todo el comentario
Lo que dice Perplexity demuestra que lo que dice Cloudfare está equivocado
Lo que dice Cloudfare no contradice lo que dice Perplexity
No es correcto. La información encontrada va al prompt (de ChatGPT). No forma parte del entrenamiento.
Una red neuronal es una cosa estática una vez finalizado su entrenamiento. Además es totalmente determinista. Dado un prompt, generará una respuesta, siempre la misma. Una red neuronal no es un LLM.
Están confundiendo que el usuario haga una petición ayudándose de una herramienta de IA con las peticiones masivas que hace una empresa de IA para obtener datos para entrenarla. No tienen nada que ver.
Firefox no visita sitios web.
Es como si preguntas si LibreOffice escribe novelas.
Podría Menéame expresar su deseo de que nadie que use el Firefox entre a Menéame?
Si, podría.
Y tiene derecho a hacerlo.
Si Menéame decidiera bloquear al Firefox por user agent nos parecería razonable o pondríamos el grito en el cielo?
Tu y yo y cualquiera tenemos derecho a que nos parezca bien o mal cualquier decisión que tome un tercero. En este… » ver todo el comentario
> Perplexity NO es un usuario.
Estamos de acuerdo, el usuario está usando Perplexity igual que si usa Firefox o LibreOffice, y estas requests se realizan en respuesta a una petición del usuario, en el momento de la petición del usuario, y el resultado no se almacena posteriormente.
> Perplexity te da resultados de búsqueda porque visita sitios web para examinar si es lo que buscas, de modo muy… » ver todo el comentario
Sí que lo hace. Si cargas una página que contiene links, se dedica a explorar esos links en previsión de que hagas click en ellos.
Esto tiene un nombre chulo que no recuerdo.
Perplexity NO es un usuario.
Perplexity no es un crawler.
Si es cierto no solo es una mala idea, si no que es innecesario.
¿ Para qué hace eso ?
Si esto sigue así, llegará un momento en que los creadores de contenidos no tengan visitas y dejen de generarlo por infrafinanciación.
O peor, generen ese contenido con IA, y sean IAs alimentando otras IA y perderemos todos.
Ya más en serio, la frontera a veces es difusa.
Hoy en día absolutamente son todo redes sociales, donde además te dirigen al contenido que les interesa que veas. Por no mencionar el scroll infinito que nos aboba haciendo que la gente simplemente pierda el tiempo con ello fin de que veas publicidad.
No se de que manera se podría hacer pero necesitamos un internet de solo humanos. Pero no se me ocurre ninguna forma ni realista ni "ciencia ficción" (pero teoricamente realizable) de hacerlo ni he visto ninguna propuesta viable. Y menos a esta altura donde un bot asistido por IA puede suplantar a un humano de una forma cada día mas creible.
En mi humilde opinión en la próxima década vamos a ver el regreso de los criticos especializados, humanos que seleccionen contenido de calidad en todos los ambitos
Tu predicción sobre el regreso de los críticos especializados tiene mucho sentido. En medio del ruido algorítmico, vamos a necesitar voces humanas que seleccionen, recomienden y den contexto. Plataformas como Substack o… » ver todo el comentario
La batalla por ahora está mas que perdida, la respuesta de #16 tiene casi el mismo karma que mi comentario original y está generada por IA, solo reordena las palabras de mi comentario original, no aporta nada y lo único que genera es ruido
Gracias.
Lo inevitable, sucederá. ¿Qué queda? El argumento de autoridad no es una gran solución. Hay cada idiota con galones que da miedo.
Wikipedia está bien, pero sus admins se pasan de creidos, incluso en temas que desconocen. Esto afecta al contenido.
En esto estoy de acuerdo.
En lo que no estoy de acuerdo es en la premisa que perplexity y otras tecnologías hacen eso.
Tampoco estoy de acuerdo en que el acceso sea ilegal. No hay ninguna obligación legal de seguir el robots.txt.
En tu anterior comentario has dicho que si yo me hago un script que accede a un sitio y descarga su contenido sin mirar en el robots.txt antes si puedo o no hacerlo, o cambiando el user agent para similar que soy un navegador, estoy cometiendo un delito.
Lo cual es absurdo.
Edit: se ha dado cuenta que su argumento es una mierda y me ha ignorado
#5
Que saltarse un txt no os ofusque.
Lo que sí debería servir es para demandas. "Yo no sabía que no estaba permitido leer el contenido" - "Lo pone en el robots.txt que es el estándar para estas cosas"
Con saber un mínimo de ciberseguridad sabes que así tiene que ser.
Pero vamos, yo estoy totalmente en contra de los robots.txt desde hace más de una década (soy archivista web) así que no nos vamos a poner de acuerdo.
Un saludo
Si todo el mundo respetara estas cosas Internet seria un sitio mejor
.htaccess es para otra cosa.
O no roba nada de la misma manera que si tú o yo entramos en un sitio de acceso público y aprendemos algo allí no estamos robando nada.
Referenciar material no va contra la propiedad intelectual del sitio si lo hace un humano, y por lo tanto debería serlo si lo hace un LLM.
Las webs están son libres de intentar bloquearles, pero eso es todo lo que pueden hacer.
¿En que legislación prohíben que si ves varios dibujos de un artista no puedas hacer dibujos con el mismo estilo? ¿O escribir algo diferente con el mismo estilo?
Si la respuesta es que yo puedo hacerlo, un LLM también.
¿ Que es eso de "persona humana" ? ¿ Que otro tipo de personas hay ?
Y la licencia de uso la incumples si no cumples alguno de sus términos. Una IA es un robot. No se diferencia en nada de una araña de un indexador.
Principalmente dos: Los psicópatas y los narcisistas.
Yo entro a tu casa y veo varios cuadros tuyos pintados con tu propio estilo de diferentes objetos cotidiano.
Luego voy a mi casa y uso lo que he aprendido de tus cuadros para hacer uno con un estilo similar de un objeto cotidiano. Mi creación se parece a las tuyas, pero no es ninguna de las tuyas, es original inspirándome en tu estilo.
¿Te estoy robando o estoy vulnerando tus derechos de autor? (Teniendo en cuenta que no se pueden patentar estilos).
Y si cuando lo hago yo no te estoy robando, ¿Por qué que cuando lo hace un LLM o cualquier tecnología sí?
Porque sí que es verdad que "usas lo que has aprendido de mis cuadros para hacer uno con un estilo similar". Pero, en el caso de la IA, el esfuerzo no es parecido ni de lejos. Por eso en mi ejemplo ponía lo de hacer una foto vs el cuadro original: para dar a entender la diferencia de esfuerzo entre la obra de un humano y la de una IA.
Y bueno, no podrás negar que, si me encuentro con pinturas que tienen exactamente mi mismo… » ver todo el comentario
Si quieren empezar a proteger el resultado final de ese proceso pues abrimos debate, pero entonces que lo protejan tanto si lo hace una persona como una máquina, lo contrario huele mucho a ludismo.
Imagínate que solo te pudiesen empurar por copiar y distribuir un libro si lo haces con una… » ver todo el comentario
Tú haces tu web pública y entra quien quiera. Si no quieres que alguien entre usas heurísticos para bloquearles y ya.
Si el tema va de buscar resquicios legales para aprovecharse del resto, seguramente el juez te pueda dar la razón, si se trata de vivir todos amigablemente creo que está claro lo que hay que hacer.
Aparte: Ese contenido no se guarda.
Anda, me ha bloqueado el tío este. Pues nada, a pastar.
Ojalá les revienten los servidores
La idea que propones me hace gracia, pero para hacerlo bien hay que pensar y hacer cambios sutiles para que no los detecten y descarten directamente.