Tecnología, Internet y juegos
340 meneos
877 clics
La Wikipedia se rinde y entrega sus datos a la IA, para que los bots no la hundan

La Wikipedia se rinde y entrega sus datos a la IA, para que los bots no la hundan

La Wikipedia ha aumentado su tráfico un 50% por culpa de los bots de IA que se llevan todo su contenido, son una plaga, y para una proyecto sin ánimo de lucro que se financia con donaciones, ese tráfico artificial puede significar su muerte. Así que ha decidido ofrecer todo su contenido a la IA, ya formateado y ordenado, para no sufrir el ataque de los bots que estaban saturando sus servidores.

| etiquetas: wikipedia , ia , bots , datos , tráfico
146 194 0 K 279
146 194 0 K 279
Una pedazo de currada de voluntarios para beneficio de entidades privadas. Al menos también lo podrán aprovechar las IA de código abierto.
#2 Exacto, "para beneficio de entidades privadas". Y será un gran problema para el tecnofeudalismo.
#11 #2 lo decís como si luego no fuéramos nosotros mismos quienes usamos esas IAs.

Me parece demagógico señalar como negativo que una IA se nutra de la red para aprender, por cierto, igual que también hacemos todos los usuarios de internet, y por otro lado estar utilizando esa IA.
#42 ahora podemos usarlas, a un precio buenísimo o incluso gratis, pero me da la sensación de que nos están usando para su entrenamiento, y que cuando ya estén refinadas no estarán al alcance de muchos, o el común de los mortales solo podremos usar IAs estúpidas
#68 Eso ya pasa con las IAs generativas. Primero usan todo el material gráfico que trincan por la cara porque "lo que hay en internet no tiene dueño" y luego te cobran una suscripción a su servicio de generación de imágenes.
#68 sí, es posible. Al igual que sucede habitualmente con muchos servicios. Ya verás, por ejemplo, cuando los gobiernos eliminen el dinero físico y empiecen las comisiones en servicios de intercambio de dinero como Bizum.

Que los gobiernos trabajen al servicio de lobbies internacionales, a costa de expoliar países y a sus ciudadanos, sí son casos flagrantes y alarmantes.

Pero volviendo al tema de las IAs, si lo convierten en un servicio 100% de pago, será también cosa nuestra si les compramos el producto o no.
#2 Eso ya pasa a día de hoy con Linux , miles de voluntarios trabajando para que luego entidades privadas monten sus servidores con estas herramientas y ganen millonadas.
#32 Lo de miles de voluntarios es un mito a día de hoy, los que más contribuyen en el nucleo de Linux son corporaciones y empresas privadas aunque parezca mentira:
www.reddit.com/r/linuxquestions/comments/za564c/is_it_true_that_huawei
lwn.net/Articles/915435/
#32: La diferencia es que el código GPL sigue siendo GPL. Y una AGPL es peor, porque si modificas el código para uso privado tienes que ofrecerlo en público también (la GPL no llega a tanto, solo obliga si distribuyes).

La AI lo que hace es coger la información, meterla a la trituradora, y como está triturada decir que la licencia CC BY-SA deja de tener aplicación, con lo que se quedan con el esfuerzo de los voluntarios.

Esto era lo que decían de nosotros por fotocopiar:
www.youtube.com/watch?v=c4mTUJWHwLM Ministerio de Cultura/UNESCO/CEDRO - Fotocopias (anuncio TV, 1994)

Ahora como lo hacen las grandes corporaciones no pasa nada por... por ni siquiera cumplir con el SA de la licencia CC BY-SA.
#45 muy fino te pones cuando las AIs toman textos que no tienen siquiera licencias copyleft o, incluso en algunos casos, se han estado descargando descaradamente libros con derechos de autor.
#53: En principio todos los copyrights tienen el mismo valor, la licencia GPL lo único que hace es darte permisos de copia de antemano si tú cumples unas condiciones, pero es tan copyright como uno cerrado. GPL lo que hace es ahorrar preguntas al publicador y los usuarios. "- ¿Puedo copiarlo? - Si cumples estas condiciones, sí." Todo eso la licencia GPL o las Creative Commons lo ahorran.

Pero sí, es lo que dices, se pasan los derechos de autor por el forro, y algunos hasta se lo apoyan. "Es que no copian, es que no copian..." Claro, y una canción MP3 tampoco es exactamente igual a la original, y no por ello tiene menos derechos de autor.
#2: Al menos también lo podrán aprovechar las IA de código abierto.

Eso es como dejar un billete de un billón de dólares a Fidel Castro, que... ¿de qué billete estábamos hablando?

Al final la única forma de publicar en Internet va a ser meter mucha morralla, ironías y cosas así para que la IA no tenga nada de lo que tomar contenido sin acabar contaminada.
#8 Un rapero, sí. Hacía Boom Rap. Quizás por tu ermitañismo es que no le conoces.
#9 Sus canciones eran la bomba, y alcanzó la fama de una manera explosiva.
#20 Usaba una caja de ritmos y tenía un buen mail
WE ARE THE BORG. YOU WILL BE ASSIMILATED. YOUR UNIQUENESS WILL BE ADDED TO OUR COLLECTIVE. RESISTANCE IS FUTILE.
#10 esasto
#10: All your (data)base are belong to us. :-P
#10
Freedom is irrelevant. Self determination is irrelevant. Your archaic culture is authority driven. It has been decided that a single individual will be selected to speak for us. You have been chosen to be that voice.
El suicidio como método para combatir el asesinato.

:palm:
#3 la han suicidao
#3 Sí, es una pena, ya no se podrá acceder s Wikipedia nunca más.
La Wikipedia es de las mejores cosas que se pueden encontrar por Internet. Ojalá nunca muera.
#14 Pago la donación cada año, es la única subscripción que merece la pena
#14
Agree. Recuerdo al principio la mala fama que tenía y cómo se ha vuelto cada vez más fiable. Chapeau!.

Si alguna vez os aburrís en el metro y no tenéis un libro o algo, la opción de la página aleatoria es una pasada.
#35: Si alguna vez os aburrís en el metro y no tenéis un libro o algo, la opción de la página aleatoria es una pasada.

Tened cuidado con esto: en las líneas 6 y 12 es fácil que acabéis cometiendo un delito de tiempo (estar más de 3 horas) y si no tenéis el billete adecuado, en las líneas 3, 10 y 11 podríais cometer un delito de zona si vais en dirección sur. :-P
#14 Colabora y dona.
Wikiped-ia
Es feo, pero en realidad el problema más grave con la IA es precisamente que la mayor parte de los datasets son cerrados, empezando por los tiempos en los que Google además de guardarse las TPUs se guardaba los inmensos datasets para entrenar a partir de Tensorflow y no los dejaba salir de sus máquinas.

Quiero decir, que pese a que se aprovechen las multinacionales, la tendencia debería ser de democratizar los datasets. De cara a la IA y a que podamos jugar todos (y no solo Google, Meta y dos más), tan importante como que el código sea abierto es que lo sean los datos de entrenamiento, bien etiquetados y de calidad.
La IA es una mierda bien grande que nos va a joder la credibilidad bien jodida.
#5 Sisi, claro.
Ya hay repositorios que contienen la Wikipedia entera para descargar y no hace falta machacar los servidores web, el problema es que se está "escrapeando" todo servidor web en Internet de forma automatizada. Ya han tenido que cerrar hasta bugzillas por culpa de las IA's y la sobrecarga que causan. Pero para eso está robots.txt, y a los que no lo respeten deberían perseguirlos como delitos informáticos
#22 todo bien hasta lo de robots.txt. No tiene ninguna validez legal ni debe de ser respetado. Google te recomienda que no lo uses para evitar rastreo.
Es absurdo en 2025 hablar del robots.txt e incluso de ligarlo a la legalidad.
#23 tiene la misma validez legal que unos "Terminos de Uso Aceptable" (ToS/EULA's), son una forma de contrato entre un proveedor de servicios y un usuario que accede y usa esos servicios. Incluso mayor al ser un estándar publicado en el RFC 9309 y conocido desde hace muchos años. No solo debe ser respetado, cualquier daño causado a un servidor que contravenga el robots.txt debe ser considerado intencionado y malicioso
#27 te remito nuevamente a mi comentario, puesto que no, no son términos y condiciones. La recomendación de Google misma es no usarlo para bloquear nada. Y saltarse un robots.txt no es provocar un daño.
Por ejemplo, afortunadamente Archive.org dejó de hacer caso a los robots.txt hace unos cuantos años.
#57 Es el equivalente. Saltarse robots.txt en si no causa un daño, pero si con tu "escrapeo" ralentizas el servicio o tiras un servidor y causas un daño te pueden y deberían denunciar por daños informáticos. SI encima el sitio web tiene un robots.txt que pide explícitamente que no lo hagas y te lo saltas debería ser un agravante. Y pena no me darían ninguna, si sus peticiones no fuesen masivas y no causasen daños no estaríamos aquí hablando de ello
#60 hay usos lícitos para saltarse un robots.txt así que lo fundamental son los daños que dices. Además, es totalmente obsoleto en términos de bloqueo. Lo suyo es tener un honeypot para recopilar IPs e ir bloqueando esas IPs. En el momento en que publicas en internet un servicio vas a tener cientos de IPs tratando de romperlo para obtener información o control, es absurdo pensar que un robots.txt hace algo más que decorar.
#22 #23 #29 Exacto, en mi servidor he tenido que bloquear rangos de IP porque el robots.txt se lo pasan por el forro.
#23: No tiene ninguna validez legal ni debe de ser respetado.

Depende, en España no puedes lanzar ataques de denegación de servicio. O sea, ni UnO, ni DDooSS, ni TTTrrrEEEsss... si sobrecargas un servidor contraviniendo la voluntad del administrador, es posible que sí se pueda perseguir, pero eso sí, lo que hagas desde dentro de España.
#48 eso no tiene que ver con robots.txt.
#22 claro claro. Vete a perseguirlos a la India xD
#40 claro claro, OpenIA, Grok, Llama, todos operan desde la India.. Si fuese por violaciones de Copyright como con Kim Dotcom EEUU ya habría pedido la extradición
#43 de donde opera Deepseek?
Yo ya no me fio de nada publicado antes del 2023. Y ya no tengo smartphone. Todo lo hago en el PC de casa, con sandbox e identidades falsas. Whatsapp con sim de prepago.
#6 Como Unabomber. :troll:
#7 No lo conozco. Si es algun cantante de redes sociales, ni idea
#8 búscalo, es interesante… era un peculiar terrorista

Edit: o pregúntale a tu ia favorita :troll:
#6 ¿Antes o despúes del 2023?
#12 después después
#6 te imagino como el homer tipo de incógnito
#6 ¿antes? ¿No será después?
Ya, como que no existen mil y un métodos para bloquear bots.
#13 o coger el teléfono y pedirles que arreglen el asunto, que son todos colegas. La noticia lo cuenta como si la ia fuese un ente autónomo.
#13 ninguno 100% efectivo
La IA no sería nadie sin wikipedia.
Antes Wiki podía estar al alcance de cualquier manipulador, y así alteraban datos históricos, nadie cuestiona eso. Ahora, con IA la cosa será técnicamente perfecta. El control cultural estará en manos de una especie de Gran Hermano orweliano.
¿no sería mejor bloquear las IP de origen de esas sanguijuelas?
#29 cambiar de IP es trivial.
#41 Cuando lleve 1000 paginas a velocidad sobrehumana bloqueas esa ip durante 24h automaticamente.
#59 entonces si lanzo 1000 instancias en AWS podría consultar 1 millón de páginas de la Wikipedia?

Una vez que me bloquees, las borro y creo otras.

No es tan facil luchar contra el scrapping.
#64 Pero podría cambiar 1000 veces de ip?
Si, supongo lo que a mi se me ocurra, ya se le ha ocurrido a ingenieros más preparados, pero pregunto, no afirmo.
#65 claro, cada nueva instancia que lanze en AWS tiene una nueva IP. Destruir y lanzar nuevas instancias es un click (o en este caso una llamada Api)

Por eso digo que un bloqueo por IP no tiene sentido. Nos hemos quedado con ideas de hace 20 años.
#29: O mejor, enviar SLOP hacia esas IPs. :-P
#29 mejor mostrar texto aleatorio o ediciones saboteadas para liar a los bots
En lugar de perder dinero ahora lo ganan, haciendo lo mismo. Win win.
#4 O no me he enterado, o lo están ofreciendo de forma gratuita
Putas IAs de mierda. Hay algún movimiento fuerte en contra al que adherirse?
#37: Yo ando también mirando si al menos hay algún tipo de licencia que exprese el rechazo de forma previa, aunque luego se lo pasen por el forro, al menos que no sea con mi apoyo.

Los de Creative Commons no son muy combativos que digamos en esto... y los de la Wikipedia parece que tampoco. Si yo colaboro en un proyecto con CopyLeft... la AI debería tener también CopyLeft.
entiendo que les cobrar la voluntad por acceder a la información
Acaso wikipedia no es de dominio público ? Debería poder ser usada por cualquiera, sea empresa o particular, al igual que Linux.
Ale, pues habrá que volver a Encarta...
Creo recordar que antes era posible descargar wikipedia.
Ahora igual es muy grande, pero poder se puede, siempre es mejor que andar con el scraping.
Habida cuenta los errores, manipulaciones y sesos de la Wikipedia, realmente pretenden inducir esos sesgos, errores y manipulaciones a las IA's, que no tienen inteligencia para distinguirlos (uy, como los votantes de IzquierdAs).
No es muy buena noticia. Al contrario.
comentarios cerrados

menéame