La Wikipedia ha aumentado su tráfico un 50% por culpa de los bots de IA que se llevan todo su contenido, son una plaga, y para una proyecto sin ánimo de lucro que se financia con donaciones, ese tráfico artificial puede significar su muerte. Así que ha decidido ofrecer todo su contenido a la IA, ya formateado y ordenado, para no sufrir el ataque de los bots que estaban saturando sus servidores.
|
etiquetas: wikipedia , ia , bots , datos , tráfico
Me parece demagógico señalar como negativo que una IA se nutra de la red para aprender, por cierto, igual que también hacemos todos los usuarios de internet, y por otro lado estar utilizando esa IA.
Que los gobiernos trabajen al servicio de lobbies internacionales, a costa de expoliar países y a sus ciudadanos, sí son casos flagrantes y alarmantes.
Pero volviendo al tema de las IAs, si lo convierten en un servicio 100% de pago, será también cosa nuestra si les compramos el producto o no.
www.reddit.com/r/linuxquestions/comments/za564c/is_it_true_that_huawei
lwn.net/Articles/915435/
La AI lo que hace es coger la información, meterla a la trituradora, y como está triturada decir que la licencia CC BY-SA deja de tener aplicación, con lo que se quedan con el esfuerzo de los voluntarios.
Esto era lo que decían de nosotros por fotocopiar:
www.youtube.com/watch?v=c4mTUJWHwLM Ministerio de Cultura/UNESCO/CEDRO - Fotocopias (anuncio TV, 1994)
Ahora como lo hacen las grandes corporaciones no pasa nada por... por ni siquiera cumplir con el SA de la licencia CC BY-SA.
Pero sí, es lo que dices, se pasan los derechos de autor por el forro, y algunos hasta se lo apoyan. "Es que no copian, es que no copian..." Claro, y una canción MP3 tampoco es exactamente igual a la original, y no por ello tiene menos derechos de autor.
Eso es como dejar un billete de un billón de dólares a Fidel Castro, que... ¿de qué billete estábamos hablando?
Al final la única forma de publicar en Internet va a ser meter mucha morralla, ironías y cosas así para que la IA no tenga nada de lo que tomar contenido sin acabar contaminada.
Freedom is irrelevant. Self determination is irrelevant. Your archaic culture is authority driven. It has been decided that a single individual will be selected to speak for us. You have been chosen to be that voice.
Agree. Recuerdo al principio la mala fama que tenía y cómo se ha vuelto cada vez más fiable. Chapeau!.
Si alguna vez os aburrís en el metro y no tenéis un libro o algo, la opción de la página aleatoria es una pasada.
Tened cuidado con esto: en las líneas 6 y 12 es fácil que acabéis cometiendo un delito de tiempo (estar más de 3 horas) y si no tenéis el billete adecuado, en las líneas 3, 10 y 11 podríais cometer un delito de zona si vais en dirección sur.
Quiero decir, que pese a que se aprovechen las multinacionales, la tendencia debería ser de democratizar los datasets. De cara a la IA y a que podamos jugar todos (y no solo Google, Meta y dos más), tan importante como que el código sea abierto es que lo sean los datos de entrenamiento, bien etiquetados y de calidad.
Es absurdo en 2025 hablar del robots.txt e incluso de ligarlo a la legalidad.
Por ejemplo, afortunadamente Archive.org dejó de hacer caso a los robots.txt hace unos cuantos años.
Depende, en España no puedes lanzar ataques de denegación de servicio. O sea, ni UnO, ni DDooSS, ni TTTrrrEEEsss... si sobrecargas un servidor contraviniendo la voluntad del administrador, es posible que sí se pueda perseguir, pero eso sí, lo que hagas desde dentro de España.
Edit: o pregúntale a tu ia favorita
Una vez que me bloquees, las borro y creo otras.
No es tan facil luchar contra el scrapping.
Si, supongo lo que a mi se me ocurra, ya se le ha ocurrido a ingenieros más preparados, pero pregunto, no afirmo.
Por eso digo que un bloqueo por IP no tiene sentido. Nos hemos quedado con ideas de hace 20 años.
Los de Creative Commons no son muy combativos que digamos en esto... y los de la Wikipedia parece que tampoco. Si yo colaboro en un proyecto con CopyLeft... la AI debería tener también CopyLeft.
Ahora igual es muy grande, pero poder se puede, siempre es mejor que andar con el scraping.