Hace 28 días | Por JuliaBongito a enriquedans.com
Publicado hace 28 días por JuliaBongito a enriquedans.com

Resulta un verdadero desafío hacerse una idea de la verdadera dimensión de los datos con los que trabajan las compañías que trabajan en el desarrollo de algoritmos de inteligencia artificial generativa, y algunos artículos recientes pueden servir de guía para ello.

Comentarios

GuillermoBrown

Resulta que la IA necesita tal cantidad de datos que, ante la falta de nuevos datos, los ingenieros pasan a utilizar datos ya generados por otra IA.
Como en la primera generación de resultados no puede haber una total perfección, significa que en ese segundo uso de unos mismos datos-fuente se van a utilizar datos imperfectos. Por lo tanto los resultados serán más imperfectos aún.
Esto es un defecto de la IA que crece exponencialmente.

stygyan

#1 Artificial Intelligence? Nah, Artificial Inbreeding.

GuillermoBrown

#2 Buen símil. Y ya sabemos el resultado de la endogamia.

sorrillo

#1 significa que en ese segundo uso de unos mismos datos-fuente se van a utilizar datos imperfectos. Por lo tanto los resultados serán más imperfectos aún.

Lo que describes es algo no deseable y por lo tanto los primeros interesados en evitar que eso ocurra son los propios creadores de grandes modelos de lenguaje y de imágenes y otros tipos de resultados generados por IA.

Lo que están desarrollando son marcas de agua que no son visibles y que pueden introducirse tanto en imágenes como en texto que permitan identificar el contenido creado por IA. Eso buscan que cumpla una doble función, por un lado evitar lo que describes que es entrenar la IA con contenidos creados por ésta misma y por otro lado dificultar la distribución de noticias falsas (esto último es lo más mediático y que copa los titulares).

relacionadas:

El contenido generado por IA tendrá marca de agua en para avisar contra desinformación
El contenido generado por IA tendrá marca de agua en para avisar contra desinformació

Hace 9 meses | Por Claustronegro a hardwaresfera.com


Google presenta SynthID: detectará y marcará las imágenes generadas por IA
Google presenta SynthID: detectará y marcará las imágenes generadas por IA
Hace 8 meses | Por Radion a hipertextual.com


OpenAI y Google pondrán una marca de agua a los contenidos generados por IA para dificultar los deepfakes y la información errónea [EN]
OpenAI y Google pondrán una marca de agua a los contenidos generados por IA para dificultar los deepfakes y la información errónea [EN]
Hace 9 meses | Por yemeth a arstechnica.com


[...]

GuillermoBrown

#4 El artículo lo que dice es que, en base a lo que tú sugieres, los ingenieros tienen tal necesidad ahora mismo de nuevos datos, que no les importa utilizar datos generados por otra IA, aunque tengan esa "marca de agua".

Es decir ellos YA SABEN que han sido generados por IA, pero no les importa, porque les corre tanta prisa entrenar a su nuevo algoritmo, que : "lo único que importa es que el algoritmo resultante parezca tener una cierta calidad, sin entrar demasiado en detalles".
Esto último dice este artículo, y me lo creo.

Es más fuerte de lo que parece, puesto que saben que usan datos "endogámicos", como dice el amigo en #_2, y por lo tanto, no exactos, por mucha "marca de agua" que lleven.

sorrillo

#5 Si saben que están usando datos sintéticos no veo problema alguno en ello.

Entrenar una IA mediante la salida de otra IA entrenada no sería distinto a que un humano aprenda de lo que le explica un profesor en vez de ir a aprenderlo todo a la naturaleza de primera mano.

Lo que es importante es que sepa que está aprendiendo de un profesor, de otra IA, para que pueda llegar a diferenciar la información directa de la información recibida de segunda mano, con el nivel de escepticismo necesario que eso requiere.

Es habitual entrenar un robot con IA primero en un simulador digital y cuando ha aprendido las normas de éste y se encuentra luego con el mundo real ya solo tiene que aprender las diferencias entre el simulador y el mundo real. Eso no siempre funciona, hay que usar técnicas que permitan el salto de simulador a mundo real pero si se aplican esas técnicas lo que se consigue es un aprendizaje muchísimo más rápido, por que lo que en el mundo real se requieren de segundos para una iteración en el simulador se pueden hacer miles en paralelo en una fracción de ese tiempo.

A su vez sería interesante saber de donde salen esos datos, por que no es lo mismo poner a una IA nueva a hacerle preguntas a ChatGPT y aprender de ese resultado que poner a una IA nueva a leer artículos de Bloomberg que hayan sido generados con una IA como asistente, ya que ésta última fuente puede tener un filtro de calidad humano que haya seleccionado entre varios artículos generados cual es el que hay que publicar y en ese haber eliminado párrafos o corregido datos.

Es un ámbito complejo del que aún se están aprendiendo las normas, que una IA pueda saber que el origen de los datos es de un humano o de una IA con cierto nivel de confianza es un paso en la buena dirección, luego ya se verá cual de los métodos da mejores resultados.

sorrillo

#11 ¿Quedaría el modelo igual sin mis fotos?

¿Sería la misma persona si no hubiera visto esas fotos?

Que el ver algo o aprender algo te cambie no implica que estés obligado a crearlo todo con una licencia específica hasta que te mueras. Lo mismo con una IA.

Si no quieres que esas fotos puedan cambiar el cerebro de otras personas o IAs no las publiques.

m

#12: Cuando una persona ve un cuadro, no toma medidas matemáticas del cuadro. De hecho el visionado de un cuadro no es igual si lo haces con 8 años que si lo haces con 20, te fijas en otros detalles. Si te preguntan qué colores hay no das respuestas absolutas, sino tanteos ("marrón oscuro", "ocre verdoso"...).

Lo de la IA toman datos numéricos directamente de las obras, y aunque haya transformaciones matemáticas, son parámetros numéricos medibles, copiables, repetibles... Los ficheros MP3 también contienen parámetros matemáticos en lugar de el sonido tal y como es, y no por ello te libras de pagar derechos de autor.

El día en que el visionado de un cuadro por parte de una persona se pueda duplicar, hablamos, mientras tanto la AI no es equivalente a un humano.

De hecho, si pones el promt adecuado en muchos modelos te salen obras conocidas sin problema.
https://www.theverge.com/23444685/generative-ai-copyright-infringement-legal-fair-use-training-data

sorrillo

#13 Cuando una persona ve un cuadro, no toma medidas matemáticas del cuadro.

O sí, desconocemos como funciona el cerebro.

De hecho el visionado de un cuadro no es igual si lo haces con 8 años que si lo haces con 20

Los fotones son equiparables, el procesado es distinto. En el mismo sentido para una IA que lleva cien fases de entrenamiento el equivalente a los fotones serán equiparables pero el procesado es distinto, altera distintas partes del cerebro digital.

Si te preguntan qué colores hay no das respuestas absolutas, sino tanteos ("marrón oscuro", "ocre verdoso"...).

Tampoco las IA dan respuestas absolutas.

Lo de la IA toman datos numéricos directamente de las obras

Y tus ojos ven fotones directamente de las obras. Estás siendo especista, estás aplicando doble vara de medir por características que son meramente anecdóticas y no tienen nada que ver con el fondo del asunto, que es el resultado de todo ese proceso complejo.

Los ficheros MP3 también contienen parámetros matemáticos en lugar de el sonido tal y como es, y no por ello te libras de pagar derechos de autor.

Los ficheros MP3 no se generan mediante IA, no se requiere de un cerebro digital para generar un MP3.

El día en que el visionado de un cuadro por parte de una persona se pueda duplicar, hablamos, mientras tanto la AI no es equivalente a un humano.

Ambos están creados por partículas fundamentales como electrones y protones, puestos a elegir criterios arbitrarios que no tienen nada que ver con el fondo del asunto. Estás siendo especista.

No es distinto a afirmar que el día que los negros no tengan la piel negra hablamos, hasta entonces un negro no es equivalente a un blanco. Te centras en aspectos que no son relevantes para el fondo del asunto, buscas diferencias y las usas como base de tu fundamentalismo sin argumentar por qué eso es fundamental para lo que estamos tratando.

De hecho, si pones el promt adecuado en muchos modelos te salen obras conocidas sin problema.

Y si le pides a un buen pintor humano que te pinte una escena específica de una película tendrás un resultado muy similar a ese fotograma. Lo cual solo demuestra que ese pintor ha visto esa imagen y es un buen pintor, no significa que todas sus pinturas futuras tengan que pagarle derechos de autor al creador de esa película.

m

#14: Tampoco las IA dan respuestas absolutas.
Salvo que metas números aleatorios a propósito, los resultados son reproducibles.

Los ficheros MP3 no se generan mediante IA, no se requiere de un cerebro digital para generar un MP3.
Pero son parámetros matemáticos.

Ambos están creados por partículas fundamentales como electrones y protones, puestos a elegir criterios arbitrarios que no tienen nada que ver con el fondo del asunto. Estás siendo especista.
¿Puedes duplicar el aprendizaje de una persona?

Y si le pides a un buen pintor humano que te pinte una escena específica de una película tendrás un resultado muy similar a ese fotograma. Lo cual solo demuestra que ese pintor ha visto esa imagen y es un buen pintor, no significa que todas sus pinturas futuras tengan que pagarle derechos de autor al creador de esa película.
¿Sin mirar la obra mientras la pinta?

sorrillo

#15 Salvo que metas números aleatorios a propósito, los resultados son reproducibles.

El cerebro humano está recibiendo números aleatorios continuamente, sus dispositivos de entrada no se detienen entre respuesta y respuesta. Es equiparable.

Lo que es falso es que la IA siempre responda lo mismo por ser una respuesta equiparable a una base de datos relacional, donde el color medio de un cuadro específico siempre es un valor numérico concreto. La IA no funciona así, precisamente los resultados de la IA son útiles por que no es una base de datos relacional.

Pero son parámetros matemáticos.

Y están formados de protones y electrones. Irrelevante para lo que estamos tratando.

¿Puedes duplicar el aprendizaje de una persona?

No puedo evitar que los múltiples dispositivos de entrada de un cerebro humano reciban datos y ruido de forma continua y alteren la composición de su cerebro, si reproducimos ese mismo escenario en una IA tampoco podrás duplicar su aprendizaje. Ante un experimento equiparable los resultados son equiparables.

¿Sin mirar la obra mientras la pinta?

Sí.

La IA no mira la obra original cuando genera una obra derivada en base a lo que le hayas pedido. A las IA se les están incorporando herramientas como poder acceder al buscador web y consultar antes de responder y en ese supuesto sí sería equiparable a mirar la imagen justo antes de pintarla, lo mismo que puede hacer también un humano si se lo pides.

m

#16: ¿Puedes duplicar el aprendizaje de una persona, transcribirlo a papel...? Con una AI sí se puede, lo del papel llevaría mucho tiempo, pero se podría hacer, copiarla a papel, escanearla y duplicarla.

La IA no mira la obra original cuando genera una obra derivada en base a lo que le hayas pedido.

No, mira una copia que tiene dentro en trocitos dispersos.

sorrillo

#17 ¿Puedes duplicar el aprendizaje de una persona, transcribirlo a papel...? Con una AI sí se puede, lo del papel llevaría mucho tiempo, pero se podría hacer, copiarla a papel, escanearla y duplicarla.

Con una IA puedes escribir los pesos de las distintas capas de la red neuronal, puedes hacer una copia de seguridad. Con el cerebro humano no hemos conseguido aún la tecnología para almacenar el estado de todas las neuronas que lo componen. Es un reto tecnológico, irrelevante para lo que estamos tratando.

Desconocemos si se requiere de mecánica cuántica para el funcionamiento del cerebro humano, si el estado de las neuronas se puede adquirir sin requerir de acceder al ámbito de la incertidumbre de la mecánica cuántica. En cualquier caso tampoco de una IA podrías reproducir el estado cuántico de las moléculas que componen esos pesos en su red neuronal, meramente podrías obtener un valor aproximado de esos pesos que aunque a efectos prácticos pudiera ser suficiente para reproducir aparentemente el resultado seguiría sin ser un duplicado de ese cerebro digital.

No, mira una copia que tiene dentro en trocitos dispersos.

No es cierto, no hay trocito alguno disperso, lo que hacen esas imágenes es alterar la composición de la red neuronal, es equiparable a lo que ocurre en el cerebro humano. Si quieres insistir en que hay trocitos dispersos debes reconocer lo mismo para el cerebro humano, para lo que estamos tratando son equiparables.

rojo_separatista

#17, ¿En serio? Tenemos entre manos una tecnología que en pocos años nos puede llevar a horizontes inimaginables como la cura del cáncer o el envejecimiento o la abolición del trabajo como necesidad y vamos a poner todas las trabas para complicar lo máximo posible su desarrollo por nuestra cortitud de miras? La estupidez humana cada día me sorprende más.

Muchos escriptores de ciencia ficción pensaron en un futuro repleto de IAs y robots, pero ninguno fue lo suficientemente audaz para darse cuenta que estaría poblado por tantísimos que pondrían todo su empeño en que no se desarrollara esta tecnología porque "ha aprendido con ejemplos basados en lo que hacen los humanos y eso no es justo".

Bien es cierto que el futuro es imprevisible, cada día alucino más.

m

#19: El problema está en que si encuentran la cura del cáncer, te harán pasar por caja, aunque hayan usado datos que en parte hayas generado tú. ¿AI para qué, para que unos pocos se beneficien y el resto nos quedemos apartados, pese a haber contribuido al desarrollo?

rojo_separatista

#20, Stable Diffusion y Llama son Open Source.

m

#21: El modelo sí, los datos numéricos que adquiere tras el entrenamiento depende de quién lo use. Y luego está el tema de la capacidad de cómputo para usarlo, que no está al alcance de todo el mundo.

rojo_separatista

#22, stable difusion lo puedes ejecutar con una Nvidia casera.

m

#23: Sí, bueno, si vendes tus órganos puedes comprarte una.

m

«mejor pedir perdón que pedir permiso»

Que pidan el perdón que quieran, pero si pone "CC BY-SA", o el resultado final tiene esa licencia, o que retiren el modelo. roll

sorrillo

#6 ¿Si tú lees algo CC BY-SA eso significa que a partir de ese momento cualquier cosa que escribas hasta que te mueras tiene que ser necesariamente CC BY-SA?

m

#8: Si lo copias, sí.
Y si copias trozos pequeños, y los mezclas con otros trozos pequeños también copiados, también.

Y si no os gusta, lo tenéis muy fácil: pagáis por el material al autor original y que no os ponga condiciones, que es muy fácil coger todo gratis de otras personas sin restricciones, y luego ofrecerlo con tarifas o restricciones.

sorrillo

#9 Si lo copias, sí.

Y si no lo copias no.

Entonces deberás demostrar que lo que haya escrito una IA es una copia de ese documento CC BY-SA y no una creación propia de ésta.

Y si copias trozos pequeños, y los mezclas con otros trozos pequeños también copiados, también.

¿Si usas el mismo alfabeto que ese texto ya estás copiando trozos pequeños y mezclándolo con otros trozos pequeños también copiados?

Y si no os gusta, lo tenéis muy fácil: pagáis por el material al autor original y que no os ponga condiciones, que es muy fácil coger todo gratis de otras personas sin restricciones, y luego ofrecerlo con tarifas o restricciones.

Hasta donde tengo entendido esos textos permiten leerlos y aprender de ellos sin tener que pagar nada. Así que aunque no me gustase esa licencia, no sé a que viene lo de "si no os gusta", podría seguir leyendo contenidos hechos con esa licencia y eso no me impediría luego hacer mis propias creaciones con lo aprendido.

Las IA lo que hacen es aprender de los textos de origen. No son bases de datos relacionales, son cerebros digitales (a menos que consideres al cerebro humano como base de datos relacional, en ese caso también lo serían).

m

#10: ¿Quedaría el modelo igual sin mis fotos? Si es así, no incluyas mis fotos, gracias.