Hace 2 años | Por rojo_separatist... a xataka.com
Publicado hace 2 años por rojo_separatista a xataka.com

A principios del pasado año te hablábamos de DALL-E, la inteligencia artificial de OpenAI capaz de generar imágenes de cualquier texto que escribiéramos.

Comentarios

rojo_separatista

#2, será que hace overfitting.

r

#16 Algo de razón tienes, de hecho he dudado un poco en hacer la gracieta.
Pero sí, la gente tiene la mente podrida. Aunque puede servir como ejemplo de cosas que pedirá la gente a la web.
Recuerdo al principio de googlestreetview que se lo enseñé a unos conocidos. ¿ Sabes lo primero que buscaron ? Las putas que había en la calle en la zona de prostitución marginal. Es decir, tenían un montón de lugares del mundo para ver a pie de calle y eligieron eso. Ah y eran gente "normal" con algunos estudios
Supongo que yo no soy mejor.

Cuchipanda

#19 que no te haga sentir mal una cuenta clon que se dedica a blanquear cosas, amijo.

D

#16 Bueno, no es más que la versión mejorada de algo que llevaba casi dos años en abierto y bien conocido por la comunidad

El envío bueno sería el de la primera versión , que crea dibujos con las palabras que pongas

Eso sí, era regulero. En esta noticia dicen que parece que lo han mejorado pero sigue siendo cerrado por lo que no lo podemos confirmar.

Ferran

#5 Esto es todavía muy friki

elemilio

#5 Yo ya me he apuntado a la lista de espera para jugar.

Aqui podéis jugar a algo parecido
https://huggingface.co/spaces/multimodalart/latentdiffusion
Yo estuve generando algunas imágenes hace unos días. Aunque parece que ahora tiene problemillas...

rojo_separatista

#15, yo también me he apuntado, este que enlazas también lo probé, pero esto bastante lejos. Por ahora me la paso enganchado al twitter de sus creadores, mientras van colgando imágenes.



elemilio

#17 Apuntados, gracias!

o

#15 #17 supongo que conocéis hypnogram, midjourney, diffussion, vqganclip etc. Tengo una lista de notebooks también.

rojo_separatista

#30, sí, además de GLIDE y a pesar de apuntar maneras, ninguno ha logrado la espectacularidad de este modelo. Pero lo que me preocupa más es que la gente se quede con la belleza de las imágenes resultantes antes que con la demostración de que es capaz de relacionar tan bien conceptos abstractos en un modelo multimodal de imágenes y texto.

o

#34 es flipante. Yo cuando hice el tutorial de vqgan mi hermana me decía "estas perdiendo el tiempo". Pero su marido nos dijo "pues esto tiene mucho potencial puede ser útil para mucha gente". Habiendo probado varios este tiene resultados tan espectaculares que la última vez que hablamos de esto (ayer, puede jaja) dudábamos de si el prompt era realmente sin retocar nada y no estaban usando las capas que dicen que soporta.

rojo_separatista

#39, la frustración que siento yo es que veo que el común de los mortales no se dan cuenta del salto cualitativo que tenemos en frente. Por aquí me han dicho que Eliza, un modelo basado en reglas de los años 60 sin ninguna clase de aprendizaje automático, es más o menos igual se espectacular que eso.

Acuantavese

#5 Cada día me cuesta más captar la ironía aquí

rojo_separatista

#18, el problema que me he encontrado cuando he enseñado esto a mi círculo cercano es que no ven más allá de una app que hace bonitos dibujitos. Que es esto al lado del grafeno, el bosón de higgs o la cura semanal a la enfermedad del Alzheimer, verdad?

La verdad es que quizás no sea evidente, pero más allá de esto, lo que nos demuestra esta IA es que ha desarrollado una capacidad de abstracción y comprensión del lenguaje natural que se está empezando acercar a la humana de forma espectacular a la humana. Quizás, no sea lo más evidente, pero sin duda es lo más relevante. No por lo que tenemos delante, que ya de por sí resulta bello y espectacular, sino por lo que se atisba de cara al futuro.

D

#23 « lo que nos demuestra esta IA es que ha desarrollado una capacidad de abstracción y comprensión del lenguaje natural que se está empezando acercar a la humana de forma espectacular a la humana »

Yo creo que no. Esa interpretación ya la hacíamos los humanos en los tiempos del programa Eliza. De hecho, lo que hacen estos sistemas es "darnos el pego". Hacen cosas sorprendentes, pero de ahí a hablar de "capacidad de abstracción" o de "comprensión del lenguaje" va un abismo.
Una IA no sabe lo que es un gato, solo es capaz de encontrar elementos en común en imágenes etiquetadas como "gato".

rojo_separatista

#24, creo que confundes capacidad de abstracción con conciencia de la realidad. Lo de Eliza, con mis disculpas pero nada que ver, a la que apretabas un poco estos asistentes conversacionales fallaban más que una escopeta de feria, no tenían ninguna clase de consistencia. A falta de poder jugar un poco con ello, yo diría que esto no ocurre con este modelo.

D

#25 Si entendemos capacidad de abstracción en el sentido de extraer elementos en común y reglas de clasificación, en muchos dominios específicos ya nos ha superado.

rojo_separatista

#26, hasta ahora te diría que dependía mucho de en qué dominio, cuando la información estaba muy estructurada, sí era habitual encontrar modelos que superaran la capacidad humana.

Lo que me parece relevante de la noticia se este envío es que el dominio del que hablamos es el de las imágenes y el lenguaje natural, algo que per se no está estructurado pero que es la principal más importante que utilizamos los humanos comprender el mundo que nos rodea. Por eso me parecen tan relevantes los resultados de este trabajo. Había trabajos anteriores que ya apuntaron en esta dirección, Dall-e 1 y GPT-3, pero esto lo supera.

woopi

#23 Pues sí... Por cierto las versiones libres de "El beso" de Klimt que hace la IA son buenísimas. ¡Curioso!

D

#5 Habrá que verlo en abierto para comprobar si hay mucha diferencia con el anterior ¿No?

Porque dice que usan GPT3, igual que el otro, por lo que en tema de comprensión de textos no hay avances en esta versión.

rojo_separatista

#36, sí, la crítica más importante que se le puede hacer es que no tenemos acceso al modelo y los desarrolladores pueden estar haciendo cherry picking.

saqueador

#5 Un poco exagerado si es...

rojo_separatista

#54, no te culpo por pensar así.

rojo_separatista

Me parece realmente brutal.

Ribald

#1 Lo único en lo que me falla en general, es en los ojos. En otras imágenes generadas me pasa igual. No sé qué es, pero me da la impresión de que algo falla.

l

No genera imagenes violentas, no genera rostros fotorealistas... que se lo metan en los cojones, y cuando salgamos de esta era de subnormalidad para ofendiditos igual o pruebo.

Nova6K0

#47 clap clap clap

Saludos.

andres.dev

Cumplirá la regla 34 con esta IA?

Ribald

We’ve limited the ability for DALL·E 2 to generate violent, hate, or adult images. By removing the most explicit content from the training data, we minimized DALL·E 2’s exposure to these concepts. We also used advanced techniques to prevent photorealistic generations of real individuals’ faces, including those of public figures.

Gracias a Dios que lo han tenido en cuenta. Me pregunto si en un rincón más oscuro de internet se generá una versión sin censurar.

#10 Parece que no cry

o

#14 también dicen que no se puede para renderizar protestas. Tienen de "open" lo que yo de millonario. Esto es totalmente propietario y cerrado.

Nova6K0

#33 Es que hay código abierto, que de libre tiene poco.

Saludos.

o

#48 pero no es código abierto tampoco por lo que tengo entendido.

the_unico

#14 Yo ya estaba pensando como sacar una versión sin esa limitación lol

#10 Son unos mojigatos los de OpenAI, pasa algo parecido con GPT3. Ya llegará una alternativa libre.

D

#22 GPT3 es de Open AI, estas diciendo lo mismo.

Para que llegue la alternativa libre alguien tiene que poner el dinero que ha puesto Elon encima de la mesa.

#37 GPT3 es de OpenAI, sí, pero Dall-E 2 no es GPT3.

D

#38 Según esta noticia sí

#40 Solo dice vagamente que "aprovecha el potencial de GPT-3 para generar sus diseños". Y la única referencia a GPT-3 en el paper al que enlazan es "we generated 512 “artistic” captions using GPT-3 [4] by prompting it with captions for existing artwork".

D

#42 Conozco bien sin ser un experto. Tal como lo escribe Xataka entiendo que usan GPT3 para analizar el sentido de la frase

#43 Pero el paper al que enlazan en esa frase no dice eso.

En cualquier caso, aunque se derive de GPT-3, cosa que repito que no dicen ahí, decir que Dall-E es GPT3 sería como decir que Objective-C es C.

D

#44 Yo entiendo que usarían GPT3, como otras tantas librerías.

Janssen

No manches guey! Alta tecnología

D

Cuidado a ver si de algunos cerebros no va a poder dibujar nada...

noexisto

Al final hay una “Lista de espera”. Son listos

Cuchipanda

#52 no se preocupe, cosas de mi ignorancia con el ATPC.

editado:
Ah, joder, a tomar por el horto lol, pensaba que eran las siglas de algo ténico. Ya me disculpa.

archivistica

¿Podéis poner enlace a la aplicación y no al artículo, por favor?

o

#8 no está pero tienes unas cuantas cosas basadas en modelos un poco peores como vqgan diffussion, midjourney (también la van a hacer de pago) hypnogram etc

pax0r

atpc los diseñadores gráficos

Cuchipanda

#11 ¿qué te atepece hacer con ellos?

pax0r

#29 no le entiendo señor

o

#11 tal cual. Es lo primero que dije yo cuando me enseñaron el del conejo sentado en el banco.

Nova6K0

#11 Pues la llevan clara, si quieren forrarse con esto. Porque si en una obra no interviene directamente un humano (y no decir cuatro frases, para que una "máquina" os haga un dibujo, no vale) esa obra no puede tener derechos de autor, y ya hay dos sentencias en ese sentido, por el uso de IAs.

Saludos.