Hace 1 año | Por geralt_ a newatlas.com

Publicado hace 1 año por geralt_ a newatlas.com

El genio se escapa: Stanford copia la IA ChatGPT por menos de 600 dólares [ENG]

newatlas.com

La IA Alpaca de Stanford tiene un rendimiento similar a la asombrosa ChatGPT en muchas tareas, pero se basa en un modelo lingüístico de código abierto y cuesta menos de 600 dólares entrenarla. Parece que estas inteligencias artificiales divinas ya son terriblemente baratas y fáciles de reproducir.

comentarios destacados

#5: Artículo cuñao del día, del estilo "esto te lo hago yo en dos tardes y por 600€".

Quien conozca un poquito como están diseñados estos modelos sabe que la infraestructura para entrenarlos y hacer inferencia es enorme.

Por supuesto que hay modelos más pequeños que funcionan razonablemente bien si los comparamos con las LSTM de hace 5 años, pero ni se le acercan a ChatGPT o GPT-4.

rojo_separatista

hace 1 año

#16: Tengo la sensación de que la mayoría no ha leído los detalles de este experimento que es realmente novedoso y destacable. No hace falta ser Standford para reproducirlo. Como bien indican aquí https://crfm.stanford.edu/2023/03/13/alpaca.html, usan una infraestructura en la nube para entrenar con un coste de apenas 100$ (no tienes que comprarte un clúster con decenas de GPU). El otro coste es el de usar la API de ChatGPT para generar datos de entrenamiento a partir de 175 ejemplos escritos por humanos.
Han liberado todo el código y los datos, así que "cualquiera" puede repetir este experimento.
Es muy relevante, aunque ellos mismos admiten que la comparación no ha sido exhaustiva. Pero esto abre la puerta a la creación de modelos propios que pueden tener un rendimiento similar en tareas concretas.

pendrag

hace 1 año

#24: #22 Sobre la infraestructura concreta no dan detalles, cierto. Pero mencionan que les llevó 3 horas de uso de 8 NVIDIA A100 con 80GB de memoria. Buscando rápido un proveedor encuentro este: https://www.leadergpu.com/#chose-best que te da 8 A100 (aunque de 40G) por 421€ al día. La estimación de costes de 100$ por 3 horas no es muy descabellada. Como investigador, llevo años siguiendo los trabajos del grupo de procesamiento de lenguaje natural de Stanford https://nlp.stanford.edu/ y puedo asegurar que son muy exhaustivos (además de ser unos cracks).

pendrag

hace 1 año

#3: Pues la noticia llega tarde porque antes de ayer la retiraron por inventona. Regreso a boxes.

elculebrilla

hace 1 año

#9: #8 Pues no decir palabrotas, no responder a peticiones de hacer chistes que puedan ser ofensivos, no dar instrucciones para fabricar objetos peligrosos, etc. Todo ese entrenamiento en autocontrol reduce la eficacia del modelo.

DenisseJoel

hace 1 año

Comentarios

Más valorados

rojo_separatista

hace 1 año

Artículo cuñao del día, del estilo "esto te lo hago yo en dos tardes y por 600€".

Quien conozca un poquito como están diseñados estos modelos sabe que la infraestructura para entrenarlos y hacer inferencia es enorme.

Por supuesto que hay modelos más pequeños que funcionan razonablemente bien si los comparamos con las LSTM de hace 5 años, pero ni se le acercan a ChatGPT o GPT-4.

V 12

K 81

elculebrilla

hace 1 año

Pues la noticia llega tarde porque antes de ayer la retiraron por inventona. Regreso a boxes.

V 6

K 68

#16

pendrag

hace 1 año

Tengo la sensación de que la mayoría no ha leído los detalles de este experimento que es realmente novedoso y destacable. No hace falta ser Standford para reproducirlo. Como bien indican aquí https://crfm.stanford.edu/2023/03/13/alpaca.html, usan una infraestructura en la nube para entrenar con un coste de apenas 100$ (no tienes que comprarte un clúster con decenas de GPU). El otro coste es el de usar la API de ChatGPT para generar datos de entrenamiento a partir de 175 ejemplos escritos por humanos.
Han liberado todo el código y los datos, así que "cualquiera" puede repetir este experimento.
Es muy relevante, aunque ellos mismos admiten que la comparación no ha sido exhaustiva. Pero esto abre la puerta a la creación de modelos propios que pueden tener un rendimiento similar en tareas concretas.

V 6

K 60

awezoom

hace 1 año

Pues que se lo vendan a Microsoft por 9.000 millones de dolares. MS ahorraría un 1000 milloncitos y se evita despedir a unos cuantos ingenieros de esos que tanto le sobran ahora...

V 3

K 41

#24

pendrag

hace 1 año

#22 Sobre la infraestructura concreta no dan detalles, cierto. Pero mencionan que les llevó 3 horas de uso de 8 NVIDIA A100 con 80GB de memoria. Buscando rápido un proveedor encuentro este: https://www.leadergpu.com/#chose-best que te da 8 A100 (aunque de 40G) por 421€ al día. La estimación de costes de 100$ por 3 horas no es muy descabellada. Como investigador, llevo años siguiendo los trabajos del grupo de procesamiento de lenguaje natural de Stanford https://nlp.stanford.edu/ y puedo asegurar que son muy exhaustivos (además de ser unos cracks).

V 4

K 40

DenisseJoel

hace 1 año

#8 Pues no decir palabrotas, no responder a peticiones de hacer chistes que puedan ser ofensivos, no dar instrucciones para fabricar objetos peligrosos, etc. Todo ese entrenamiento en autocontrol reduce la eficacia del modelo.

V 4

K 39

#33

snowdenknows

hace 1 año

"we definitely need more regulation on ai
— Sam Altman (@sama)" traducido, quiero mi monopolio

V 2

K 32

neme

hace 1 año

Que gran futuro, IAs a precio de becario.

V 3

K 28

#15

lameth

hace 1 año

#7 Dudo que sea eso.

V 2

K 27

#18

ktzar

hace 1 año

editado

Funciona en mi Mac perfectamente. Rápido y arranca en segundos... Es increíble. No es chatgpt, pero el modelo 7b traduce al catalán, al chino, escribe código (más o menos)...

V 2

K 27

#40

rojo_separatista

hace 1 año

#38, pero cambiar el valor de los parámetros del modelo no afecta a su desempeño en cuanto a coste computacional para hacer inferencia.

V 1

K 27

#10

varios

hace 1 año

#7 quitas el autocontrol y se convierte en Skynet.

V 2

K 25

#13

ccguy

hace 1 año

Y yo en un rato hago un programa que se baje y archive todo el internés.

Os lo pongo en github y ya no tenéis que tener ADSL

V 1

K 23

DenisseJoel

hace 1 año

#5 Lo que pasa es que los chatbots como ChatGPT o GPT-4 desperdician mucha energía en el autocontrol. Si quitas eso, es posible que sí se pueda competir con ellos con menos parámetros.

V 1

K 21

#17

ContinuumST

hace 1 año

#13 Si ya está eso... mira: https://geeksupply.co/wp-content/uploads/2018/03/internet-it-crowd.jpg

(IT Crowd)

V 1

K 19

#45

rojo_separatista

hace 1 año

#44, de hecho no me cabe duda de que ChatGPT tiene mejor de capacidad de comprensión lectora que la media de personas.

V 0

K 19

#21

rojo_separatista

hace 1 año

#20, aún así sigues teniendo el problema de hacer inferencia una vez ejecutados. Si hay miles de usuarios conectados, no lo veo viable en tiempo real por muchos nodos distribuidos que haya. No digo que en el futuro el hardware doméstico o la compresión de estos modelos no mejore lo suficiente para que esto ocurra, pero todavía no estamos en este escenario.

V 0

K 18

#28

rojo_separatista

hace 1 año

#11, en realidad lo que dice #9 no es verdad. Aunque no han trascendido todos los detalles sobre la arquitectura de GPT-3.5 y GPT-4. El proceso de RLHF, solo fine-tunea la arquitectura original sin añadir-le más parámetros. El grueso del entrenamiento se produce antes y en la parte de inferencia no afecta en lo más mínimo ya que no cambia el tamaño del modelo.

V 0

K 18

#41

rojo_separatista

hace 1 año

#39, aver, que no digo que los que han hecho sean cuñaos, digo que el periodista que ha redactado el titular, lo es un poco.

Si es tal y como explica el titular, este modelo se terminará utilizando muchísimo más que los modelos de OpenAI en muy poco tiempo. ¿Te apuestas algo a que no termina siendo así?

V 0

K 18

#43

rojo_separatista

hace 1 año

#42, creo que te estás liando demasiado. Yo no he entrado en nada de esto de lo que comentas. Lo que digo es que vender en el titular que con 600€ se puede replicar lo que hacen modelos que cuestan miles de millones de euros es cuñadismo de manual. A partir de ahí, podemos discutir lo que quieras, de hecho no digo que modelos más pequeños no sean interesantes para empresas o investigadores en algunos caso, pero no amenazan la posición de OpenAI y Microsoft por ahora.

V 0

K 18

#47

Desactivado

hace 1 año

ya no esta disponible

V 1

K 18

#26

ninefingers

hace 1 año

Porque ChatGPT no ha inventado la pólvora, pero eso es algo que los periodistas no entienden.

V 1

K 17

MDman

hace 1 año

#7 Perdona. ¿Qué significa en autocontrol?

V 1

K 15

#34

reithor

hace 1 año

Bueno, parece que la velocidad de reproducción de las IAs se asemejan a las dinámicas poblacionales propias de los fans de sectas como Opus Dei o neocatecumenalismo.

V 0

K 15

#12

Polarin

hace 1 año

A ver... recordemos una serie de temas muy tontos... como que la universidades americanas tienen muchisimas mas infraestructuras que las espaniolas. Stanford, Carnegie-Mellon, el MIT o incluso Rutgers, tienen una infraestructura parecida a la necesaria para este asunto, y tienen a la gente que se esta sacando doctorados ahora mismo intentando comerse a ChapGPT.

V 1

K 11

#22

Desactivado

hace 1 año

editado

#16 En AWS alquilar un espacio que pueda entrenar modelos más simples que un botijo cuesta casi dos mil euros al mes.

Solo en transferencia de datos, de la nube a tu servidor, superas los cien euros.

Hay gato encerrado.

V 0

K 11

#23

Desactivado

hace 1 año

#6 ¿Para qué? Los datos, que es lo importante, los han sacado de chatgpt.

V 0

K 11

#25

Desactivado

hace 1 año

#24 Sí, tienes toda la razón. Miré los comentarios leyendo solo el inicio de la noticia, mal hecho.

V 0

K 11

#38

DenisseJoel

hace 1 año

#28 El RLHF no cambia el tamaño del modelo ni añade (que sepamos) parámetros, pero creo que sí que modifica los que ya hay, especialmente los de alto nivel (últimas capas), aunque es posible que afecte también a capas de bajo nivel.
De hecho, la tendencia lógica es que las medidas de seguridad extiendan su influencia por todo el modelo.

V 0

K 11

#14

Zeioth

hace 1 año

Y ademas si recuerdo correctamente, una IA alpaca la puedes correr en local en tu PC. Lo que habilita muchas aplicaciones que con chatGPT serían imposibles.

Ejemplo, distribuir software Open Source de edición de imagen, que le puedas dar ordenes en lenguaje natural.

V 0

K 10

#29

ACEC

hace 1 año

En un triste i3 sin GPU funciona. A la primera pregunta ha tardado unos 15 minutos en responderme, pero lo ha hecho y de manera correcta.

V 0

K 10

#31

eljuligallego

hace 1 año

#30 quiero de lo que tomas

V 0

K 10

#36

lectorcritico

hace 1 año

#5 #7 Yo tenia entendido que los transformers son muy eficaces, pero tienen un consumo de recursos brutal. SEguramente sera interesante intentar hacer lo mismo con una alternativa a trasnformes.

#12 Tambien una vez hecho es mas facil hacerlo otra vez. Es como la patentes de farmacos. Una vez se descubre un farmaco que funciona, aunque tengas que descubrir como funciona te ahorras investigar todos los callejones sin salida y puedes saber como se hace parte del proceso.

#24 No se hacen programas antiSPAM. Va ser necesario porque se va poder crear texto que cuele.
Tambien seria interesante evaluar la calidad de los textos( mensajes, correos, comentarios) o su interes o hacerte un extracto quitando la paja que meten en paginas de clickbait.

V 0

K 10

#37

hazuko

hace 1 año

#26 Ni los periodistas ni muchos por aquí...

...hala, ya me quedao a gusto

V 0

K 10

#39

hazuko

hace 1 año

#5 A ver hombre, que son Stanford, no son precisamente cuñaos... respetiño por dios. No dicen que supere a GPT4, pero leyendo los resultados y su coste (que es lo que se hace posible cuando abres tu modelo) puedes hacerte una idea de como nos estamos acercando a la fase de rendimientos decrecientes con el approach actual.

V 0

K 10

#42

hazuko

hace 1 año

#41 Te refieres al artículo (es la primera palabra de tu comentario), el cual me parece bastante acertado y completo. El titular es clickbait, en eso estamos de acuerdo, lo escribe un periodista. Sin embargo, aquello de Sparks of Artificial General Intelligence lo escribe OpenAI... que es un clickbait ordenes de magnitud mayor... no te quedes en el titular, la noticia es importante y la explican bastante bien en una lectura de 5 minutos (en #16 tienes el enlace a la fuente)... seguro que si has digerido las más de 150 páginas del otro día, esto es pan comido.

No apuesto nada, creo que ya dije alguna vez que yo no soy economista (no vengo a estas noticias a hablar de economía) y tampoco sé que va a pasar en el futuro (y tú tampoco)... ahora bien (y esto sí es cuñadismo, porque no puede ser otra cosa), si con algo que sale gratis o casi gratis puedo cubrir el 90% de los casos de uso... pues empresas como OpenAI tendrán que enfocarse en nichos de mercado bastante específicos (lo contrario sería como intentar robarle cuota de mercado a Linux, por ejemplo se me ocurre).

V 0

K 10

#44

hazuko

hace 1 año

#43 Sí, seguro que me he liado demasiado... tiene que ser eso. Habrá que metérselo a ChatGPT a ver si nos lo aclara

V 0

K 10

hokkien

hace 1 año

#1 ojalá eso tenga licencia GPL

V 0

K 9

#11

kaoD

hace 1 año

editado

#9 [citation needed]

¿Podrías describir RLHF y por qué la hace menos eficiente?

Si lo piensas intuitivamente no tiene sentido: hay más entradas que producen la misma salida (la controlada) y por tanto es más eficiente no menos.

V 0

K 9

#46

navi2000

hace 1 año

#13 Recuerdo el día que una señora delante de mi en un PC Box sacó orgullosa un disquette de 3'5" de su bolso y le dijo al encargado "¿me puedes grabar Internet aquí?". Las risas de todos todavía resuenan en mi cabeza.

V 0

K 9

Desactivado

hace 1 año

#3 Más bien por gastona. Y nada de boxes, la han quitado y punto. Pero están saliendo otras como churros.

V 0

K 7

#20

RamonMercader

hace 1 año

#5 si, pero una red distribuida de voluntarios cediendo su gpu puede competir contra las grandes, el open source/modelos comunitarios va a ser un actor inportsnte en esta batalla

V 0

K 7

#27

MisturaFina

hace 1 año

Inteligencia para todos!!!
El codigo libre y su filosofia son el nuevo mundo. Comunismo digital!!!

V 0

K 7

#19

User93439

hace 1 año

Si todo el hierro que se está utilizando actualmente para minar mierdas de criptodivisas se utilizara para entrenar modelos...

V 0

K 6

#30

rcorp

hace 1 año

#2 se viene el fin del capitalismo

Cuando todos tengamos poder infinito, cuando todos podamos poner a trabajar a una IA para que gane una fortuna para nosotros, sólo quedarán IAs en el mundo de los negocios luchando por hacerse con el mayor imperio industrial, creando negocios y estrategias comerciales para maximizar el beneficio.

Imagináos millones de IA haciendo esto (para sus respectivos usuarios). El dinero dejará de tener sentido.

V 0

K 6

#32

Patrañator

hace 1 año

#10 quitas el autocontrol y se come con patatas a todos los diputados del Congreso, sería interesante soltar esa vaquilla en un Pleno

V 0

K 6

#35

rcorp

hace 1 año

editado

#31 si tu dispones de una IA con una capacidad mejor que la de cualquier gestor, empresario, ingeniero, físico, emprendedor, artista, etc del mundo, y ésta IA tenga conexión a Internet (con lo que podrá contratar, hacer negocios, dar órdenes, cerrar tratos, crear campañas de márqueting, llegar a acuerdos, estudiar el mercado, hacer reuniones, etc)...

Tú le pedirás que te lleve la contabilidad de tu cuenta del banco, o le pedirás que gane todo el dinero del que sea capaz para tí?

Es para saberlo

Por favor, dime que sólo le pediras que te escriba el CV con fuentes molonas

V 0

K 6

El genio se escapa: Stanford copia la IA ChatGPT por menos de 600 dólares [ENG]

Etiquetas

comentarios destacados

Comentarios