Hace 2 meses | Por Rivethead a cadenaser.com
Publicado hace 2 meses por Rivethead a cadenaser.com

El presidente del Gobierno, Pedro Sánchez, ha anunciado la creación de un Gran Modelo Fundacional de Lenguaje de inteligencia artificial entrenado "específicamente" en castellano y el resto de lenguas cooficiales de España. Lo ha dicho este domingo durante el discurso que ha realizado en la cena oficial del Mobile World Congress (MWC) --que se celebra entre este lunes y jueves en el recinto Gran Via de Fira de Barcelona--, que se ha hecho en el Museu Nacional d'Art de Catalunya (MNAC).

Comentarios

Ludovicio

#5 #30 Joder con los regres.

manbobi

#33 Retras

m

#36: Retretes.

p

#5 el modelo se va a llamar "MetaKoldoGPT" y será un sistema de recomendaciones automática para acudir a los mejor prostíbulos de tu zona, en función de la distancia, de las puntuaciones de los clientes y de la eficiencia chupapollil

Caravan_Palace

#64 #63 si, eso he dicho. Que habría críticas de la derecha
No es necesario que vengáis a darme la razón.

black_spider

#81 el día que te des cuenta que el mundo no se divide en izquierda o derecha...

black_spider

#88 ya, se puede criticar esta medida absurda y al mismo tiempo no apoyar las ideas de VOX.

Porque el mundo no es binario.

Niltsiar

#88 De hecho, esa es la definición de izquierda y derecha.

Findopan

#64 ¿Sabes de quién son los satélites del GPS? Pues ahora nos sentamos a ver cómo los mismos desarrollan la IA hasta que dependamos tanto de esa tecnología como de quienes la controlan.

#64 si liberan el modelo como open source con alguna licencia que permita su uso comercial, ya te digo yo que lo va a petar de éxito

kukusu

#64 La IA se viene usando para traducir del euskara al castellano y viceversa desde hace bastante tiempo: https://elia.eus/traductor

snowdenknows

#5 Pero si chatgpt4 habla gallego perfecto! wtf #3
lo que tienes que hacer es pagar el gpt4

precisamente una de las cosas curiosas es que debido a que son lenguas romance dialectales , los aprendió muy rápido a partir del castellano italiano etc

#112 #64

borre

#5 Hasta Bulgaria tiene uno (que oficialmente sale el día 3 de Marzo que es su día nacional).

Espero que los servidores se queden en casa.

O

#5 Avance? Os tienen el coco sorbido. Pero no os dais cuenta que esto es pura propaganda política de Pedro Sánchez?

T

#5 Yo creo que es una buena noticia para la investigación, innovación y educación en España. Puede llegar a tener un gran impacto. No?

t

#2 A mi me gustaría que entrenaran una IA con los chistes de chiquito.

freenetico

#25

p

#2 reportado por odio, no le deseo yo más "budget" ni al peor de mis enemigos

woopi

#2 Esperad a que lo entrenen con los comentarios de menéame y forocoches... el conocimiento de professor combinado con la sutileza de forococheros, implementado todo en una IA. Ya se podría usar directamente sin alineación ni hostias. ¡Una AGI así, con MAYÚSCULAS! Para exportar al mundo. Temblad luditas.

r

#2 presupuesto?

chewy

#2 vale gracias… ahora tendrán que crear también una ia para la gente que utiliza palabras de otra lengua mezcladas con el español…

Ano_Torrojo

#10 Por lo que he oído en la radio esta mañana será software libre

E

#6 Lo pensé, pero aquí una IA entrenada por forocoches va a tener enormes problemas, porque como llegue uno a pedirle un plan de entrenamiento básico igual acaba recomendándole comprar mancuernas de 30kg para el calentamiento. En Reddit la respuesta más útil suele ser la primera, en forocoches tienes que buscar entre página de chorradas para encontrar algo medianamente interesante.

M

#14
en forocoches tienes que buscar entre página de chorradas para encontrar algo medianamente interesante.

Y esa es, lamentablemente, la deriva de Menéame. Entrar a leer comentarios de un envío, y encontrarte comentarios graciosetes que no aportan nada.

E

#18 Bueno, aquí tienes comentarios destacados si quieres hacer un cribado. Llevo ya bastante tiempo sin mirar nada en forocoches, pero antes perdías bastantes minutos en buscar respuestas útiles, que alguna siempre había, pero entre poles, chistes e insultos.

troll_hdlgp

#20 ... y respuestas troll, algunas muy evidentes, pero otras sutiles, con lo si no sabes del tema te la pueden colar, así que al final ni las útiles te valen, porque no las puedes distinguir del resto de morralla.

De todos modos eso es el general, fuera de él si que veo mucho mas respeto, o al menos normalidad.

m

#6: Por si usan contenido de Menéame, espero que actualicen las normas del metro para tipificar de forma específica el delito de transbordo, así la AI no se confundirá cuando la pregunten por él.

ChatGPT

Buena idea, por fin algo de i+D, espero que no acabe en una cadena de mil subcontratados de una cárnica

ChatGPT

#51 de ilusión también se vive

black_spider

#8 más bien lo segundo. Otra pérdida de dinero a punta pala.

thorin

#43 Esto no es Reiki. En unos años esta tecnología estará en todas partes, cuanto mejor español hablé mejor.

Dentro de unos años tendrás que hablarle a uno de estos para consultar temas de la administración, o lo que dice #44, y vas a querer que sea preciso a la hora de hablar y de entender.

Otra cosa es que pase lo que comenta #42, que haya un mal gasto.

sillycon

#54 no, el Reiki era de otro partido de izquierda ya convenientemente para algunos desaparecido. Estos son los de la neurona.

thorin

#58 Sólo tu te entiendes.

oricha_1

#59 NO todos entendemo perfectamente lo que dice #42

Lo que no entienden son los que miran para otro lado , o los que se aprovechan de la situacion

thorin

#52 No es excluyente, tu puedes "finetunear" un modelo de LLM para que hable perfecto idioma (Él "¿Para qué?" que preguntabas), y luego "finetunearlo" con legislación, procedimientos o lo que quieras.

sorrillo

#_4 ¿Y esta chorrada cuanto nos cuesta?

Por que el centralismo monolingüe no tiene costes ocultos.

Nota: Este comentario es para responder a @ Zetan que por lo visto me tiene en su lista negra de ignorados. Por alguna razón que se me escapa los@admin demeneamemeneame han decidido que si alguien te pone en su lista negra ya no puedes citarle en respuesta a sus comentarios públicos, dificultando así el uso de herramientas de menéame como es el ver los comentarios en forma de hilo de discusión.

Larusico

Una pasta para desarrollar una tontería(hay un idioma que hablan todos) y digo una pasta sin saber cuánto costará, pero ya sabemos como funciona:

X€ para la app a una empresa amiga
X€ - el 50% de la empresa amiga a otra empresa amiga
X€ - el 75% de la empresa amiga de la otra empresa amiga para que la haga una tercera empresa amiga.
Vamos, que al final la app sobre una IA la hará una IA con el soporte de un becario mientras postea en meneame.

Peybol

No me acordaba que Zetan me tiene en el ignore. Que alegría me acabo de llevar, otra vez.

neiviMuubs

En este país en el tema de la informática se lleva demasiado el que inventen otros. Todavía no he visto un modelo LLM en 34B o inferior que no hable español con problemas gramaticales dignos de un extranjero que lleve apenas uno o dos años de estudio.

Fijo que si crean un concurso ofreciendo un millón de euros, sacan modelos como churros de gente que súbitamente les de por entrenarlos. Igual es lo que deberian de hacer, pero son capaces de invertir mucho mas que eso y que se malverse por completo.

eldarel

#29 En 2020 la fundación Mozilla pidió voluntarios para un proyecto de voz, en el que pedían diferentes acentos peninsulares.
No sé por qué ninguna universidad ha preparado modelos previos, aunque fuese usando las web de la administración.

C

Lo que hacen en mi equipo de fútbol bien, los que hacen los del otro equipo mal. Esto es una chorrada y fijo que hay mil formas de sacar partido al dinero. Al final lo que determina si es mejor un llm es la calidad de los datos con la que la entrenas.

H

Genial idea; además si la impulsa él la IA nunca generará fake news... sólo cambiará de opinión

A

Mal redactada. Debería decir “el resto de lenguas oficiales del estado” (que ya tienen bastante con ser el resto para encima ser “co”)

a

#15 Luego si dices que el español también es cooficial, alguno se ofusca y enfada.

wildseven23

#_4 Pues, probablemente, si se lleva bien a cabo, infinitamente menos que los chiringuitos que tanto os gustan. Por ejemplo, la Oficina del Español en Madrid, o las subvenciones a los toros, o a los obispos, o a...

thorin

#70 También.
Algunos de los ensayos que he visto eran también en ese idioma.
Teóricamente, no debería ser especialmente difícil.

M

#87 Gracias

e

Se llamará charobot.

x

#73 ¿nacerá adoctrinada?

m

A ver si es verdad, actualmente se echa en falta un buen modelo llm en español.

blid

No es magia, son tus impuestos. Hasta las narices estoy de Españita. Por favor, necesitamos un Milei.

haprendiz
Lamantua

Anuncia humo.

p

#56 y lo acólitos los inhalan con mucho gustirrinin

V

Conversación con la IA de you.com (que no se en que versión de chatpt se basan):

---
-tu parles català?

-Sí, parlo català! Com puc ajudar-te avui?

-em podries traduir "tu parles galleg" al galleg?

-Claro, te puedo ayudar con eso. "Tu parles galleg" se traduciría al gallego como "Falas galego". ¿Hay algo más en lo que pueda ayudarte?

-¿Falas galego?

-Sí, falo galego. Estou aquí para axudarte con calquera pregunta ou consulta que teñas. Como podo axudarte hoxe?

-com es diu "tu parles basc?" en basc?

-En basc, "tu parles basc?" es diría "euskaraz hitz egiten duzu?" o "euskaraz ari zara?". Així és com es preguntaria "parles basc?" en basc. Si tens alguna altra pregunta o necessites més ajuda, estic aquí per ajudar-te!

-euskaraz hitz egiten duzu?

-Bai, euskaraz hitz egiten dut. Zer galdetzen nahi duzu? Nirekin nola lagundu dezaket?
---

Si ya hay IAs que hablan en todas las lenguas de España, para que es esto? tiene algún fin especifico (como ayudarte en los tramites de la administración, etc). Pero si ese fuese el caso, entonces no se que pinta la RAE en todo esto.

thorin

#83 Hostia, ese euskera es horrible.

thorin

#83 Y veo que se basa en Zephyr 7B alpha, que está derivado de Mistral 7b. Es decir, no es ChatGPT y es un modelo muy limitado por ser solo 7b. Se rumorea que ChatGPT es 80b o más.

https://about.you.com/hc/features-and-services/how-do-i-access-the-zephyr-mistral-llm-model-for-uncensored-chat-on-you-com/

d

#83 Sabido es que estos aparatos no comprenden nada de lo que dicen, pero esperaba que tuvieran memoria para saber en que idioma están hablando. Ya veo que ni eso.

g

y la UE mientras tanto limitando a las empresas que puedan entrenar para que se vayan todas a EEUU. Lo dicho estamos dirigidos por "pollos sin cabeza"

T

#39 definitivamente a la unión Europea tal y como la conocemos le queda poco tiempo. Estos intentos de planificación son un tiro en el pie

Peybol

Igual mucho menos que la Iglesia

Fingolfin

Los feudos más modernos del mundo

GranTipo

el modelo se llamara TxaPT

Bapho

#80 Falacia de la bola de cristal.

alephespoco

La primera versión de LLM de Euskera ya está disponible (basado en Llama), aunque seguro que tiene margen de mejora: https://www.ehu.eus/es/-/hitz-zentroa-desarrolla-mayor-modelo-lenguaje-euskera-latxa

sillycon

He sido rojo toda mi vida y estoy desesperado por que aparezca un partido de izquierdas de verdad con una neurona operativa, sin reikis ni tonterías contraproducentes de cara a la galería.

ColaKO

#43 ¿te parece mala idea fomentar que las IA estén ajustadas a nuestro idioma y cultura en lugar de ser un refrito del inglés?

sillycon

#53 me parece un interesante proyecto universitario, o un proyecto empresarial a la altura de la mayoría de las tecnologícas españolas, no un asunto nacional. Pero tienes que demostrar tu interés plurinacional en público.

r

A ver si con estas iniciativas dejan de ser analfabetos del siglo XXI.

MAD.Max

¿No es de ElMundoToday?

x

#65 es del mundo tomorrow

malajaita

O sea que con cuatro idiomas esta IA va a crear el Cacagaes, como les de por poner más ni me imagino el nombre.
Vale sí, el Cacagaravagüaés, incluidos guanche, aragonés y valenciano. ¿Quien da mas?

y

en la era del streaming, youtubers, AI y demás, se siente, pero a los idiomas regionales inútiles les va a ir muy mal, no van a sobrevivir a medio plazo.

Zetan

¿Y esta chorrada cuanto nos cuesta?

elsnons

#4 nada comparado con lo que se gastan al año en subsidios y paguitas varias para adormecer al votante cautivo .

oricha_1

#112 LO has explicado de forma perfecta
Y cuando alguien aqui a cuestionado el gasto, funcionalidad o viabilidad , lo han cocido a negativos como ha #1 #9 #4
No entiendo comola gente esta deacuerdo de que lo roben el dinero de su nomina paar proyectos vacios que nunca van a estr ni cerca de una opcion funcional.

Como lo fue "El Google europeo". , o "la nube europea" . Tirar dinero a empresas migas donde un 30-5-% se van a comisiones de amiguetes

J

Gastando el tiempo y los recursos en cosas necesarios. Así si pedro Sánchez, así si.

wildseven23

#3 No te molestes, es otro multicuenta.

D

#16 multicuenta, mononeurona

thorin

#3 #1 Tampoco es tan difícil entrenar los modelos libres LLM actuales en nuevos idiomas.
En menos de una semana y con menos de 50€ en horas de GPU puedes entrenar un modelo 7b para que hable mejor español, quizás un 13b.
Esto gracias a que ya hay bases de datos para entrenar en muchos idiomas.

Entrenar un LLM decente de mas de 100b costará mas coste de GPU y tiempo para afinar el software de entrenamiento. Pero no una barbaridad.


Otra cosa será ver si quieren hacer algo más allá.


De todas maneras, esto va a tardar porque a ver qué hace Meta con Llama 3, que lleva la voz cantante en modelos de código abierto.

E

#21 Quizá técnicamente no resulte tan caro, pero yo de momento en los chatbots más populares todavía no he visto uno que no se líe si intenta hablar gallego (y un amigo catalán me ha dicho que la cosa con su idioma está parecida) y ya he visto respuestas menos detalladas preguntando en español. No veo mal que hagan pruebas entrenando IAs con las lenguas de aquí, porque no creo que sea ideal un futuro en el que saber o no inglés influya en la eficiencia que pueda tener para ti un chatbot, y lo digo sin tener yo ningún problema con el inglés.

E

#38 No, carezco de los conocimientos técnicos, pero ya he dicho que de momento mi experiencia personal lo que ha visto es que los chatbots más usados hoy en día van bien en inglés, ligeramente peor en español y mal en gallego. Sea más barato o más simple entrenar modelos yo no creo que sea un desperdicio de dinero el invertir en esto.

Al-Khwarizmi

#21 #38 Desde un punto de vista científico es cierto que entrenar un LLM para un idioma no tiene por qué aportar mucho, porque es aplicar conocimientos que ya existen. Pero eso no quiere decir que sea algo que pueda hacer cualquiera o dé poco trabajo, sobre todo si se quiere hacer bien.

Para empezar, los LLMs realmente grandes (que son los que, de momento, mejor funcionan) requieren grandes recursos computacionales para entrenarlos. Por ejemplo, entrenar Bloom (https://huggingface.co/blog/bloom-megatron-deepspeed) requirió un millón de horas de computación (en el supercomputador Jean Zay). Y ni siquiera salió muy bueno...

Y después está el tema de los datos. Aunque este tema se lleva en mucha opacidad (incluso la mayoría de los LLMs que se autoproclaman "abiertos", como los Llama, no dicen exactamente con qué se han entrenado); es un secreto a voces que la calidad de los datos y lo bien filtrados que estén son un aspecto fundamental. Coger sin más una base de datos pública no va a dar los mismos resultados que recopilar y curar con cuidado los datos. Se supone que es el principal motivo por el que, por ejemplo, los modelos de Mistral van tan bien en relación a su tamaño.

Habrá que ver si en realidad este modelo que anuncia Sánchez se hace bien o es dinero tirado... pero vamos, que no. Que un LLM competitivo con los mejores no te lo saca un estudiante de doctorado a solas con el cluster del departamento. Ni de lejos.

M

#21 Ya, claro, español... ¿Y en vasco? ¿gallego? ¿valenciano? ¿catalán?

Es muy costoso porque se trabaja desde cero.

aritzg

#70 Ya hay un modelo en euskara
https://huggingface.co/HiTZ/latxa-7b-v1
Se llama Latxa y es del grup HiTZ

A

#21 Pues suerte con entrenar un modelo con esas bases de datos en muchos idiomas para que 'entienda correctamente' cualquiera de ellos. No se si habrás trabajado con alguna... pero tela...
Si quieres entrenar un modelo nuevo 7B échale un par de semanas con varias A100
Quizás se podría hacer un MOE encargando modelos especializados por cada lengua a las universidades de las diferentes regiones en lugar de hacer un modelo con un numero demasiado bruto de parámetros pero la recogida y clasificación de datos no te la quita nadie, además del jaleo que se va a montar para meterle guardarraíles y controlar los sesgos a lo que salga... Y eso es caro, más que el coste de computación seguro.

C

#3 Pero esto no es algo que deba hacerse con dinero público. A mi me gustan los helados de caramelo y chocolate, debería el gobierno también montar una heladería si no hay cerca de mi localidad?

Caravan_Palace

#72 no se yo si los helados que a ti te gustan están en la constitución como alimento co oficial del estado y oficial en alguna que otra autonomía

E

#72 Yo sí creo que es algo que deba hacerse con dinero público. Al fin y al cabo es intentar garantizar que las lenguas del Estado sean funcionales con modelos de IA. Es una defensa del español (y del gallego, catalán y euskera) bastante más clara que mandar a un señor de gira por Estados Unidos a decir lo buenas que están aquí las tapas. Ya hay muchos ámbitos hoy en día en que se ha aceptado con naturalidad que el inglés es el referente y el español es muy secundario, como la investigación científica, no creo que se deba dejar un tema como el de las IAs completamente de lado y después aceptar que lo mejor para sacar el 100% de su potencial sea tirar del inglés porque poco a poco se ha ido imponiendo.

No es muy probable que veas un resurgimiento de papers en español, con lo que no creo que debamos dormirnos con esto.

H

#7 magnífico documental y más magnífico es Shuji Nakamura. Eso es tesón y constancia.

black_spider

#7 hablas como si no se estuviese investigando sobre la IA lol

frankiegth

#71. Cuando en España empecemos a ser líderes en el desarrollo de las IA en perfecto español podremos empezar a reirnos todos juntos para celebrarlo.

Si no lo monopolizan y controlan desde la política y desde las cuatro empresas de siempre, claro, que eso deL "Software Libre" y los "Estándares Abiertos" a muchos españoles les sigue sonando a "Barra Libre" y "Bares Abiertos" todo el santo día.

ChatGPT

#1 el dinero mejor invertirlo en cursos de camarero.... No?

manbobi

#9 En toros

ChatGPT

#35 oooleeeee

p

#9 no se pelien, mejor en un chatbot para anotar las cañas y las tapas de aceitunas

todos contentos

black_spider

#9 que te parece bajar la cuota de autónomos para que montar una empresa en este país no sea tan horror?

O sino te gusta eso puedes también construir 1 millón de viviendas sociales. Dado que la vivienda es el principal problema de los españoles.

Y como último, puedes simplemente reducir la pila gigantesca de deuda que hay actualmente.

C

#11 Pero esto no es I+D, es adaptar lo que ya está para hacer paripé nacionalista.

Si quiere hacer I+D que anuncie fondos para la investigación de nuevas tecnologías de IA.

r

#77 No se trata de adaptar, sino de crear un modelo desde cero en otros idiomas distintos al inglés. Los que hay open source se han entrenado o en inglés o con mezcla de idiomas, así que cuando luego los quieres usar en español no van tan finos. Esto es como decir que alguien ha inventado el motor de combustión, luego ha llegado un tal Ford que ha construido sus coches aprovechándose utilizando esa invención y que nosotros hemos decidido montar una tal SEAT para tener coches adaptados a nuestras necesidades y legislación.

yoma

#11 Y en la caza, no se te olvide la caza.

Peybol

#89 La caza, que ¿deporte? más patriótico.

Marzo2024

#1 y lo guapo que es, mira que mono el nene…

Desideratum

#1 La cuñadez, cazurrez, garrulez y miseria casposa esperable en un multicuenta de extremocentro.

Bapho

#1 Por que promocionar la cultura de España y hacer que esté más presente en internet y en las nuevas tecnologías es tirar el dinero. Luego vendréis llorando por que está todo en Inglés. Comentario mamarracho.

black_spider

#47 es tirar el dinero porque eso no lo va a usar absolutamente nadie.

x

#1 Esta IA será ideal para sustituir a los traductores del congreso

arturios

#1 Ya hay modelos lenguaje de Catalán, Euskera y Gallego, además del de Español, se van a unir en uno sólo, por cierto, si le pedís a ChatGPT que os haga una redacción en esas lenguas, va y te lo hace, supongo que Micro$oft debe ser independentista o algo así

1 2