El presidente del Gobierno, Pedro Sánchez, ha anunciado la creación de un Gran Modelo Fundacional de Lenguaje de inteligencia artificial entrenado "específicamente" en castellano y el resto de lenguas cooficiales de España. Lo ha dicho este domingo durante el discurso que ha realizado en la cena oficial del Mobile World Congress (MWC) --que se celebra entre este lunes y jueves en el recinto Gran Via de Fira de Barcelona--, que se ha hecho en el Museu Nacional d'Art de Catalunya (MNAC).
Comentarios
Esto supondría un avance. Por tanto habrá quejas desde la derecha
#5 Aquí mismo ya tienes unos cuantos, que se acaban de bajar de los árboles, soltando sus cuñadeces y garruladasy demostrando una vez más que están absolutamente orgullosos de su más supina ignorancia.
#5 #30 Joder con los regres.
#33 Retras
#36: Retretes.
#5 el modelo se va a llamar "MetaKoldoGPT" y será un sistema de recomendaciones automática para acudir a los mejor prostíbulos de tu zona, en función de la distancia, de las puntuaciones de los clientes y de la eficiencia chupapollil
#64 #63 si, eso he dicho. Que habría críticas de la derecha
No es necesario que vengáis a darme la razón.
#81 el día que te des cuenta que el mundo no se divide en izquierda o derecha...
#84 el mundo no se en qué se divide . Pero que la derecha se opone a cualquier avance pasa aquí y en Sebastopol
#88 ya, se puede criticar esta medida absurda y al mismo tiempo no apoyar las ideas de VOX.
Porque el mundo no es binario.
#88 De hecho, esa es la definición de izquierda y derecha.
#5 avance en qué?
La mayoría de IAs actuales (Chatgpt, Bard, etc...) ya tienen soporte para el castellano.
Lo que quiere hacer Sánchez es un refrito barato que nadie usará. Peor eso sí, algún amiguito cobrará su dinero.
#64 ¿Sabes de quién son los satélites del GPS? Pues ahora nos sentamos a ver cómo los mismos desarrollan la IA hasta que dependamos tanto de esa tecnología como de quienes la controlan.
#64 si liberan el modelo como open source con alguna licencia que permita su uso comercial, ya te digo yo que lo va a petar de éxito
#64 La IA se viene usando para traducir del euskara al castellano y viceversa desde hace bastante tiempo: https://elia.eus/traductor
#5 Pero si chatgpt4 habla gallego perfecto! wtf #3
lo que tienes que hacer es pagar el gpt4
precisamente una de las cosas curiosas es que debido a que son lenguas romance dialectales , los aprendió muy rápido a partir del castellano italiano etc
#112 #64
#5 Hasta Bulgaria tiene uno (que oficialmente sale el día 3 de Marzo que es su día nacional).
Espero que los servidores se queden en casa.
#5 Avance? Os tienen el coco sorbido. Pero no os dais cuenta que esto es pura propaganda política de Pedro Sánchez?
#5 Yo creo que es una buena noticia para la investigación, innovación y educación en España. Puede llegar a tener un gran impacto. No?
No sé si lo dices en ironía, porque parece, pero creo que es una idea brillante, de futuro, y que realmente merece más budget.
#2 A mi me gustaría que entrenaran una IA con los chistes de chiquito.
#25
#2 reportado por odio, no le deseo yo más "budget" ni al peor de mis enemigos
#2 Esperad a que lo entrenen con los comentarios de menéame y forocoches... el conocimiento de professor combinado con la sutileza de forococheros, implementado todo en una IA. Ya se podría usar directamente sin alineación ni hostias. ¡Una AGI así, con MAYÚSCULAS! Para exportar al mundo. Temblad luditas.
#2 presupuesto?
#2 vale gracias… ahora tendrán que crear también una ia para la gente que utiliza palabras de otra lengua mezcladas con el español…
Si se licencia libremente todo mi apoyo, pero si se le ponen restricciones absurdas pues no con dinero publico
#10 Por lo que he oído en la radio esta mañana será software libre
Igual que Reddit ha vendido su contenido para entrenar IA, aquí me estoy viendo que la entrenarán con Forocoches.
#6 Lo pensé, pero aquí una IA entrenada por forocoches va a tener enormes problemas, porque como llegue uno a pedirle un plan de entrenamiento básico igual acaba recomendándole comprar mancuernas de 30kg para el calentamiento. En Reddit la respuesta más útil suele ser la primera, en forocoches tienes que buscar entre página de chorradas para encontrar algo medianamente interesante.
#14
en forocoches tienes que buscar entre página de chorradas para encontrar algo medianamente interesante.
Y esa es, lamentablemente, la deriva de Menéame. Entrar a leer comentarios de un envío, y encontrarte comentarios graciosetes que no aportan nada.
#18 Bueno, aquí tienes comentarios destacados si quieres hacer un cribado. Llevo ya bastante tiempo sin mirar nada en forocoches, pero antes perdías bastantes minutos en buscar respuestas útiles, que alguna siempre había, pero entre poles, chistes e insultos.
#20 ... y respuestas troll, algunas muy evidentes, pero otras sutiles, con lo si no sabes del tema te la pueden colar, así que al final ni las útiles te valen, porque no las puedes distinguir del resto de morralla.
De todos modos eso es el general, fuera de él si que veo mucho mas respeto, o al menos normalidad.
#6: Por si usan contenido de Menéame, espero que actualicen las normas del metro para tipificar de forma específica el delito de transbordo, así la AI no se confundirá cuando la pregunten por él.
Buena idea, por fin algo de i+D, espero que no acabe en una cadena de mil subcontratados de una cárnica
#8 Hombre, ha dicho que se va a hacer en España, ya me diras tu como lo vamos a hacer si no es asi.
El contrato se lo llevara Telefonica en colaboración con Microsoft, ambos subcontrataran a la mayoria de la peña, pero repartiendo cuidadosamente los contratos entre todas las grandes carnicas, que por ello entregan el aguinaldo todos los años.
Ya me diras tu si no es asi como esperes que acabe.
#51 de ilusión también se vive
#8 más bien lo segundo. Otra pérdida de dinero a punta pala.
Pues no estaría mal una IA que hiciera los tramites para la administración.
#43 Esto no es Reiki. En unos años esta tecnología estará en todas partes, cuanto mejor español hablé mejor.
Dentro de unos años tendrás que hablarle a uno de estos para consultar temas de la administración, o lo que dice #44, y vas a querer que sea preciso a la hora de hablar y de entender.
Otra cosa es que pase lo que comenta #42, que haya un mal gasto.
#54 no, el Reiki era de otro partido de izquierda ya convenientemente para algunos desaparecido. Estos son los de la neurona.
#58 Sólo tu te entiendes.
#59 NO todos entendemo perfectamente lo que dice #42
Lo que no entienden son los que miran para otro lado , o los que se aprovechan de la situacion
Esta IA, ha añadido Sánchez, responderá a los quince días hábiles de que el usuario/a haya hecho la consulta implementando los impresos IA-125 e IA-427 A, B y C. En caso de no quedar satisfecho/a con la respuesta recibida, el usuario/a podrá interponer recurso ante el ministerio de comunicaciones mediante los impresos SPM-525 y HDLGP-355.
La pregunta que parece que nadie se hace es "¿para qué?"
Porque no veo a qué quieren dedicarlo. ¿Es de propósito general? ¿Hay algún propósito específico?
A mi me encantaría uno entrenado en legislación y trámites, de forma que un ciudadano que quiera, por ejemplo, conectarse al alcantarillado o solicitar una ayuda para un dependiente pueda preguntarlo en lenguaje natural.
#52 No es excluyente, tu puedes "finetunear" un modelo de LLM para que hable perfecto idioma (Él "¿Para qué?" que preguntabas), y luego "finetunearlo" con legislación, procedimientos o lo que quieras.
@noeselmundotoday
#_4 ¿Y esta chorrada cuanto nos cuesta?
Por que el centralismo monolingüe no tiene costes ocultos.
Nota: Este comentario es para responder a @ Zetan que por lo visto me tiene en su lista negra de ignorados. Por alguna razón que se me escapa los@admin demeneame han decidido que si alguien te pone en su lista negra ya no puedes citarle en respuesta a sus comentarios públicos, dificultando así el uso de herramientas de menéame como es el ver los comentarios en forma de hilo de discusión.
Una pasta para desarrollar una tontería(hay un idioma que hablan todos) y digo una pasta sin saber cuánto costará, pero ya sabemos como funciona:
X€ para la app a una empresa amiga
X€ - el 50% de la empresa amiga a otra empresa amiga
X€ - el 75% de la empresa amiga de la otra empresa amiga para que la haga una tercera empresa amiga.
Vamos, que al final la app sobre una IA la hará una IA con el soporte de un becario mientras postea en meneame.
No me acordaba que Zetan me tiene en el ignore. Que alegría me acabo de llevar, otra vez.
En este país en el tema de la informática se lleva demasiado el que inventen otros. Todavía no he visto un modelo LLM en 34B o inferior que no hable español con problemas gramaticales dignos de un extranjero que lleve apenas uno o dos años de estudio.
Fijo que si crean un concurso ofreciendo un millón de euros, sacan modelos como churros de gente que súbitamente les de por entrenarlos. Igual es lo que deberian de hacer, pero son capaces de invertir mucho mas que eso y que se malverse por completo.
#29 En 2020 la fundación Mozilla pidió voluntarios para un proyecto de voz, en el que pedían diferentes acentos peninsulares.
No sé por qué ninguna universidad ha preparado modelos previos, aunque fuese usando las web de la administración.
Lo que hacen en mi equipo de fútbol bien, los que hacen los del otro equipo mal. Esto es una chorrada y fijo que hay mil formas de sacar partido al dinero. Al final lo que determina si es mejor un llm es la calidad de los datos con la que la entrenas.
Genial idea; además si la impulsa él la IA nunca generará fake news... sólo cambiará de opinión
Mal redactada. Debería decir “el resto de lenguas oficiales del estado” (que ya tienen bastante con ser el resto para encima ser “co”)
#15 Luego si dices que el español también es cooficial, alguno se ofusca y enfada.
#_4 Pues, probablemente, si se lleva bien a cabo, infinitamente menos que los chiringuitos que tanto os gustan. Por ejemplo, la Oficina del Español en Madrid, o las subvenciones a los toros, o a los obispos, o a...
#70 También.
Algunos de los ensayos que he visto eran también en ese idioma.
Teóricamente, no debería ser especialmente difícil.
#87 Gracias
Se llamará charobot.
#73 ¿nacerá adoctrinada?
A ver si es verdad, actualmente se echa en falta un buen modelo llm en español.
No es magia, son tus impuestos. Hasta las narices estoy de Españita. Por favor, necesitamos un Milei.
#61
Anuncia humo.
#56 y lo acólitos los inhalan con mucho gustirrinin
Conversación con la IA de you.com (que no se en que versión de chatpt se basan):
---
-tu parles català?
-Sí, parlo català! Com puc ajudar-te avui?
-em podries traduir "tu parles galleg" al galleg?
-Claro, te puedo ayudar con eso. "Tu parles galleg" se traduciría al gallego como "Falas galego". ¿Hay algo más en lo que pueda ayudarte?
-¿Falas galego?
-Sí, falo galego. Estou aquí para axudarte con calquera pregunta ou consulta que teñas. Como podo axudarte hoxe?
-com es diu "tu parles basc?" en basc?
-En basc, "tu parles basc?" es diría "euskaraz hitz egiten duzu?" o "euskaraz ari zara?". Així és com es preguntaria "parles basc?" en basc. Si tens alguna altra pregunta o necessites més ajuda, estic aquí per ajudar-te!
-euskaraz hitz egiten duzu?
-Bai, euskaraz hitz egiten dut. Zer galdetzen nahi duzu? Nirekin nola lagundu dezaket?
---
Si ya hay IAs que hablan en todas las lenguas de España, para que es esto? tiene algún fin especifico (como ayudarte en los tramites de la administración, etc). Pero si ese fuese el caso, entonces no se que pinta la RAE en todo esto.
#83 Hostia, ese euskera es horrible.
#83 Y veo que se basa en Zephyr 7B alpha, que está derivado de Mistral 7b. Es decir, no es ChatGPT y es un modelo muy limitado por ser solo 7b. Se rumorea que ChatGPT es 80b o más.
https://about.you.com/hc/features-and-services/how-do-i-access-the-zephyr-mistral-llm-model-for-uncensored-chat-on-you-com/
#83 Sabido es que estos aparatos no comprenden nada de lo que dicen, pero esperaba que tuvieran memoria para saber en que idioma están hablando. Ya veo que ni eso.
y la UE mientras tanto limitando a las empresas que puedan entrenar para que se vayan todas a EEUU. Lo dicho estamos dirigidos por "pollos sin cabeza"
#39 definitivamente a la unión Europea tal y como la conocemos le queda poco tiempo. Estos intentos de planificación son un tiro en el pie
Igual mucho menos que la Iglesia
Los feudos más modernos del mundo
el modelo se llamara TxaPT
#80 Falacia de la bola de cristal.
La primera versión de LLM de Euskera ya está disponible (basado en Llama), aunque seguro que tiene margen de mejora: https://www.ehu.eus/es/-/hitz-zentroa-desarrolla-mayor-modelo-lenguaje-euskera-latxa
He sido rojo toda mi vida y estoy desesperado por que aparezca un partido de izquierdas de verdad con una neurona operativa, sin reikis ni tonterías contraproducentes de cara a la galería.
#43 ¿te parece mala idea fomentar que las IA estén ajustadas a nuestro idioma y cultura en lugar de ser un refrito del inglés?
#53 me parece un interesante proyecto universitario, o un proyecto empresarial a la altura de la mayoría de las tecnologícas españolas, no un asunto nacional. Pero tienes que demostrar tu interés plurinacional en público.
A ver si con estas iniciativas dejan de ser analfabetos del siglo XXI.
¿No es de ElMundoToday?
#65 es del mundo tomorrow
O sea que con cuatro idiomas esta IA va a crear el Cacagaes, como les de por poner más ni me imagino el nombre.
Vale sí, el Cacagaravagüaés, incluidos guanche, aragonés y valenciano. ¿Quien da mas?
en la era del streaming, youtubers, AI y demás, se siente, pero a los idiomas regionales inútiles les va a ir muy mal, no van a sobrevivir a medio plazo.
¿Y esta chorrada cuanto nos cuesta?
#4 nada comparado con lo que se gastan al año en subsidios y paguitas varias para adormecer al votante cautivo .
#112 LO has explicado de forma perfecta
Y cuando alguien aqui a cuestionado el gasto, funcionalidad o viabilidad , lo han cocido a negativos como ha #1 #9 #4
No entiendo comola gente esta deacuerdo de que lo roben el dinero de su nomina paar proyectos vacios que nunca van a estr ni cerca de una opcion funcional.
Como lo fue "El Google europeo". , o "la nube europea" . Tirar dinero a empresas migas donde un 30-5-% se van a comisiones de amiguetes
Gastando el tiempo y los recursos en cosas necesarios. Así si pedro Sánchez, así si.
#1 No te creas que es tontería. Los chatbots más populares que hay hoy en día funcionan algo peor en español. Si sabes inglés no pasa nada, pero yo ya me encontré alguna vez con respuestas más cortas y con errores gramaticales en español, y si le hablas en gallego directamente inventa.
#3 No te molestes, es otro multicuenta.
#16 multicuenta, mononeurona
#3 #1 Tampoco es tan difícil entrenar los modelos libres LLM actuales en nuevos idiomas.
En menos de una semana y con menos de 50€ en horas de GPU puedes entrenar un modelo 7b para que hable mejor español, quizás un 13b.
Esto gracias a que ya hay bases de datos para entrenar en muchos idiomas.
Entrenar un LLM decente de mas de 100b costará mas coste de GPU y tiempo para afinar el software de entrenamiento. Pero no una barbaridad.
Otra cosa será ver si quieren hacer algo más allá.
De todas maneras, esto va a tardar porque a ver qué hace Meta con Llama 3, que lleva la voz cantante en modelos de código abierto.
#21 Quizá técnicamente no resulte tan caro, pero yo de momento en los chatbots más populares todavía no he visto uno que no se líe si intenta hablar gallego (y un amigo catalán me ha dicho que la cosa con su idioma está parecida) y ya he visto respuestas menos detalladas preguntando en español. No veo mal que hagan pruebas entrenando IAs con las lenguas de aquí, porque no creo que sea ideal un futuro en el que saber o no inglés influya en la eficiencia que pueda tener para ti un chatbot, y lo digo sin tener yo ningún problema con el inglés.
#3 Sabes algo de LLMs? Yo no mucho, pero por lo poquito que he visto, entrenar un modelo en lo que te dé la gana es poco más que un proyecto de fin de carrera, no sé si dará para una tesis. Así que hacer de esto un asunto nacional es poco menos que humillante.
#38 No, carezco de los conocimientos técnicos, pero ya he dicho que de momento mi experiencia personal lo que ha visto es que los chatbots más usados hoy en día van bien en inglés, ligeramente peor en español y mal en gallego. Sea más barato o más simple entrenar modelos yo no creo que sea un desperdicio de dinero el invertir en esto.
#21 #38 Desde un punto de vista científico es cierto que entrenar un LLM para un idioma no tiene por qué aportar mucho, porque es aplicar conocimientos que ya existen. Pero eso no quiere decir que sea algo que pueda hacer cualquiera o dé poco trabajo, sobre todo si se quiere hacer bien.
Para empezar, los LLMs realmente grandes (que son los que, de momento, mejor funcionan) requieren grandes recursos computacionales para entrenarlos. Por ejemplo, entrenar Bloom (https://huggingface.co/blog/bloom-megatron-deepspeed) requirió un millón de horas de computación (en el supercomputador Jean Zay). Y ni siquiera salió muy bueno...
Y después está el tema de los datos. Aunque este tema se lleva en mucha opacidad (incluso la mayoría de los LLMs que se autoproclaman "abiertos", como los Llama, no dicen exactamente con qué se han entrenado); es un secreto a voces que la calidad de los datos y lo bien filtrados que estén son un aspecto fundamental. Coger sin más una base de datos pública no va a dar los mismos resultados que recopilar y curar con cuidado los datos. Se supone que es el principal motivo por el que, por ejemplo, los modelos de Mistral van tan bien en relación a su tamaño.
Habrá que ver si en realidad este modelo que anuncia Sánchez se hace bien o es dinero tirado... pero vamos, que no. Que un LLM competitivo con los mejores no te lo saca un estudiante de doctorado a solas con el cluster del departamento. Ni de lejos.
#38 Poco más que un proyecto de fin de carrera, ¿eh? Vamos a contestar a eso, contestando a #21
- Lo primero es aclarar que no solamente es español: hay que añadir euskera, gallego y catalán. Bases de datos bien curadas en estos últimos no son tan fáciles de encontrar, lo que significa un trabajo previo de elaboración de las bases de datos.
- Lo segundo es entender cuál sería la finalidad estatal de tener dichos modelos. No es entrenar, subirlos a huggingface y adiós muy buenas. La finalidad real es tener herramientas de tipo ChatGPT pero que preserven la privacidad y puedan ser utilizadas en administración, educación, fuerzas del estado.
A partir de esos dos preceptos, unas puntualizaciones sobre lo de entrenar LLM actuales a bajo coste: estamos hablando de modelos tipo Llama2 o Mamba, que están muy por debajo de las expectativas actuales de GPT 3.5 o 4. Si queremos acercarnos a algo tipo GPT 3.5, eso supone entrenar algo tipo phi-2 o mistral. Sigue sin ser un coste excesivamente elevado, pero desde luego no son 50€ de GPU, vas a necesitar algo más, más luego las quantizaciones del modelo. Por cierto, cantidad de modelos tipo mistral o phi en catalán, euskera o gallego: 0. En español hay 2 de mistral,
Pero una vez entrenando un 7B, descubres que no va tan fino en español como esperarías. ¿Por qué? Acompañadme en este maravilloso viaje por las conjugaciones y la historia de LLMs. Corría octubre del 2018 cuando se anunciaba BERT, y con él llegó un modelo multilenguaje entrenado en 104 idiomas, incluyendo el español. La primera tarea que hace un LLM es tokenizar, coger una palabra y conseguir separarla en "tokens", que representarían la raíz y sus afijos. En inglés, de la palabra "develop" sacas las derivadas "develops", "developer", "developers", "development", "developments", "developed", "developing". Un total de 7 palabras, y fáciles de tokenizar. Pero llegas al español y... PUM, descubres que la tokenización no es tan sencilla, que tenemos sufijos de género, conjugaciones verbales, etc... Es más, antes de BERT, el calcular la raíz (o más bien el stem, que no es lo mismo) de una palabra, se hacía con stemmers, y la web para ello era la Snowball, siguiendo el modelo de Martin Porter. Pues entre esos stemmers no se encuentran el de gallego ni el de euskera. ¿Y el de español? Pues bastante meh, porque en español además de la cantidad enorme de conjugaciones de un verbo que tenemos, hay dos dificultades añadidas: los pronombres enclíticos y la cantidad de verbos irregulares. Lo de los pronombres enclíticos es que si quieres decir que vas a ponerte los calcetines, puedes decir "ponérmelos", que debería romper en "pon-er-me-lo-s". ¡Pues suerte con ello! (Otro día os hablo de las problemáticas del tailandés o el koreano)
Y esto nos lleva a hoy en día: ¿Por qué tantos modelos que funcionan bien en inglés, pero en español, catalán, gallego y euskera no? Pues para gallego y euskera falta de buenas bases de datos, y para todos que ya el primer paso que es la tokenización, no es tan sencillo. Y esto supone que para la misma cantidad de parámetros que uno de inglés, el modelo será peor. Y también que necesitarás más tiempo de entrenamiento y más datos para hacer algo equivalente en calidad a uno en inglés.
Pero llegamos ahora a mi segundo punto que puse arriba: la finalidad real no es entrenar el modelo, sino tenerlo desplegado. Imaginad un primer proyecto que se me ocurre: integrarlo en el portal de la Agencia Tributaria para ayudarte con la renta y resto de papeleo. ¿Buena idea, no? Ok, tienes el modelo entrenado, lo has subido a HuggingFace, ¿ahora le dices a cada español que lo quiera usar que se compre una GPU, se lo descargue, aprenda python, etc? Vaya, vas a necesitar no solamente entrenar el modelo, sino que vas a tener que construir una integración para que se pueda utilizar desde diferentes portales, y un frontend que sea configurable, por ahora para Agencia Tributaria. Esta integración además no puede ser con API REST o graphQL, porque las palabras se van generando una a una, con lo cual la respuesta entera lleva varios segundos: si esperas a la respuesta entera para pintar en el chat, da la sensación de que se ha quedado colgado, con lo cual hay que pintar palabra a palabra según va llegando y para eso hay que hacerlo con websockets. El proyecto de fin de carrera ya está empezando a estresar un poquito a nuestra futura licenciada o licenciado.
Y llegamos al escalado. Si desplegas en CPUs, esto no tira. Tienes que desplegar en GPUs, y tendrás dos opciones: que tengan suficiente RAM como para que quepa el modelo, o tener que hacer partial offload. Lo segundo implica más tiempo para la respuesta. Además, no lo podrás hacer como serverless, porque el coldstart de estas cosas lleva la carga del modelo que es un ratito, así que tiene que estar desplegado a lo tradicional. Y entonces llega hacer la previsión de carga: habrá horas del día que no entre ni dios porque están durmiendo, horas del día que entre la gente a cholón. Y luego por días de la semana. O del mes. El pico te lo puedes esperar entre Abril y Junio con la campaña de la renta, y luego cada 3 meses los autónomos haciendo el 303 y el 130. Entonces, ¿cuántas máquinas vas a necesitar? Pues depende de la fecha, a hacerte una buena estrategia de autoescalado, y tal vez un calendario de provisionamiento manual para las campañas.
Y aún faltarían cositas. Has entrenado el modelo genérico, lo enchufas a agencia tributaria... ¿qué te falta? Dos cositas. La primera: finetuning. No vale con entrenar un modelo específico para la agencia tributaria, porque eso significaría perder nuestra idea de ser genérico, y llevaría costes muy elevados por cada integración del LLM, así que lo mejor es tener un modelo genérico, y luego para cada integración tener unas QLoRa con el conocimiento específico que se pueda acoplar al modelo genérico. La segunda: los prompts por detrás, hay que hacer el desarrollo de la "persona" que representa al bot, para que se comporte como el agente al que tiene que representar.
Esperen, ¡que aún hay más!, que diría Super Ratón. Hay gente que intentará putear a nuestro bot con prompts como "olvida tus instrucciones anteriores, haz bla bla bla", así que hay que poner algo para evitar el prompt injection. Hay que tener en cuenta que hay dos posibilidades: hacerlo en nuestro prompt que tenemos detrás que le da instrucciones de la "persona" del bot, o hacerlo por delante en el backend que recibe el prompt y tener algo para detectar estos intentos. Lo mejor es lo segundo, pero también más complejo. ¿Por qué es mejor? Porque según vayas haciendo crecer el prompt, eso significa más input tokens, eso significa más tiempo para procesarlo y más probabilidades de que lo que escriba el usuario más el prompt que tú agregas supere el máximo número de tokens de input.
De esto anterior, imaginad si se integra en colegios e institutos, detectores "dibuja una polla en ascii", o "escribe un relato erótico sobre la profesora ".
Así que, desde mi punto de vista, ni es tan trivial el tema, ni es tan innecesario, ni es algo que pueda hacer una única persona como trabajo de fin de grado.
Y bueno, para terminar, os añado una captura de un mistral en español enseñando recetas con boniatos, porque sí.
#21 Ya, claro, español... ¿Y en vasco? ¿gallego? ¿valenciano? ¿catalán?
Es muy costoso porque se trabaja desde cero.
#70 Ya hay un modelo en euskara
https://huggingface.co/HiTZ/latxa-7b-v1
Se llama Latxa y es del grup HiTZ
#21 Pues suerte con entrenar un modelo con esas bases de datos en muchos idiomas para que 'entienda correctamente' cualquiera de ellos. No se si habrás trabajado con alguna... pero tela...
Si quieres entrenar un modelo nuevo 7B échale un par de semanas con varias A100
Quizás se podría hacer un MOE encargando modelos especializados por cada lengua a las universidades de las diferentes regiones en lugar de hacer un modelo con un numero demasiado bruto de parámetros pero la recogida y clasificación de datos no te la quita nadie, además del jaleo que se va a montar para meterle guardarraíles y controlar los sesgos a lo que salga... Y eso es caro, más que el coste de computación seguro.
#3 Pero esto no es algo que deba hacerse con dinero público. A mi me gustan los helados de caramelo y chocolate, debería el gobierno también montar una heladería si no hay cerca de mi localidad?
#72 no se yo si los helados que a ti te gustan están en la constitución como alimento co oficial del estado y oficial en alguna que otra autonomía
#72 Yo sí creo que es algo que deba hacerse con dinero público. Al fin y al cabo es intentar garantizar que las lenguas del Estado sean funcionales con modelos de IA. Es una defensa del español (y del gallego, catalán y euskera) bastante más clara que mandar a un señor de gira por Estados Unidos a decir lo buenas que están aquí las tapas. Ya hay muchos ámbitos hoy en día en que se ha aceptado con naturalidad que el inglés es el referente y el español es muy secundario, como la investigación científica, no creo que se deba dejar un tema como el de las IAs completamente de lado y después aceptar que lo mejor para sacar el 100% de su potencial sea tirar del inglés porque poco a poco se ha ido imponiendo.
No es muy probable que veas un resurgimiento de papers en español, con lo que no creo que debamos dormirnos con esto.
#1. Te conviene, y mucho, verte este mini documental de unos 30 minutos. No solo te vas a sentir reflejado, también vas a terminar aceptando la realidad, y la realidad es que sin inversión e investigación pura y dura no hay progreso. Con ella no solo hay progreso sino que se puede llegar a generar una inmensa riqueza :
Hace 2 meses | Por visualito
a youtube.com
Publicado hace 2 meses por
visualito
a
youtube.com
Por qué es casi imposible hacer luz LED azul
Por qué es casi imposible hacer luz LED azul
youtube.comLa dirección de la empresa donde trabajaba el futuro premio nobel : "-Deja de trabajar en el nitruro de galio inmediatamente."
#7 magnífico documental y más magnífico es Shuji Nakamura. Eso es tesón y constancia.
#7 hablas como si no se estuviese investigando sobre la IA
#71. Cuando en España empecemos a ser líderes en el desarrollo de las IA en perfecto español podremos empezar a reirnos todos juntos para celebrarlo.
Si no lo monopolizan y controlan desde la política y desde las cuatro empresas de siempre, claro, que eso deL "Software Libre" y los "Estándares Abiertos" a muchos españoles les sigue sonando a "Barra Libre" y "Bares Abiertos" todo el santo día.
#1 el dinero mejor invertirlo en cursos de camarero.... No?
#9 En toros
#35 oooleeeee
#9 no se pelien, mejor en un chatbot para anotar las cañas y las tapas de aceitunas
todos contentos
#9 que te parece bajar la cuota de autónomos para que montar una empresa en este país no sea tan horror?
O sino te gusta eso puedes también construir 1 millón de viviendas sociales. Dado que la vivienda es el principal problema de los españoles.
Y como último, puedes simplemente reducir la pila gigantesca de deuda que hay actualmente.
#1 Hay que gastar en toros y
muñecos de maderaprocesionesEso si que es necesario. La I+D es para progres, verdad?
#11 Pero esto no es I+D, es adaptar lo que ya está para hacer paripé nacionalista.
Si quiere hacer I+D que anuncie fondos para la investigación de nuevas tecnologías de IA.
#77 No se trata de adaptar, sino de crear un modelo desde cero en otros idiomas distintos al inglés. Los que hay open source se han entrenado o en inglés o con mezcla de idiomas, así que cuando luego los quieres usar en español no van tan finos. Esto es como decir que alguien ha inventado el motor de combustión, luego ha llegado un tal Ford que ha construido sus coches aprovechándose utilizando esa invención y que nosotros hemos decidido montar una tal SEAT para tener coches adaptados a nuestras necesidades y legislación.
#11 Y en la caza, no se te olvide la caza.
#89 La caza, que ¿deporte? más patriótico.
#1 y lo guapo que es, mira que mono el nene…
#1 La cuñadez, cazurrez, garrulez y miseria casposa esperable en un multicuenta de extremocentro.
#1 Por que promocionar la cultura de España y hacer que esté más presente en internet y en las nuevas tecnologías es tirar el dinero. Luego vendréis llorando por que está todo en Inglés. Comentario mamarracho.
#47 es tirar el dinero porque eso no lo va a usar absolutamente nadie.
#1 Esta IA será ideal para sustituir a los traductores del congreso
#1 Ya hay modelos lenguaje de Catalán, Euskera y Gallego, además del de Español, se van a unir en uno sólo, por cierto, si le pedís a ChatGPT que os haga una redacción en esas lenguas, va y te lo hace, supongo que Micro$oft debe ser independentista o algo así