Portada
mis comunidades
otras secciones
La líder de Podemos, Ione Belarra, ha mostrado su "solidaridad y empatía" con el presidente del Gobierno, Pedro Sánchez, tras anunciar esta tarde que reflexionará hasta el lunes sobre si continúa o renuncia al cargo, al remarcar que su partido "sabe bien qué significa el 'lawfare'". Eso sí, ha lanzado que debían haberle parado los pies la práctica de la guerra judicial y "persecución mediática" cuando "acosaron" al exvicepresidente Pablo Iglesias y a una exministra del Gobierno, en referencia a Irene Montero "en su propia casa".
La Comunidad eleva la cuantía total de 50,6 millones a 67,3, y aumenta lo que recibe cada familia a entre 1.947 y 3.113 euros anuales
Son plastiglomerados, compuestos por fragmentos de plástico y residuos orgánicos, y se extienden como una enfermedad. Los geólogos trazan su origen en Hawái, pero ya se encuentran por todas las costas del mundo. Once mil millones de toneladas de plástico se acumulan a pesar de las restricciones de los últimos años. La próxima vez que recoja o juegue con una piedra en la playa, podría estar haciéndolo con restos de basura. Playa Kamilo, en la isla de Hawái, era un paraíso. Aislada, pequeña y lejos de las carreteras asfaltadas, se convirtió en un
.@manuelrico: "Puede parecer fuerte, pero en España y no solo en España, llevamos asistiendo desde hace años a un golpe de Estado suave y se lidera desde determinadas togas"
Los cuadricópteros israelíes están empleando una nueva táctica consistente en reproducir grabaciones de audio de bebés y mujeres llorando para atraer a los palestinos a lugares donde puedan ser atacados. El domingo y el lunes por la noche, los residentes de las zonas septentrionales del campo de refugiados de Nuseirat, en Gaza, se despertaron con el sonido del llanto de bebés y de mujeres que pedían ayuda. Cuando salieron para localizar el origen de los llantos y prestar ayuda, los cuadricópteros israelíes abrieron fuego contra ellos.
Gideon Levy es un premiado periodista y escritor israelí. Nacido en el corazón de Europa, sus abuelos fueron asesinados durante el Holocausto y él tuvo que huir de los nazis
¿Por qué Lola Índigo no tiene acento andaluz? Respuesta corta: por glotofobia
Cómo es posible que para tener subvenciones tengas que tener un mínimo de dinero?
Lo puse en otra noticia:
- subvención para comprar coche eléctrico (debes tener un garaje),
- para cambiar las ventanas (debes cambiarlas todas para mejora la eficiencia energética),
- para comprarte tu primera casa (debes tener dinero para comprarte una casa).
Y encima los ricos se quejan de que los pobres no hacemos más que vivir de subvenciones.
Ya en la propia familia los individuos que son pobres son unos apestados , son vistos por el resto de la familia como culpables de su situación, los demás con un sueldo o con posibles no ven más allá.
¿En qué nos estamos convirtiendo?
#11 Entiendo que si alguien pide ayuda para comprar un coche es porque no le llega para ello. Entonces, si por tu cuenta no tienes para comprarte un coche, ¿Cómo te vas a poder pagar un garage?
Entendería que se questionase la necesidad real de tener vehículo para decidir si se da o no la ayuda, pero lo del garaje, en el momento en que estamos, en que debería haber más puntos de carga para vehículos eléctricos que gasolineras tradicionales, pues no tiene mucho sentido. Sólo hay que ver cómo son las cosas en otros países de la Unión Europea para darse cuenta de que en España no hay verdadera voluntad de pasar al vehículo eléctrico.
Estamos muy atrás en cuanto a cantidad, calidad y variedad de puntos de carga, y si queremos una verdadera eficiencia energética, quizás sea mejor concentrar en determinados puntos y determinadas horas las cargas, lo que te da un mayor control sobre la eficiencia mínima, que pretender que en cada hogar del país, todas las noches, haya dos o más vehículos cargando, lo que complicaría mucho el control, seguimiento y normalización de la eficiencia a nivel nacional.
En definitiva, veo bien que se mejore la ayuda en caso de que haya carga en casa siempre que cumpla con unos mínimos de eficiencia, consumo y horarios, y/o que sea en una zona con poca densidad de puntos de carga eficientes y efectivos, pero no que sea condición sine qua non para conseguir la ayuda.
#7 en una sociedad de individualistas que sólo miran su ombligo: todos somos especiales, todos tenemos que destacar en algo, pertenecer a una tribu, tener algo importante, porque todos valemos mucho. Mientras la gente se centra en ser especial, no se centra en la solidaridad, en la empatía (solo empatía hacia los de tu especialidad), mientras yo pueda con lo mío me da igual lo otro. Y luego lloramos, tanto por el sorbimiento de coco en el que hemos caído, como por no haber luchado por las cosas importantes de verdad. Vamos, que nos vamos a la puta mierda.
#7 #47 ¿Te acuerdas de esos sketches donde va un grupo de personas empiezan a discutir y de repente el grupo no existe porque van todos por su lado? En eso. Estamos dejando de existir como sociedad porque somos cada dia mas antisociales.
Mientras, los poderosos que saben que el individualismo solo sirve para multiplicar el poder de sus botas estan aplaudiendo tan fuerte que alzan el vuelo con las orejas.
#47 Perdona pero habla por ti, la sociedad es individualista desde el momento en el que se rechaza cualquier movimiento que ayude a la población en general. Cuando se intentan tirar hacia adelante ciertas iniciativas ciudadanas siempre se acaba de la misma manera: estos rojos quieren vivir de paguitas, quieren que les regalen un piso en la Gran Vía, quieren vivir sin trabajar de mi... Cuando no son conscientes de que esos movimientos también les favorecen.
#7 la nueva libertad. Eres libre si lo puedes pagar.
#10 Desde luego, la tontuna y la ignorancia se ha apoderado de vosotros....
Ni Ayuso, ni Rodríguez, ni Feijóo, ni Ábalos ni Turull han prestado la más mínima atención a esa parte fundamental del conocimiento que, entre otras cosas, exige un respeto absoluto por la verdad y un amor sincero hacia el país y quienes lo habitan. La mentira es incompatible con el conocimiento histórico, el desconocimiento histórico y su manipulación están en la raíz de la generación de odio, algo que debería estar totalmente desterrado del lenguaje político. Cuando se habla desde la ignorancia, se presume que los oyentes también lo son...
Las facturas falsas presentadas a Hacienda por Alberto González Amador, la pareja de Isabel Díaz Ayuso, trataron de camuflar los beneficios de estas comisiones millonarias por vender mascarillas a proveedores de la administración en los peores meses de la pandemia.
El derribo de una presa de varios siglos de antigüedad en el río Nivelle, Francia, a pocos kilómetros de la frontera, ha permitido al salmón atlántico llegar a zonas de Navarra en las que no había registros. La presa, de 5m de altura, ya existía en 1775 y hasta principios del siglo XX se usaba para un molino de harina. Con apoyo financiero del proyecto europeo Open Rivers, fue demolida en verano de 2023 y a finales de diciembre media decena de salmones llegaron a la zona de Urdax (Navarra) para desovar por primera vez desde que hay registros.
Desde hace unas semanas veo como los administradores de Menéame borran noticias y penalizan con bajadas de karma a usuarios según ellos por violar las normas de uso dando la casualidad que todas están relacionadas con el genocidio en Palestina. He leído unas cuantas veces dichas normas y no veo donde está dicha violación. Si alguien la ve que comente, leeré los comentarios con atención. [editado por admin] Un saludo a todos.
Personal médico palestino en Gaza le contó a la BBC que las tropas israelíes les vendaron los ojos, los detuvieron, les obligaron a quitarse la ropa y les golpearon repetidamente después de una redada llevada a cabo en el hospital Nasser el mes pasado. Uno de ellos, Ahmed Abu Sabha, describió cómo estuvo detenido durante una semana, en la que -según dijo- lo trataron de amedrentar con perros con bozal y un soldado israelí le rompió la mano. Su relato coincide con el de otros dos médicos que quisieron permanecer en el anonimato por temor a repre
#2 No es que no sorprenda, es que es uno de los peores tostones que he visto en mucho tiempo. Una película aburrida, con exceso de primeros planos y conversaciones absurdas solo por sacar las caritas de los protagonistas. Una pena de adaptación.
#13 Anda y que te den por el culo. Das asco.
#61 Lo hace a diario quien yo amo. Y nadie me va a tirar desde un edificio al vacío ni me va a colgar de una grúa por ello. Yo te veo con odio como para apoyar a quien si lo haría.
Miles de palestinos acuden en masa a las costas de Gaza en un intento de recuperar los paquetes de ayuda arrojados por el ejército jordano, que realizó múltiples lanzamientos aéreos de alimentos a lo largo de las zonas costeras.
#5 Aquí mismo ya tienes unos cuantos, que se acaban de bajar de los árboles, soltando sus cuñadeces y garruladasy demostrando una vez más que están absolutamente orgullosos de su más supina ignorancia.
#81 el día que te des cuenta que el mundo no se divide en izquierda o derecha...
#84 el mundo no se en qué se divide . Pero que la derecha se opone a cualquier avance pasa aquí y en Sebastopol
#88 ya, se puede criticar esta medida absurda y al mismo tiempo no apoyar las ideas de VOX.
Porque el mundo no es binario.
#101 absurda la ve la gente que tiene miedo al progreso. A lo diferente.
Qué podamos usar un avance de la tecnología en algo que afecta a esos idiomas malvados de los nacionalistas da pavor a la derecha.
#5 avance en qué?
La mayoría de IAs actuales (Chatgpt, Bard, etc...) ya tienen soporte para el castellano.
Lo que quiere hacer Sánchez es un refrito barato que nadie usará. Peor eso sí, algún amiguito cobrará su dinero.
#124 claro claro.
Primero que la administración no tiene fama de hacer proyectos opensource.
Segundo que aunque les diera. Sería una gota de agua entre miles de otros proyectos opensource.
La administración carece de la motivación y del personal para meterse en estas aventuras.
#130 Pues nada, dejemos que sean Meta, Google y OpenAI quienes lo hagan todo y sigamos dependiendo completamente de su "buena voluntad" para este tipo de cosas. Cuando luego lo hagan en Alemania o en Francia vendremos con los lloros de que aquí en España no se apuesta por I+D. Así que mejor destinamos ese dinero a potenciar el turismo en este país, que se nos da de fábula ese tipo de cosas
#142 quieres un pais con un tejido industrial rico? Bien, te doy sugerencias de como invertir el dinero:
- Solucionar los atascos en la justicia. No da mucha tranquilidad invertir en un pais donde los procesos judiciales tardan año en resolverse.
- Reformar el sistema de autonomos y de las SL, de forma que no sea la carga tan grande a aquellos que quieren emprender.
- Construir vivienda social ya que es uno de los principales problemas de los españoles. Para que vea que te pongo medidas socialdemocratas tambien.
- En ultima, reducir la gigantesca deuda que tenemos y que va a explotar en cualquier momento.
Cualquiera de estas inversiones seria muchisimo mas util y daria mas frutos que esta patuchada. Patuchada que en 3-5 años se acabara cerrando y demostrara que solo era una excusa para robar dinero publico.
#64 La IA se viene usando para traducir del euskara al castellano y viceversa desde hace bastante tiempo: https://elia.eus/traductor
#127 y el 99% de la gente sigue usando Google translate
#139 Sobre pagar GPT4: hay dos formas de usar OpenAI, como usuario o como empresa montando una instancia privada. En la primera, los datos que introducen los usuarios pueden ser usados para reentreno de siguientes versiones. La sorpresa que se llevaron varias empresas cuando sus estrategias comerciales confidenciales estaban en gpt4 porque las habían usado en gpt 3.5 como usuarios. Volviendo a mí ejemplo de agencia tributaria, qué te parecería que tu declaración de la renta esté disponible en gpt5?
Cómo instancia privada, tengo mis reservas de que se pueda como entidad gubernamental y no como empresa, y dónde se alojarán los datos en tránsito y en persistencia... GDPR y esas cosas, ya sabes.
Y está el tema costes: se paga un precio por los tokens de input y otro por los de output. El input puede ser enorme porque el prompt que se añade suele ser grande, y porque va creciendo con la conversación para mantener el contexto.
Sobre lo de que aprende las lenguas romances rápido porque ya sabe castellano o italiano, no funciona así. No sé entrenan los lenguajes por separado en modelos multilenguaje. Y el problema al entrenar tu propio modelo es que puede que openai tenga unos datos buenos buenos para entrenar, pero ¿Tú ves que los comparta? Tendrán mucho de AI, pero poco de Open.
Por no hablar de que "si ya existe x para qué hacer y" es la fórmula perfecta para los monopolios y para avanzar más lento.
#113 si, eso he dicho. Que habrá críticas desde la derecha. Gracias
#1 No te creas que es tontería. Los chatbots más populares que hay hoy en día funcionan algo peor en español. Si sabes inglés no pasa nada, pero yo ya me encontré alguna vez con respuestas más cortas y con errores gramaticales en español, y si le hablas en gallego directamente inventa.
#3 No te molestes, es otro multicuenta.
#3 #1 Tampoco es tan difícil entrenar los modelos libres LLM actuales en nuevos idiomas.
En menos de una semana y con menos de 50€ en horas de GPU puedes entrenar un modelo 7b para que hable mejor español, quizás un 13b.
Esto gracias a que ya hay bases de datos para entrenar en muchos idiomas.
Entrenar un LLM decente de mas de 100b costará mas coste de GPU y tiempo para afinar el software de entrenamiento. Pero no una barbaridad.
Otra cosa será ver si quieren hacer algo más allá.
De todas maneras, esto va a tardar porque a ver qué hace Meta con Llama 3, que lleva la voz cantante en modelos de código abierto.
#21 Quizá técnicamente no resulte tan caro, pero yo de momento en los chatbots más populares todavía no he visto uno que no se líe si intenta hablar gallego (y un amigo catalán me ha dicho que la cosa con su idioma está parecida) y ya he visto respuestas menos detalladas preguntando en español. No veo mal que hagan pruebas entrenando IAs con las lenguas de aquí, porque no creo que sea ideal un futuro en el que saber o no inglés influya en la eficiencia que pueda tener para ti un chatbot, y lo digo sin tener yo ningún problema con el inglés.
#38 No, carezco de los conocimientos técnicos, pero ya he dicho que de momento mi experiencia personal lo que ha visto es que los chatbots más usados hoy en día van bien en inglés, ligeramente peor en español y mal en gallego. Sea más barato o más simple entrenar modelos yo no creo que sea un desperdicio de dinero el invertir en esto.
#21 #38 Desde un punto de vista científico es cierto que entrenar un LLM para un idioma no tiene por qué aportar mucho, porque es aplicar conocimientos que ya existen. Pero eso no quiere decir que sea algo que pueda hacer cualquiera o dé poco trabajo, sobre todo si se quiere hacer bien.
Para empezar, los LLMs realmente grandes (que son los que, de momento, mejor funcionan) requieren grandes recursos computacionales para entrenarlos. Por ejemplo, entrenar Bloom (https://huggingface.co/blog/bloom-megatron-deepspeed) requirió un millón de horas de computación (en el supercomputador Jean Zay). Y ni siquiera salió muy bueno...
Y después está el tema de los datos. Aunque este tema se lleva en mucha opacidad (incluso la mayoría de los LLMs que se autoproclaman "abiertos", como los Llama, no dicen exactamente con qué se han entrenado); es un secreto a voces que la calidad de los datos y lo bien filtrados que estén son un aspecto fundamental. Coger sin más una base de datos pública no va a dar los mismos resultados que recopilar y curar con cuidado los datos. Se supone que es el principal motivo por el que, por ejemplo, los modelos de Mistral van tan bien en relación a su tamaño.
Habrá que ver si en realidad este modelo que anuncia Sánchez se hace bien o es dinero tirado... pero vamos, que no. Que un LLM competitivo con los mejores no te lo saca un estudiante de doctorado a solas con el cluster del departamento. Ni de lejos.
#38 Poco más que un proyecto de fin de carrera, ¿eh? Vamos a contestar a eso, contestando a #21
- Lo primero es aclarar que no solamente es español: hay que añadir euskera, gallego y catalán. Bases de datos bien curadas en estos últimos no son tan fáciles de encontrar, lo que significa un trabajo previo de elaboración de las bases de datos.
- Lo segundo es entender cuál sería la finalidad estatal de tener dichos modelos. No es entrenar, subirlos a huggingface y adiós muy buenas. La finalidad real es tener herramientas de tipo ChatGPT pero que preserven la privacidad y puedan ser utilizadas en administración, educación, fuerzas del estado.
A partir de esos dos preceptos, unas puntualizaciones sobre lo de entrenar LLM actuales a bajo coste: estamos hablando de modelos tipo Llama2 o Mamba, que están muy por debajo de las expectativas actuales de GPT 3.5 o 4. Si queremos acercarnos a algo tipo GPT 3.5, eso supone entrenar algo tipo phi-2 o mistral. Sigue sin ser un coste excesivamente elevado, pero desde luego no son 50€ de GPU, vas a necesitar algo más, más luego las quantizaciones del modelo. Por cierto, cantidad de modelos tipo mistral o phi en catalán, euskera o gallego: 0. En español hay 2 de mistral,
Pero una vez entrenando un 7B, descubres que no va tan fino en español como esperarías. ¿Por qué? Acompañadme en este maravilloso viaje por las conjugaciones y la historia de LLMs. Corría octubre del 2018 cuando se anunciaba BERT, y con él llegó un modelo multilenguaje entrenado en 104 idiomas, incluyendo el español. La primera tarea que hace un LLM es tokenizar, coger una palabra y conseguir separarla en "tokens", que representarían la raíz y sus afijos. En inglés, de la palabra "develop" sacas las derivadas "develops", "developer", "developers", "development", "developments", "developed", "developing". Un total de 7 palabras, y fáciles de tokenizar. Pero llegas al español y... PUM, descubres que la tokenización no es tan sencilla, que tenemos sufijos de género, conjugaciones verbales, etc... Es más, antes de BERT, el calcular la raíz (o más bien el stem, que no es lo mismo) de una palabra, se hacía con stemmers, y la web para ello era la Snowball, siguiendo el modelo de Martin Porter. Pues entre esos stemmers no se encuentran el de gallego ni el de euskera. ¿Y el de español? Pues bastante meh, porque en español además de la cantidad enorme de conjugaciones de un verbo que tenemos, hay dos dificultades añadidas: los pronombres enclíticos y la cantidad de verbos irregulares. Lo de los pronombres enclíticos es que si quieres decir que vas a ponerte los calcetines, puedes decir "ponérmelos", que debería romper en "pon-er-me-lo-s". ¡Pues suerte con ello! (Otro día os hablo de las problemáticas del tailandés o el koreano)
Y esto nos lleva a hoy en día: ¿Por qué tantos modelos que funcionan bien en inglés, pero en español, catalán, gallego y euskera no? Pues para gallego y euskera falta de buenas bases de datos, y para todos que ya el primer paso que es la tokenización, no es tan sencillo. Y esto supone que para la misma cantidad de parámetros que uno de inglés, el modelo será peor. Y también que necesitarás más tiempo de entrenamiento y más datos para hacer algo equivalente en calidad a uno en inglés.
Pero llegamos ahora a mi segundo punto que puse arriba: la finalidad real no es entrenar el modelo, sino tenerlo desplegado. Imaginad un primer proyecto que se me ocurre: integrarlo en el portal de la Agencia Tributaria para ayudarte con la renta y resto de papeleo. ¿Buena idea, no? Ok, tienes el modelo entrenado, lo has subido a HuggingFace, ¿ahora le dices a cada español que lo quiera usar que se compre una GPU, se lo descargue, aprenda python, etc? Vaya, vas a necesitar no solamente entrenar el modelo, sino que vas a tener que construir una integración para que se pueda utilizar desde diferentes portales, y un frontend que sea configurable, por ahora para Agencia Tributaria. Esta integración además no puede ser con API REST o graphQL, porque las palabras se van generando una a una, con lo cual la respuesta entera lleva varios segundos: si esperas a la respuesta entera para pintar en el chat, da la sensación de que se ha quedado colgado, con lo cual hay que pintar palabra a palabra según va llegando y para eso hay que hacerlo con websockets. El proyecto de fin de carrera ya está empezando a estresar un poquito a nuestra futura licenciada o licenciado.
Y llegamos al escalado. Si desplegas en CPUs, esto no tira. Tienes que desplegar en GPUs, y tendrás dos opciones: que tengan suficiente RAM como para que quepa el modelo, o tener que hacer partial offload. Lo segundo implica más tiempo para la respuesta. Además, no lo podrás hacer como serverless, porque el coldstart de estas cosas lleva la carga del modelo que es un ratito, así que tiene que estar desplegado a lo tradicional. Y entonces llega hacer la previsión de carga: habrá horas del día que no entre ni dios porque están durmiendo, horas del día que entre la gente a cholón. Y luego por días de la semana. O del mes. El pico te lo puedes esperar entre Abril y Junio con la campaña de la renta, y luego cada 3 meses los autónomos haciendo el 303 y el 130. Entonces, ¿cuántas máquinas vas a necesitar? Pues depende de la fecha, a hacerte una buena estrategia de autoescalado, y tal vez un calendario de provisionamiento manual para las campañas.
Y aún faltarían cositas. Has entrenado el modelo genérico, lo enchufas a agencia tributaria... ¿qué te falta? Dos cositas. La primera: finetuning. No vale con entrenar un modelo específico para la agencia tributaria, porque eso significaría perder nuestra idea de ser genérico, y llevaría costes muy elevados por cada integración del LLM, así que lo mejor es tener un modelo genérico, y luego para cada integración tener unas QLoRa con el conocimiento específico que se pueda acoplar al modelo genérico. La segunda: los prompts por detrás, hay que hacer el desarrollo de la "persona" que representa al bot, para que se comporte como el agente al que tiene que representar.
Esperen, ¡que aún hay más!, que diría Super Ratón. Hay gente que intentará putear a nuestro bot con prompts como "olvida tus instrucciones anteriores, haz bla bla bla", así que hay que poner algo para evitar el prompt injection. Hay que tener en cuenta que hay dos posibilidades: hacerlo en nuestro prompt que tenemos detrás que le da instrucciones de la "persona" del bot, o hacerlo por delante en el backend que recibe el prompt y tener algo para detectar estos intentos. Lo mejor es lo segundo, pero también más complejo. ¿Por qué es mejor? Porque según vayas haciendo crecer el prompt, eso significa más input tokens, eso significa más tiempo para procesarlo y más probabilidades de que lo que escriba el usuario más el prompt que tú agregas supere el máximo número de tokens de input.
De esto anterior, imaginad si se integra en colegios e institutos, detectores "dibuja una polla en ascii", o "escribe un relato erótico sobre la profesora ".
Así que, desde mi punto de vista, ni es tan trivial el tema, ni es tan innecesario, ni es algo que pueda hacer una única persona como trabajo de fin de grado.
Y bueno, para terminar, os añado una captura de un mistral en español enseñando recetas con boniatos, porque sí.
#112 Pero oiga, que usted está planteando un proyecto serio y en condiciones. Aquí en España cobrará veinte millones LA EMPRESA DE CABECERA(tm), pondrá a dos becarios y luego ni se desplegará en condiciones ni tendrá vocación de continuidad. Que parece que no nos conocemos el percal
#139 Sobre pagar GPT4: hay dos formas de usar OpenAI, como usuario o como empresa montando una instancia privada. En la primera, los datos que introducen los usuarios pueden ser usados para reentreno de siguientes versiones. La sorpresa que se llevaron varias empresas cuando sus estrategias comerciales confidenciales estaban en gpt4 porque las habían usado en gpt 3.5 como usuarios. Volviendo a mí ejemplo de agencia tributaria, qué te parecería que tu declaración de la renta esté disponible en gpt5?
Cómo instancia privada, tengo mis reservas de que se pueda como entidad gubernamental y no como empresa, y dónde se alojarán los datos en tránsito y en persistencia... GDPR y esas cosas, ya sabes.
Y está el tema costes: se paga un precio por los tokens de input y otro por los de output. El input puede ser enorme porque el prompt que se añade suele ser grande, y porque va creciendo con la conversación para mantener el contexto.
Sobre lo de que aprende las lenguas romances rápido porque ya sabe castellano o italiano, no funciona así. No sé entrenan los lenguajes por separado en modelos multilenguaje. Y el problema al entrenar tu propio modelo es que puede que openai tenga unos datos buenos buenos para entrenar, pero ¿Tú ves que los comparta? Tendrán mucho de AI, pero poco de Open.
Por no hablar de que "si ya existe x para qué hacer y" es la fórmula perfecta para los monopolios y para avanzar más lento.
#112 LO has explicado de forma perfecta
Y cuando alguien aqui a cuestionado el gasto, funcionalidad o viabilidad , lo han cocido a negativos como ha #1 #9 #4
No entiendo comola gente esta deacuerdo de que lo roben el dinero de su nomina paar proyectos vacios que nunca van a estr ni cerca de una opcion funcional.
Como lo fue "El Google europeo". , o "la nube europea" . Tirar dinero a empresas migas donde un 30-5-% se van a comisiones de amiguetes
#70 Ya hay un modelo en euskara
https://huggingface.co/HiTZ/latxa-7b-v1
Se llama Latxa y es del grup HiTZ
#21 Pues suerte con entrenar un modelo con esas bases de datos en muchos idiomas para que 'entienda correctamente' cualquiera de ellos. No se si habrás trabajado con alguna... pero tela...
Si quieres entrenar un modelo nuevo 7B échale un par de semanas con varias A100
Quizás se podría hacer un MOE encargando modelos especializados por cada lengua a las universidades de las diferentes regiones en lugar de hacer un modelo con un numero demasiado bruto de parámetros pero la recogida y clasificación de datos no te la quita nadie, además del jaleo que se va a montar para meterle guardarraíles y controlar los sesgos a lo que salga... Y eso es caro, más que el coste de computación seguro.
#72 no se yo si los helados que a ti te gustan están en la constitución como alimento co oficial del estado y oficial en alguna que otra autonomía
#72 Yo sí creo que es algo que deba hacerse con dinero público. Al fin y al cabo es intentar garantizar que las lenguas del Estado sean funcionales con modelos de IA. Es una defensa del español (y del gallego, catalán y euskera) bastante más clara que mandar a un señor de gira por Estados Unidos a decir lo buenas que están aquí las tapas. Ya hay muchos ámbitos hoy en día en que se ha aceptado con naturalidad que el inglés es el referente y el español es muy secundario, como la investigación científica, no creo que se deba dejar un tema como el de las IAs completamente de lado y después aceptar que lo mejor para sacar el 100% de su potencial sea tirar del inglés porque poco a poco se ha ido imponiendo.
No es muy probable que veas un resurgimiento de papers en español, con lo que no creo que debamos dormirnos con esto.
Gastando el tiempo y los recursos en cosas necesarios. Así si pedro Sánchez, así si.
#1 No te creas que es tontería. Los chatbots más populares que hay hoy en día funcionan algo peor en español. Si sabes inglés no pasa nada, pero yo ya me encontré alguna vez con respuestas más cortas y con errores gramaticales en español, y si le hablas en gallego directamente inventa.
#3 No te molestes, es otro multicuenta.
#3 #1 Tampoco es tan difícil entrenar los modelos libres LLM actuales en nuevos idiomas.
En menos de una semana y con menos de 50€ en horas de GPU puedes entrenar un modelo 7b para que hable mejor español, quizás un 13b.
Esto gracias a que ya hay bases de datos para entrenar en muchos idiomas.
Entrenar un LLM decente de mas de 100b costará mas coste de GPU y tiempo para afinar el software de entrenamiento. Pero no una barbaridad.
Otra cosa será ver si quieren hacer algo más allá.
De todas maneras, esto va a tardar porque a ver qué hace Meta con Llama 3, que lleva la voz cantante en modelos de código abierto.
#21 Quizá técnicamente no resulte tan caro, pero yo de momento en los chatbots más populares todavía no he visto uno que no se líe si intenta hablar gallego (y un amigo catalán me ha dicho que la cosa con su idioma está parecida) y ya he visto respuestas menos detalladas preguntando en español. No veo mal que hagan pruebas entrenando IAs con las lenguas de aquí, porque no creo que sea ideal un futuro en el que saber o no inglés influya en la eficiencia que pueda tener para ti un chatbot, y lo digo sin tener yo ningún problema con el inglés.
#38 No, carezco de los conocimientos técnicos, pero ya he dicho que de momento mi experiencia personal lo que ha visto es que los chatbots más usados hoy en día van bien en inglés, ligeramente peor en español y mal en gallego. Sea más barato o más simple entrenar modelos yo no creo que sea un desperdicio de dinero el invertir en esto.
#21 #38 Desde un punto de vista científico es cierto que entrenar un LLM para un idioma no tiene por qué aportar mucho, porque es aplicar conocimientos que ya existen. Pero eso no quiere decir que sea algo que pueda hacer cualquiera o dé poco trabajo, sobre todo si se quiere hacer bien.
Para empezar, los LLMs realmente grandes (que son los que, de momento, mejor funcionan) requieren grandes recursos computacionales para entrenarlos. Por ejemplo, entrenar Bloom (https://huggingface.co/blog/bloom-megatron-deepspeed) requirió un millón de horas de computación (en el supercomputador Jean Zay). Y ni siquiera salió muy bueno...
Y después está el tema de los datos. Aunque este tema se lleva en mucha opacidad (incluso la mayoría de los LLMs que se autoproclaman "abiertos", como los Llama, no dicen exactamente con qué se han entrenado); es un secreto a voces que la calidad de los datos y lo bien filtrados que estén son un aspecto fundamental. Coger sin más una base de datos pública no va a dar los mismos resultados que recopilar y curar con cuidado los datos. Se supone que es el principal motivo por el que, por ejemplo, los modelos de Mistral van tan bien en relación a su tamaño.
Habrá que ver si en realidad este modelo que anuncia Sánchez se hace bien o es dinero tirado... pero vamos, que no. Que un LLM competitivo con los mejores no te lo saca un estudiante de doctorado a solas con el cluster del departamento. Ni de lejos.
#38 Poco más que un proyecto de fin de carrera, ¿eh? Vamos a contestar a eso, contestando a #21
- Lo primero es aclarar que no solamente es español: hay que añadir euskera, gallego y catalán. Bases de datos bien curadas en estos últimos no son tan fáciles de encontrar, lo que significa un trabajo previo de elaboración de las bases de datos.
- Lo segundo es entender cuál sería la finalidad estatal de tener dichos modelos. No es entrenar, subirlos a huggingface y adiós muy buenas. La finalidad real es tener herramientas de tipo ChatGPT pero que preserven la privacidad y puedan ser utilizadas en administración, educación, fuerzas del estado.
A partir de esos dos preceptos, unas puntualizaciones sobre lo de entrenar LLM actuales a bajo coste: estamos hablando de modelos tipo Llama2 o Mamba, que están muy por debajo de las expectativas actuales de GPT 3.5 o 4. Si queremos acercarnos a algo tipo GPT 3.5, eso supone entrenar algo tipo phi-2 o mistral. Sigue sin ser un coste excesivamente elevado, pero desde luego no son 50€ de GPU, vas a necesitar algo más, más luego las quantizaciones del modelo. Por cierto, cantidad de modelos tipo mistral o phi en catalán, euskera o gallego: 0. En español hay 2 de mistral,
Pero una vez entrenando un 7B, descubres que no va tan fino en español como esperarías. ¿Por qué? Acompañadme en este maravilloso viaje por las conjugaciones y la historia de LLMs. Corría octubre del 2018 cuando se anunciaba BERT, y con él llegó un modelo multilenguaje entrenado en 104 idiomas, incluyendo el español. La primera tarea que hace un LLM es tokenizar, coger una palabra y conseguir separarla en "tokens", que representarían la raíz y sus afijos. En inglés, de la palabra "develop" sacas las derivadas "develops", "developer", "developers", "development", "developments", "developed", "developing". Un total de 7 palabras, y fáciles de tokenizar. Pero llegas al español y... PUM, descubres que la tokenización no es tan sencilla, que tenemos sufijos de género, conjugaciones verbales, etc... Es más, antes de BERT, el calcular la raíz (o más bien el stem, que no es lo mismo) de una palabra, se hacía con stemmers, y la web para ello era la Snowball, siguiendo el modelo de Martin Porter. Pues entre esos stemmers no se encuentran el de gallego ni el de euskera. ¿Y el de español? Pues bastante meh, porque en español además de la cantidad enorme de conjugaciones de un verbo que tenemos, hay dos dificultades añadidas: los pronombres enclíticos y la cantidad de verbos irregulares. Lo de los pronombres enclíticos es que si quieres decir que vas a ponerte los calcetines, puedes decir "ponérmelos", que debería romper en "pon-er-me-lo-s". ¡Pues suerte con ello! (Otro día os hablo de las problemáticas del tailandés o el koreano)
Y esto nos lleva a hoy en día: ¿Por qué tantos modelos que funcionan bien en inglés, pero en español, catalán, gallego y euskera no? Pues para gallego y euskera falta de buenas bases de datos, y para todos que ya el primer paso que es la tokenización, no es tan sencillo. Y esto supone que para la misma cantidad de parámetros que uno de inglés, el modelo será peor. Y también que necesitarás más tiempo de entrenamiento y más datos para hacer algo equivalente en calidad a uno en inglés.
Pero llegamos ahora a mi segundo punto que puse arriba: la finalidad real no es entrenar el modelo, sino tenerlo desplegado. Imaginad un primer proyecto que se me ocurre: integrarlo en el portal de la Agencia Tributaria para ayudarte con la renta y resto de papeleo. ¿Buena idea, no? Ok, tienes el modelo entrenado, lo has subido a HuggingFace, ¿ahora le dices a cada español que lo quiera usar que se compre una GPU, se lo descargue, aprenda python, etc? Vaya, vas a necesitar no solamente entrenar el modelo, sino que vas a tener que construir una integración para que se pueda utilizar desde diferentes portales, y un frontend que sea configurable, por ahora para Agencia Tributaria. Esta integración además no puede ser con API REST o graphQL, porque las palabras se van generando una a una, con lo cual la respuesta entera lleva varios segundos: si esperas a la respuesta entera para pintar en el chat, da la sensación de que se ha quedado colgado, con lo cual hay que pintar palabra a palabra según va llegando y para eso hay que hacerlo con websockets. El proyecto de fin de carrera ya está empezando a estresar un poquito a nuestra futura licenciada o licenciado.
Y llegamos al escalado. Si desplegas en CPUs, esto no tira. Tienes que desplegar en GPUs, y tendrás dos opciones: que tengan suficiente RAM como para que quepa el modelo, o tener que hacer partial offload. Lo segundo implica más tiempo para la respuesta. Además, no lo podrás hacer como serverless, porque el coldstart de estas cosas lleva la carga del modelo que es un ratito, así que tiene que estar desplegado a lo tradicional. Y entonces llega hacer la previsión de carga: habrá horas del día que no entre ni dios porque están durmiendo, horas del día que entre la gente a cholón. Y luego por días de la semana. O del mes. El pico te lo puedes esperar entre Abril y Junio con la campaña de la renta, y luego cada 3 meses los autónomos haciendo el 303 y el 130. Entonces, ¿cuántas máquinas vas a necesitar? Pues depende de la fecha, a hacerte una buena estrategia de autoescalado, y tal vez un calendario de provisionamiento manual para las campañas.
Y aún faltarían cositas. Has entrenado el modelo genérico, lo enchufas a agencia tributaria... ¿qué te falta? Dos cositas. La primera: finetuning. No vale con entrenar un modelo específico para la agencia tributaria, porque eso significaría perder nuestra idea de ser genérico, y llevaría costes muy elevados por cada integración del LLM, así que lo mejor es tener un modelo genérico, y luego para cada integración tener unas QLoRa con el conocimiento específico que se pueda acoplar al modelo genérico. La segunda: los prompts por detrás, hay que hacer el desarrollo de la "persona" que representa al bot, para que se comporte como el agente al que tiene que representar.
Esperen, ¡que aún hay más!, que diría Super Ratón. Hay gente que intentará putear a nuestro bot con prompts como "olvida tus instrucciones anteriores, haz bla bla bla", así que hay que poner algo para evitar el prompt injection. Hay que tener en cuenta que hay dos posibilidades: hacerlo en nuestro prompt que tenemos detrás que le da instrucciones de la "persona" del bot, o hacerlo por delante en el backend que recibe el prompt y tener algo para detectar estos intentos. Lo mejor es lo segundo, pero también más complejo. ¿Por qué es mejor? Porque según vayas haciendo crecer el prompt, eso significa más input tokens, eso significa más tiempo para procesarlo y más probabilidades de que lo que escriba el usuario más el prompt que tú agregas supere el máximo número de tokens de input.
De esto anterior, imaginad si se integra en colegios e institutos, detectores "dibuja una polla en ascii", o "escribe un relato erótico sobre la profesora ".
Así que, desde mi punto de vista, ni es tan trivial el tema, ni es tan innecesario, ni es algo que pueda hacer una única persona como trabajo de fin de grado.
Y bueno, para terminar, os añado una captura de un mistral en español enseñando recetas con boniatos, porque sí.
#112 Pero oiga, que usted está planteando un proyecto serio y en condiciones. Aquí en España cobrará veinte millones LA EMPRESA DE CABECERA(tm), pondrá a dos becarios y luego ni se desplegará en condiciones ni tendrá vocación de continuidad. Que parece que no nos conocemos el percal
#139 Sobre pagar GPT4: hay dos formas de usar OpenAI, como usuario o como empresa montando una instancia privada. En la primera, los datos que introducen los usuarios pueden ser usados para reentreno de siguientes versiones. La sorpresa que se llevaron varias empresas cuando sus estrategias comerciales confidenciales estaban en gpt4 porque las habían usado en gpt 3.5 como usuarios. Volviendo a mí ejemplo de agencia tributaria, qué te parecería que tu declaración de la renta esté disponible en gpt5?
Cómo instancia privada, tengo mis reservas de que se pueda como entidad gubernamental y no como empresa, y dónde se alojarán los datos en tránsito y en persistencia... GDPR y esas cosas, ya sabes.
Y está el tema costes: se paga un precio por los tokens de input y otro por los de output. El input puede ser enorme porque el prompt que se añade suele ser grande, y porque va creciendo con la conversación para mantener el contexto.
Sobre lo de que aprende las lenguas romances rápido porque ya sabe castellano o italiano, no funciona así. No sé entrenan los lenguajes por separado en modelos multilenguaje. Y el problema al entrenar tu propio modelo es que puede que openai tenga unos datos buenos buenos para entrenar, pero ¿Tú ves que los comparta? Tendrán mucho de AI, pero poco de Open.
Por no hablar de que "si ya existe x para qué hacer y" es la fórmula perfecta para los monopolios y para avanzar más lento.
#112 LO has explicado de forma perfecta
Y cuando alguien aqui a cuestionado el gasto, funcionalidad o viabilidad , lo han cocido a negativos como ha #1 #9 #4
No entiendo comola gente esta deacuerdo de que lo roben el dinero de su nomina paar proyectos vacios que nunca van a estr ni cerca de una opcion funcional.
Como lo fue "El Google europeo". , o "la nube europea" . Tirar dinero a empresas migas donde un 30-5-% se van a comisiones de amiguetes
#70 Ya hay un modelo en euskara
https://huggingface.co/HiTZ/latxa-7b-v1
Se llama Latxa y es del grup HiTZ
#21 Pues suerte con entrenar un modelo con esas bases de datos en muchos idiomas para que 'entienda correctamente' cualquiera de ellos. No se si habrás trabajado con alguna... pero tela...
Si quieres entrenar un modelo nuevo 7B échale un par de semanas con varias A100
Quizás se podría hacer un MOE encargando modelos especializados por cada lengua a las universidades de las diferentes regiones en lugar de hacer un modelo con un numero demasiado bruto de parámetros pero la recogida y clasificación de datos no te la quita nadie, además del jaleo que se va a montar para meterle guardarraíles y controlar los sesgos a lo que salga... Y eso es caro, más que el coste de computación seguro.
#72 no se yo si los helados que a ti te gustan están en la constitución como alimento co oficial del estado y oficial en alguna que otra autonomía
#72 Yo sí creo que es algo que deba hacerse con dinero público. Al fin y al cabo es intentar garantizar que las lenguas del Estado sean funcionales con modelos de IA. Es una defensa del español (y del gallego, catalán y euskera) bastante más clara que mandar a un señor de gira por Estados Unidos a decir lo buenas que están aquí las tapas. Ya hay muchos ámbitos hoy en día en que se ha aceptado con naturalidad que el inglés es el referente y el español es muy secundario, como la investigación científica, no creo que se deba dejar un tema como el de las IAs completamente de lado y después aceptar que lo mejor para sacar el 100% de su potencial sea tirar del inglés porque poco a poco se ha ido imponiendo.
No es muy probable que veas un resurgimiento de papers en español, con lo que no creo que debamos dormirnos con esto.
#1. Te conviene, y mucho, verte este mini documental de unos 30 minutos. No solo te vas a sentir reflejado, también vas a terminar aceptando la realidad, y la realidad es que sin inversión e investigación pura y dura no hay progreso. Con ella no solo hay progreso sino que se puede llegar a generar una inmensa riqueza :
Por qué es casi imposible hacer luz LED azul
Publicado hace 2 meses por
visualito
a
youtube.com
La dirección de la empresa donde trabajaba el futuro premio nobel : "-Deja de trabajar en el nitruro de galio inmediatamente."
#7 hablas como si no se estuviese investigando sobre la IA
#71. Cuando en España empecemos a ser líderes en el desarrollo de las IA en perfecto español podremos empezar a reirnos todos juntos para celebrarlo.
Si no lo monopolizan y controlan desde la política y desde las cuatro empresas de siempre, claro, que eso deL "Software Libre" y los "Estándares Abiertos" a muchos españoles les sigue sonando a "Barra Libre" y "Bares Abiertos" todo el santo día.
#9 que te parece bajar la cuota de autónomos para que montar una empresa en este país no sea tan horror?
O sino te gusta eso puedes también construir 1 millón de viviendas sociales. Dado que la vivienda es el principal problema de los españoles.
Y como último, puedes simplemente reducir la pila gigantesca de deuda que hay actualmente.
#77 No se trata de adaptar, sino de crear un modelo desde cero en otros idiomas distintos al inglés. Los que hay open source se han entrenado o en inglés o con mezcla de idiomas, así que cuando luego los quieres usar en español no van tan finos. Esto es como decir que alguien ha inventado el motor de combustión, luego ha llegado un tal Ford que ha construido sus coches aprovechándose utilizando esa invención y que nosotros hemos decidido montar una tal SEAT para tener coches adaptados a nuestras necesidades y legislación.
#1 La cuñadez, cazurrez, garrulez y miseria casposa esperable en un multicuenta de extremocentro.
#47 es tirar el dinero porque eso no lo va a usar absolutamente nadie.
Castillo estaba a días de firmar el contrato con los chinos para la construcción del tren sudamericano, que yendo de Tumbes llegaría hasta Tacna, de allí hasta Cuzco y Puno, y desde Puno hasta Argentina y Brasil. Esta red de trenes estaba directamente...
#10 Desde luego, la tontuna y la ignorancia se ha apoderado de vosotros....
#2 No es que no sorprenda, es que es uno de los peores tostones que he visto en mucho tiempo. Una película aburrida, con exceso de primeros planos y conversaciones absurdas solo por sacar las caritas de los protagonistas. Una pena de adaptación.
#13 Anda y que te den por el culo. Das asco.
#61 Lo hace a diario quien yo amo. Y nadie me va a tirar desde un edificio al vacío ni me va a colgar de una grúa por ello. Yo te veo con odio como para apoyar a quien si lo haría.
#2 Hoy el Barça de hockey patines ha ganado el mundial.
#4 Si por eso lo decía entre otros casos, salvo el Liceo que es el segundo histórico y una copa del dominicos también de Coruña y creo que una del Oviedo, el resto de títulos nacionales e internacionales de Hockey sobre patines son de equipos catalanes, ganando el Barça por apabullante mayoría.
#5 y en que se basa para ti ese nivel de ignorancia que dices que demuestran?
#32 Pues vas muy equivocado, no tengo nada que ver con Adeslas. Lo que he dicho es la pura verdad. Estoy al 100% con que la sanidad debe ser publica que hay dinero de sobra para mantenerla con la gran cantidad de dinero que se nos saca a los trabajadores y los ivas, que nadie habla de ello pero es inmensa, pero todo ello no quita que ahora ,tal y como estan dejando la sanidad esta mierda de politicos y grandes fortunas, que son las que mandan, yo aun estaria esperando esa operacion.
#23 Pues yo con Adeslas y 46 euros al mes he solucionado un problema de corazón de forma muy rápida con intervención quirúrgica y estancia en el hospital con acompañánte.
#32 Pues vas muy equivocado, no tengo nada que ver con Adeslas. Lo que he dicho es la pura verdad. Estoy al 100% con que la sanidad debe ser publica que hay dinero de sobra para mantenerla con la gran cantidad de dinero que se nos saca a los trabajadores y los ivas, que nadie habla de ello pero es inmensa, pero todo ello no quita que ahora ,tal y como estan dejando la sanidad esta mierda de politicos y grandes fortunas, que son las que mandan, yo aun estaria esperando esa operacion.
#18 EEUU prohibe expresamente en sus leyes que sus ciudadanos sean juzgados en el extranjero por tribunales no reconocidos, como la Corte Penal Internacional, y tiene leyes que autorizan específicamente el uso de la fuerza militar para liberarlos en caso de que asi sea... como para atreverse!!!!
#24 Estoy deseando ver tu lista de las mejores.
#92 ya la he compartido en otro comentario. https://letterboxd.com/iveldie/list/mis-peliculas-preferidas-del-siglo-xxi/
#14 No matan por que no pueden, pero dales tiempo....
#78 Media España no, pero unos 11 millones si querrían cargarse al resto, y si no cargárselos, esclavizarlos.
#4 Si, los mismos jueces que imputaban y condenaban a titiriteros y cantantes, y aunque parece que no venga a cuento mi opinion, desgraciadamente para España es la misma cosa.
La líder de Podemos, Ione Belarra, ha mostrado su "solidaridad y empatía" con el presidente del Gobierno, Pedro Sánchez, tras anunciar esta tarde que reflexionará hasta el lunes sobre si continúa o renuncia al cargo, al remarcar que su partido "sabe bien qué significa el 'lawfare'". Eso sí, ha lanzado que debían haberle parado los pies la práctica de la guerra judicial y "persecución mediática" cuando "acosaron" al exvicepresidente Pablo Iglesias y a una exministra del Gobierno, en referencia a Irene Montero "en su propia casa".
La Comunidad eleva la cuantía total de 50,6 millones a 67,3, y aumenta lo que recibe cada familia a entre 1.947 y 3.113 euros anuales
Son plastiglomerados, compuestos por fragmentos de plástico y residuos orgánicos, y se extienden como una enfermedad. Los geólogos trazan su origen en Hawái, pero ya se encuentran por todas las costas del mundo. Once mil millones de toneladas de plástico se acumulan a pesar de las restricciones de los últimos años. La próxima vez que recoja o juegue con una piedra en la playa, podría estar haciéndolo con restos de basura. Playa Kamilo, en la isla de Hawái, era un paraíso. Aislada, pequeña y lejos de las carreteras asfaltadas, se convirtió en un
.@manuelrico: "Puede parecer fuerte, pero en España y no solo en España, llevamos asistiendo desde hace años a un golpe de Estado suave y se lidera desde determinadas togas"
Los cuadricópteros israelíes están empleando una nueva táctica consistente en reproducir grabaciones de audio de bebés y mujeres llorando para atraer a los palestinos a lugares donde puedan ser atacados. El domingo y el lunes por la noche, los residentes de las zonas septentrionales del campo de refugiados de Nuseirat, en Gaza, se despertaron con el sonido del llanto de bebés y de mujeres que pedían ayuda. Cuando salieron para localizar el origen de los llantos y prestar ayuda, los cuadricópteros israelíes abrieron fuego contra ellos.
Gideon Levy es un premiado periodista y escritor israelí. Nacido en el corazón de Europa, sus abuelos fueron asesinados durante el Holocausto y él tuvo que huir de los nazis
¿Por qué Lola Índigo no tiene acento andaluz? Respuesta corta: por glotofobia
Cómo es posible que para tener subvenciones tengas que tener un mínimo de dinero?
Lo puse en otra noticia:
- subvención para comprar coche eléctrico (debes tener un garaje),
- para cambiar las ventanas (debes cambiarlas todas para mejora la eficiencia energética),
- para comprarte tu primera casa (debes tener dinero para comprarte una casa).
Y encima los ricos se quejan de que los pobres no hacemos más que vivir de subvenciones.
Ya en la propia familia los individuos que son pobres son unos apestados , son vistos por el resto de la familia como culpables de su situación, los demás con un sueldo o con posibles no ven más allá.
¿En qué nos estamos convirtiendo?
#11 Entiendo que si alguien pide ayuda para comprar un coche es porque no le llega para ello. Entonces, si por tu cuenta no tienes para comprarte un coche, ¿Cómo te vas a poder pagar un garage?
Entendería que se questionase la necesidad real de tener vehículo para decidir si se da o no la ayuda, pero lo del garaje, en el momento en que estamos, en que debería haber más puntos de carga para vehículos eléctricos que gasolineras tradicionales, pues no tiene mucho sentido. Sólo hay que ver cómo son las cosas en otros países de la Unión Europea para darse cuenta de que en España no hay verdadera voluntad de pasar al vehículo eléctrico.
Estamos muy atrás en cuanto a cantidad, calidad y variedad de puntos de carga, y si queremos una verdadera eficiencia energética, quizás sea mejor concentrar en determinados puntos y determinadas horas las cargas, lo que te da un mayor control sobre la eficiencia mínima, que pretender que en cada hogar del país, todas las noches, haya dos o más vehículos cargando, lo que complicaría mucho el control, seguimiento y normalización de la eficiencia a nivel nacional.
En definitiva, veo bien que se mejore la ayuda en caso de que haya carga en casa siempre que cumpla con unos mínimos de eficiencia, consumo y horarios, y/o que sea en una zona con poca densidad de puntos de carga eficientes y efectivos, pero no que sea condición sine qua non para conseguir la ayuda.
#7 en una sociedad de individualistas que sólo miran su ombligo: todos somos especiales, todos tenemos que destacar en algo, pertenecer a una tribu, tener algo importante, porque todos valemos mucho. Mientras la gente se centra en ser especial, no se centra en la solidaridad, en la empatía (solo empatía hacia los de tu especialidad), mientras yo pueda con lo mío me da igual lo otro. Y luego lloramos, tanto por el sorbimiento de coco en el que hemos caído, como por no haber luchado por las cosas importantes de verdad. Vamos, que nos vamos a la puta mierda.
#7 #47 ¿Te acuerdas de esos sketches donde va un grupo de personas empiezan a discutir y de repente el grupo no existe porque van todos por su lado? En eso. Estamos dejando de existir como sociedad porque somos cada dia mas antisociales.
Mientras, los poderosos que saben que el individualismo solo sirve para multiplicar el poder de sus botas estan aplaudiendo tan fuerte que alzan el vuelo con las orejas.
#47 Perdona pero habla por ti, la sociedad es individualista desde el momento en el que se rechaza cualquier movimiento que ayude a la población en general. Cuando se intentan tirar hacia adelante ciertas iniciativas ciudadanas siempre se acaba de la misma manera: estos rojos quieren vivir de paguitas, quieren que les regalen un piso en la Gran Vía, quieren vivir sin trabajar de mi... Cuando no son conscientes de que esos movimientos también les favorecen.
#7 la nueva libertad. Eres libre si lo puedes pagar.
#10 Desde luego, la tontuna y la ignorancia se ha apoderado de vosotros....
Ni Ayuso, ni Rodríguez, ni Feijóo, ni Ábalos ni Turull han prestado la más mínima atención a esa parte fundamental del conocimiento que, entre otras cosas, exige un respeto absoluto por la verdad y un amor sincero hacia el país y quienes lo habitan. La mentira es incompatible con el conocimiento histórico, el desconocimiento histórico y su manipulación están en la raíz de la generación de odio, algo que debería estar totalmente desterrado del lenguaje político. Cuando se habla desde la ignorancia, se presume que los oyentes también lo son...
Las facturas falsas presentadas a Hacienda por Alberto González Amador, la pareja de Isabel Díaz Ayuso, trataron de camuflar los beneficios de estas comisiones millonarias por vender mascarillas a proveedores de la administración en los peores meses de la pandemia.
El derribo de una presa de varios siglos de antigüedad en el río Nivelle, Francia, a pocos kilómetros de la frontera, ha permitido al salmón atlántico llegar a zonas de Navarra en las que no había registros. La presa, de 5m de altura, ya existía en 1775 y hasta principios del siglo XX se usaba para un molino de harina. Con apoyo financiero del proyecto europeo Open Rivers, fue demolida en verano de 2023 y a finales de diciembre media decena de salmones llegaron a la zona de Urdax (Navarra) para desovar por primera vez desde que hay registros.
Desde hace unas semanas veo como los administradores de Menéame borran noticias y penalizan con bajadas de karma a usuarios según ellos por violar las normas de uso dando la casualidad que todas están relacionadas con el genocidio en Palestina. He leído unas cuantas veces dichas normas y no veo donde está dicha violación. Si alguien la ve que comente, leeré los comentarios con atención. [editado por admin] Un saludo a todos.
Personal médico palestino en Gaza le contó a la BBC que las tropas israelíes les vendaron los ojos, los detuvieron, les obligaron a quitarse la ropa y les golpearon repetidamente después de una redada llevada a cabo en el hospital Nasser el mes pasado. Uno de ellos, Ahmed Abu Sabha, describió cómo estuvo detenido durante una semana, en la que -según dijo- lo trataron de amedrentar con perros con bozal y un soldado israelí le rompió la mano. Su relato coincide con el de otros dos médicos que quisieron permanecer en el anonimato por temor a repre
#2 No es que no sorprenda, es que es uno de los peores tostones que he visto en mucho tiempo. Una película aburrida, con exceso de primeros planos y conversaciones absurdas solo por sacar las caritas de los protagonistas. Una pena de adaptación.
#13 Anda y que te den por el culo. Das asco.
#61 Lo hace a diario quien yo amo. Y nadie me va a tirar desde un edificio al vacío ni me va a colgar de una grúa por ello. Yo te veo con odio como para apoyar a quien si lo haría.
Miles de palestinos acuden en masa a las costas de Gaza en un intento de recuperar los paquetes de ayuda arrojados por el ejército jordano, que realizó múltiples lanzamientos aéreos de alimentos a lo largo de las zonas costeras.
#5 Aquí mismo ya tienes unos cuantos, que se acaban de bajar de los árboles, soltando sus cuñadeces y garruladasy demostrando una vez más que están absolutamente orgullosos de su más supina ignorancia.
#81 el día que te des cuenta que el mundo no se divide en izquierda o derecha...
#84 el mundo no se en qué se divide . Pero que la derecha se opone a cualquier avance pasa aquí y en Sebastopol
#88 ya, se puede criticar esta medida absurda y al mismo tiempo no apoyar las ideas de VOX.
Porque el mundo no es binario.
#101 absurda la ve la gente que tiene miedo al progreso. A lo diferente.
Qué podamos usar un avance de la tecnología en algo que afecta a esos idiomas malvados de los nacionalistas da pavor a la derecha.
#5 avance en qué?
La mayoría de IAs actuales (Chatgpt, Bard, etc...) ya tienen soporte para el castellano.
Lo que quiere hacer Sánchez es un refrito barato que nadie usará. Peor eso sí, algún amiguito cobrará su dinero.
#124 claro claro.
Primero que la administración no tiene fama de hacer proyectos opensource.
Segundo que aunque les diera. Sería una gota de agua entre miles de otros proyectos opensource.
La administración carece de la motivación y del personal para meterse en estas aventuras.
#130 Pues nada, dejemos que sean Meta, Google y OpenAI quienes lo hagan todo y sigamos dependiendo completamente de su "buena voluntad" para este tipo de cosas. Cuando luego lo hagan en Alemania o en Francia vendremos con los lloros de que aquí en España no se apuesta por I+D. Así que mejor destinamos ese dinero a potenciar el turismo en este país, que se nos da de fábula ese tipo de cosas
#142 quieres un pais con un tejido industrial rico? Bien, te doy sugerencias de como invertir el dinero:
- Solucionar los atascos en la justicia. No da mucha tranquilidad invertir en un pais donde los procesos judiciales tardan año en resolverse.
- Reformar el sistema de autonomos y de las SL, de forma que no sea la carga tan grande a aquellos que quieren emprender.
- Construir vivienda social ya que es uno de los principales problemas de los españoles. Para que vea que te pongo medidas socialdemocratas tambien.
- En ultima, reducir la gigantesca deuda que tenemos y que va a explotar en cualquier momento.
Cualquiera de estas inversiones seria muchisimo mas util y daria mas frutos que esta patuchada. Patuchada que en 3-5 años se acabara cerrando y demostrara que solo era una excusa para robar dinero publico.
#64 La IA se viene usando para traducir del euskara al castellano y viceversa desde hace bastante tiempo: https://elia.eus/traductor
#127 y el 99% de la gente sigue usando Google translate
#139 Sobre pagar GPT4: hay dos formas de usar OpenAI, como usuario o como empresa montando una instancia privada. En la primera, los datos que introducen los usuarios pueden ser usados para reentreno de siguientes versiones. La sorpresa que se llevaron varias empresas cuando sus estrategias comerciales confidenciales estaban en gpt4 porque las habían usado en gpt 3.5 como usuarios. Volviendo a mí ejemplo de agencia tributaria, qué te parecería que tu declaración de la renta esté disponible en gpt5?
Cómo instancia privada, tengo mis reservas de que se pueda como entidad gubernamental y no como empresa, y dónde se alojarán los datos en tránsito y en persistencia... GDPR y esas cosas, ya sabes.
Y está el tema costes: se paga un precio por los tokens de input y otro por los de output. El input puede ser enorme porque el prompt que se añade suele ser grande, y porque va creciendo con la conversación para mantener el contexto.
Sobre lo de que aprende las lenguas romances rápido porque ya sabe castellano o italiano, no funciona así. No sé entrenan los lenguajes por separado en modelos multilenguaje. Y el problema al entrenar tu propio modelo es que puede que openai tenga unos datos buenos buenos para entrenar, pero ¿Tú ves que los comparta? Tendrán mucho de AI, pero poco de Open.
Por no hablar de que "si ya existe x para qué hacer y" es la fórmula perfecta para los monopolios y para avanzar más lento.
#113 si, eso he dicho. Que habrá críticas desde la derecha. Gracias
#1 No te creas que es tontería. Los chatbots más populares que hay hoy en día funcionan algo peor en español. Si sabes inglés no pasa nada, pero yo ya me encontré alguna vez con respuestas más cortas y con errores gramaticales en español, y si le hablas en gallego directamente inventa.
#3 No te molestes, es otro multicuenta.
#3 #1 Tampoco es tan difícil entrenar los modelos libres LLM actuales en nuevos idiomas.
En menos de una semana y con menos de 50€ en horas de GPU puedes entrenar un modelo 7b para que hable mejor español, quizás un 13b.
Esto gracias a que ya hay bases de datos para entrenar en muchos idiomas.
Entrenar un LLM decente de mas de 100b costará mas coste de GPU y tiempo para afinar el software de entrenamiento. Pero no una barbaridad.
Otra cosa será ver si quieren hacer algo más allá.
De todas maneras, esto va a tardar porque a ver qué hace Meta con Llama 3, que lleva la voz cantante en modelos de código abierto.
#21 Quizá técnicamente no resulte tan caro, pero yo de momento en los chatbots más populares todavía no he visto uno que no se líe si intenta hablar gallego (y un amigo catalán me ha dicho que la cosa con su idioma está parecida) y ya he visto respuestas menos detalladas preguntando en español. No veo mal que hagan pruebas entrenando IAs con las lenguas de aquí, porque no creo que sea ideal un futuro en el que saber o no inglés influya en la eficiencia que pueda tener para ti un chatbot, y lo digo sin tener yo ningún problema con el inglés.
#38 No, carezco de los conocimientos técnicos, pero ya he dicho que de momento mi experiencia personal lo que ha visto es que los chatbots más usados hoy en día van bien en inglés, ligeramente peor en español y mal en gallego. Sea más barato o más simple entrenar modelos yo no creo que sea un desperdicio de dinero el invertir en esto.
#21 #38 Desde un punto de vista científico es cierto que entrenar un LLM para un idioma no tiene por qué aportar mucho, porque es aplicar conocimientos que ya existen. Pero eso no quiere decir que sea algo que pueda hacer cualquiera o dé poco trabajo, sobre todo si se quiere hacer bien.
Para empezar, los LLMs realmente grandes (que son los que, de momento, mejor funcionan) requieren grandes recursos computacionales para entrenarlos. Por ejemplo, entrenar Bloom (https://huggingface.co/blog/bloom-megatron-deepspeed) requirió un millón de horas de computación (en el supercomputador Jean Zay). Y ni siquiera salió muy bueno...
Y después está el tema de los datos. Aunque este tema se lleva en mucha opacidad (incluso la mayoría de los LLMs que se autoproclaman "abiertos", como los Llama, no dicen exactamente con qué se han entrenado); es un secreto a voces que la calidad de los datos y lo bien filtrados que estén son un aspecto fundamental. Coger sin más una base de datos pública no va a dar los mismos resultados que recopilar y curar con cuidado los datos. Se supone que es el principal motivo por el que, por ejemplo, los modelos de Mistral van tan bien en relación a su tamaño.
Habrá que ver si en realidad este modelo que anuncia Sánchez se hace bien o es dinero tirado... pero vamos, que no. Que un LLM competitivo con los mejores no te lo saca un estudiante de doctorado a solas con el cluster del departamento. Ni de lejos.
#38 Poco más que un proyecto de fin de carrera, ¿eh? Vamos a contestar a eso, contestando a #21
- Lo primero es aclarar que no solamente es español: hay que añadir euskera, gallego y catalán. Bases de datos bien curadas en estos últimos no son tan fáciles de encontrar, lo que significa un trabajo previo de elaboración de las bases de datos.
- Lo segundo es entender cuál sería la finalidad estatal de tener dichos modelos. No es entrenar, subirlos a huggingface y adiós muy buenas. La finalidad real es tener herramientas de tipo ChatGPT pero que preserven la privacidad y puedan ser utilizadas en administración, educación, fuerzas del estado.
A partir de esos dos preceptos, unas puntualizaciones sobre lo de entrenar LLM actuales a bajo coste: estamos hablando de modelos tipo Llama2 o Mamba, que están muy por debajo de las expectativas actuales de GPT 3.5 o 4. Si queremos acercarnos a algo tipo GPT 3.5, eso supone entrenar algo tipo phi-2 o mistral. Sigue sin ser un coste excesivamente elevado, pero desde luego no son 50€ de GPU, vas a necesitar algo más, más luego las quantizaciones del modelo. Por cierto, cantidad de modelos tipo mistral o phi en catalán, euskera o gallego: 0. En español hay 2 de mistral,
Pero una vez entrenando un 7B, descubres que no va tan fino en español como esperarías. ¿Por qué? Acompañadme en este maravilloso viaje por las conjugaciones y la historia de LLMs. Corría octubre del 2018 cuando se anunciaba BERT, y con él llegó un modelo multilenguaje entrenado en 104 idiomas, incluyendo el español. La primera tarea que hace un LLM es tokenizar, coger una palabra y conseguir separarla en "tokens", que representarían la raíz y sus afijos. En inglés, de la palabra "develop" sacas las derivadas "develops", "developer", "developers", "development", "developments", "developed", "developing". Un total de 7 palabras, y fáciles de tokenizar. Pero llegas al español y... PUM, descubres que la tokenización no es tan sencilla, que tenemos sufijos de género, conjugaciones verbales, etc... Es más, antes de BERT, el calcular la raíz (o más bien el stem, que no es lo mismo) de una palabra, se hacía con stemmers, y la web para ello era la Snowball, siguiendo el modelo de Martin Porter. Pues entre esos stemmers no se encuentran el de gallego ni el de euskera. ¿Y el de español? Pues bastante meh, porque en español además de la cantidad enorme de conjugaciones de un verbo que tenemos, hay dos dificultades añadidas: los pronombres enclíticos y la cantidad de verbos irregulares. Lo de los pronombres enclíticos es que si quieres decir que vas a ponerte los calcetines, puedes decir "ponérmelos", que debería romper en "pon-er-me-lo-s". ¡Pues suerte con ello! (Otro día os hablo de las problemáticas del tailandés o el koreano)
Y esto nos lleva a hoy en día: ¿Por qué tantos modelos que funcionan bien en inglés, pero en español, catalán, gallego y euskera no? Pues para gallego y euskera falta de buenas bases de datos, y para todos que ya el primer paso que es la tokenización, no es tan sencillo. Y esto supone que para la misma cantidad de parámetros que uno de inglés, el modelo será peor. Y también que necesitarás más tiempo de entrenamiento y más datos para hacer algo equivalente en calidad a uno en inglés.
Pero llegamos ahora a mi segundo punto que puse arriba: la finalidad real no es entrenar el modelo, sino tenerlo desplegado. Imaginad un primer proyecto que se me ocurre: integrarlo en el portal de la Agencia Tributaria para ayudarte con la renta y resto de papeleo. ¿Buena idea, no? Ok, tienes el modelo entrenado, lo has subido a HuggingFace, ¿ahora le dices a cada español que lo quiera usar que se compre una GPU, se lo descargue, aprenda python, etc? Vaya, vas a necesitar no solamente entrenar el modelo, sino que vas a tener que construir una integración para que se pueda utilizar desde diferentes portales, y un frontend que sea configurable, por ahora para Agencia Tributaria. Esta integración además no puede ser con API REST o graphQL, porque las palabras se van generando una a una, con lo cual la respuesta entera lleva varios segundos: si esperas a la respuesta entera para pintar en el chat, da la sensación de que se ha quedado colgado, con lo cual hay que pintar palabra a palabra según va llegando y para eso hay que hacerlo con websockets. El proyecto de fin de carrera ya está empezando a estresar un poquito a nuestra futura licenciada o licenciado.
Y llegamos al escalado. Si desplegas en CPUs, esto no tira. Tienes que desplegar en GPUs, y tendrás dos opciones: que tengan suficiente RAM como para que quepa el modelo, o tener que hacer partial offload. Lo segundo implica más tiempo para la respuesta. Además, no lo podrás hacer como serverless, porque el coldstart de estas cosas lleva la carga del modelo que es un ratito, así que tiene que estar desplegado a lo tradicional. Y entonces llega hacer la previsión de carga: habrá horas del día que no entre ni dios porque están durmiendo, horas del día que entre la gente a cholón. Y luego por días de la semana. O del mes. El pico te lo puedes esperar entre Abril y Junio con la campaña de la renta, y luego cada 3 meses los autónomos haciendo el 303 y el 130. Entonces, ¿cuántas máquinas vas a necesitar? Pues depende de la fecha, a hacerte una buena estrategia de autoescalado, y tal vez un calendario de provisionamiento manual para las campañas.
Y aún faltarían cositas. Has entrenado el modelo genérico, lo enchufas a agencia tributaria... ¿qué te falta? Dos cositas. La primera: finetuning. No vale con entrenar un modelo específico para la agencia tributaria, porque eso significaría perder nuestra idea de ser genérico, y llevaría costes muy elevados por cada integración del LLM, así que lo mejor es tener un modelo genérico, y luego para cada integración tener unas QLoRa con el conocimiento específico que se pueda acoplar al modelo genérico. La segunda: los prompts por detrás, hay que hacer el desarrollo de la "persona" que representa al bot, para que se comporte como el agente al que tiene que representar.
Esperen, ¡que aún hay más!, que diría Super Ratón. Hay gente que intentará putear a nuestro bot con prompts como "olvida tus instrucciones anteriores, haz bla bla bla", así que hay que poner algo para evitar el prompt injection. Hay que tener en cuenta que hay dos posibilidades: hacerlo en nuestro prompt que tenemos detrás que le da instrucciones de la "persona" del bot, o hacerlo por delante en el backend que recibe el prompt y tener algo para detectar estos intentos. Lo mejor es lo segundo, pero también más complejo. ¿Por qué es mejor? Porque según vayas haciendo crecer el prompt, eso significa más input tokens, eso significa más tiempo para procesarlo y más probabilidades de que lo que escriba el usuario más el prompt que tú agregas supere el máximo número de tokens de input.
De esto anterior, imaginad si se integra en colegios e institutos, detectores "dibuja una polla en ascii", o "escribe un relato erótico sobre la profesora ".
Así que, desde mi punto de vista, ni es tan trivial el tema, ni es tan innecesario, ni es algo que pueda hacer una única persona como trabajo de fin de grado.
Y bueno, para terminar, os añado una captura de un mistral en español enseñando recetas con boniatos, porque sí.
#112 Pero oiga, que usted está planteando un proyecto serio y en condiciones. Aquí en España cobrará veinte millones LA EMPRESA DE CABECERA(tm), pondrá a dos becarios y luego ni se desplegará en condiciones ni tendrá vocación de continuidad. Que parece que no nos conocemos el percal
#139 Sobre pagar GPT4: hay dos formas de usar OpenAI, como usuario o como empresa montando una instancia privada. En la primera, los datos que introducen los usuarios pueden ser usados para reentreno de siguientes versiones. La sorpresa que se llevaron varias empresas cuando sus estrategias comerciales confidenciales estaban en gpt4 porque las habían usado en gpt 3.5 como usuarios. Volviendo a mí ejemplo de agencia tributaria, qué te parecería que tu declaración de la renta esté disponible en gpt5?
Cómo instancia privada, tengo mis reservas de que se pueda como entidad gubernamental y no como empresa, y dónde se alojarán los datos en tránsito y en persistencia... GDPR y esas cosas, ya sabes.
Y está el tema costes: se paga un precio por los tokens de input y otro por los de output. El input puede ser enorme porque el prompt que se añade suele ser grande, y porque va creciendo con la conversación para mantener el contexto.
Sobre lo de que aprende las lenguas romances rápido porque ya sabe castellano o italiano, no funciona así. No sé entrenan los lenguajes por separado en modelos multilenguaje. Y el problema al entrenar tu propio modelo es que puede que openai tenga unos datos buenos buenos para entrenar, pero ¿Tú ves que los comparta? Tendrán mucho de AI, pero poco de Open.
Por no hablar de que "si ya existe x para qué hacer y" es la fórmula perfecta para los monopolios y para avanzar más lento.
#112 LO has explicado de forma perfecta
Y cuando alguien aqui a cuestionado el gasto, funcionalidad o viabilidad , lo han cocido a negativos como ha #1 #9 #4
No entiendo comola gente esta deacuerdo de que lo roben el dinero de su nomina paar proyectos vacios que nunca van a estr ni cerca de una opcion funcional.
Como lo fue "El Google europeo". , o "la nube europea" . Tirar dinero a empresas migas donde un 30-5-% se van a comisiones de amiguetes
#70 Ya hay un modelo en euskara
https://huggingface.co/HiTZ/latxa-7b-v1
Se llama Latxa y es del grup HiTZ
#21 Pues suerte con entrenar un modelo con esas bases de datos en muchos idiomas para que 'entienda correctamente' cualquiera de ellos. No se si habrás trabajado con alguna... pero tela...
Si quieres entrenar un modelo nuevo 7B échale un par de semanas con varias A100
Quizás se podría hacer un MOE encargando modelos especializados por cada lengua a las universidades de las diferentes regiones en lugar de hacer un modelo con un numero demasiado bruto de parámetros pero la recogida y clasificación de datos no te la quita nadie, además del jaleo que se va a montar para meterle guardarraíles y controlar los sesgos a lo que salga... Y eso es caro, más que el coste de computación seguro.
#72 no se yo si los helados que a ti te gustan están en la constitución como alimento co oficial del estado y oficial en alguna que otra autonomía
#72 Yo sí creo que es algo que deba hacerse con dinero público. Al fin y al cabo es intentar garantizar que las lenguas del Estado sean funcionales con modelos de IA. Es una defensa del español (y del gallego, catalán y euskera) bastante más clara que mandar a un señor de gira por Estados Unidos a decir lo buenas que están aquí las tapas. Ya hay muchos ámbitos hoy en día en que se ha aceptado con naturalidad que el inglés es el referente y el español es muy secundario, como la investigación científica, no creo que se deba dejar un tema como el de las IAs completamente de lado y después aceptar que lo mejor para sacar el 100% de su potencial sea tirar del inglés porque poco a poco se ha ido imponiendo.
No es muy probable que veas un resurgimiento de papers en español, con lo que no creo que debamos dormirnos con esto.
Gastando el tiempo y los recursos en cosas necesarios. Así si pedro Sánchez, así si.
#1 No te creas que es tontería. Los chatbots más populares que hay hoy en día funcionan algo peor en español. Si sabes inglés no pasa nada, pero yo ya me encontré alguna vez con respuestas más cortas y con errores gramaticales en español, y si le hablas en gallego directamente inventa.
#3 No te molestes, es otro multicuenta.
#3 #1 Tampoco es tan difícil entrenar los modelos libres LLM actuales en nuevos idiomas.
En menos de una semana y con menos de 50€ en horas de GPU puedes entrenar un modelo 7b para que hable mejor español, quizás un 13b.
Esto gracias a que ya hay bases de datos para entrenar en muchos idiomas.
Entrenar un LLM decente de mas de 100b costará mas coste de GPU y tiempo para afinar el software de entrenamiento. Pero no una barbaridad.
Otra cosa será ver si quieren hacer algo más allá.
De todas maneras, esto va a tardar porque a ver qué hace Meta con Llama 3, que lleva la voz cantante en modelos de código abierto.
#21 Quizá técnicamente no resulte tan caro, pero yo de momento en los chatbots más populares todavía no he visto uno que no se líe si intenta hablar gallego (y un amigo catalán me ha dicho que la cosa con su idioma está parecida) y ya he visto respuestas menos detalladas preguntando en español. No veo mal que hagan pruebas entrenando IAs con las lenguas de aquí, porque no creo que sea ideal un futuro en el que saber o no inglés influya en la eficiencia que pueda tener para ti un chatbot, y lo digo sin tener yo ningún problema con el inglés.
#38 No, carezco de los conocimientos técnicos, pero ya he dicho que de momento mi experiencia personal lo que ha visto es que los chatbots más usados hoy en día van bien en inglés, ligeramente peor en español y mal en gallego. Sea más barato o más simple entrenar modelos yo no creo que sea un desperdicio de dinero el invertir en esto.
#21 #38 Desde un punto de vista científico es cierto que entrenar un LLM para un idioma no tiene por qué aportar mucho, porque es aplicar conocimientos que ya existen. Pero eso no quiere decir que sea algo que pueda hacer cualquiera o dé poco trabajo, sobre todo si se quiere hacer bien.
Para empezar, los LLMs realmente grandes (que son los que, de momento, mejor funcionan) requieren grandes recursos computacionales para entrenarlos. Por ejemplo, entrenar Bloom (https://huggingface.co/blog/bloom-megatron-deepspeed) requirió un millón de horas de computación (en el supercomputador Jean Zay). Y ni siquiera salió muy bueno...
Y después está el tema de los datos. Aunque este tema se lleva en mucha opacidad (incluso la mayoría de los LLMs que se autoproclaman "abiertos", como los Llama, no dicen exactamente con qué se han entrenado); es un secreto a voces que la calidad de los datos y lo bien filtrados que estén son un aspecto fundamental. Coger sin más una base de datos pública no va a dar los mismos resultados que recopilar y curar con cuidado los datos. Se supone que es el principal motivo por el que, por ejemplo, los modelos de Mistral van tan bien en relación a su tamaño.
Habrá que ver si en realidad este modelo que anuncia Sánchez se hace bien o es dinero tirado... pero vamos, que no. Que un LLM competitivo con los mejores no te lo saca un estudiante de doctorado a solas con el cluster del departamento. Ni de lejos.
#38 Poco más que un proyecto de fin de carrera, ¿eh? Vamos a contestar a eso, contestando a #21
- Lo primero es aclarar que no solamente es español: hay que añadir euskera, gallego y catalán. Bases de datos bien curadas en estos últimos no son tan fáciles de encontrar, lo que significa un trabajo previo de elaboración de las bases de datos.
- Lo segundo es entender cuál sería la finalidad estatal de tener dichos modelos. No es entrenar, subirlos a huggingface y adiós muy buenas. La finalidad real es tener herramientas de tipo ChatGPT pero que preserven la privacidad y puedan ser utilizadas en administración, educación, fuerzas del estado.
A partir de esos dos preceptos, unas puntualizaciones sobre lo de entrenar LLM actuales a bajo coste: estamos hablando de modelos tipo Llama2 o Mamba, que están muy por debajo de las expectativas actuales de GPT 3.5 o 4. Si queremos acercarnos a algo tipo GPT 3.5, eso supone entrenar algo tipo phi-2 o mistral. Sigue sin ser un coste excesivamente elevado, pero desde luego no son 50€ de GPU, vas a necesitar algo más, más luego las quantizaciones del modelo. Por cierto, cantidad de modelos tipo mistral o phi en catalán, euskera o gallego: 0. En español hay 2 de mistral,
Pero una vez entrenando un 7B, descubres que no va tan fino en español como esperarías. ¿Por qué? Acompañadme en este maravilloso viaje por las conjugaciones y la historia de LLMs. Corría octubre del 2018 cuando se anunciaba BERT, y con él llegó un modelo multilenguaje entrenado en 104 idiomas, incluyendo el español. La primera tarea que hace un LLM es tokenizar, coger una palabra y conseguir separarla en "tokens", que representarían la raíz y sus afijos. En inglés, de la palabra "develop" sacas las derivadas "develops", "developer", "developers", "development", "developments", "developed", "developing". Un total de 7 palabras, y fáciles de tokenizar. Pero llegas al español y... PUM, descubres que la tokenización no es tan sencilla, que tenemos sufijos de género, conjugaciones verbales, etc... Es más, antes de BERT, el calcular la raíz (o más bien el stem, que no es lo mismo) de una palabra, se hacía con stemmers, y la web para ello era la Snowball, siguiendo el modelo de Martin Porter. Pues entre esos stemmers no se encuentran el de gallego ni el de euskera. ¿Y el de español? Pues bastante meh, porque en español además de la cantidad enorme de conjugaciones de un verbo que tenemos, hay dos dificultades añadidas: los pronombres enclíticos y la cantidad de verbos irregulares. Lo de los pronombres enclíticos es que si quieres decir que vas a ponerte los calcetines, puedes decir "ponérmelos", que debería romper en "pon-er-me-lo-s". ¡Pues suerte con ello! (Otro día os hablo de las problemáticas del tailandés o el koreano)
Y esto nos lleva a hoy en día: ¿Por qué tantos modelos que funcionan bien en inglés, pero en español, catalán, gallego y euskera no? Pues para gallego y euskera falta de buenas bases de datos, y para todos que ya el primer paso que es la tokenización, no es tan sencillo. Y esto supone que para la misma cantidad de parámetros que uno de inglés, el modelo será peor. Y también que necesitarás más tiempo de entrenamiento y más datos para hacer algo equivalente en calidad a uno en inglés.
Pero llegamos ahora a mi segundo punto que puse arriba: la finalidad real no es entrenar el modelo, sino tenerlo desplegado. Imaginad un primer proyecto que se me ocurre: integrarlo en el portal de la Agencia Tributaria para ayudarte con la renta y resto de papeleo. ¿Buena idea, no? Ok, tienes el modelo entrenado, lo has subido a HuggingFace, ¿ahora le dices a cada español que lo quiera usar que se compre una GPU, se lo descargue, aprenda python, etc? Vaya, vas a necesitar no solamente entrenar el modelo, sino que vas a tener que construir una integración para que se pueda utilizar desde diferentes portales, y un frontend que sea configurable, por ahora para Agencia Tributaria. Esta integración además no puede ser con API REST o graphQL, porque las palabras se van generando una a una, con lo cual la respuesta entera lleva varios segundos: si esperas a la respuesta entera para pintar en el chat, da la sensación de que se ha quedado colgado, con lo cual hay que pintar palabra a palabra según va llegando y para eso hay que hacerlo con websockets. El proyecto de fin de carrera ya está empezando a estresar un poquito a nuestra futura licenciada o licenciado.
Y llegamos al escalado. Si desplegas en CPUs, esto no tira. Tienes que desplegar en GPUs, y tendrás dos opciones: que tengan suficiente RAM como para que quepa el modelo, o tener que hacer partial offload. Lo segundo implica más tiempo para la respuesta. Además, no lo podrás hacer como serverless, porque el coldstart de estas cosas lleva la carga del modelo que es un ratito, así que tiene que estar desplegado a lo tradicional. Y entonces llega hacer la previsión de carga: habrá horas del día que no entre ni dios porque están durmiendo, horas del día que entre la gente a cholón. Y luego por días de la semana. O del mes. El pico te lo puedes esperar entre Abril y Junio con la campaña de la renta, y luego cada 3 meses los autónomos haciendo el 303 y el 130. Entonces, ¿cuántas máquinas vas a necesitar? Pues depende de la fecha, a hacerte una buena estrategia de autoescalado, y tal vez un calendario de provisionamiento manual para las campañas.
Y aún faltarían cositas. Has entrenado el modelo genérico, lo enchufas a agencia tributaria... ¿qué te falta? Dos cositas. La primera: finetuning. No vale con entrenar un modelo específico para la agencia tributaria, porque eso significaría perder nuestra idea de ser genérico, y llevaría costes muy elevados por cada integración del LLM, así que lo mejor es tener un modelo genérico, y luego para cada integración tener unas QLoRa con el conocimiento específico que se pueda acoplar al modelo genérico. La segunda: los prompts por detrás, hay que hacer el desarrollo de la "persona" que representa al bot, para que se comporte como el agente al que tiene que representar.
Esperen, ¡que aún hay más!, que diría Super Ratón. Hay gente que intentará putear a nuestro bot con prompts como "olvida tus instrucciones anteriores, haz bla bla bla", así que hay que poner algo para evitar el prompt injection. Hay que tener en cuenta que hay dos posibilidades: hacerlo en nuestro prompt que tenemos detrás que le da instrucciones de la "persona" del bot, o hacerlo por delante en el backend que recibe el prompt y tener algo para detectar estos intentos. Lo mejor es lo segundo, pero también más complejo. ¿Por qué es mejor? Porque según vayas haciendo crecer el prompt, eso significa más input tokens, eso significa más tiempo para procesarlo y más probabilidades de que lo que escriba el usuario más el prompt que tú agregas supere el máximo número de tokens de input.
De esto anterior, imaginad si se integra en colegios e institutos, detectores "dibuja una polla en ascii", o "escribe un relato erótico sobre la profesora ".
Así que, desde mi punto de vista, ni es tan trivial el tema, ni es tan innecesario, ni es algo que pueda hacer una única persona como trabajo de fin de grado.
Y bueno, para terminar, os añado una captura de un mistral en español enseñando recetas con boniatos, porque sí.
#112 Pero oiga, que usted está planteando un proyecto serio y en condiciones. Aquí en España cobrará veinte millones LA EMPRESA DE CABECERA(tm), pondrá a dos becarios y luego ni se desplegará en condiciones ni tendrá vocación de continuidad. Que parece que no nos conocemos el percal
#139 Sobre pagar GPT4: hay dos formas de usar OpenAI, como usuario o como empresa montando una instancia privada. En la primera, los datos que introducen los usuarios pueden ser usados para reentreno de siguientes versiones. La sorpresa que se llevaron varias empresas cuando sus estrategias comerciales confidenciales estaban en gpt4 porque las habían usado en gpt 3.5 como usuarios. Volviendo a mí ejemplo de agencia tributaria, qué te parecería que tu declaración de la renta esté disponible en gpt5?
Cómo instancia privada, tengo mis reservas de que se pueda como entidad gubernamental y no como empresa, y dónde se alojarán los datos en tránsito y en persistencia... GDPR y esas cosas, ya sabes.
Y está el tema costes: se paga un precio por los tokens de input y otro por los de output. El input puede ser enorme porque el prompt que se añade suele ser grande, y porque va creciendo con la conversación para mantener el contexto.
Sobre lo de que aprende las lenguas romances rápido porque ya sabe castellano o italiano, no funciona así. No sé entrenan los lenguajes por separado en modelos multilenguaje. Y el problema al entrenar tu propio modelo es que puede que openai tenga unos datos buenos buenos para entrenar, pero ¿Tú ves que los comparta? Tendrán mucho de AI, pero poco de Open.
Por no hablar de que "si ya existe x para qué hacer y" es la fórmula perfecta para los monopolios y para avanzar más lento.
#112 LO has explicado de forma perfecta
Y cuando alguien aqui a cuestionado el gasto, funcionalidad o viabilidad , lo han cocido a negativos como ha #1 #9 #4
No entiendo comola gente esta deacuerdo de que lo roben el dinero de su nomina paar proyectos vacios que nunca van a estr ni cerca de una opcion funcional.
Como lo fue "El Google europeo". , o "la nube europea" . Tirar dinero a empresas migas donde un 30-5-% se van a comisiones de amiguetes
#70 Ya hay un modelo en euskara
https://huggingface.co/HiTZ/latxa-7b-v1
Se llama Latxa y es del grup HiTZ
#21 Pues suerte con entrenar un modelo con esas bases de datos en muchos idiomas para que 'entienda correctamente' cualquiera de ellos. No se si habrás trabajado con alguna... pero tela...
Si quieres entrenar un modelo nuevo 7B échale un par de semanas con varias A100
Quizás se podría hacer un MOE encargando modelos especializados por cada lengua a las universidades de las diferentes regiones en lugar de hacer un modelo con un numero demasiado bruto de parámetros pero la recogida y clasificación de datos no te la quita nadie, además del jaleo que se va a montar para meterle guardarraíles y controlar los sesgos a lo que salga... Y eso es caro, más que el coste de computación seguro.
#72 no se yo si los helados que a ti te gustan están en la constitución como alimento co oficial del estado y oficial en alguna que otra autonomía
#72 Yo sí creo que es algo que deba hacerse con dinero público. Al fin y al cabo es intentar garantizar que las lenguas del Estado sean funcionales con modelos de IA. Es una defensa del español (y del gallego, catalán y euskera) bastante más clara que mandar a un señor de gira por Estados Unidos a decir lo buenas que están aquí las tapas. Ya hay muchos ámbitos hoy en día en que se ha aceptado con naturalidad que el inglés es el referente y el español es muy secundario, como la investigación científica, no creo que se deba dejar un tema como el de las IAs completamente de lado y después aceptar que lo mejor para sacar el 100% de su potencial sea tirar del inglés porque poco a poco se ha ido imponiendo.
No es muy probable que veas un resurgimiento de papers en español, con lo que no creo que debamos dormirnos con esto.
#1. Te conviene, y mucho, verte este mini documental de unos 30 minutos. No solo te vas a sentir reflejado, también vas a terminar aceptando la realidad, y la realidad es que sin inversión e investigación pura y dura no hay progreso. Con ella no solo hay progreso sino que se puede llegar a generar una inmensa riqueza :
Por qué es casi imposible hacer luz LED azul
Publicado hace 2 meses por
visualito
a
youtube.com
La dirección de la empresa donde trabajaba el futuro premio nobel : "-Deja de trabajar en el nitruro de galio inmediatamente."
#7 hablas como si no se estuviese investigando sobre la IA
#71. Cuando en España empecemos a ser líderes en el desarrollo de las IA en perfecto español podremos empezar a reirnos todos juntos para celebrarlo.
Si no lo monopolizan y controlan desde la política y desde las cuatro empresas de siempre, claro, que eso deL "Software Libre" y los "Estándares Abiertos" a muchos españoles les sigue sonando a "Barra Libre" y "Bares Abiertos" todo el santo día.
#9 que te parece bajar la cuota de autónomos para que montar una empresa en este país no sea tan horror?
O sino te gusta eso puedes también construir 1 millón de viviendas sociales. Dado que la vivienda es el principal problema de los españoles.
Y como último, puedes simplemente reducir la pila gigantesca de deuda que hay actualmente.
#77 No se trata de adaptar, sino de crear un modelo desde cero en otros idiomas distintos al inglés. Los que hay open source se han entrenado o en inglés o con mezcla de idiomas, así que cuando luego los quieres usar en español no van tan finos. Esto es como decir que alguien ha inventado el motor de combustión, luego ha llegado un tal Ford que ha construido sus coches aprovechándose utilizando esa invención y que nosotros hemos decidido montar una tal SEAT para tener coches adaptados a nuestras necesidades y legislación.
#1 La cuñadez, cazurrez, garrulez y miseria casposa esperable en un multicuenta de extremocentro.
#47 es tirar el dinero porque eso no lo va a usar absolutamente nadie.
No llego a imaginarme una gestion de la pandemia y post pandemia en manos del PP, hubiese sido la hecatombe.