Cultura y divulgación
13 meneos
57 clics
"El 35% de las palabras son incomprensibles": la IA entrenada con traducciones basura de Wikipedia es un drama para las lenguas minoritarias

"El 35% de las palabras son incomprensibles": la IA entrenada con traducciones basura de Wikipedia es un drama para las lenguas minoritarias

Hay personas editando manualmente el destrozo que ha hecho la IA. Cuando Kenneth Wehr se hizo cargo de la versión de Wikipedia en groenlandés hace cuatro años, su primera medida fue drástica: borrarlo casi todo. Era, según él, la única forma de que el proyecto tuviera alguna posibilidad de sobrevivir. Wehr, un alemán de 26 años obsesionado con Groenlandia, descubrió que la Wikipedia en este idioma, hablado por unas 57.000 personas, era un espejismo.

| etiquetas: ia , palabras incomprensibles. wikipedia , traducciones basura
11 2 0 K 133
11 2 0 K 133
Precisamente traducir textos es la motivación original del Transformer (elemento fundamental de los LLM) y una de las cosas que este software (la IA basada en LLM) hace mejor.

Pero por simple teoría de la información todos los matices de todos los idiomas no caben en el tamaño de los modelos, eso por un lado, y no toda la información está disponible en todos los idiomas, eso por otro lado.

El primer problema tiene "facil" solución (aumentar el tamaño de los modelos o entrenar modelos específicamente en esos idiomas), el segundo problema (falta de contenido en esos idiomas) ya no es tan trivial.
Basados en predicción. Los grandes modelos de inteligencia artificial, desde Google Translate hasta ChatGPT, aprenden a "hablar" nuevos idiomas analizando cantidades masivas de texto extraído de internet. Para muchas lenguas minoritarias, con poca presencia digital, Wikipedia es a menudo la mayor, si no la única, fuente de datos lingüísticos disponible. Y aquí es donde empieza el gran destrozo lingüístico.
Parece que será vital hacer algo para que la IA identifique con certeza los textos generados o traducidos por IA y no los emplee como datos para sus procesos, porque si no se va a ir toda su labor a la mierda. Y que también los pueda identificar con facilidad cualquier persona que los lea, por lo que pueda pasar con sus alucinaciones..
#2 La web se esta llenando muy muy rápido de contenido generado por IA.

Cada vez es más habitual que cuando buscas algo te encuentres artículos que responde casi exactamente a lo que preguntaste generado por ChatGpt y cía.
#4 lo que a su vez es un problema para la propia IA, porque entrenar la red con el contenido generado por la propia red produce sobre-entrenamiento.
#6 Por el lado positivo las IA se van a volver extremadamente buenas en identificar contenido generado por IA, por la cuenta que les trae.
Con el catalàn también comete errores considerables...
#3 La Wikipedia es forzadamente hostil con el català, sobre todo en topónimos rocambolescos...
Da asquete.

menéame