"El 35% de las palabras son incomprensibles": la IA entrenada con traducciones basura de Wikipedia es un drama para las lenguas minoritarias

Hay personas editando manualmente el destrozo que ha hecho la IA. Cuando Kenneth Wehr se hizo cargo de la versión de Wikipedia en groenlandés hace cuatro años, su primera medida fue drástica: borrarlo casi todo. Era, según él, la única forma de que el proyecto tuviera alguna posibilidad de sobrevivir. Wehr, un alemán de 26 años obsesionado con Groenlandia, descubrió que la Wikipedia en este idioma, hablado por unas 57.000 personas, era un espejismo.

#2 Pitchford
Parece que será vital hacer algo para que la IA identifique con certeza los textos generados o traducidos por IA y no los emplee como datos para sus procesos, porque si no se va a ir toda su labor a la mierda. Y que también los pueda identificar con facilidad cualquier persona que los lea, por lo que pueda pasar con sus alucinaciones..
Antipalancas21 #1 Antipalancas21
Basados en predicción. Los grandes modelos de inteligencia artificial, desde Google Translate hasta ChatGPT, aprenden a "hablar" nuevos idiomas analizando cantidades masivas de texto extraído de internet. Para muchas lenguas minoritarias, con poca presencia digital, Wikipedia es a menudo la mayor, si no la única, fuente de datos lingüísticos disponible. Y aquí es donde empieza el gran destrozo lingüístico.
asola33 #3 asola33
Con el catalàn también comete errores considerables...
