Tecnologías más nuevas y potentes (sistemas de razonamiento de OpenAI, Google o DeepSeek) generan más errores. Sus habilidades matemáticas mejoran bastante, pero su manejo de los hechos es más inestable. Ni sus creadores no saben por qué. En OpenAI, o3 alucina el 33% de las veces en una prueba sobre famosos, más del doble que o1. Y o4-mini, el 48%. “Pese a nuestros esfuerzos, siempre van a alucinar”, dijo Amr Awadallah, ex-ejecutivo de Google y director general de Vectara, que crea herramientas de IA para empresas. “Eso nunca va a desaparecer”.