Preguntas trampa para «ir a pillar» a los LLM: hasta los mejores fallan con preguntas tan triviales

A continuación, una lista de algunas de las preguntas típicas con que se puede probar en plan rápido cualquier nueva versión de un LLM y hacerla fallar miserablemente, cuestionando si realmente ha mejorado, es tan potente como dicen o qué narices pasa en esas «cajas negras». Ojo que hasta ChatGPT-5 parece estar fallando en alguna de ellas, por infantiles que parezcan, concretamente en la comparación numérica y en la «prueba blueberry», aunque depende de quién te lo cuente, porque a mi me ha funcionado.

Cyberbob #4 Cyberbob
#6 No sé cómo has podido decir eso sin despeinarte.
sorrillo #6 sorrillo
Pregúntale a 100 personas cada una de esas pruebas y sospecho que no encontrarás un 100% de aciertos en el 100% de las personas, aunque pueda parecer trivial siempre hay alguien que no se entera y mete la pata y no siempre es el mismo.

Eso no nos permite deducir que esas personas que fallan esa pregunta sean incapaces de razonar o no tengan inteligencia, simplemente el mundo es muy complejo y cada cual tiene sus motivos para fallar en una u otra.

A las IAs les estamos exigiendo la perfección,…
#1 Leclercia_adecarboxylata *
#2 Estoy de acuerdo.
mr_b #2 mr_b
#1 No lo creo.
Xtrem3 #3 Xtrem3
#1 #2 La prueba de que se ha roto la matrix.
#5 Eukherio
El otro día se me dio por experimentar con Grok, versión gratuita. Estuve preguntándole por actrices a ver si me decía quién estaba más buena; la verdad es que la versión gratis por lo menos se comporta como el resto de IAs y dice que la belleza es subjetiva y todo eso, con lo que no vi nada raro. Hubo un momento le pregunté por una de Instagram no tan conocida y me dijo que recientemente había sido propuesta para modelo del año. Me sorprendió, porque creo que ni está en activo desde hace años,…
