edición general
7 meneos
24 clics

Logran resolver con IA el primer problema del nuevo benchmark de FrointerMath

El nuevo benchmark de FrontierMath fue concebido para evaluar las verdaderas capacidades de razonamiento de los sistemas de inteligencia artificial, planteando problemas matemáticos abiertos. Recientemente, una IA ha logrado superar uno de estos complejos obstáculos al aportar una solución al problema abierto de los hipergrafos de Ramsey, un problema desafiante dentro del campo de la combinatoria. Este avance sugiere un salto cualitativo en la capacidad de los LLM para abordar y resolver matemáticas abstractas de alta complejidad.

| etiquetas: ia , frointermath
He editado el título porque en realidad no ha sido un modelo el que lo ha resuelto sino varios a la vez lo han logrado: In this scaffold, several other models were able to solve the problem: Opus 4.6 (max), Gemini 3.1 Pro, and GPT-5.4 (xhigh). We sampled each problem four times: Opus 4.6 solved it once, and Gemini 3.1 Pro and GPT-5.4 solved it twice. We did not check whether these models could then write a self-contained proof of the general result. To isolate the first model able to solve the problem, we also ran GPT-5.2 (xhigh), Opus 4.5 (max), and Kimi K2.5 Thinking on the problem using the same scaffold, again sampling four times. None of them solved it. Unfortunately, Gemini 3 Pro is deprecated so we could not run it.
Ahí va el hilo de la noticia: x.com/EpochAIResearch/status/2036114281985724906

Queda demostrado que los LLM son capaces de encontrar soluciones a problemas que nadie ha podido resolver antes.
#1 pues nos va a hacer falta IA, porque los grupos humanos se empeñan en crear viejos problemas una y otra vez.
:troll:
Sin dudar de la capacidad de los modelos, no olvidemos que lo difícil es plantear el problema en sí, cuando una máquina sea capaz estará razonando, ahora solo continúan mejorando la estadística del resultado tendiendo a óptimo. Insisto, está muy bien pero no es razonar.
La IA nos va a mostrar como construir un motor warp.
#3 a mi con llegar al replicador de alimentos ya me vale, y al tricorder.

menéame