Publicaron un nuevo método de razonamiento para la IA

15 meneos

117 clics

Publicaron un nuevo método de razonamiento para la IA

Análisis del paper "Think Anywhere in Code Generation" (Xue Jiang et al., Peking University / Alibaba Group). Un nuevo paradigma de Test-Time Compute que permite a los LLMs desplegar tokens de razonamiento en zonas de alta entropía durante la inferencia.

12 3 1 K 67

6 comentarios

12 3 1 K 67

#2 ruinanamas

Yo me llamo Ralph

1 18

#3 Heni *

Es sencillo, este sistema permite a los LLM en lugar de soltar toda la respuesta de golpe después de pensarla, ir haciendo pausas segúna la va escribirndo para hacer un segundo análisis de lo que ya ha escrito y verificar que es correcto, es decir, piensa la respuesta dos veces en lugar de una

Evidentemente los hace mucho más lentos pero se reducen en gran medida las alucinaciones

5 52

#4 ruinanamas

Creía que ya lo hacían, gracias por tu respuesta, el zagal del vídeo lo explica pero la entradilla de la noticia no es para cualquiera.

1 27

#5 flixter

los LLM no "sacan toda la respuesta de golpe". Justamente infieren el siguiente token a partir de los que ya han calculado...

1 21

#6 YoSoyTuPadre *

Sí, pero inferir el siguiente token no es el proceso de "pensar". El proceso de pensar genera tokens intermedios/internos (que no vemos), diferentes de los token finales de la respuesta, que sí vemos

La diferencia de este paper frente al Chain-of-Thought clásico es que el razonamiento/pensamiento no tiene por qué concentrarse solo antes de generar la respuesta final. Puede aparecer de forma intercalada durante la generación del código, justo en los puntos donde el modelo detecta… » ver todo el comentario

0 14

#1 DayOfTheTentacle

¿Pero tiene perspectiva de género o no?

8 -40

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

Inteligencia Artificial

suscripciones por RSS

Publicaron un nuevo método de razonamiento para la IA