PaperBench, un punto de referencia que evalúa la capacidad de los agentes de IA para replicar la investigación de IA de última generación [EN]

3 meneos

35 clics

PaperBench, un punto de referencia que evalúa la capacidad de los agentes de IA para replicar la investigación de IA de última generación [EN]

Presentamos PaperBench, un punto de referencia que evalúa la capacidad de los agentes de IA para replicar la investigación de IA de última generación. Los agentes deben replicar 20 documentos de atención y orales ICML 2024 desde cero, incluida la comprensión de las contribuciones en papel, el desarrollo de una base de código y la ejecución exitosa de los experimentos.

| etiquetas: ia , tecnología , benchmark , investigación

3 0 1 K 21

2 comentarios

3 0 1 K 21

Click para ver los comentarios

menéame

condiciones legales / de uso / y de cookies
/ quiénes somos
/ licencias: código, gráficos, contenido
/ HTML5
/ codigo fuente

Tecnología, Internet y juegos

más visitadas

«Nos sentaron y nos dijeron que estábamos todos fuera», la IA acaba con los programadores de una empresa en Burgos

He descompilado la nueva aplicación de la Casa Blanca (ENG)

SSD y HDD sin stock hasta 2029: SanDisk, Seagate y WD venden toda su producción

Las gafas de Meta habrían grabado vídeos en el aseo y en la cama: Zuckerberg despide a empleados que lo denunciaron

Telefónica bloquea la web de LaLiga en un nuevo episodio de mal funcionamiento del sistema de filtrado

más votadas

Telefónica bloquea la web de LaLiga en un nuevo episodio de mal funcionamiento del sistema de filtrado

Las gafas de Meta habrían grabado vídeos en el aseo y en la cama: Zuckerberg despide a empleados que lo denunciaron

«Nos sentaron y nos dijeron que estábamos todos fuera», la IA acaba con los programadores de una empresa en Burgos

Google afirma que la Unión Europea es un peligro para la privacidad de los usuarios en Internet

Un grave fallo concede acceso root en todas las distribuciones de Linux

suscripciones por RSS

PaperBench, un punto de referencia que evalúa la capacidad de los agentes de IA para replicar la investigación de IA de última generación [EN]