Tecnología, Internet y juegos
3 meneos
35 clics

PaperBench, un punto de referencia que evalúa la capacidad de los agentes de IA para replicar la investigación de IA de última generación [EN]

Presentamos PaperBench, un punto de referencia que evalúa la capacidad de los agentes de IA para replicar la investigación de IA de última generación. Los agentes deben replicar 20 documentos de atención y orales ICML 2024 desde cero, incluida la comprensión de las contribuciones en papel, el desarrollo de una base de código y la ejecución exitosa de los experimentos.

| etiquetas: ia , tecnología , benchmark , investigación
#1 gracias, muy interesante. También te digo que a nivel de I+D+I las cosas funcionan de otra manera
comentarios cerrados

menéame