Presentamos PaperBench, un punto de referencia que evalúa la capacidad de los agentes de IA para replicar la investigación de IA de última generación. Los agentes deben replicar 20 documentos de atención y orales ICML 2024 desde cero, incluida la comprensión de las contribuciones en papel, el desarrollo de una base de código y la ejecución exitosa de los experimentos.
|
etiquetas: ia , tecnología , benchmark , investigación