Publicado hace 1 año por JungSpinoza a technologyreview.com

OpenAI ha creado el mejor bot para jugar a Minecraft hasta el momento al hacer que vea 70 000 horas de video de personas jugando el popular juego de computadora. Muestra una técnica nueva y poderosa que podría usarse para entrenar máquinas para llevar a cabo una amplia gama de tareas al visitar sitios como YouTube, una fuente vasta y sin explotar de datos de entrenamiento.

Comentarios

JungSpinoza

En Español y por si ponen un muro

---

Los videos en línea son una fuente vasta e inexplorada de datos de capacitación, y OpenAI dice que tiene una nueva forma de usarlos.

OpenAI ha creado el mejor bot para jugar a Minecraft hasta el momento al hacer que vea 70 000 horas de video de personas jugando el popular juego de computadora. Muestra una técnica nueva y poderosa que podría usarse para entrenar máquinas para llevar a cabo una amplia gama de tareas al visitar sitios como YouTube, una fuente vasta y sin explotar de datos de entrenamiento.

Minecraft AI aprendió a realizar secuencias complicadas de clics de teclado y mouse para completar tareas en el juego, como talar árboles y fabricar herramientas. Es el primer bot que puede crear las denominadas herramientas de diamante, una tarea que suele llevar a los buenos jugadores humanos 20 minutos de clics de alta velocidad, o alrededor de 24 000 acciones.

El resultado es un gran avance para una técnica conocida como aprendizaje por imitación, en la que las redes neuronales se entrenan para realizar tareas al observar a los humanos hacerlas. El aprendizaje por imitación se puede utilizar para entrenar a la IA para controlar brazos robóticos, conducir automóviles o navegar por páginas web.

Hay una gran cantidad de videos en línea que muestran a personas haciendo diferentes tareas. Al aprovechar este recurso, los investigadores esperan hacer por el aprendizaje por imitación lo que GPT-3 hizo por los grandes modelos de lenguaje. “En los últimos años, hemos visto el surgimiento de este paradigma GPT-3 donde vemos que las increíbles capacidades provienen de grandes modelos capacitados en enormes franjas de Internet”, dice Bowen Baker en OpenAI, uno de los miembros del equipo detrás del nuevo Minecraft. bot. "Gran parte de eso se debe a que estamos modelando lo que hacen los humanos cuando se conectan".

El problema con los enfoques existentes para el aprendizaje por imitación es que las demostraciones en video deben etiquetarse en cada paso: hacer esta acción hace que esto suceda, hacer esa acción hace que eso suceda, y así sucesivamente. Anotar a mano de esta manera es mucho trabajo y, por lo tanto, estos conjuntos de datos tienden a ser pequeños. Baker y sus colegas querían encontrar una manera de convertir los millones de videos que están disponibles en línea en un nuevo conjunto de datos.

El enfoque del equipo, llamado Video Pre-Training (VPT), sortea el cuello de botella en el aprendizaje por imitación entrenando otra red neuronal para etiquetar videos automáticamente. Primero contrataron trabajadores colectivos para jugar a Minecraft y grabaron los clics del teclado y del mouse junto con el video de sus pantallas. Esto les dio a los investigadores 2000 horas de juego de Minecraft anotado, que usaron para entrenar un modelo para hacer coincidir las acciones con el resultado en pantalla. Al hacer clic en un botón del mouse en una situación determinada, el personaje balancea su hacha, por ejemplo.

El siguiente paso fue usar este modelo para generar etiquetas de acción para 70 000 horas de video sin etiquetar tomado de Internet y luego entrenar al bot de Minecraft en este conjunto de datos más grande.

“El video es un recurso de capacitación con mucho potencial”, dice Peter Stone, director ejecutivo de Sony AI America, quien anteriormente trabajó en el aprendizaje por imitación.

El aprendizaje por imitación es una alternativa al aprendizaje por refuerzo, en el que una red neuronal aprende a realizar una tarea desde cero mediante prueba y error. Esta es la técnica detrás de muchos de los mayores avances en IA de los últimos años. Se ha utilizado para entrenar modelos que pueden vencer a los humanos en los juegos, controlar un reactor de fusión y descubrir una forma más rápida de hacer matemáticas fundamentales.

El problema es que el aprendizaje por refuerzo funciona mejor para tareas que tienen un objetivo claro, donde las acciones aleatorias pueden conducir a un éxito accidental. Los algoritmos de aprendizaje por refuerzo recompensan esos éxitos accidentales para que sea más probable que vuelvan a suceder.

Pero Minecraft es un juego sin un objetivo claro. Los jugadores son libres de hacer lo que quieran, vagando por un mundo generado por computadora, extrayendo diferentes materiales y combinándolos para hacer diferentes objetos.

El carácter abierto de Minecraft lo convierte en un buen entorno para entrenar la IA. Baker fue uno de los investigadores detrás de Hide & Seek, un proyecto en el que los bots se soltaron en un patio de juegos virtual donde usaron el aprendizaje por refuerzo para descubrir cómo cooperar y usar herramientas para ganar juegos simples. Pero los bots pronto superaron su entorno. "Los agentes se apoderaron del universo, no tenían nada más que hacer", dice Baker. “Queríamos expandirlo y pensamos que Minecraft era un gran dominio para trabajar”.

No están solos. Minecraft se está convirtiendo en un importante banco de pruebas para nuevas técnicas de IA. MineDojo, un entorno de Minecraft con docenas de desafíos prediseñados, ganó un premio en NeurIPS de este año, una de las conferencias de IA más grandes.

Usando VPT, el bot de OpenAI pudo llevar a cabo tareas que habrían sido imposibles usando solo el aprendizaje por refuerzo, como crear tablones y convertirlos en una mesa, lo que implica alrededor de 970 acciones consecutivas. Aun así, descubrieron que los mejores resultados procedían del uso conjunto del aprendizaje por imitación y el aprendizaje por refuerzo. Tomar un bot entrenado con VPT y ajustarlo con aprendizaje de refuerzo le permitió realizar tareas que involucran más de 20,000 acciones consecutivas.

Los investigadores afirman que su enfoque podría usarse para entrenar a la IA para que realice otras tareas. Para empezar, podría usarse para bots que usan un teclado y un mouse para navegar por sitios web, reservar vuelos o comprar comestibles en línea. Pero, en teoría, podría usarse para entrenar robots para que realicen tareas físicas del mundo real copiando videos en primera persona de personas haciendo esas cosas. “Es plausible”, dice Stone.

Sin embargo, Matthew Gudzial de la Universidad de Alberta, Canadá, que ha utilizado videos para enseñar a la IA las reglas de juegos como Super Mario Bros, no cree que suceda pronto. Las acciones en juegos como Minecraft y Super Mario Bros. se realizan presionando botones. Las acciones en el mundo físico son mucho más complicadas y difíciles de aprender para una máquina. "Desbloquea todo un lío de nuevos problemas de investigación", dice Gudzial.

“Este trabajo es otro testimonio del poder de escalar modelos y entrenar en conjuntos de datos masivos para obtener un buen rendimiento”, dice Natasha Jaques, quien trabaja en aprendizaje de refuerzo de múltiples agentes en Google y la Universidad de California, Berkeley.

Grandes conjuntos de datos del tamaño de Internet sin duda desbloquearán nuevas capacidades para la IA, dice Jaques. “Lo hemos visto una y otra vez, y es un gran enfoque”. Pero OpenAI confía mucho en el poder de los grandes conjuntos de datos por sí solos, dice: "Personalmente, soy un poco más escéptica de que los datos puedan resolver cualquier problema".

Aún así, Baker y sus colegas creen que recopilar más de un millón de horas de videos de Minecraft hará que su IA sea aún mejor. Es probablemente el mejor bot para jugar Minecraft hasta ahora, dice Baker: “Pero con más datos y modelos más grandes, esperaría que se sintiera como si estuvieras viendo a un humano jugando, en lugar de una IA bebé que intenta imitar a un humano. ”

JungSpinoza

#2 Cuando los NPCs sean casi indistingubles de otros humanos va a ser un mundo muy muy raro

D

#0 La IA de traducción no acertó con el titular.

arsuceno

#11 sin tener mucha idea te diría que una IA puede "ver" (más bien analizar) a tanta velocidad como capacidad de procesamiento tenga.

JungSpinoza

#7 Las maquinas nos necesitan

.

pkreuzt

Todo son risas hasta que se topa con los vídeos de ciertos populares youtubers y se desata el apocalipsis.

JungSpinoza

#1 Pues veras cuando expongan la IA a 70.000 horas del Call of Duty ... vamos a morir todos

Anon_anon

#4 Que hagan como en el Battlefield, cambien las dinámicas de las armas y sus atributos y a correr, así tendrán a la IA viciada 70000 horas más

pd. Eso me lo hicieron a mí durante 3 años , lo triste es que se me dio bien 2 semanas y ya nunca más

Machakasaurio

#4 http://menea.me/28fs3
Relacionada..

c

#4 70.000 horas de Pitingo.
A ver que sale de ahí

tul

#1 sera una IA entrenada con 70000 horas de losantos lol

D

#1 Todo son risas hasta que te quitan el trabajo. Las IA serán próximamente los nuevos fascistas.

LoboAsustado

#1 70.000 horas de OnlyFans

pkreuzt

#19 La colección de algún meneante entera

u_1cualquiera

No es una IA , es mi hija, la de 8 años

D

#5 70000 horas son 8 años de tiempo, dudo que esa IA lleve tanto tiempo operando, a menos que pueda ver varios vídeos al mismo tiempo.

m

La IA es algo realmente tenebroso y que apunta a acabar con los humanos a todos los niveles (con violencia o sin violencia)

ieicaonvas

Vamos a morir todos. tinfoil

JungSpinoza

#10 Lo bueno es que ya no tenemos que preocuparnos por el calentamiento global