EDICIóN GENERAL
236 meneos
4353 clics
Una IA aprende a hacer trampa en un juego de Atari con un fallo que nadie había encontrado hasta ahora

Una IA aprende a hacer trampa en un juego de Atari con un fallo que nadie había encontrado hasta ahora

Normalmente, un jugador de Q*bert salta de cubo en cubo para cambiar el color de todas las plataformas y luego pasa al siguiente nivel. La IA descubrió que podía terminar el primer nivel con normalidad y después empezar a dar saltos aparentemente aleatorios entre los cubos para que todas las plataformas empezaran a parpadear. Con este extraño método llegó a acumular hasta un millón de puntos en el tiempo límite que le otorgaban los investigadores. www.youtube.com/watch?v=meE5aaRJ0Zs

| etiquetas: q*bert , red neuronal , algoritmos evolutivos , bug
Eliminar los archivos. Incinerar las instalaciones.
#1 Lobotomizar a los científicos.
#15 Hemos cambiado la religión por unas mamadas indecentes al positivismo obsesivo.Q sí que para ir a Marte vale, falta humanismo y la ciencia para curar enfermedades, ordenadores cuánticos...pero sin tanta adoración a los Reyes.
Mierda de ciencia , y tengo formación científica en diseños experimentales , estadística , biología ...
Hay dos cosas que me sorprenden:

Que de todos los juegos del mundo hayan elegido uno tan mediocre como Q-Bert.
Que programen una IA con machine learning para ¡Tachan! aprender a jugar de la forma más rastrera, es decir, ir a por puntos.
#2 >Que programen una IA con machine learning para ¡Tachan! aprender a jugar de la forma más rastrera, es decir, ir a por puntos.
Entonces, igual que un humano. Lo está haciendo de maravilla.
#2 Sino entiendes como funciona una IA, red neuronal etc, no te metas a criticar. A una red neuronal se le tiene que dar una variable para medir el éxito de la jugada que acaba de probar, de ahí que se usen los puntos.
#7 Interesante, como funciona según tu una red neuronal?
#13
But what is a Neural Network?

www.youtube.com/watch?v=aircAruvnKk
#13 no hay necesidad de trolear a nadie :-)

Por si a alguien realmente le interesa aprender el funcionamiento básico de las redes neuronales, hay una serie de videos referencia: youtu.be/aircAruvnKk

Lo que ha dicho #7 es relativamente cierto. Normalmente en redes neuronales retroalimentadas necesitas proporcionar un método que "corrija", o al menos lo intente, los pesos de la red. Se suele tratar con problemas de minimizacion de errores con sus problemas asociados (ej:…   » ver todo el comentario
#22 No estoy troleando a nadie, pero por mi trabajo conozco muy bien este tema y me hace gracia ver las cosas que suelta la gente en meneame, normalmente no entro al trapo, por que ya estoy cansado de que aquí en esta página todo el mundo es experto en todo... pero bueno.

Para ser pedante, un apunte:

No todos los problemas son tan simples como hacer clasificaciones

Aprender a clasificar no es un problema simple. De hecho, lo único que puede hacer una red neuronal es clasificar, igual…   » ver todo el comentario
#26 por tu respuesta de #13, en ningún momento he dicho que sea un experto. Mi especialidad es hardware (sistemas embebidos, FPGA, sensores inalámbricos, todo ese rollo )

Por lo poco que estoy leyendo ahora mismo, este libro en concreto www.amazon.es/Make-Your-Neural-Network-English-ebook/dp/B01EER4Z4G entiendo el uso de la puntuación como un sistema para medir el éxito. En PID y filtros de Kalman se hace exactamente lo mismo con variables de error para corregir y estimar el éxito que estas teniendo. Por eso me ha hecho gracia cuando se critica el usar la puntuación, porque ya no es solo no entender de redes neuronales, sino tampoco de sistemas de control.
#13 Aprendiendo de decisiones anteriores y cotejando. Plan frío/caliente como cuando jugábamos de pequeños.
#2 Si te sorprenden es que te falta casi toda la información para poder emitir un juicio válido.
#2 ¿Cómo es posible hablar con la boca tan llena de palillos?
#2 ¿Mediocre el Q*Bert? Deberían embrearlo a usted, señor, y emplumarlo.
#2 A ver por donde empezamos:

- Q-Bert no es mediocre. Es un gran videojuego (en el contexto de la época) con el que muchos se iniciaron y que forma parte de la historia.
- El "ir a por puntos" era prácticamente el objetivo de todos los videojuegos de principio de los 80, por tanto, tiene sentido que su objetivo sea ese dado que no hay mayor premio.
#24 No glorifiquemos el pasado, era un videojuego bastante mierder en su época. Para que mi yo de los años ochenta lo considerara un juego aburrido, tenía que ser una castaña de cuidado.
Buenos días, profesor Falken. ¿Le apetece una partida de ajedrez?
#3 Soy mas del tic-tac-toe...
Yo pensaba que era un algoritmo de recorrido del juego en profundidad, aunque claro, uno tiende a eliminar directamente aquellos caminos que hacen perder una vida
#4 No conozco el juego, pero parece que hay un bichejo que si lo tocas, mueres. Ese bichejo es aleatorio o pseudoaleatorio, y, por tanto, no vale una búsqueda en profundidad. Eso sólo funciona cuando las reglas de juego y movimiento están totalmente especificadas para todos los actores.
Eso no es hacer trampa. La habrán programado para ir a por el máximo número posible de puntos, y eso es lo que a hecho, ir a por puntos, aprovechando las condiciones existentes (el "juego"). Si un humano hiciera lo mismo, tampoco sería trampa. Siempre y cuando al humano se le hubiera pedido el mismo objetivo: sacar el máximo número de puntos que pueda, aprovechando las condiciones existentes. Si los programadores del juego no habían previsto esa manera de sacar puntos, eso es otro asunto (allá ellos con sus opiniones; haber programado eso de otra manera, sin lagunas aprovechables), pero no es trampa obedecer la orden: "saca puntos", y obedecer sacando los máximos puntos que uno pueda.
#9 A mi lo que me sorprende es que ese fallo tan chorras no lo hubiera probado nadie antes
#11 Programando asíncronamente, a veces tenemos bugs porque un proceso acaba inesperadamente antes que otro, y no se tuvo en cuenta en el diseño. Intentas reproducirlo una y otra vez, y no hay manera, porque sólamente se da bajo condiciones muy precisas que no se dan en el entorno en el que estás probando.
#38 Vamos un race condition (tambien soy picateclas :P)
#9 ¿Es encontrar un bug de chiripa hacer trampa?

Hacer trampa requiere una consideración consciente del problema, para tratar del burlarlo. En efecto, aquí no hay nada de eso. De hecho, un humano que por fortuna encontrara el error podría aprovecharlo, pero solo para artificialmente dejar un récord en espera de que el resto de jugadores "piensen" que menudo hacha ha sido el tío que ha dejado tremenda marca; sin embargo, ese romperécords no le encontrará ningún sentido a seguir jugando de esa manera, al perder todo aliciente. ¿Sabe lo que es un aliciente una máquina, el disfrute?

Una chorrada de noticia sensacionalista.
#9 #12 joer qué rabia. la voté y ahora leyéndoos.. trampa no es la palabra
Skynet está cada vez más cerca.

Recomiendo a todos los meneantes que apuren el tiempo que les queda. Con un poco de suerte algunos de ellos no llegarán vírgenes al segundo final de su vida.
La IA va a por puntos porque es la referencia que le da el que la programa para que aprenda a jugar mejor. Otra cosa es que eso, incidentalmente, probando posibilidades encuentre un bug.
#18 yo la noticia la veo más como que la IA siempre activa el bug porque es la forma en la que se ganan más puntos.
Es como si programas a una IA para que busque la felicidad y acaba enganchada a una droga diciéndote que eso es la felicidad.
Un humano creo que no usaría el bug porque, aunque sea la mejor forma de ganar puntos, sabemos que el juego no estaba pensado así, y por lo tanto deducimos que usarlo es hacer trampa y esos puntos no cuentan.
Con la droga sabemos que esa felicidad es falsa y que dura solamente lo que duran sus efectos, así que usarlas constantemente no crea felicidad a largo plazo.
#34 Claro pero nosotros ahí tenemos un parámetro para distinguir que esa felicidad inmediata es "falsa" y podemos entonces seguir buscando otro camino.

Si la IA es programada con ese tipo de discriminación no veo motivo por el que no tomara la misma decisión que nosotros (p.ej viendo que su solución es buena a corto plazo pero no a largo).
Ostras, nunca entendí ese juego, me lo saltaba directamente xD
#21 Molaban más otros  media
#39 que maravilla
he visto todo el video y ha sido lo mas interesante que hice en todo el dia han sido 13 min sublimes.
#25 es lo que tiene la IA
Yo hubiera optado por algún juego manipulado para que al llegar a cierto nivel sea imposible hacerlo y ver como reacciona dicha IA.
Pero a ver.. esto es bastante normal. Una IA se basa en la curiosidad (hacer todos los movimientos posibles). Vete a saber cuántas partidas habrá jugado a ese juego... 300000?
Cada vez que alguien llama IA a estas cosas muere un gatito (robot)
comentarios cerrados

menéame