Hace 6 años | Por gringogo a es.gizmodo.com

Publicado hace 6 años por gringogo a es.gizmodo.com

Una IA aprende a hacer trampa en un juego de Atari con un fallo que nadie había encontrado hasta ahora

es.gizmodo.com

Normalmente, un jugador de Q*bert salta de cubo en cubo para cambiar el color de todas las plataformas y luego pasa al siguiente nivel. La IA descubrió que podía terminar el primer nivel con normalidad y después empezar a dar saltos aparentemente aleatorios entre los cubos para que todas las plataformas empezaran a parpadear. Con este extraño método llegó a acumular hasta un millón de puntos en el tiempo límite que le otorgaban los investigadores. https://www.youtube.com/watch?v=meE5aaRJ0Zs

comentarios destacados

#14: #2 ¿Cómo es posible hablar con la boca tan llena de palillos?

--494665--

hace 6 años

#3: Buenos días, profesor Falken. ¿Le apetece una partida de ajedrez?

otama

hace 6 años

#5: #2 >Que programen una IA con machine learning para ¡Tachan! aprender a jugar de la forma más rastrera, es decir, ir a por puntos.
Entonces, igual que un humano. Lo está haciendo de maravilla.

--125581--

hace 6 años

#1: Eliminar los archivos. Incinerar las instalaciones.

--370872--

hace 6 años

#24: #2 A ver por donde empezamos:

- Q-Bert no es mediocre. Es un gran videojuego (en el contexto de la época) con el que muchos se iniciaron y que forma parte de la historia.
- El "ir a por puntos" era prácticamente el objetivo de todos los videojuegos de principio de los 80, por tanto, tiene sentido que su objetivo sea ese dado que no hay mayor premio.

diskover

hace 6 años

Comentarios

Ordenados

Desactivado

hace 6 años

Eliminar los archivos. Incinerar las instalaciones.

V 13

K 114

thatguy

hace 6 años

Hay dos cosas que me sorprenden:

Que de todos los juegos del mundo hayan elegido uno tan mediocre como Q-Bert.
Que programen una IA con machine learning para ¡Tachan! aprender a jugar de la forma más rastrera, es decir, ir a por puntos.

V 10

K -27

otama

hace 6 años

Buenos días, profesor Falken. ¿Le apetece una partida de ajedrez?

V 16

K 133

Endor_Fino

hace 6 años

Yo pensaba que era un algoritmo de recorrido del juego en profundidad, aunque claro, uno tiende a eliminar directamente aquellos caminos que hacen perder una vida

V 0

K 11

Desactivado

hace 6 años

#2 >Que programen una IA con machine learning para ¡Tachan! aprender a jugar de la forma más rastrera, es decir, ir a por puntos.
Entonces, igual que un humano. Lo está haciendo de maravilla.

V 12

K 87

Desactivado

hace 6 años

V 0

K 16

Desactivado

hace 6 años

#2 Sino entiendes como funciona una IA, red neuronal etc, no te metas a criticar. A una red neuronal se le tiene que dar una variable para medir el éxito de la jugada que acaba de probar, de ahí que se usen los puntos.

V 9

K 46

Desactivado

hace 6 años

#2 Si te sorprenden es que te falta casi toda la información para poder emitir un juicio válido.

V 3

K 28

Desactivado

hace 6 años

Eso no es hacer trampa. La habrán programado para ir a por el máximo número posible de puntos, y eso es lo que a hecho, ir a por puntos, aprovechando las condiciones existentes (el "juego"). Si un humano hiciera lo mismo, tampoco sería trampa. Siempre y cuando al humano se le hubiera pedido el mismo objetivo: sacar el máximo número de puntos que pueda, aprovechando las condiciones existentes. Si los programadores del juego no habían previsto esa manera de sacar puntos, eso es otro asunto (allá ellos con sus opiniones; haber programado eso de otra manera, sin lagunas aprovechables), pero no es trampa obedecer la orden: "saca puntos", y obedecer sacando los máximos puntos que uno pueda.

V 3

K 45

#10

SergioZgz

hace 6 años

#3 Soy mas del tic-tac-toe...

V 0

K 10

#11

SergioZgz

hace 6 años

#9 A mi lo que me sorprende es que ese fallo tan chorras no lo hubiera probado nadie antes

V 1

K 18

#12

Maelstrom

hace 6 años

editado

#9 ¿Es encontrar un bug de chiripa hacer trampa?

Hacer trampa requiere una consideración consciente del problema, para tratar del burlarlo. En efecto, aquí no hay nada de eso. De hecho, un humano que por fortuna encontrara el error podría aprovecharlo, pero solo para artificialmente dejar un récord en espera de que el resto de jugadores "piensen" que menudo hacha ha sido el tío que ha dejado tremenda marca; sin embargo, ese romperécords no le encontrará ningún sentido a seguir jugando de esa manera, al perder todo aliciente. ¿Sabe lo que es un aliciente una máquina, el disfrute?

Una chorrada de noticia sensacionalista.

V 4

K 35

#13

Desactivado

hace 6 años

#7 Interesante, como funciona según tu una red neuronal?

V 1

K 18

#14

Desactivado

hace 6 años

#2 ¿Cómo es posible hablar con la boca tan llena de palillos?

V 24

K 178

#15

Desactivado

hace 6 años

#1 Lobotomizar a los científicos.

V 0

K 7

#16

Azucena1980

hace 6 años

editado

Skynet está cada vez más cerca.

Recomiendo a todos los meneantes que apuren el tiempo que les queda. Con un poco de suerte algunos de ellos no llegarán vírgenes al segundo final de su vida.

V 0

K 12

#17

sacaelwhisky

hace 6 años

#2 ¿Mediocre el Q*Bert? Deberían embrearlo a usted, señor, y emplumarlo.

V 0

K 10

#18

yemeth

hace 6 años

La IA va a por puntos porque es la referencia que le da el que la programa para que aprenda a jugar mejor. Otra cosa es que eso, incidentalmente, probando posibilidades encuentre un bug.

V 1

K 14

#19

visualito

hace 6 años

#13
But what is a Neural Network?

V 0

K 9

#20

iolerei_iu_iu

hace 6 años

#9 #12 joer qué rabia. la voté y ahora leyéndoos.. trampa no es la palabra

V 0

K 11

#21

totope

hace 6 años

Ostras, nunca entendí ese juego, me lo saltaba directamente

V 1

K 9

#22

pom

hace 6 años

editado

#13 no hay necesidad de trolear a nadie

Por si a alguien realmente le interesa aprender el funcionamiento básico de las redes neuronales, hay una serie de videos referencia:

Lo que ha dicho #7 es relativamente cierto. Normalmente en redes neuronales retroalimentadas necesitas proporcionar un método que "corrija", o al menos lo intente, los pesos de la red. Se suele tratar con problemas de minimizacion de errores con sus problemas asociados (ej: minimos relativos,...).

No todos los problemas son tan simples como hacer clasificaciones (ej. reconocimiento de números/letras,...). Por ello los juegos se prestan bastante para hacer experimentos con redes neuronales: dispones de inputs acotados y de criterios de error/mejora concretos (puntuaciones, perdidas de vida,...).

V 1

K 11

#23

Desactivado

hace 6 años

V 0

K 10

#24

diskover

hace 6 años

#2 A ver por donde empezamos:

- Q-Bert no es mediocre. Es un gran videojuego (en el contexto de la época) con el que muchos se iniciaron y que forma parte de la historia.
- El "ir a por puntos" era prácticamente el objetivo de todos los videojuegos de principio de los 80, por tanto, tiene sentido que su objetivo sea ese dado que no hay mayor premio.

V 6

K 57

#25

Desactivado

hace 6 años

he visto todo el video y ha sido lo mas interesante que hice en todo el dia han sido 13 min sublimes.

V 1

K 12

#26

Desactivado

hace 6 años

#22 No estoy troleando a nadie, pero por mi trabajo conozco muy bien este tema y me hace gracia ver las cosas que suelta la gente en meneame, normalmente no entro al trapo, por que ya estoy cansado de que aquí en esta página todo el mundo es experto en todo... pero bueno.

Para ser pedante, un apunte:

No todos los problemas son tan simples como hacer clasificaciones

Aprender a clasificar no es un problema simple. De hecho, lo único que puede hacer una red neuronal es clasificar, igual que es lo único que puede hacer una SVM o un Ensemble tree.

Aprender clasificar no es solo que no es un problema simple, sino que en realidad si lo piensas clasificar lo es todo. Aprender a clasificar consiste en extraer un patrón de un conjunto de datos, o en separar la señal del ruido. Y eso es básicamente lo que es la inteligencia y ese es básicamente el problema general de la inteligencia artificial. De hecho, para expresarlo de otra forma, aprender a clasificar consiste en aproximar una función solo observando sus entradas y salidas, que de nuevo, es el problema general de la inteligencia artificial (la búsqueda del santo grial del aproximador universal y sin parámetros)

Lo que están haciendo con los juegos es interesante, nosotros ya sabemos que Q learning puede encontrar el máximo de cualquier MDP, pero ahora usando distintas estrategias de clasificación, por ejemplo redes neuronales (deep Q learning) podemos hacer esa busqueda mucho mas rápido aunque no lleguemos al máximo teorico, pero hacemos viable el algoritmo para un espacio muchísimo mas grande, haciendolo viable para casos de uso del mundo real, como un videojuego.

En fin, que he soltado el rollo, simplemente me ha sorprendido que digas que no todo es tan simple como clasificar (que por el contexto deduzco que te referías a aprender a clasificar, por que para clasificar no necesitas ninguna red neuronal ni nada de AI).

V 3

K 18

#27

Desactivado

hace 6 años

#25 es lo que tiene la IA

V 1

K 12

#28

Desactivado

hace 6 años

#24 No glorifiquemos el pasado, era un videojuego bastante mierder en su época. Para que mi yo de los años ochenta lo considerara un juego aburrido, tenía que ser una castaña de cuidado.

V 0

K 8

#29

Desactivado

hace 6 años

editado

#26 por tu respuesta de #13, en ningún momento he dicho que sea un experto. Mi especialidad es hardware (sistemas embebidos, FPGA, sensores inalámbricos, todo ese rollo )

Por lo poco que estoy leyendo ahora mismo, este libro en concreto https://www.amazon.es/Make-Your-Neural-Network-English-ebook/dp/B01EER4Z4G entiendo el uso de la puntuación como un sistema para medir el éxito. En PID y filtros de Kalman se hace exactamente lo mismo con variables de error para corregir y estimar el éxito que estas teniendo. Por eso me ha hecho gracia cuando se critica el usar la puntuación, porque ya no es solo no entender de redes neuronales, sino tampoco de sistemas de control.

V 0

K 10

#30

Desactivado

hace 6 años

Yo hubiera optado por algún juego manipulado para que al llegar a cierto nivel sea imposible hacerlo y ver como reacciona dicha IA.

V 0

K 7

#31

Desactivado

hace 6 años

editado

#15 Hemos cambiado la religión por unas mamadas indecentes al positivismo obsesivo.Q sí que para ir a Marte vale, falta humanismo y la ciencia para curar enfermedades, ordenadores cuánticos...pero sin tanta adoración a los Reyes.
Mierda de ciencia , y tengo formación científica en diseños experimentales , estadística , biología ...

V 0

K 9

#32

Desactivado

hace 6 años

#13 Aprendiendo de decisiones anteriores y cotejando. Plan frío/caliente como cuando jugábamos de pequeños.

V 0

K 10

#33

LLort_II

hace 6 años

Pero a ver.. esto es bastante normal. Una IA se basa en la curiosidad (hacer todos los movimientos posibles). Vete a saber cuántas partidas habrá jugado a ese juego... 300000?

V 0

K 6

#34

musg0

hace 6 años

#18 yo la noticia la veo más como que la IA siempre activa el bug porque es la forma en la que se ganan más puntos.
Es como si programas a una IA para que busque la felicidad y acaba enganchada a una droga diciéndote que eso es la felicidad.
Un humano creo que no usaría el bug porque, aunque sea la mejor forma de ganar puntos, sabemos que el juego no estaba pensado así, y por lo tanto deducimos que usarlo es hacer trampa y esos puntos no cuentan.
Con la droga sabemos que esa felicidad es falsa y que dura solamente lo que duran sus efectos, así que usarlas constantemente no crea felicidad a largo plazo.

V 0

K 7

#35

yemeth

hace 6 años

#34 Claro pero nosotros ahí tenemos un parámetro para distinguir que esa felicidad inmediata es "falsa" y podemos entonces seguir buscando otro camino.

Si la IA es programada con ese tipo de discriminación no veo motivo por el que no tomara la misma decisión que nosotros (p.ej viendo que su solución es buena a corto plazo pero no a largo).

V 0

K 11

#36

jalepo

hace 6 años

Cada vez que alguien llama IA a estas cosas muere un gatito (robot)

V 0

K 13

#37

squanchy

hace 6 años

#4 No conozco el juego, pero parece que hay un bichejo que si lo tocas, mueres. Ese bichejo es aleatorio o pseudoaleatorio, y, por tanto, no vale una búsqueda en profundidad. Eso sólo funciona cuando las reglas de juego y movimiento están totalmente especificadas para todos los actores.

V 0

K 9

#38

squanchy

hace 6 años

#11 Programando asíncronamente, a veces tenemos bugs porque un proceso acaba inesperadamente antes que otro, y no se tuvo en cuenta en el diseño. Intentas reproducirlo una y otra vez, y no hay manera, porque sólamente se da bajo condiciones muy precisas que no se dan en el entorno en el que estás probando.

V 1

K 18

#39

squanchy

hace 6 años

#21 Molaban más otros

V 0

K 9

#40

totope

hace 6 años

#39 que maravilla

V 0

K 6

#41

SergioZgz

hace 6 años

#38 Vamos un race condition (tambien soy picateclas :P)

V 0

K 9

Una IA aprende a hacer trampa en un juego de Atari con un fallo que nadie había encontrado hasta ahora

Etiquetas

comentarios destacados

Comentarios