Hace 6 años | Por gringogo a es.gizmodo.com
Publicado hace 6 años por gringogo a es.gizmodo.com

Normalmente, un jugador de Q*bert salta de cubo en cubo para cambiar el color de todas las plataformas y luego pasa al siguiente nivel. La IA descubrió que podía terminar el primer nivel con normalidad y después empezar a dar saltos aparentemente aleatorios entre los cubos para que todas las plataformas empezaran a parpadear. Con este extraño método llegó a acumular hasta un millón de puntos en el tiempo límite que le otorgaban los investigadores. https://www.youtube.com/watch?v=meE5aaRJ0Zs

Comentarios

S

#3 Soy mas del tic-tac-toe...

D

#1 Lobotomizar a los científicos.

D

#15 Hemos cambiado la religión por unas mamadas indecentes al positivismo obsesivo.Q sí que para ir a Marte vale, falta humanismo y la ciencia para curar enfermedades, ordenadores cuánticos...pero sin tanta adoración a los Reyes.
Mierda de ciencia , y tengo formación científica en diseños experimentales , estadística , biología ...

D

Eso no es hacer trampa. La habrán programado para ir a por el máximo número posible de puntos, y eso es lo que a hecho, ir a por puntos, aprovechando las condiciones existentes (el "juego"). Si un humano hiciera lo mismo, tampoco sería trampa. Siempre y cuando al humano se le hubiera pedido el mismo objetivo: sacar el máximo número de puntos que pueda, aprovechando las condiciones existentes. Si los programadores del juego no habían previsto esa manera de sacar puntos, eso es otro asunto (allá ellos con sus opiniones; haber programado eso de otra manera, sin lagunas aprovechables), pero no es trampa obedecer la orden: "saca puntos", y obedecer sacando los máximos puntos que uno pueda.

S

#9 A mi lo que me sorprende es que ese fallo tan chorras no lo hubiera probado nadie antes

squanchy

#11 Programando asíncronamente, a veces tenemos bugs porque un proceso acaba inesperadamente antes que otro, y no se tuvo en cuenta en el diseño. Intentas reproducirlo una y otra vez, y no hay manera, porque sólamente se da bajo condiciones muy precisas que no se dan en el entorno en el que estás probando.

S

#38 Vamos un race condition (tambien soy picateclas :P)

Maelstrom

#9 ¿Es encontrar un bug de chiripa hacer trampa?

Hacer trampa requiere una consideración consciente del problema, para tratar del burlarlo. En efecto, aquí no hay nada de eso. De hecho, un humano que por fortuna encontrara el error podría aprovecharlo, pero solo para artificialmente dejar un récord en espera de que el resto de jugadores "piensen" que menudo hacha ha sido el tío que ha dejado tremenda marca; sin embargo, ese romperécords no le encontrará ningún sentido a seguir jugando de esa manera, al perder todo aliciente. ¿Sabe lo que es un aliciente una máquina, el disfrute?

Una chorrada de noticia sensacionalista.

iolerei_iu_iu

#9 #12 joer qué rabia. la voté y ahora leyéndoos.. trampa no es la palabra

D

#22 No estoy troleando a nadie, pero por mi trabajo conozco muy bien este tema y me hace gracia ver las cosas que suelta la gente en meneame, normalmente no entro al trapo, por que ya estoy cansado de que aquí en esta página todo el mundo es experto en todo... pero bueno.

Para ser pedante, un apunte:

No todos los problemas son tan simples como hacer clasificaciones

Aprender a clasificar no es un problema simple. De hecho, lo único que puede hacer una red neuronal es clasificar, igual que es lo único que puede hacer una SVM o un Ensemble tree.

Aprender clasificar no es solo que no es un problema simple, sino que en realidad si lo piensas clasificar lo es todo. Aprender a clasificar consiste en extraer un patrón de un conjunto de datos, o en separar la señal del ruido. Y eso es básicamente lo que es la inteligencia y ese es básicamente el problema general de la inteligencia artificial. De hecho, para expresarlo de otra forma, aprender a clasificar consiste en aproximar una función solo observando sus entradas y salidas, que de nuevo, es el problema general de la inteligencia artificial (la búsqueda del santo grial del aproximador universal y sin parámetros)

Lo que están haciendo con los juegos es interesante, nosotros ya sabemos que Q learning puede encontrar el máximo de cualquier MDP, pero ahora usando distintas estrategias de clasificación, por ejemplo redes neuronales (deep Q learning) podemos hacer esa busqueda mucho mas rápido aunque no lleguemos al máximo teorico, pero hacemos viable el algoritmo para un espacio muchísimo mas grande, haciendolo viable para casos de uso del mundo real, como un videojuego.

En fin, que he soltado el rollo, simplemente me ha sorprendido que digas que no todo es tan simple como clasificar (que por el contexto deduzco que te referías a aprender a clasificar, por que para clasificar no necesitas ninguna red neuronal ni nada de AI).

D

#26 por tu respuesta de #13, en ningún momento he dicho que sea un experto. Mi especialidad es hardware (sistemas embebidos, FPGA, sensores inalámbricos, todo ese rollo )

Por lo poco que estoy leyendo ahora mismo, este libro en concreto https://www.amazon.es/Make-Your-Neural-Network-English-ebook/dp/B01EER4Z4G entiendo el uso de la puntuación como un sistema para medir el éxito. En PID y filtros de Kalman se hace exactamente lo mismo con variables de error para corregir y estimar el éxito que estas teniendo. Por eso me ha hecho gracia cuando se critica el usar la puntuación, porque ya no es solo no entender de redes neuronales, sino tampoco de sistemas de control.

D

yemeth

La IA va a por puntos porque es la referencia que le da el que la programa para que aprenda a jugar mejor. Otra cosa es que eso, incidentalmente, probando posibilidades encuentre un bug.

musg0

#18 yo la noticia la veo más como que la IA siempre activa el bug porque es la forma en la que se ganan más puntos.
Es como si programas a una IA para que busque la felicidad y acaba enganchada a una droga diciéndote que eso es la felicidad.
Un humano creo que no usaría el bug porque, aunque sea la mejor forma de ganar puntos, sabemos que el juego no estaba pensado así, y por lo tanto deducimos que usarlo es hacer trampa y esos puntos no cuentan.
Con la droga sabemos que esa felicidad es falsa y que dura solamente lo que duran sus efectos, así que usarlas constantemente no crea felicidad a largo plazo.

yemeth

#34 Claro pero nosotros ahí tenemos un parámetro para distinguir que esa felicidad inmediata es "falsa" y podemos entonces seguir buscando otro camino.

Si la IA es programada con ese tipo de discriminación no veo motivo por el que no tomara la misma decisión que nosotros (p.ej viendo que su solución es buena a corto plazo pero no a largo).

j

Cada vez que alguien llama IA a estas cosas muere un gatito (robot)

Azucena1980

Skynet está cada vez más cerca.

Recomiendo a todos los meneantes que apuren el tiempo que les queda. Con un poco de suerte algunos de ellos no llegarán vírgenes al segundo final de su vida.

D

he visto todo el video y ha sido lo mas interesante que hice en todo el dia han sido 13 min sublimes.

D

#25 es lo que tiene la IA

Endor_Fino

Yo pensaba que era un algoritmo de recorrido del juego en profundidad, aunque claro, uno tiende a eliminar directamente aquellos caminos que hacen perder una vida

squanchy

#4 No conozco el juego, pero parece que hay un bichejo que si lo tocas, mueres. Ese bichejo es aleatorio o pseudoaleatorio, y, por tanto, no vale una búsqueda en profundidad. Eso sólo funciona cuando las reglas de juego y movimiento están totalmente especificadas para todos los actores.

totope

Ostras, nunca entendí ese juego, me lo saltaba directamente lol

squanchy

#21 Molaban más otros

totope

#39 que maravilla

D

Yo hubiera optado por algún juego manipulado para que al llegar a cierto nivel sea imposible hacerlo y ver como reacciona dicha IA.

LLort_II

Pero a ver.. esto es bastante normal. Una IA se basa en la curiosidad (hacer todos los movimientos posibles). Vete a saber cuántas partidas habrá jugado a ese juego... 300000?

thatguy

Hay dos cosas que me sorprenden:

Que de todos los juegos del mundo hayan elegido uno tan mediocre como Q-Bert.
Que programen una IA con machine learning para ¡Tachan! aprender a jugar de la forma más rastrera, es decir, ir a por puntos.

D

#2 Sino entiendes como funciona una IA, red neuronal etc, no te metas a criticar. A una red neuronal se le tiene que dar una variable para medir el éxito de la jugada que acaba de probar, de ahí que se usen los puntos.

D

#7 Interesante, como funciona según tu una red neuronal?

visualito

#13
But what is a Neural Network?

p

#13 no hay necesidad de trolear a nadie

Por si a alguien realmente le interesa aprender el funcionamiento básico de las redes neuronales, hay una serie de videos referencia:



Lo que ha dicho #7 es relativamente cierto. Normalmente en redes neuronales retroalimentadas necesitas proporcionar un método que "corrija", o al menos lo intente, los pesos de la red. Se suele tratar con problemas de minimizacion de errores con sus problemas asociados (ej: minimos relativos,...).

No todos los problemas son tan simples como hacer clasificaciones (ej. reconocimiento de números/letras,...). Por ello los juegos se prestan bastante para hacer experimentos con redes neuronales: dispones de inputs acotados y de criterios de error/mejora concretos (puntuaciones, perdidas de vida,...).

D

#13 Aprendiendo de decisiones anteriores y cotejando. Plan frío/caliente como cuando jugábamos de pequeños.

D

#2 Si te sorprenden es que te falta casi toda la información para poder emitir un juicio válido.

sacaelwhisky

#2 ¿Mediocre el Q*Bert? Deberían embrearlo a usted, señor, y emplumarlo.

D
D

#24 No glorifiquemos el pasado, era un videojuego bastante mierder en su época. Para que mi yo de los años ochenta lo considerara un juego aburrido, tenía que ser una castaña de cuidado.