Uno de los avances más espectaculares de la ciencia moderna ha sido la visión de máquinas. En muy pocos años, una nueva generación de técnicas de aprendizaje ha cambiado la manera en la que ven los ordenadores. Ahora las máquinas superan el rendimiento humano en reconocimiento facial y de objetos. Pero está surgiendo un problema. Resulta que los algoritmos de visión de máquinas tienen un tendón de Aquiles que permite que sean engañados por imágenes modificadas que los humanos detectarían a simple vista.
Comentarios
Este tipo de articulos muestran lo increíblemente compleja que es la percepción visual humana. Ver "bien" no se trata de tener imágenes super nítidas, sino que entran en juego variables que el cerebro conoce por su aprendizaje y entorno. Hay personas que no tienen defectos visuales pero tienen tremendos problemas en esos aspectos por lesiones cerebrales de diferente índole, las llamadas agnosias visuales.
Además del tema que saca el post entiendo que hay otros aspectos perceptivos que aún estarán por mejorar o implementar (y que no se habrá hecho porque igual aún no se le considera tan útil), como la percepción de contornos ilusorios (lo que hace que nosotros completemos imágenes incompletas por pura lógica, como en el ejemplo que pongo en la imagen).
Estamos más lejos de la supervisión de lo que creemos.
#6 la percepción es una acción, no es una pasión
Por eso vemos triángulos ande no les hay
#6 Es que el cerebro humano ha evolucionado para reconocer patrones de puta madre. Tanto que algunos ven a Jesús en una tostada.
Eso que a nosotros nos sale tan natural es dificilisimo de implementar en un ordenador.
#6 yo ahí veo 3 pacmans. Alguien que no conozca el juego verá la forma pero no la relación. Si a un ordenador le meten imágenes de pacman lo relacionará al igual que he hecho yo.
Supongo que es cuestion de tiempo que implementen diferentes modos de procesar una imagen que saquen todas las posibles interpretaciones posibles
#44 Es una estrella de David, miralo otra vez.
#56 se ven varias formas y una de ella es el triángulo que no está dibujado y que si quitas los pacmans desaparece y que también quita la estrella de David.
Un ordenador probablemente no detectara la estrella ni el triángulo fantasma porque no tiene bordes que detectar al ser una ilusión óptica, y los pacmans si le han enseñado que eso es un pacman los detectará, igual que las personas
#58 Si, todo eso es correcto, pero el comentario hacia referencia a los "contornos ilusorios", en ese dibujo el contorno ilusotio es la estrella, los pacman tienen su silueta completa, por lo tanto, un humano y una máquina que conozcan la silueta de pacman reconocerán a pacman, pero entre un humano y un ordenador que conozcan la estrella de David, sólo el humano reconocerá la estrella en ese dibujo.
#59 Cuando alguien descubra el método para que un ordenador vea el triángulo sin contorno lo verá. Y si consigue generalizar la visión por ordenador de engaños visuales hará que los ordenadores sean conscientes también de esos trucos, al igual que hace nuestro cerebro
#60 Ya bueno, supongo que algún día, pero ahora mismo no, y aparecerán más retos, distinguir entre realidad o ficción, o la visión de conjunto, como el experimento ese de cambiar el orden de las vocales de las palabras y aún así se lee perfectamente.
Hubiese quedado mucho mejor: un talón de Aquiles. Pero bueno, que sea el tendón, entonces. Supongo que será menos vulnerable.
#4 El artículo lo ha escrito un bot y ha confundido la imagen de un talón con la del tendón.
No llego a entender al leer el artículo cual es la imagen antagónica, veo la original, a su derecha una con un filtro aplicado y en las dos de abajo parece que el cielo tiene un filtro aplicado.
#10 Yo me he quedado igual.
#10 cuidado, si no puedes apreciar la diferencia entre una imagen y la que las máquinas no pueden distinguir, significa que podrías ser un replicante.
Podrías hacerte un test de Voight-Kampff, para asegurarte
#22 podría no, soy un replicante .
#10 El artículo lo explica un poco como el culo. Intento explicártelo. Una adversarial es una imagen que un humano no reconoce como nada (parecen ruido) pero que las redes neuronales interpretan como un objeto, de forma errónea.
El problema viene de dos formas, que el artículo no explica:
- si tomas una imagen de un objeto (por ejemplo una guitarra) y a esa imagen le añades ruido (imperceptible para el humano) la red neuronal puede interpretarlo como algo que no es (por ejemplo decirte que esa guitarra en realidad es un sombrero).
- Las imágenes que de por sí ya tienen ruido, por ejemplo jpgs con baja calidad, tienen probabilidades de ser malinterpretadas por los sistemas de computer vision.
Uno de los papers más sencillitos de entender sobre adversarials es este: http://arxiv.org/pdf/1510.05328.pdf
Si te vas a la página 3 verás un ejemplo con fotos (ejemplo c) que te muestra imágenes que son interpretadas correctamente, en la segunda fila el ruido añadido, y en la tercera fila las imágenes con el ruido superpuesto que un humano sigue viendo igual, pero que una red neuronal convolucional identificará a todas como una seta.
#29 Entiendo que las adversial nets son las que hacen aflorar
y a la vez son la solución del problema.
Todo llegara... el evento esta cerca.
#10 Lo que yo entendí al leer el artículo: Unos investigadores de Google intentan simular (exageradamente) procesos naturales de deterioro de imágenes aplicando diferentes algoritmos modificativos a una imagen nítida (a las imágenes resultantes modificadas las llaman imágenes antagonistas) para comprobar cuán resistente es su red neuronal de reconocimiento facial, el "inception" (nombre que, por cierto, le pusieron en honor a la película homónima, traducida en España como Origen).
Mi spectrum de 38Ks no ve una puta mierda.
#2 Igual le faltan 10K...
#3 Nadie va a necesitar más de 48 Kb de memoria en su PC en la vida
#7 Más de uno ha muerto sin necesitar ni eso...
#3 Sería una oferta del rastro de aquellos tiempos
#2 operale las cataratas
"La clasificación menos probable normalmente es altamente distinta de la clasificación correcta, por lo que este método de ataque genera unos errores más interesantes, como confundir un perro con un avión"
Nota mental: El día que Skynet gane conciencia, formar un batallón de Chihuahuas.
¿Soy el único que cree que el artículo no se entiende? Está todo explicado como el culo.
Hace poco me encontré con este artículo interesante sobre redes neuronales y clasificación: https://arxiv.org/abs/1412.1897
Que se lo digan al bot de Google
#38 Pues parece haber acertado en todas...
Que se lo digan al coche Tesla
Yo siempre me he planteado como harán los coches autónomos para diferenciar a una persona real de un muñeco. Si se colocan muñecos en el centro de una carretera sin cobertura móvil y el coche los atropella, pensará que ha tenido un accidente, y posiblemente se pare en seco. En ese momento aprovechan para robarte todo lo que tienes. Supongo que deberían llevar cámaras térmicas.
#28 Joder, que mente más dañina para hacer el mal, aiajiajiajia. Lo has clavado !!
#28 No hace falta tanto. ¿ Son capaces de diferenciar una bolsa de plástico que a lo sumo tapará la ventilación del radiador y se calentará el coche, de una piedra en medio del camino que te puede matar ?
#28 Muy bueno... Pero ese truco funcionaría también con muchos conductores humanos. Conmigo seguro. Si voy conduciendo mi coche y me encuentro un maniquí tamaño real en medio de la carretera, ya sea de pie o tumbado, vestido o sin ropa, probablemente pararé y me bajaré del coche aunque sólo sea para apartar el muñeco y dejarlo en la cuneta. En ese momento salen los cuatreros de detrás de un arbusto y ¡zas! me joden vivo...
🚗 🔪 🔫
#36 Eres un pervertirdo, nadie habla de joder... estan diciendo robar....
Quien tiene hambre sueña rollos... buscate una pareja!
#54 Eso, eso... Menos robar y más joder.
No lo veo claro, si hasta las personas humanas no confundimos...
Por el momento
Otro ejemplo de porqué los coches autónomos están mucho mas lejos de lo que muchos piensan.
#9 un coche autónomo no necesita ver bien con una infraestructura adecuada que no es relativamente cara. El enorme problema es la convivencia con otros usuarios.
#25 Sí, especialmente con usuarios cabrones que se dediquen a putearlo para provocar accidentes por diversión.
¿Eso de que superan al ojo humano reconociendo caras y objetos de donde se lo saca?
#40 Objetos: https://arxiv.org/abs/1502.01852
Caras: http://luchaochao.me/papers/GaussianFace.pdf
Dibujos: http://www.eecs.qmul.ac.uk/~tmh/papers/yu2015sketchanet.pdf
Tiene todo el sentido del mundo: los ordenadores carecen de intención y volición.
"sistemas de aprendizaje de máquinas" ¿sabéis si esto se llama así o si es una traducción directa?
#8 machine learning es lo que se ve en ingles
#8 Apredizaje automático suele ser el termino utilizado.
Me da la impresión de que el artículos estoy muy mal traducido.
#14
"Resulta que los algoritmos de visión de máquinas tienen un tendón de Aquiles que permite que..."
Pues si que están avanzando en robótica, de aquí nada echan a correr como galgos...
Supongo que los ordenadores, al igual que los humanos, deberán aprender a desconfiar de su propia percepción y a ser conscientes de que alguien puede intentar engañarlos. Difícil solución.
#21 Sí, especialmente difícil la parte de "ser conscientes"
¿Y si para acceder a un sitio de seguridad nos ponemos una foto en la cara de alguien validado? ¿Y si un maquillador profesional te hace prótesis en la cara y maquilla para ser clavado? Y si te pones una máscara de silicona... No hay sistema de seguridad 100% y de momento delegar la seguridad a una cámara me parece poco fiable. Espero que evolucione bastante como toda tecnología, pero las máquinas a día de hoy son fáciles de engañar encontrando su bug, las personas tambien tenemos nuestros bugs, pero son más difíciles de engañar en general y normalmente aprendemos rápido incorporando nuevas variables.
Es un problema de pensamiento excesivamente matemático. Tenía un colega que le pasaba igual era (y es) la persona más inteligente que he conocido jamás un hacha en todos los sentidos excepto en uno, el sentido común el pobre lo veía todo desde una visión tan racional que se la metían doblada por todos lados
#26 ¿Tienes de colega a Sheldon?
Ya abra mas problemas, tipo reconocer y saber diferenciar la realidad de la ficción algo que incluso el ser humano en algunos casos no sabe distinguir.
#13 Abra (El abra) es el puerto de Bilbao.
#13 Imagina con la ironía el cachondeo que se iba a montar
la tecnología nos va a desbordar finalmente y pasaremos a segundo plano
#51 algún dia hasta para cocinar estaremos a las ordenes de un robot
#51 menos mal que a algunos eso de la tecnología no les llegara todavía, los que viven en medios rurales tendrán la suerte de respirar el aire con oxigeno mas puro siempre