En relación a esta buena entrada de Santiago donde trata el hito que DeepMind ha logrado con el sistema de inteligencia artificial Alpha Zero, me gustaría comentar algo sobre la cuestión que más se malinterpreta actualmente de la moderna IA: ¿es cierto que no sabemos cómo hace lo que hace? ¿Se trata realmente de una misteriosa caja negra inexpugnable?
Pues bien, la respuesta es no y no. Sabemos perfectamente (los que se dedican e investigan en este campo) por qué la moderna IA hace lo que hace y cómo lo hace. Y lo de "la caja negra" pues...sencillamente es un mito sensacionalista. Todo el machine learning actual (Alpha Zero incluido) es el resultado de procesos matemáticos algebraicos trabajando sobre números reales. Más en concreto, millones de operaciones de sumas y multiplicaciones tensoriales sobre un conjunto de (millones) de números reales almacenados en un fichero para tal fin. Como veis no hay misterio ni "magia" por ninguna parte.
Y tampoco hay de momento misterio en por qué esos números y no otros (diferentes conjuntos de números aplicados a estructuras algebraicas distintas producen finalmente un resultado casi idéntico). Hay que entender que el entrenamiento de una red neuronal (en todas sus variantes), consiste simplemente en ajustar (derivar o modificar) poco a poco números reales sobre un (estático) "molde" operacional (algrebráico) concreto de modo que finalmente se logra encontrar una función (matemática) que permite correlacionar muy bien un gran (casi infinito) conjunto de entradas (información fenomenológica), con un gran (casi infinito) conjunto de salida (lo que se entiende como generalización). Este proceso de ajuste (entrenamiento) utiliza una cantidad de información finita, por un periodo de tiempo finito, con un hardware muy limitado, y trabaja sobre una estructura algebraica (red neuronal) finita ¡y sin embargo conseguimos como resultado encontrar una función matemática capaz de relacionar con poco margen de error los elementos de dos subconjuntos de fenómenos (casi) infinitos!
Es decir, que si hay de verdad en el campo de la IA algo que podamos llamar misterioso, no es otra cosa que el hecho de observar (con asombro) cómo es posible que nuestro mundo funcione de modo tal que una larga cadena de operaciones algebraicas con una cantidad limitada y finita de constantes numéricas (una vez entrenada la red, los números ya no cambian) pueda aprehender un patrón capaz de relacionar dos subconjuntos fenomenológicos (casi) infinitos de entradas y salidas. ¡Sin embargo esto mismo se puede aplicar igualmente a nuestro propio cerebro y a nuestra propia cognición!...lo cual trae sin duda a cuento al socorrido principio antrópico: el mundo es como es porque de ser de otro modo no sería posible que un cerebro como el nuestro pudiese generalizar la realidad. Pero una vez aceptado ésto la poca "magia" que quedaba desaparece y ya no es tan sorprendente que nosotros hayamos podido imitar este asombroso comportamiento natural (esencial) de una manera "artificial" (usando silicio en lugar de carbono).
En resumen: que de misteriosa la moderna inteligencia artificial tiene más bien poco, lo mismo que de caja negra no tiene nada a parte de que nos cuesta poder seguir el rastro de las operaciones que se deben ejecutan en cada momento al procesar la información de entrada (limitación práctica). Y si hay algo de "mágico" en todo ésto, es el prodigioso hecho de que las leyes del mundo permiten que CUALQUIER objeto capaz de procesar cierto tipo de información siguiendo un cierto proceso algebraico concreto (recordemos que nuestro cerebro hace ésto mismo), obtiene automáticamente la capacidad para poder generalizar patrones fenomenológicos: es decir, que la verdadera fascinación de la IA se aplicaría también a todo sistema nervioso central en animales, y no sería otra cosa que el descubrir que con una cantidad finita de información y de procesado matemático ("estructura" algebraica operacional y números reales en el caso de la IA, estructura sináptica y umbrales de potenciales eléctricos en el caso biológico), es posible relacionar un conjunto (casi) infinito de entradas y salidas fenomenológicas.
Repitamos una vez más: la "magia" que parece rodear a la inteligencia artificial es extrapolable a nuestra propia inteligencia, y gira todo en torno al hecho de que la esencia de nuestra realidad genera lo que entendemos como fenómeno natural siguiendo unas leyes físicas tan concretas y restringidas, que hacen posible ¡a priori! que un procesado matemático de información finita (sin importar el sustrato que haga los cálculos) pueda conectar (relacionar) dos conjuntos casi infinitos de hechos naturales ¡simplemente mediante el uso de una función algebraica!
Ya luego, si este maravilloso hecho esencial (condición necesaria para que "funcione" Alpha Zero pero también para que "funcione" nuestro cerebro), es fruto de la casualidad, del principio antrópico, o si por contra tiene una base o sentido teleológico (o directamente teológico), es una cuestión que pertenece al mundo de la metafísica. Y en este sentido cada cual puede creer en lo que más le convenza. ¿Es más digerible la idea de una infinidad de Universos -con leyes naturales diversas- conviviendo en un multiverso? ¿Que sólo existe un mundo que es del modo en que es por casualidad? ¿O quizás que algún tipo de "Intencionalidad" trascendental afinó las leyes para que la cognición pudiera aparecer? Hoy por hoy es ésta una cuestión subjetiva que cada cual libremente puede racionalizar como mejor le convenga ya que no hay evidencia empírica que apoye o refute una postura de la contraria.
Yo personalmente apuesto por lo que Max Tegmark denominó como multiverso de nivel IV: una realidad matemática (platónica) donde todas las estructuras matemáticas realmente existen, siendo sólo en aquellas donde las leyes físicas (las matemáticas que la sustentan) son tales que permiten la generalización fenomenológica (esto es, la cognición) donde aparecen seres que se preguntan asombrados por su propia condición. Pero como digo, se trata de pura especulación.
Comentarios
Me parece que no entiendes el concepto de la caja negra en este contexto.
Lo que hace la caja negra una caja negra no es el hecho de que se conozcan o no el peso de las conexiones (y por ende la función matemática implicada), sino un hecho más profundo. La caja negra es tal porque no nos ayuda a comprender el dominio.
Es decir: tú coges un montón de datos sobre pacientes de cáncer (indicadores metabólicos, anatómicos, clínicos, etc.) y uno o varios valores de salida (supervivencia del paciente, respuesta ante un fármaco, etc.) y, si tienes datos suficientes, puedes entrenar un modelo con capacidad predictiva alta (capaz de acertar si el paciente sobrevivirá o no, por ejemplo, con buena tasa). Pero ese modelo no te dice nada sobre el proceso subyacente, más allá de "la variable X parece tener mucho peso". El proceso de fondo (la enfermedad) es tremendamente complejo, y más allá de dar una pista sobre el tema, la red neuronal no te permite comprender el proceso, aunque conozcas los pesos. Por eso es una caja negra.
Esto te puede parecer una tontería (a los frikis de la IA suele parecérselo), pero hay muchísimas razones para querer comprender el problema en su raíz. De hecho, un gran problema en aplicaciones biomédicas es que a los sistemas entrenados les cuesta salir de su contexto y seguir funcionando, a diferencia de lo que ocurre en otras aplicaciones más sencillas, como el procesado de textos o de imágenes.
#0 siento decirte que no entiendes el funcionamiento de una red neuronal. Mucha matemática y elucubración, poca conexión con el mundo real.
Una caja negra es algo que te da un resultado, sin darte a conocer el algoritmo por el cual ha llegado a ese resultado.
Que realmente, es la información más valiosa, más aún que el resultado en sí.
Porque por ejm, un perro detector de drogas es como una IA la cual ofrece un resultado óptimo, pero no sabemos como reproducirlo.
Por eso seguimos usando perros y no máquinas en la detección de drogas.
Si no lo entiendes así, tradúcelo a ecuaciones.
#5 ▲▲ Esto.
Que se conozcan los datos que hay en la red neuronal no significa que puedas entender ni controlar porque razona como lo hace. Poder exportar los coeficientes a una hoja de excel en la que quedarte mirando todos los números no es lo mismo que entender como llega al resultado.
#0 Este es mi campo de estudio. Efectivamente, sabemos como funcionan las redes neuronales, Las hemos creado nosotros!. Lo que nos estamos perdiendo es la mecánica para llegar a un resultado.
El concepto de Algoritmo de Caja Negra implica que existe un mecanismo para resolver un problema, pero solo controlamos las entradas y las salidas.
No somos capaces de formular un algoritmo que defina paso a paso como llegar a la misma conclusión que nuestra maquina, ya que lo ha encontrado por el método de ensayo y error.
Tomemos el celebre caso de las fotografías de iris. Cierta instancia fue capaz de predecir con un sorprendente 95% de acierto si una foto de un iris es de un hombre o de una mujer.
Los investigadores no saben como ha llegado esa instancia a la conclusión.
Si permitimos que la investigación acepte los algoritmos de caja negra, corremos el riesgo de no preveer el sesgo de la muestra, y amenaza seriamente la reproducibilidad del estudio.
https://www.xataka.com/robotica-e-ia/conocer-sexo-alguien-foto-su-retina-parecia-imposible-ahora-ia-ha-logrado-no-sabemos-como
https://www.xataka.com/robotica-e-ia/ahora-podemos-ver-como-piensa-un-algoritmo
Ya lo han apuntado antes otros meneantes, pero es verdad que se puede decir perfectamente que es una caja negra porque no se conoce el proceso real.
Tu puedes conocer todos los pesos y todos los valores del sistema.
Pero si tienes una IA que conduce coches y funciona bien un 99.99% de los casos, pero hay una curva en concreto que no la toma bien, no hay manera de saber porque esa no y las otras si, no hay un proceso determinista que te lleve a ello.
Por esa regla de 3 no usariamos los dados ya que midiendo los ángulos distancias y aceleraciones sabemos que número saldrá, pero la realidad es mas compleja y caótica que las teorizaciones.
Es un problema de escala, sí, puedes conocer el comportamiento atómico de las moléculas, pero necesitas modelos "superiores" para conocer las proteinas o la gravitación.
Traducir "light" como ligero o como luz depende del contexto y no conocemos los motivos de las decisiones del algoritmo traductor, podemos ver pesos y podemos desensamblar programas como podemos medir impulsos eléctricos o químicos del cerebro, eso no es saber que ocurre dentro.
#0 entiendo lo que dices, pero tu concepto de "caja negra" no es el mismo que el de los demas, ppr lo que parece.... segun tu propia descripcion, a la IA la alimentamos con un programa, unos datos, un marco con el que trabajartiene, y luego la IA hace millones de operaciones que no somos capaces de seguir, y nos arroja un resultado.... eso es exactamente la definicion de caja negra.
El artículo es muy bueno, mis dieses.
Por intentar aportar algo más, el mito de la caja negra nace precisamente de que estos modelos "regresionan" un fenómeno, y lo regresionan con muchísimas más variables que grados de libertad tiene el propio sistema que se está modelizando. Por ende el modelo que surge de dicha regresión, aunque predictivo, no es descriptivo del fenómeno, al contrario que los modelos que se manejan habitualmente en física.
Por poner un ejemplo, la ley de gravitación maneja la constante de gravitación universal, que (hasta donde yo se) no varía en ningún caso. Si generasemos un modelo de red neuronal (o una clásica regresión polinomial) para describir el movimiento de los planetas seguramente sería igual de predictivo, pero no describiría el sistema, dejándonos sin visibilidad del verdadero fenómeno subyacente (la gravitación) y las posibles aplicaciones del mismo.
La falta de comprensión de lo anterior es lo que lleva al periodista a hablar de "cajas negras".
Guau, me ha encantado el artículo.
Una duda, cuando dices... "el mundo es como es porque de ser de otro modo no sería posible que un cerebro como el nuestro pudiese generalizar la realidad." Las leyes de la física, química, etc... no saben cómo es la realidad per se, simplemente -con el cuerpo sólido de las matemáticas- los físicos, químicos, etc., construyen formas de entender la realidad, pero NO es la realidad. (No sé si me explico bien). O eso tenía entendido.
Pero si es verdad la noticia de las dos i.a. de fb, las que crearon un lenguaje propio para comunicarse. Si es que la noticia es ASÍ y no un cuento, ¿no sería ese lenguaje creado por esas i.a. un poco caja negra?
Me hace gracia el termino que usan los guiris: «oráculo», ya que más que aclarar lo que hace es oscurecer los algoritmos y la idea de «inteligencia artificial» (que por otro lado es un mito), y que un observador meticuloso diría que pone en relieve el fundamentalismo científico que campa por las sociedades y sobretodo por los laboratorios de las escuelas de ingenieros
Ni es un oráculo, ni es adivino, ni es una caja negra y por supuesto no es metafísico como para llamarlo así