La primera vez que, en una conferencia científica, me hablaron de las máquinas de aprendizaje extremo (ELMs) pregunté con interés, ¿qué son exactamente? Cuando me lo explicaron, volví a inquirir, ¿y cuál es la diferencia? No me la supieron explicar.
#12:
Mmmm.... La verdad es que el artículo me deja un poco "meh". Sobre todo la parte de "Hoy en día la comunidad está dividida...". No está dividida en absoluto, o al menos yo no lo siento así.
Simplificándolo al máximo, el problema genérico que una red neuronal intenta resolver es f(x) = y, y para ello tenemos una capa de input y de output obligatorias (nuestro x y nuestro y). Para tratar de resolver ese problema, lo que se hace es tener en el medio del input y del output capas ocultas de perceptrones (de ahí lo de perceptrón multicapa). Cada capa está conectada con la anterior y cada línea que conecta un perceptrón de una capa con otro de la siguiente posee un peso, que se va calculando mediante un algoritmo, que es el aprendizaje, mediante back propagation y un problema tan antiguo que incluso Newton le estuvo metiendo cerita: calcular los mínimos de un gradiente.
Lo curioso de todo esto es que hay un teorema fundamental, el teorema de aproximación universal, que nos dice que cualquier función proyectada a un subconjunto de R (números reales) y que sea contínua, puede ser aprendida con una única capa oculta con un número finito de neuronas. Y hay que quedarse con este dato, porque las ELMs es esto lo que plantean: una única capa con un número finito de neuronas.
El problema viene de la complejidad de la función a aprender: ¿qué sucede si la función es muy compleja? Que una única capa oculta, solamente aprende features derivadas de la capa de input, pero dos capas ocultas, una conectada a la otra, aprende features derivadas más complejas, que con una única capa necesitarías más neuronas.
Con esa teoría en la mano, nos vamos al "Hola mundo" de la computer vision, que es MNIST: 70.000 imágenes en blanco y negro de números escritos a mano en tamaño en 20x20 pixeles, y el problema es clasificar una imagen hacia 10 posibles clases (los números del 0 al 9). Efectivamente una ELM es suficiente para aprenderse este Hola Mundo, incluso con una única capa oculta y con pesos al azar. ¡Pero es que es el Hola Mundo!
Dejemos MNIST y vayamos a Imagenet y el ILSVRC: 1.400.000 imágenes clasificadas hacia 1000 clases y de tamaños de verdad y no 20x20. Ninguna ELM ha sido capaz de resolver este problema con suficiente accuracy. Ni lo será, porque ya no es el Hola Mundo... Así que las ELMs son suficentes para problemas sencillotes y consumen menos computación, pero cuando les pones delante un problema de verdad, sencillamente no sirven.
Por otro lado, he hablado de MNIST. Uno de los autores de este dataset es Yann LeCun, que es una autoridad en AI, y uno de los padres de las redes convolucionales. Según sus propias palabras:
First, the name: an ELM is exactly what Minsky & Papert call a Gamba Perceptron (a Perceptron whose first layer is a bunch of linear threshold units). The original 1958 Rosenblatt perceptron was an ELM in that the first layer was randomly connected.
Second, the method: connecting the first layer randomly is just about the stupidest thing you could do. People have spent the almost 60 years since the Perceptron to come up with better schemes to non-linearly expand the dimension of an input vector so as to make the data more separable (many of which are documented in the 1974 edition of Duda & Hart). Let's just list a few: using families of basis functions such as polynomials, using "kernel methods" in which the basis functions (aka neurons) are centered on the training samples, using clustering or GMM to place the centers of the basis functions where the data is (something we used to call RBF networks), and using gradient descent to optimize the position of the basis functions (aka a 2-layer neural net trained with backprop).
Hablando en plata, no hay ninguna controversia en la comunidad académica, desde el mismo momento en el que surgió el concepto de ELM, los académicos ya sabían que era un plagio y una puta mierda, el problema es que hay mucha gente que se mete en redes neuronales sin tener una base académica válida, y se dejan llevar por hipsterismos o nombres rimbonbantes. Y a cualquiera le dejan escribir un paper hoy en día
Mmmm.... La verdad es que el artículo me deja un poco "meh". Sobre todo la parte de "Hoy en día la comunidad está dividida...". No está dividida en absoluto, o al menos yo no lo siento así.
Simplificándolo al máximo, el problema genérico que una red neuronal intenta resolver es f(x) = y, y para ello tenemos una capa de input y de output obligatorias (nuestro x y nuestro y). Para tratar de resolver ese problema, lo que se hace es tener en el medio del input y del output capas ocultas de perceptrones (de ahí lo de perceptrón multicapa). Cada capa está conectada con la anterior y cada línea que conecta un perceptrón de una capa con otro de la siguiente posee un peso, que se va calculando mediante un algoritmo, que es el aprendizaje, mediante back propagation y un problema tan antiguo que incluso Newton le estuvo metiendo cerita: calcular los mínimos de un gradiente.
Lo curioso de todo esto es que hay un teorema fundamental, el teorema de aproximación universal, que nos dice que cualquier función proyectada a un subconjunto de R (números reales) y que sea contínua, puede ser aprendida con una única capa oculta con un número finito de neuronas. Y hay que quedarse con este dato, porque las ELMs es esto lo que plantean: una única capa con un número finito de neuronas.
El problema viene de la complejidad de la función a aprender: ¿qué sucede si la función es muy compleja? Que una única capa oculta, solamente aprende features derivadas de la capa de input, pero dos capas ocultas, una conectada a la otra, aprende features derivadas más complejas, que con una única capa necesitarías más neuronas.
Con esa teoría en la mano, nos vamos al "Hola mundo" de la computer vision, que es MNIST: 70.000 imágenes en blanco y negro de números escritos a mano en tamaño en 20x20 pixeles, y el problema es clasificar una imagen hacia 10 posibles clases (los números del 0 al 9). Efectivamente una ELM es suficiente para aprenderse este Hola Mundo, incluso con una única capa oculta y con pesos al azar. ¡Pero es que es el Hola Mundo!
Dejemos MNIST y vayamos a Imagenet y el ILSVRC: 1.400.000 imágenes clasificadas hacia 1000 clases y de tamaños de verdad y no 20x20. Ninguna ELM ha sido capaz de resolver este problema con suficiente accuracy. Ni lo será, porque ya no es el Hola Mundo... Así que las ELMs son suficentes para problemas sencillotes y consumen menos computación, pero cuando les pones delante un problema de verdad, sencillamente no sirven.
Por otro lado, he hablado de MNIST. Uno de los autores de este dataset es Yann LeCun, que es una autoridad en AI, y uno de los padres de las redes convolucionales. Según sus propias palabras:
First, the name: an ELM is exactly what Minsky & Papert call a Gamba Perceptron (a Perceptron whose first layer is a bunch of linear threshold units). The original 1958 Rosenblatt perceptron was an ELM in that the first layer was randomly connected.
Second, the method: connecting the first layer randomly is just about the stupidest thing you could do. People have spent the almost 60 years since the Perceptron to come up with better schemes to non-linearly expand the dimension of an input vector so as to make the data more separable (many of which are documented in the 1974 edition of Duda & Hart). Let's just list a few: using families of basis functions such as polynomials, using "kernel methods" in which the basis functions (aka neurons) are centered on the training samples, using clustering or GMM to place the centers of the basis functions where the data is (something we used to call RBF networks), and using gradient descent to optimize the position of the basis functions (aka a 2-layer neural net trained with backprop).
Hablando en plata, no hay ninguna controversia en la comunidad académica, desde el mismo momento en el que surgió el concepto de ELM, los académicos ya sabían que era un plagio y una puta mierda, el problema es que hay mucha gente que se mete en redes neuronales sin tener una base académica válida, y se dejan llevar por hipsterismos o nombres rimbonbantes. Y a cualquiera le dejan escribir un paper hoy en día
#14 Pues #12 lo ha clavado. Hasta en esto estoy de acuerdo con LeCunn. Pero que conste que este señor está un poco avinagrado porque le reconocieron tarde sus aportaciones, y ahora está en modo 'todos sois una mierda'. Sólo le gustan las GANs.
#14#20#15#31 Como anécdota... hoy es festivo en Barcelona, así que ayer salí de fiesta... Me acabo de despertar y no recuerdo haber encendido el ordenador al volver ni escribir nada. Para lo perjudicado que llegué buena ortografía y sintaxis
#12 si eso dice LeCun, para Schmidhuber ni merecerá comentario...
No tenía constancia de que los chinos estuviesen haciendo el mongol tanto, pero cuando dices: "Y a cualquiera le dejan escribir un paper hoy en día", supongo que debe ser lo que se llama "democratización de la ciencia".
En cualquier caso, los números y técnicas de los chinos van a poner a prueba los sistemas de métricas académicas. Espero que salgan reforzados de ello, porque de lo contrario...
Se lo he dicho un montón de veces a mi madre, pero ella es una acérrima partidaria de Huang y dice que las diferencias respecto al modelo convencional son suficiente grandes como para considerar las ELMs totalmente revolucionarias.
"Pero, claro, el nombre máquinas de aprendizaje extremo suena mucho más chic que perceptrón Gamba2" Es mucho mejor perceptrón Gamba2 es el mejor nombre después de Max Power.
Puede que el artículo tenga razón. Convencer gente que se tiene a si misma por expertos en un monton de temás tecnológicos no es tan difícil. ¿Le preguntamos a Enrique Dans qué opina al respecto?
Menuda maniobra para alzarse al top de las listas de referenciados. Esto ni se lo podía llegar a imaginar Parnas en su artículo en contra de la manía del recuento de publicaciones (http://www.cosy.sbg.ac.at/~helmut/Stuff/parnas07.pdf)
#32 Soy investigador post-doc y el pdf que enlazas acierta en todo, especialmente en España para evaluar a quién dar becas, contratos, proyectos... Por desgracia, yo estoy metido también en ese juego. Muchas gracias.
#35 De nada. Yo estuve quince años en ese juego también. Finalmente abandoné el grupo de investigación y publico de forma independiente. Mis números han caído, pero me encuentro mucho más satisfecho.
Sinceramente, empecé a leer el texto y al párrafo y medio no sabía si era un artículo real o una parrafada "April Fools Day"... vamos, que me confieso un total ignorante del tema.
lo que me sorprende es que si es un plagio de una idea tomada hace 50 años más o menos y "sólo" cambiándole el nombre ya puede pasar los filtros iniciales (laxos) de veracidad, haga que la misma inercia de aceptación haga inevitable una corrección una vez asumidos como originales.
Entiendo que siempre hay espacio para el debate científico en aspectos "periféricos" del tema,pero el núcleo es (debería) el mismo o no lo es en ambos, y en eso no hay tu tía, o al menos eso pensaba hasta ahora.
sólo se me ocurre que cojan una máquina de aprendizaje extremo, metan todos los papers sobre el tema y que ella decide cuál es el original y cuál el plagio
NO SOY ESPECIALISTA EN EL TEMA ESTE DE LAS REDES NEURONALES, PEEEEEEEEEEEEEEEEEEEEEEEEERO.... ¿puede alguien darme alguna fuente que le haga a uno ver CONTUNDENTEMENTE, MÁS ALLÁ DEL PODER DE LA OPINIÓN QUE NO ES DE UNO MISMO SINO DE OTROS, las redes neuronales como algo más serio que una simple moda inoculada por el hype de turno?
Ejemplo> Tienes una tabla de 50 elementos. 5 cifras cada elemento.
En pocos segundos el perceptron puede saber que buscas en ellos.
(estan ordenados, son pares, uno es la suma del resto...) y tu tardas mas.
#3 Me contesto despues de leer articulo...
No hablo de la de "huang extreme" que ni me suena. Es prácticamente la misma que he mandado de github con unas 200 lineas de código en python.
Pero si #1 ya las usamos para muchas cosas diariamente. No basta con usar el telefono con fluidez ni necesitas un super ordenador para utilizarla. Hay que saber estadistica, matematicas sobre todo y algo de informatica para entenderlo.
Pero funciona.
Tú mismo usas redes neuronales cotidianamente aunque no te des cuenta: el buscador de imágenes de Google, los subtitulos automáticos de Youtube o su sistema de recomendación de videos, el reconocimiento del habla del móvil... se basan en redes neuronales.
Ciertamente hay mucho hype sobre qué podrían llegar a hacer algún día las redes neuronales. Pero independientemente del hype, las vas a tener funcionando en el móvil una buena temporada.
#1 No es una simple moda. Hoy en día las empresas las usan en aplicaciones prácticas reales, han dejado de ser un juguete académico. Otra cosa es que el nombre lleve a pensar que tienen inteligencia consciente como un cerebro o algo así: son modelos estadísticos muy potentes que pueden lidiar con grandes cantidades de datos.
#1 Supongo que en los medios de comunicación son una moda. En la investigación lleva estudiándose desde hace décadas, ya se usan en las empresas a alto nivel en la toma de decisiones, o incluso se usan para reconocer objetos o situaciones en imágenes.
#22 Ya en el propio artículo dice que es la idea de Rosenblatt en 1961 aplicada a su perceptrón de 1958, que Minsky y Papert rebautizaron en su libro de 1969 como perceptrón Gamba.
Comentarios
Mmmm.... La verdad es que el artículo me deja un poco "meh". Sobre todo la parte de "Hoy en día la comunidad está dividida...". No está dividida en absoluto, o al menos yo no lo siento así.
Simplificándolo al máximo, el problema genérico que una red neuronal intenta resolver es f(x) = y, y para ello tenemos una capa de input y de output obligatorias (nuestro x y nuestro y). Para tratar de resolver ese problema, lo que se hace es tener en el medio del input y del output capas ocultas de perceptrones (de ahí lo de perceptrón multicapa). Cada capa está conectada con la anterior y cada línea que conecta un perceptrón de una capa con otro de la siguiente posee un peso, que se va calculando mediante un algoritmo, que es el aprendizaje, mediante back propagation y un problema tan antiguo que incluso Newton le estuvo metiendo cerita: calcular los mínimos de un gradiente.
Lo curioso de todo esto es que hay un teorema fundamental, el teorema de aproximación universal, que nos dice que cualquier función proyectada a un subconjunto de R (números reales) y que sea contínua, puede ser aprendida con una única capa oculta con un número finito de neuronas. Y hay que quedarse con este dato, porque las ELMs es esto lo que plantean: una única capa con un número finito de neuronas.
El problema viene de la complejidad de la función a aprender: ¿qué sucede si la función es muy compleja? Que una única capa oculta, solamente aprende features derivadas de la capa de input, pero dos capas ocultas, una conectada a la otra, aprende features derivadas más complejas, que con una única capa necesitarías más neuronas.
Con esa teoría en la mano, nos vamos al "Hola mundo" de la computer vision, que es MNIST: 70.000 imágenes en blanco y negro de números escritos a mano en tamaño en 20x20 pixeles, y el problema es clasificar una imagen hacia 10 posibles clases (los números del 0 al 9). Efectivamente una ELM es suficiente para aprenderse este Hola Mundo, incluso con una única capa oculta y con pesos al azar. ¡Pero es que es el Hola Mundo!
Dejemos MNIST y vayamos a Imagenet y el ILSVRC: 1.400.000 imágenes clasificadas hacia 1000 clases y de tamaños de verdad y no 20x20. Ninguna ELM ha sido capaz de resolver este problema con suficiente accuracy. Ni lo será, porque ya no es el Hola Mundo... Así que las ELMs son suficentes para problemas sencillotes y consumen menos computación, pero cuando les pones delante un problema de verdad, sencillamente no sirven.
Por otro lado, he hablado de MNIST. Uno de los autores de este dataset es Yann LeCun, que es una autoridad en AI, y uno de los padres de las redes convolucionales. Según sus propias palabras:
First, the name: an ELM is exactly what Minsky & Papert call a Gamba Perceptron (a Perceptron whose first layer is a bunch of linear threshold units). The original 1958 Rosenblatt perceptron was an ELM in that the first layer was randomly connected.
Second, the method: connecting the first layer randomly is just about the stupidest thing you could do. People have spent the almost 60 years since the Perceptron to come up with better schemes to non-linearly expand the dimension of an input vector so as to make the data more separable (many of which are documented in the 1974 edition of Duda & Hart). Let's just list a few: using families of basis functions such as polynomials, using "kernel methods" in which the basis functions (aka neurons) are centered on the training samples, using clustering or GMM to place the centers of the basis functions where the data is (something we used to call RBF networks), and using gradient descent to optimize the position of the basis functions (aka a 2-layer neural net trained with backprop).
Hablando en plata, no hay ninguna controversia en la comunidad académica, desde el mismo momento en el que surgió el concepto de ELM, los académicos ya sabían que era un plagio y una puta mierda, el problema es que hay mucha gente que se mete en redes neuronales sin tener una base académica válida, y se dejan llevar por hipsterismos o nombres rimbonbantes. Y a cualquiera le dejan escribir un paper hoy en día
#12 Me lo he leído esperando ver al final "me lo he inventado todo", pero no...
#14 Pues #12 lo ha clavado. Hasta en esto estoy de acuerdo con LeCunn. Pero que conste que este señor está un poco avinagrado porque le reconocieron tarde sus aportaciones, y ahora está en modo 'todos sois una mierda'. Sólo le gustan las GANs.
#14 #20 #15 #31 Como anécdota... hoy es festivo en Barcelona, así que ayer salí de fiesta... Me acabo de despertar y no recuerdo haber encendido el ordenador al volver ni escribir nada. Para lo perjudicado que llegué buena ortografía y sintaxis
#34 Si escribes mejor cocido que sereno, yo de ti me preocuparía.
Buen comentario, por cierto.
#12 sin tener ni idea del tema, tu explicación me ha resultado la mar de informativa y "entendible", muchisimas gracias!!!
#15 Idem.
#15 joder tio, tu idea de hacer cosas "perjudicado" es bastante peculiar... sobrio debes ser la hostia!!! :)
#12 si eso dice LeCun, para Schmidhuber ni merecerá comentario...
No tenía constancia de que los chinos estuviesen haciendo el mongol tanto, pero cuando dices: "Y a cualquiera le dejan escribir un paper hoy en día", supongo que debe ser lo que se llama "democratización de la ciencia".
En cualquier caso, los números y técnicas de los chinos van a poner a prueba los sistemas de métricas académicas. Espero que salgan reforzados de ello, porque de lo contrario...
Se lo he dicho un montón de veces a mi madre, pero ella es una acérrima partidaria de Huang y dice que las diferencias respecto al modelo convencional son suficiente grandes como para considerar las ELMs totalmente revolucionarias.
"Pero, claro, el nombre máquinas de aprendizaje extremo suena mucho más chic que perceptrón Gamba2" Es mucho mejor perceptrón Gamba2 es el mejor nombre después de Max Power.
#21 Y con esa frase se resume todo el artículo, y no es broma.
Puede que el artículo tenga razón. Convencer gente que se tiene a si misma por expertos en un monton de temás tecnológicos no es tan difícil. ¿Le preguntamos a Enrique Dans qué opina al respecto?
#17
#25 Pues mejor, se ve que este tipo en particular ya tiene una buena cantidad de años encima.
#26 👍
Menuda maniobra para alzarse al top de las listas de referenciados. Esto ni se lo podía llegar a imaginar Parnas en su artículo en contra de la manía del recuento de publicaciones (http://www.cosy.sbg.ac.at/~helmut/Stuff/parnas07.pdf)
Todo un genio el Chino Cudeiro este.
#32 Soy investigador post-doc y el pdf que enlazas acierta en todo, especialmente en España para evaluar a quién dar becas, contratos, proyectos... Por desgracia, yo estoy metido también en ese juego. Muchas gracias.
#35 De nada. Yo estuve quince años en ese juego también. Finalmente abandoné el grupo de investigación y publico de forma independiente. Mis números han caído, pero me encuentro mucho más satisfecho.
En mis comidas familiares, antes o después siempre sale la polémica sobre las máquinas de aprendizaje extremo de Huang. Menudas broncas nos pegamos.
#13 Yo he visto hasta matrimonios rotos por este tema.
Sinceramente, empecé a leer el texto y al párrafo y medio no sabía si era un artículo real o una parrafada "April Fools Day"... vamos, que me confieso un total ignorante del tema.
La verdad es que Parnas tiene en cuenta lo de la idea vieja con el nombre nuevo, pero no lo pone como una de las tácticas relevantes.
Que pena que la ciencia también sufra de esos defectos.
Para quien no lo sepa, Huang es la traduccion canaria de Juan. Por lo tanto, aunque lo descubriese fuera, es un aporte cientifico puramente español.
#7 un plagio científico, dirás
lo que me sorprende es que si es un plagio de una idea tomada hace 50 años más o menos y "sólo" cambiándole el nombre ya puede pasar los filtros iniciales (laxos) de veracidad, haga que la misma inercia de aceptación haga inevitable una corrección una vez asumidos como originales.
Entiendo que siempre hay espacio para el debate científico en aspectos "periféricos" del tema,pero el núcleo es (debería) el mismo o no lo es en ambos, y en eso no hay tu tía, o al menos eso pensaba hasta ahora.
sólo se me ocurre que cojan una máquina de aprendizaje extremo, metan todos los papers sobre el tema y que ella decide cuál es el original y cuál el plagio
#7 y significa Amarillo en chino. Eso lo acerca a la UD Las Palmas....
NO SOY ESPECIALISTA EN EL TEMA ESTE DE LAS REDES NEURONALES, PEEEEEEEEEEEEEEEEEEEEEEEEERO.... ¿puede alguien darme alguna fuente que le haga a uno ver CONTUNDENTEMENTE, MÁS ALLÁ DEL PODER DE LA OPINIÓN QUE NO ES DE UNO MISMO SINO DE OTROS, las redes neuronales como algo más serio que una simple moda inoculada por el hype de turno?
#1 moda? pues ya van décadas con el tema.
#1 github...
https://github.com/oscoidi/Perceptron
Ejemplo> Tienes una tabla de 50 elementos. 5 cifras cada elemento.
En pocos segundos el perceptron puede saber que buscas en ellos.
(estan ordenados, son pares, uno es la suma del resto...) y tu tardas mas.
#3 Me contesto despues de leer articulo...
No hablo de la de "huang extreme" que ni me suena. Es prácticamente la misma que he mandado de github con unas 200 lineas de código en python.
Pero si #1 ya las usamos para muchas cosas diariamente. No basta con usar el telefono con fluidez ni necesitas un super ordenador para utilizarla. Hay que saber estadistica, matematicas sobre todo y algo de informatica para entenderlo.
Pero funciona.
#1 leete la wikipedia, por lo menos
#1 A ver, hay infinidad de fuentes, así una rápida podría ser la wiki en inglés que tiene una lista de aplicaciones: https://en.wikipedia.org/wiki/Deep_learning#Applications
Te digo yo rápido por qué no es una moda pasajera: problemas que no tenían solución (reconocimiento de imágenes o del habla los más conocidos) ahora se manejan medio bien (75% de acierto con 100 categorías... en 2015: http://rodrigob.github.io/are_we_there_yet/build/classification_datasets_results.html).
Tú mismo usas redes neuronales cotidianamente aunque no te des cuenta: el buscador de imágenes de Google, los subtitulos automáticos de Youtube o su sistema de recomendación de videos, el reconocimiento del habla del móvil... se basan en redes neuronales.
Ciertamente hay mucho hype sobre qué podrían llegar a hacer algún día las redes neuronales. Pero independientemente del hype, las vas a tener funcionando en el móvil una buena temporada.
#1 No es una simple moda. Hoy en día las empresas las usan en aplicaciones prácticas reales, han dejado de ser un juguete académico. Otra cosa es que el nombre lleve a pensar que tienen inteligencia consciente como un cerebro o algo así: son modelos estadísticos muy potentes que pueden lidiar con grandes cantidades de datos.
#1 Supongo que en los medios de comunicación son una moda. En la investigación lleva estudiándose desde hace décadas, ya se usan en las empresas a alto nivel en la toma de decisiones, o incluso se usan para reconocer objetos o situaciones en imágenes.
#22 Ya en el propio artículo dice que es la idea de Rosenblatt en 1961 aplicada a su perceptrón de 1958, que Minsky y Papert rebautizaron en su libro de 1969 como perceptrón Gamba.
#24 Bueno, yo me refería a las redes neuronales en general.
#1 https://openlibra.com/es/collection/search/term/inteligencia+artificial/
#28 Un enlace buenísimo, gracias