Estos artículos lo complican mucho. En realidad la red neuronal es una multiplicación de matrices o una función vectorial en cada capa, llamémosla f Y entonces, calcular la retropropagación es simplemente aplicar la conocida fórmula de Taylor f(x) =f(xo) + f'(xo) *t +g(xo) *t2 Se supone a las bravas que para los valores usados el sumando de g es pequeño y se toma un t menor que x-xo con la idea de hacer un proceso iterativo.
#1 El bsckpropagation que tu dices no es aplicar un Taylor si no un descenso del gradiente para optimizar la Red neuronal.
#2 ¿ y en qué se diferencian esas dos cosas ? Ya te digo yo, en nada. En el nombre, poco más.
#3 Pues para mí sí que son bastante distintos. Taylor te sirve para encontrar una apróximación de una función. El descenso de gradiente para encontrar máximos y mínimos y de una función dada.
#1 ¿no te dejas la función de activación no lineal entre layers? Es que sin ella se podría colapsar toda la multiplicación a una sola matriz... y justamente eso rompería la funcionalidad.
#5 no he usado en ningun momento la linealidad, vale para el caso general.
Comentarios
Estos artículos lo complican mucho. En realidad la red neuronal es una multiplicación de matrices o una función vectorial en cada capa, llamémosla f
Y entonces, calcular la retropropagación es simplemente aplicar la conocida fórmula de Taylor
f(x) =f(xo) + f'(xo) *t +g(xo) *t2
Se supone a las bravas que para los valores usados el sumando de g es pequeño y se toma un t menor que x-xo con la idea de hacer un proceso iterativo.
#1 El bsckpropagation que tu dices no es aplicar un Taylor si no un descenso del gradiente para optimizar la Red neuronal.
#2 ¿ y en qué se diferencian esas dos cosas ? Ya te digo yo, en nada. En el nombre, poco más.
#3 Pues para mí sí que son bastante distintos. Taylor te sirve para encontrar una apróximación de una función.
El descenso de gradiente para encontrar máximos y mínimos y de una función dada.
#1 ¿no te dejas la función de activación no lineal entre layers?
Es que sin ella se podría colapsar toda la multiplicación a una sola matriz... y justamente eso rompería la funcionalidad.
#5 no he usado en ningun momento la linealidad, vale para el caso general.