Publicado hace 9 años por GodlessMinstrel a hojaderouter.com

El truco matemático del MP3, el JPEG y la cara de Homer Simpson

hojaderouter.com

Por si no ha quedado claro, nos encantan las mates. Tras esas fórmulas y ecuaciones aparentemente incomprensibles hay un mundo de posibilidades. A la transformación de Fourier, por ejemplo, le debes la música que escuchas en formato MP3 y las fotos que subes a Facebook en formato JPEG. ¿Quieres saber por qué?

comentarios destacados

#2: #1 Si las matemáticas te las explicaran SOLO así, no se diferenciarían en nada de una clase de Lengua o de historia. No puedes pretender que una clase de matemáticas se quede solo en explicar una serie de anécdotas. Para aprender matemáticas, hay que practicarlas. Y mucho.

AlexCremento

hace 9 años

#11: Soy músico y, aunque no me meto mucho en la producción informática de música, si que tengo curiosidad.
Recuerdo cuando era pequeño que los mp3 me parecían archivos enormes, y me bajaba música en MIDI.

Los midis sí que funcionan con notas, a las que se asigna un timbre.

Después apareció una herramienta que me parecía increíble, tú cantabas por el micro, y la herramienta convertía tu sonido en notas MIDI, o sea, identificaba la nota y te la escribía (tampoco es tan increíble, es lo que hace un afinador, reconcoer una nota y darte la respuesta de cuál es).

Luego aparecieron algunas herramientas online para descubrir esa canción que no sabes. Unas te permiten tararear la canción y otras te permiten marcar su ritmo con la barra espaciadora.
Estas herramientas sí deben funcionar obteniendo un patrón de las notas y comparándola con una base de datos de las canciones ya convertidas en MIDI, no en audio (wav o mp3).

Cuando apareció Shazam, te indicaban muy claro que no valía tararear la canción, que tenía que ser una escucha de la canción original.

Eso me hizo intuir que su funcionamiento no era descubrir las notas, ordenarlas y compararlas con una base de datos, sino que más bien funcionaba comparando el dibujo de la onda en sí. Por eso no permite que tararees, sino que le dejes escuchar la versión original.

Supongo que eso es lo que se refiere #3. Que según el artículo parece que Shazam escucha, traduce a notación musical, y compara. Y no funciona así, escucha, coge una "foto" de la forma de las ondas, y las compara con las "fotos" de su base de datos. Que es bastante diferente.

thalonius

hace 9 años

#1: Mola que te expliquen así las cosas, especialmente para los que, como yo, pasábamos de las matemáticas. Y con lo de Homer como colofón he flipado muchísimo

PolezLopez

hace 9 años

Comentarios

Mejores hilos

PolezLopez

hace 9 años

Mola que te expliquen así las cosas, especialmente para los que, como yo, pasábamos de las matemáticas. Y con lo de Homer como colofón he flipado muchísimo

V 4

K 63

AlexCremento

hace 9 años

#1 Si las matemáticas te las explicaran SOLO así, no se diferenciarían en nada de una clase de Lengua o de historia. No puedes pretender que una clase de matemáticas se quede solo en explicar una serie de anécdotas. Para aprender matemáticas, hay que practicarlas. Y mucho.

V 30

K 255

Desactivado

hace 9 años

#2 "Para aprender matemáticas, hay que practicarlas. Y mucho."
Física

V 1

K 20

navi2000

hace 9 años

#2 estoy de acuerdo contigo en que no te puedes quedar a ese nivel de explicación, pero empezar en ese nivel de explicación puede ser muy positivo para motivar a los alumnos e irlos introduciendo poco a poco en la materia.

V 5

K 51

#26

tecnecio

hace 9 años

#2 Cierto, pero no pretendas que un niño aprecie la lectura metiéndole el Quijote de entrada, fracasarás.

V 0

K 7

#17

Desactivado

hace 9 años

editado

Este tipo de articulos se agradecen. Pero creo que no logra resumir correctamente el truco de Fourier.

" ¿En qué consiste el truco de Fourier? De acuerdo con el físico Aathis Bhatia, es la herramienta que te dice cuánto de cada una de las ondas que forman una onda más grande tienes que coger para recomponer esa última onda. "

Con fourier podemos descomponer cualquier onda no periódica en un sumatorio infinito de ondas senoidales(o cosenos). Lo bueno es que con muy pocas de estas componentes senoidales podemos acercarnos a una recontrucción de la onda muy aproximada, aunque nunca lleguemos al 100%. Mp3 utiliza ademas una peculiaridad del oido humano, una limitación que no nos permite captar sonidos entre 20 y 20000 hercios. Por lo tanto todas esas componentes senoidales que no captamos se descartan.

V 3

K 32

#25

thalonius

hace 9 años

#17 La verdad es que tu explicación me ha hecho entender de forma más aproximada en qué consiste el truco de Fourier que todo el artículo con sus ejemplos.

La verdad es que la explicación de la web de "cuánto de cada uno" es bastante abstracta... Entiendo que para dirigirse al gran público hay que simplificar, pero no tanto como para decir "es coger un poco de una cosa para llegar a otra" porque al final, por simplificar acabas sin decir nada.

Tu explicación, incluso no sabiendo muy bien lo que son las senoidales, hacen a uno entender más o menos por donde va la cosa.

V 0

K 10

#22

Desactivado

hace 9 años

#21 Oh, una victoria. Hoy follo.

V 3

K 31

#23

lolak0

hace 9 años

#22 Soy un hombre razonable. Suerte esta noche

V 3

K 34

#24

Desactivado

hace 9 años

editado

#23 ¿Tu crees que si imprimo la conversación lograré impresionar a alguna nórdica?

V 0

K 9

#10

Desactivado

hace 9 años

editado

el truco toma las ondas y averigua cuánto de cada onda – y de cada nota – necesitamos para recomponer la onda principal.

¿de cada nota?

El MP3 coge las notas esenciales para recomponer ese pedazo de canción y desecha las que no son necesarias, que suelen ser las notas agudas

¿notas? y no suelen ser las mas agudas, eso depende de la entropía del espectro, si acaso las frecuencias agudas las quita porque la mayoria de la gente esta sorda a partir de 14kHz pero eso no tiene nada que ver con la compresion mp3 es otra tecnica adicional que ayuda ahorrar espacio

el articulo se deja leer, y para motivar siempre es bueno pero confunde bastante

V 2

K 26

#28

thalonius

hace 9 años

#27 Esta permite cantar o tararear: http://www.midomi.com/
Y esta funciona marcando el ritmo con la barra espaciadora: http://www.bored.com/songtapper/
Estas dos funcionan tocando la melodía en un piano virtual. Si sabes música y tienes oído para identificar las notas, pues lo tocas ahí y te busca el nombre: http://www.musipedia.org/ - http://www.melodycatcher.com/

Pero creo que todas las veces que lo he intentado nunca me han solucionado nada, jajaja.
Me temo que su base de datos no debe ser muy extensa ni muy internacional. Pero la segunda por ejemplo podría venir muy bien para hacer mash-ups (hacer que dos canciones suenen a la vez sincronizando su ritmo y haciendo que sus armonías coincidan).

Esta web recopila estas herramientas y algunas más como Shazam: http://www.labnol.org/internet/find-name-of-songs/12316/

V 1

K 17

#12

outofmemory

hace 9 años

No es tan simple como descartar las "notas más agudas". MP3 utiliza un modelo bastante complejo basado en la percepción de un observador humano (modelo psicoacústico, lo llaman). En imágenes JPEG sí que es algo así: atenúa las altas frecuencias con una matriz de cuantificación en el espacio DCT de bloques 8x8. Perdón por el rollo!

V 1

K 15

Desactivado

hace 9 años

editado

Shazam, la popular ‘app’ que reconoce canciones mientras suenan, también se sirve de la transformada del matemático francés. Esta aplicación divide la pieza musical en diferentes porciones para, a continuación, analizar las notas que componen cada una de ellas. Una vez analizada, busca en su base de datos una canción que contenga las mismas notas colocadas de la misma forma.

Meeeeec! Error. Shazam y el resto de aplicaciones parecidas funcionan por espectrografía. Compara imágenes, no sonidos.

V 3

K 15

jiji

hace 9 años

#3 pero para sacar el espectro, necesitarás la transformada

V 1

K 18

Desactivado

hace 9 años

#4 Por supuesto, pero eso no es analizar notas musicales.

V 1

K 18

lolak0

hace 9 años

#3 con la transformada obtienes la representación de lo que tu llamas "notas musicales" en el dominio de la frecuencia. Que es precisamente como se hace la "espectografía". Meeeeec....

V 6

K 50

#20

Desactivado

hace 9 años

editado

#19 Pues entonces qué hablas en #7... Shazam es un comparador de imagenes, bastante parecido al motor de búsqueda de imagenes de Google.

V 1

K 18

#21

lolak0

hace 9 años

#20 Al leer tu cita en #3 pensaba que te habías referido tu a "notas musicales" cuando era el artículo. Cambia "notas musicales" por "sonido", que ahí me he colado.

V 0

K 6

centelleante

hace 9 años

#3 precisamente la transformada sobre un sonido te da el espectro en el dominio de la frecuencia :facepalm:

V 5

K 55

#11

thalonius

hace 9 años

Soy músico y, aunque no me meto mucho en la producción informática de música, si que tengo curiosidad.
Recuerdo cuando era pequeño que los mp3 me parecían archivos enormes, y me bajaba música en MIDI.

Los midis sí que funcionan con notas, a las que se asigna un timbre.

Después apareció una herramienta que me parecía increíble, tú cantabas por el micro, y la herramienta convertía tu sonido en notas MIDI, o sea, identificaba la nota y te la escribía (tampoco es tan increíble, es lo que hace un afinador, reconcoer una nota y darte la respuesta de cuál es).

Luego aparecieron algunas herramientas online para descubrir esa canción que no sabes. Unas te permiten tararear la canción y otras te permiten marcar su ritmo con la barra espaciadora.
Estas herramientas sí deben funcionar obteniendo un patrón de las notas y comparándola con una base de datos de las canciones ya convertidas en MIDI, no en audio (wav o mp3).

Cuando apareció Shazam, te indicaban muy claro que no valía tararear la canción, que tenía que ser una escucha de la canción original.

Eso me hizo intuir que su funcionamiento no era descubrir las notas, ordenarlas y compararlas con una base de datos, sino que más bien funcionaba comparando el dibujo de la onda en sí. Por eso no permite que tararees, sino que le dejes escuchar la versión original.

Supongo que eso es lo que se refiere #3. Que según el artículo parece que Shazam escucha, traduce a notación musical, y compara. Y no funciona así, escucha, coge una "foto" de la forma de las ondas, y las compara con las "fotos" de su base de datos. Que es bastante diferente.

V 13

K 116

#13

Desactivado

hace 9 años

#11 Gracias. Es curioso que el que más sabe es el que menos va de listo.

V 2

K 25

#15

lolak0

hace 9 años

editado

#11 yo en #3 he leído específicamente que compara imágenes. Luego puedes hacer la interpretación que quieras, que entiendo por dónde vas, pero el término me ha parecido incorrecto. Donde dices imagen, digo señal, que una señal la puedes interpretar como una imagen en la que el componente X sea el tiempo y el Y el valor me parece perfecto. Dicha "imagen" la extraes del sonido. Si nos ponemos filosóficos podríamos decir que compara números... Y te doy la razón en que no de las notas
Yo personalmente sí he utilizado éstos métodos con imágenes para el reconocimiento de formas, en resumen, el proceso era la extracción de contornos de una imagen, la aplicación de la dft a dicho contorno y la extracción de los descriptores obtenidos hasta el índice que nos interese (más precisión añade más detalle al contorno y lo vuelve más vulnerable al ruido). Después procesando los descriptores de la base de datos con los obtenidos mediante el método oportuno podías obtener la relación de escala, rotación y traslación relativa de un contorno con el original. Éstas 3 características son las que más caracterizan a los descriptores de Fourier, que mediante pequeñas transformaciones conseguimos su invarianza.
#13 No es ir de listo, es la jerga a la que uno se acostumbra cuando de lo que se habla le da de comer.

V 0

K 6

#16

Desactivado

hace 9 años

editado

#15 Es curioso que te parezca incorrecto cuando digo que compara imágenes y no te parezca tan incorrecto como a mi decir que compara las notas musicales y su orden como dice el artículo, lo cual es falso.

V 0

K 9

#19

lolak0

hace 9 años

#16 en mi comentario anterior leerás "que te doy la razón en que no de las notas" refiriéndome a que no extrae la información de las notas musicales.

V 0

K 6

#14

outofmemory

hace 9 años

#11 efectivamente. Lo que hacen es, para cada pequeño trozo de sonido, obtener un descriptor. Ese descriptor es como un resumen de las características de ese trozo de sonido. Luego, se conparan los descriptores de lo que oyes con los descriptores de la base de datos (es mucho más rápido y no tienes que almacenar las canciones, solo sus descriptores). Es como hace Google cuando le das una imagen y quieres que te busque imágenes similares (descriptores basados en histogramas de gradientes en trozos de la imagen).

V 1

K 19

#27

forms

hace 9 años

#11 podrías comentar que webs buscan canciones sin utilizar la onda, y que permiten tararear

V 0

K 7

#18

fpove

hace 9 años

Con lo bonito que es diagonalizar por semejanza o congruencia y despues enseñar la transformada de fourier en sus diferentes variables .

V 0

K 7

El truco matemático del MP3, el JPEG y la cara de Homer Simpson

Etiquetas

comentarios destacados

Comentarios