Hace 10 años | Por mr_b a gallir.wordpress.com
Publicado hace 10 años por mr_b a gallir.wordpress.com

En los últimos años se ha popularizado el Big Data, tenemos más datos accesibles, es más fácil obtenerlos, y además es mucho más fácil y barato disponer del procesamiento de cálculo necesario. El problema con el Big Data es que es muy difícil separar ruido de la señal, y se pueden encontrar correlaciones con casi cualquier ruido si no se es muy cuidadoso.

Comentarios

D

#5 Si yo te lo he dicho solo para que dejes de fumar, que es malo, pero gracias por la información.

noexisto

#5 a ver nene, por mucho que sea de letras entiendo perfectamente lo que has dicho. El artículo está tan bien escrito que cualquiera que no tenga ni puta idea entiende
- Se habla mucho del Big Data
- Los análisis se hacen hace décadas, especialmente en grandes empresas
- Sí, todos estos típicos análisis se hacen mejor especialmente en los últimos ańos con los ordenadores, permite manejar datos y variables
- sí, gran culpable de lo que ha pasado, sobre todo cuando se creaban fórmulas "mágicas"
- El Big data se ha popularizado: se hace y se hace mucho porque es mucho más barato y accesible
- Como en todo en lo que hay mucha cantidad de algo, se produce mucho "ruido".
- Te pillas 2 datos de los últimos 20-40 ańos y los pones en una gráfica. Tienen correlación estás variables? Es Ponemos no 2, sino 1.000, el famoso Big data
- Ahora es más "fácil" ver los datos que tienen correlación positiva (cuando sube/baja el dato A, sube/baja el dato M)
- Es casualidad? No. Claramente van a la par en sus movimientos.
- Incluso podemos encontrar datos que funcionan "al revés". Cuando uno baja, el otro sube.
- La leche en verso porque no hace falta tener unos algoritmos de banca para detectarlo, una simple hoja de cálculo (sabiéndolo hacer) te detecta estas correlaciones: cuando sube uno sube otro, baja uno bajá otro, cuando uno sube otro baja y cuando aquel baja el otro sube
- Ahora, tu parte: los numeros pseudoaleatorios. Hasta aquí bien, lo he entendido, verdad?
- Pues todos estos datos (a los que les hemos buscado correlaciones) están creados por un programa que genera número pseudaleatorios (la paradoja de creación determinista para crear verdadera aleatoriedad) Bien porque son más seguros que los aleatorios (que no lo son realmente nunca) bien porque nos hemos equivocado al programarlo para generarlos (típicos problemas de criptografia)
- Vuelves a reiterar lo anterior: cuando hay muchos datos es difícil separar ruido de la seńal, cada día hay más análisis de estos que nos pueden llevar a medidas politicas/economicas desastrosas mediante su uso erróneo si el análisis no es el correcto: alerta a estos datos y sobre todo a su análisis: por muy bonita que sea la gráfica, cuanto más datos contenga, más fácil es hallar correlaciones sin relación alguna.

Ahora: sin tener ni puta idea de estadística (que no la tengo) y siendo "de letras" crees que he comprendido el fondo del asunto o no? O sigues pensando que solté una chorrada. Esa es la base (por eso puse que no hacía spoilers)
Incluso (para el que lo lea) aunque los números se los inventara un mono alguien les encontrará una correlación y ese es el peligro de todo este tipo de análisis y gráficas.
Intenté subir la noticia al verla en "el Nótame" y leerla, por cierto. Me sigue pareciendo interesante y tu comentario fuera de lugar, a pesar de lo dicho en #3. En ningún momento troleaba #ains #re-ains

gallir

#8 No entiendes nada de números aleatorios, de hecho ni por qué se llaman pseudoaleatorios, pero has soltado la burrada por hacerte el listillo. Y luego te enrollas con cosas que nada tienen que ver con el fondo del asunto (como el "determinismo", cuando lo que importan son sus propiedades estadísticas).

#10 Mira lo que dije en #5 sobre el tema. Es absolutamente ridículo poner en duda a los números pseudoaleatorios para un ejemplo que muestra que pueden aparecer correlaciones irrelevantes y que hay que ir con cuidado y no tomarlas prima facie. Parece que ni eso se entendió, o no se quiere entender.

D

#16 No, yo no pongo en duda tu ejemplo, y de echo me parece muy bueno tu post, simplemente llamaba tu atención sobre el hecho de que si es posible generar números totalmente aleatorios al contrario de lo que afirmas en #2.
Incluso estuve buscando sin éxito otro articulo que hablaba de usar la desintegración de átomos radiactivos para dicha generación, también totalmente aleatorios por supuesto.

gallir

#19 Sí, lo de los números aleatorios "perfectos" lo sé, por eso te apuntaba al comentario anterior. Pero un mecánico cuántico quizás lo ponga en duda

noexisto

#16 ya te lo he dicho antes en #8, pero parece que te empecinas en lo mismo gallir, en fin.
El artículo está bien escrito para un tercero que no tenga ni idea del asunto. Por éso por dos veces puse:
Leer hasta la parta de la pseudoaletoriedad: porque ahí esta el meollo de la explicación (si no se entiende se busca algo en Wikipedia) Y es lo que hice (por éso, como te escribo al final de #8) no pude enviarla:
Porque me la leí e intenté buscar lo que no comprendía con exactitud. Y esa parte la busqué para saber de qué va el asunto exactamente y cómo se hace. Por eso en #2 te digo, "no es una crítica" ("para nada, lo que ánimo es a leerlo"!)
Pero tu, tienes que tener razón, al parecer. Siempre.
Determinismo: sí. Por mucho que intentemos crear programas que muestren aleatoriedad, al final no podemos conseguirla 100% o me equivoco?
Por cierto gracias por tu tuit, lo pondré inmediatamente en la bio (a ver si puedo usar el móvil). Me ha hecho mucha ilusión lo de comentario ignorante de la semana lol lol

p

Se puede explicar como la paradoja del cumpleaños. http://es.wikipedia.org/wiki/Paradoja_del_cumplea%C3%B1os

La idea básica mientras las series de datos aumentan linealmente, el número de posibles relaciones entre series de datos es una función factorial. Me voy a tirar a la piscina a ver si me acuerdo de como iba el tema de las probabilidades

Si tenemos 2 series de datos pseudoaleatorias, sabemos por el algoritmo que las probabilidades de que esten relacionadas con un coef de correlación de Pearson mayor de 0.65 es 1 entre mil millones (1e-9). Por lo que sabemos en un 99.9999999 % que NO estan relacionadas

Pero si tenemos P series, tenemos P-1! relaciones y la probabilidad de que ninguna de eseas relaciones no tenga una correlación fuerte es de 0.999999^P-1!

Con P bajas, por ejemplo 10 series de datos (1-1E-9)^9! la probabilidad de NO relacion es 0.999637.
Pero con P=100 el resultado es 0, es decir SEGURO que hay como minimo 2 series relacionadas, con 1000 0 2000 series de datos, la cosa ya no es si encontramos relacion, sino cuantas. Si ademas loas series de datos no son realmente independientes, extraer resultados válidos va a ser una fiesta.

e

#17 bingo

D

Se mezclan conceptos que no se tienen por qué mezclar. Big data es la forma de gestionar (que no analizar) grandes volúmenes de datos. Data mining es una disciplina encargada de bucear por los datos para sacar información relevante, pero no hace falta que sean muchos datos. Conceptualmente errónea. El autor sabe algo de estadística, pero poco de big data.

Wikipedia: Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications

Data mining: The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use

D

#13 Creo que queda claro lo que quiere decir, aunque confunda un concepto.

m

¿Soy yo o todo el artículo es para decir que correlación no implica causalidad?

D

#14 Me temo que sí, pero por algún extraño motivo ha degenerado a una absurda discusión sobre la aleatoriedad de los numeros pseudoaleatorios.

Kartoffel

#24, lógicamente necesitas definir tu modelo con un poco más de sustancia. Ejemplo simple: si modelas la relación lineal Xi = b0 + b1·Xj + e (Xi~Xj en notación R) y ajustas el modelo en los datos de entrenamiento, puedes hacer la predicción de este modelo para tus datos de validación y estudiar los resultados.

D

#24 La gracia de la validación cruzada es que al tomar muestras más pequeñas (un subconjunto de la muestra total llamado de entrenamiento) encontrarás mas correlaciones que con la totalidad de la muestra y luego al analizar estas correlaciones en el resto de los datos (llamados de validación) se detecta que la mayoría de las correlaciones ya no aparecen, y eso te da una idea de hasta que punto esas correlaciones son espúreas o se mantienen en el tiempo.

Kartoffel

Copio el comentario que puse ayer en el blog, por si a alguien le interesa:

-------------------
Los algoritmos estadísticos (usados correctamente) son bastante más robustos. Una práctica común es separar observaciones en datos de entrenamiento / validación; con los datos de entrenamiento puedes encontrar relaciones espurias del estilo de las de este post, pero la probabilidad de que estas relaciones pasen la validación es muy baja. Dependiendo del problema estadístico, también se pueden corregir (estilo Bonferroni) los umbrales para comparaciones múltiples para minimizar el problema (no eliminar, porque cualquier test estadístico siempre tiene una probabilidad no nula de fallar simplemente por azar).

Una cosa en la que sí estoy de acuerdo con el post es que los modelos estadísticos, por sí solos, sólo describen los datos: hay que tener cuidado al formularlos e interpretarlos para extraer conclusiones válidas (p. ej. a la hora de interpretar los coeficientes de una regresión múltiple en presencia de multicolinealidad, endogeneidad, variables ocultas, etc). Sólo la combinación de teoría con datos produce conocimiento fiable.

Luego el análisis de series temporales ya es un mundo aparte.
-------------------
http://gallir.wordpress.com/2013/05/29/se-cuidadoso-con-el-big-data/#comment-17203

D

#22 No acabo de pillar lo que dices, aunque hagas hold out o crossvalidation, la distribución en todos los datasets será contendrá la misma correlación, no cambiará nada (digo yo en mi ignorancia).

D

#3 Seguramente no tienes ni idea de la altisima calidad de numeros aleatorios que genera un algoritmo por ejemplo como MT Twister. ¿Verdad?

u

Resumiendo: causalidad != casualidad

D

¿Big data? lol ¡Un millón de megabytes! lol

D

Yo lo hubiera titulad "Introducción a Big Data para crios de 3 años".

Esto lo escribe cualquiera que no sea gallir y no le hacéis ni puto caso. Hay 800 posts como ese o mejor. No aporta nada.

D

pero realmente los usuarios de meneame entienden de que va esto??? y además superirrelevante, es decir lo que diga el tipo este va a misa???? aunq sean divagaciones suyas???

sotanez

#9 No son divagaciones, está más que estudiado. No es que haya descubierto la sopa de ajo, ni creo que tampoco lo pretenda, pero hay mucho "hestadístico" por ahí sacando correlaciones y creyéndose que ha encontrado algo.
En el ejemplo que expone, seguro que aplicando validación cruzada ya sacas que esa correlación es pura casualidad.

D

#32 esto es meneame, se envian noticias no divagaciones...

noexisto

Leer un poco hasta que encontréis la palabra pseudoaleatorio (no digo más para no hacer spoiler)

noexisto

#2 no es ninguna critica. Solo que no quiero contar las conclusiones desde ahí en base a esa aleatoriedad #ains

D

#2 Quiza deberías ver esto:

"RANDOM.ORG offers true random numbers to anyone on the Internet. The randomness comes from atmospheric noise, which for many purposes is better than the pseudo-random number algorithms typically used in computer programs."

http://www.random.org/

Y esto:
"There is, however, a procedure that guarantees the presence of truly random quantum measurements, generated only at – and completely unique to – a particular place and time, which might be termed “private randomness.” It was invented by physicist John Bell in 1964 to test a central hypothesis of quantum mechanics: namely, that two objects such as photons or matter particles can enter an exotic condition called “entanglement” in which their states become so utterly interdependent that if a measurement is performed to determine a property of one (which will, of course, be a random value), the corresponding property of the other is instantly determined as well, even if the two objects are separated by distances so large that no information could possibly pass between them after the measurement is made on the first object."

http://jqi.umd.edu/news/random-numbers-not-chance

rebrok

#10

Son números "true" random numbers: http://en.wikipedia.org/wiki/Random_number_generation#.22True.22_random_numbers_vs._pseudorandom_numbers

basados en fenómenos físicos, en este caso ruido atmosférico, que se supone que debería ser aleatorio.

javis2

#1 ¿pseudoaleatorio = pseudociencia?

D

#1 Los números aleatorios no existen, y si existen, no sabemos obtenerlos.