EDICIóN GENERAL
116 meneos
4327 clics
Los doce del datosaurio: misma estadística, diferentes gráficas [ENG]

Los doce del datosaurio: misma estadística, diferentes gráficas [ENG]  

Generando conjuntos de datos con diversas apariencias e idéntica estadística mediante recocido simulado.

| etiquetas: annealing , sesgo , justin matejka , george fitzmaurice
Siempre hay que mostrar los datos originales, y ser extremadamente sospechosos de quien no lo hace.

A mi particularmente me gusta hacer cosas así: pbs.twimg.com/media/DG2KdpUWAAACf-z.jpg:large ; hay veces que no se puede porque los puntos se acumulan mucho en una zona y no se ve bien que hay muchos puntos ocultos en dicha zona. En cuyo caso se puede hacer un violin plot de esos que aparece en al artículo. Creo que ggplot te da la opción de que los puntos no se solapen y se muevan un poco en el diagrama, aunque cambie un poco el valor del punto también podría ser aceptable.
#1 Sí, se puede añadir un poco de ruido aleatorio a los datos para evitar que se solapen ('jitter').
#1 has usado ggplot? Qué has usado? :-)
#12 No entiendo la pregunta, ¿Saber cómo se hace ese gráfico con el ggplot?
#13 Ok, entiendo que lo has hecho en ggplot
#14 ggplot2 en concreto, suponiendo que tienes este tipo de tabla (que se puede hacer con melt si la tienes en otro formato) :

# Categories Freq
# Category_A 1.5
# Category_B 4.2
# Category_A 3.1
# Category_C 2.4
...

Se hace así:

ggplot(myTable, aes(x=Categories, y=Freq)) +
geom_boxplot(fill="white") +
geom_jitter(position = position_jitterdodge())
Me parece cojonuda la aportación...
Cito a @fantomax por qué le puede interesar
#3 Chulo para los alumnos, me gusta enseñar algo más que la media y la varianza cuando hablo de estadística. Por ejemplo dedico mis 50 minutos a lo difícil que es obtener una buena muestra, en los libros de texto a la muestra le dedican una frase.
Entiendo el punto de visualizar tus datos, pero lo que no entiendo es lo de crear un dinosaurio.....
#4 Es una buena forma de visualizar que detrás de una media y una desviación estándar puede haber una infinidad de distribuciones de datos distintos (incluyendo un dinosaurio :)). Así que mejor echar un vistazo a los datos originales graficándolos lo mejor posible.

De hecho entre 2 conjuntos de datos (pongamos antes y después de realizar unos ajustes a una máquina o aplicar un tratamiento médico) podría no existir una diferencia 'significativa' entre sus medias pero provocar una distribución de frecuencias muy distintas lo cual nos vamos a perder si solo nos fijamos en ese promedio que 'no cambia' demasiado.
#4 Es para mostrar que aunque tengas conjuntos numéricos con 5 variables estadísticas identicas hasta el segundo decimal, gráficamente te puedes encontrar que el comportamiento es muy diferente e incluso puede llegar a niveles ridículos; por tanto, que también es importante analizar el apartado gráfico, no sólo el numérico.
"Recocido", madre mía.
#7 sí, sí, si estoy totalmente de acuerdo (lo estudié, hice prácticas y hasta tuve que explicar el paper donde se detallaba el algoritmo), pero me sigue sonando raro.
#11 Bienvenido al Castellano :-)
#11: Pues en el maravilloso mundo del acero es un procedimiento común para quitar dureza al acero, que luego se rompe. O sea, si tu haces una pieza doblando acero, la zona del doblez se endurece y puede interesarte bajar la dureza horneando la pieza durante un tiempo y luego bajando poco a poco la temperatura.
comentarios cerrados

menéame