Hace 6 años | Por Adson a autodeskresearch.com
Publicado hace 6 años por Adson a autodeskresearch.com

Generando conjuntos de datos con diversas apariencias e idéntica estadística mediante recocido simulado.

Gilbebo

#1 Sí, se puede añadir un poco de ruido aleatorio a los datos para evitar que se solapen ('jitter').

D

#1 has usado ggplot? Qué has usado?

D

#12 No entiendo la pregunta, ¿Saber cómo se hace ese gráfico con el ggplot?

D

#13 Ok, entiendo que lo has hecho en ggplot

D

#c-14" class="content-link" style="color: rgb(227, 86, 20)" data-toggle="popover" data-popover-type="comment" data-popover-url="/tooltip/comment/2812253/order/14">#14 ggplot2 en concreto, suponiendo que tienes este tipo de tabla (que se puede hacer con melt si la tienes en otro formato) :

# Categories Freq
# Category_A 1.5
# Category_B 4.2
# Category_A 3.1
# Category_C 2.4
...

Se hace así:

ggplot(myTable, aes(x=Categories, y=Freq)) +
geom_boxplot(fill="white") +
geom_jitter(position = position_jitterdodge())

D

Cito afantomaxfantomax por qué le puede interesar

fantomax

#3 Chulo para los alumnos, me gusta enseñar algo más que la media y la varianza cuando hablo de estadística. Por ejemplo dedico mis 50 minutos a lo difícil que es obtener una buena muestra, en los libros de texto a la muestra le dedican una frase.

neuron

Entiendo el punto de visualizar tus datos, pero lo que no entiendo es lo de crear un dinosaurio.....

Gilbebo

#4 Es una buena forma de visualizar que detrás de una media y una desviación estándar puede haber una infinidad de distribuciones de datos distintos (incluyendo un dinosaurio :)). Así que mejor echar un vistazo a los datos originales graficándolos lo mejor posible.

De hecho entre 2 conjuntos de datos (pongamos antes y después de realizar unos ajustes a una máquina o aplicar un tratamiento médico) podría no existir una diferencia 'significativa' entre sus medias pero provocar una distribución de frecuencias muy distintas lo cual nos vamos a perder si solo nos fijamos en ese promedio que 'no cambia' demasiado.

Corvillo

#4 Es para mostrar que aunque tengas conjuntos numéricos con 5 variables estadísticas identicas hasta el segundo decimal, gráficamente te puedes encontrar que el comportamiento es muy diferente e incluso puede llegar a niveles ridículos; por tanto, que también es importante analizar el apartado gráfico, no sólo el numérico.

D

"Recocido", madre mía.

D

#7 sí, sí, si estoy totalmente de acuerdo (lo estudié, hice prácticas y hasta tuve que explicar el paper donde se detallaba el algoritmo), pero me sigue sonando raro.

D

#11 Bienvenido al Castellano

m

#11: Pues en el maravilloso mundo del acero es un procedimiento común para quitar dureza al acero, que luego se rompe. O sea, si tu haces una pieza doblando acero, la zona del doblez se endurece y puede interesarte bajar la dureza horneando la pieza durante un tiempo y luego bajando poco a poco la temperatura.