Publicado hace 6 años por porcorosso a investigacionyciencia.es

La ciencia padece una crisis de reproducibilidad: a los investigadores les preocupa cada vez más que la bibliografía académica esté plagada de resultados irreproducibles. Muchos científicos temen que el umbral del 0,05 ha hecho que se publiquen muchos falsos positivos. Uno de los estadísticos muestrales más utilizados, el llamado valor p, debería estar sometido a criterios más estrictos, dicen los investigadores.

Comentarios

Hengli

Relacionado:

p

#4 No creo que tenga nada que ver con la computación, por ejemplo, un seis sigma no es útil para una encuesta robótica aleatorizada para la intención de voto sobre una muestra de 1000 personas (lo que llaman pomposamente barómetro de opinión) y, sin embargo, está muy bien para hallar algo absolutamente inesperado (bosón de Higgs). El problema radica en que muchos investigadores prefieren obviar las limitaciones de un contraste para obtener resultados. Me explico:

Como sabemos, el contraste saca conclusiones del conjunto real (población) a partir de un subconjunto minúsculo de sus datos (muestra), por lo que aunque seamos muy cuidadosos en el muestro (nada de errores sistemáticos ni ilegítimos), siempre tendremos errores aleatorios que eliminaremos usando medidas estadísticas, las cuales impondrán un error de variabilidad mínimo (cota cramer rao). Así que aunque elijamos bien ese estadístico (insesgado, eficiente, consistente, blablablá) y un modelo correcto para nuestro experimento (los modelos no paramétricos aportan en general menos información) debemos construir bien la hipótesis a refutar para reducir el error tipo I (no rechazarla siendo cierta) porque sólo tendremos información sobre el contraste si rechazamos la hipótesis nula. Y aquí aparecen las tentaciones (sesgo) de los investigadores, más proclives a rechazar con el nivel de significación que hayan elegido (0.01 o 0.000001) aún estando el dato en la frontera, sin interpretarlo, sin explicar tamaños muestrales, variabilidades y obviando medidores del riesgo como el tamaño del efecto.

En resumen creo que el problema radica más en las ganas de obtener resultados/financiación que en el desconocimiento de estadística inferencial (inductiva) básica:
"No rechazar" no es "aceptar" la hipótesis nula, NO RECHAZAR NO APORTA INFORMACIÓN (o aporta muy poca), tu investigación se va a la mierda.
" Rechazar" sí aporta resultados a la investigación, RECHAZAR PERMITE ACEPTAR la hipótesis complementaria. Investigación productiva.

Vicent_Sanchis

#1 Es la obsesión de cualquier revista/revisor, tienen que haber p-valores. Recuerdo que una vez un estadístico que trabajaba en investigación decía que en una major revision (hecha por un revisor que no era estadístico) le exigieron que hiciera ciertos contrastes de hipótesis porque querían ver los p-valores y el aseguraba que no tenía ningún tipo de sentido lo que le pedían.

Por cierto, en tu caso se debe al número de registros.

F

Al final lo importante más que el p-valor o cualquier otra cosa es saber interpretar la estadística. Los números por si solos pueden hacernos creer algo equivocado.
La final, lo más importante es un buen muestreo. Y eso cuesta dinero...

Corvillo

#3 Así es, hace poco salió en portada el Datasaurus que ilustraba eso a la perfección

Gilbebo

Es que lo importante no es solo el p-value* si no de qué problema concreto estamos hablando. (*p-value = si ambos valores perteneciesen a la misma distribución de datos cuál es la probabilidad de que apareciese una diferencia entre ellos igual o mayor a la mostrada. Si la probabilidad es muy pequeña lo razonable es asumir que vienen de distribuciones distintas y por tanto esos promedios o porcentajes 'no son iguales')

Por ejemplo, con una muestra muy grande (pongamos 100.000 personas en cada país) uno podría decir que hay una diferencia significativa (p-value

Vicent_Sanchis

#23 Ese es un ejemplo de "clínicamente significativo"

Gilbebo

Interesante charla sobre el impacto crítico en medicina de la no publicación de resultados negativos (con p-values no significativos).

https://www.ted.com/talks/ben_goldacre_what_doctors_don_t_know_about_the_drugs_they_prescribe?language=es

Nereu

He tenido que ver un video para entender la noticia. Mi poder de cuñadismo ha aumentado 10 puntos.

mando

#9 existe un artículo muy divertido que tiene por título: " un gráfico vale más que mil valores p" aunque lamentablemente no lo encuentro desde el móvil. Luego está la réplica: " ¿A cuántos baños p equivale exactamente un gráfico?" Y así se crea un rico debate.
Aunque para lo que nos atañe, si tienes curiosidad por el tema te recomiendo cualquier artículo que tenga como referencia "biplot". Aunque la familia de técnicas es muy extensa, podrás encontrar cómo un HJ-biplot te soluciona ingentes cantidades de problemas por comparación gráfica en un plano. Por un lado están las variables: edad, peso, talla, color, tamaño, sexo y un largo etc. Las variables pueden estar codificadas como quieras: unas dicotómicas, otras escala numérica, otras por grupos. Da igual que se junten peras con manzanas, si están medidas con las mismas variables, funciona. Por otra parte están los sujetos que tienen diferentes medidas de las variables tomadas, rojo, 33, 1, 0'77... Para el sujeto 1, para el 2 azul, 84, 0, -6... Y así con todos los sujetos que pueden ser miles, millones o lo que sea. Después se ponen en una misma gráfica todos esos datos. Y se pueden hacer agrupaciones, comparaciones, manova, probabilidades y un montón de cosas más.

mando

#36 sí, esa es la réplica, gracias. El artículo es de 1993, este debate como mínimo viene desde entonces.

D

#19, era la facultad de Matemáticas

D

#16, para empezar queda claro que es una broma. Pero sí seguimos con ello, si no hay un departamento de Matemáticas es porque está troceado e distintos departamentos, así que no sé podría deducir que el álgebra no forma parte de las matemáticas. Pero en mi universidad era así (ahora está distinto), había un departamento que se llamaba tal cual de matemáticas. Así que ahí está lo raro, que haya un departamento de matemáticas y otro aparte de estadística y tal, perteneciendo ambos a la misma facultad.

S

#18 En ese caso, disculpa por no saber ver que fuera una broma Con respecto al tema de los departamentos, supongo que la especialización dependerá del tipo de facultad -no será igual una facultad de ciencias que una de empresariales, por ejemplo-

Gilbebo

También puede ser que ahora se esté cargando contra el valor 'p' como origen principal de la irreproducibilidad de muchos estudios científicos cuando en realidad lo que hay es una mala praxis con datos retocados, filtrados o directamente inventados para conseguir p-values significativos.

Por otro lado:

(1) si no hay diferencias reales entre los datos sabemos que en 1 de cada 20 veces (p=0.05) aparecerán diferencias estadísticas que no lo son

(2) si en la práctica se publican básicamente los resultados con diferencias significativas obviando resultados neutros donde no se hayan diferencias, entonces:

(3) la proporción de resultados positivos que no lo son en las publicaciones puede ser muy superior a ese 5% que sugería el p=0.05. Dependiendo de la relación que exista entre esos 'falsos positivos' y los 'positivos reales' de otras publicaciones, ello debido a que los resultados 'negativos reales o falsos' no se publican o se publican poco.

Otra posible solución es que no se considere un resultado como robusto hasta que pueda haber sido reproducido al menos por un equipo independiente con lo que la probabilidad de 2 falsos positivos sería menor -> 0.05 x 0.05 = 0.25% o 2.5 entre 1.000.

D

fantomaxfantomax a lo mejor te interesa que yo no me he enterado

S

#12 "te lo resumo yo, la mayoría de los que hacemos matemáticas solemos decir que la estadística no son matemáticas de verdad, por eso en mi facultad había dos departamentos, "Departamento de Matemáticas" y el "Departamento de Estadística e Investigación Operativa", que por algo será, digo yo."

Sin ánimo de ofender, ese párrafo al completo es un desvarío. En mi facultad también había un departamento de estadística e I.O....y aparte uno de análisis matemático, y otro de álgebra -sí, tooodo un departamento para ellos solitos-, no había una generalidad llamada "Departamento de Matemáticas" ¿Significa eso que el álgebra no son matemáticas de verdad?. Matemáticas es una cosa, Estadística otra, ramas que divergen de un nexo común, de ahí que decir que no son "matemáticas de verdad" es una estupidez.

fantomax

#12 Yo soy más de estadística bayesiana. De hecho venía hablando de ello en el viaje en coche hace un rato corto.
#8 Gracias, siempre atento.

juvenal

¿Quieres que te demuestre algo? dame una sería suficientemente grande de datos, que ya te elegiré la muestra

D

#10 Totalmente, una vez me dio por jugar un poco con la muestra, y es increible lo rapido que pude colocarlo en p

mando

Desde hace tiempo se toman como válidas las gráficas y su interpretación en vez de p-valores. Pero sí, el 0,05 es por tradición y no por otro motivo.
De todas formas teniendo un tamaño de la muestra adecuado, el 0,05 puede ser también adecuado. Todo depende de los datos que se tengan.
En estadística multivariante se siguen usando p-valores, pero no siempre son necesarios para tomar una decisión o comprar grupos. Depende de la técnica, la naturaleza de los datos y lo que se desee hacer con ellos.

Penrose

#7 Cómo las graficas¿ No te entiendo.

D

Me cago en la p....!!

No me fastidies que despues de todo lo que sufri para sacarme estadistica en la carrera con sus hipotesis, rangos de confianza, p-valor, regresiones lineales, xi cuadrado, Levine y su madre ... y resulta que no vale??

elzahr

#13 Sí vale; simplemente cambias el valor de p al comprobar la hipótesis.

D

Hola, ¿es aquí donde los listos?

D

#15 Es aquí donde los que van de listos, porque luego cuando sale un artículo donde hay que aplicar estos conocimientos y ser crítico no sale casi ninguno de estos listos.

f

Su opinion no es significativa.

D

Ciencias biomedicas: farmaceuticas.
Ciencias Sociales: neoliberales.

Curioso que sean los papers menos fiables.

Yo acuso, a los responsables de la mayor perversion de publicaciones.

La mentira necesita a una autoridad que se pueda comprar. La estadistica es una herramienta cojonuda para ello. A la denuncia de esta gente me remito.

D

#24 pues nada, que te vaya bien con el trueque y la homeopatía

D

#25 La homeopatia la fomenta una farmaceutica privada.

Hay vida mas alla del neoliberalismo. Los neoliberales no inventaron el dinero, ni la tecnologia, ni la justicia, ni la libertad, ni la cultura... su contribucion ha sido diseñar un sistema en el que todas esas cosas colaboren para jodernos a todos vivos.

k

@#*! Ahora que acabo de aprobar estadística!

Javi-_Nux

yo el mayor problema que me encontraba en mi campo para reproducir experimentos es que los algoritmos tenian heuristicas y parametros de tuning que nadie explicaba en los articulos y que o estaban bien ajustados o funcionaban como el culo