El valor de p es producto de la prueba de significancia estadística y de los métodos para comprobar la hipótesis nula.
Tiene su origen en la propuesta de Ronald A Fisher en 1920 llamada dócima de significación, quien consideraba que debía combinarse con otras fuentes de información sobre el fenómeno estudiado y refería que era un indicador informal, por lo tanto el investigador le daba la interpretación.1
Jerzy Neyman un matemático polaco en colaboración con el estadístico británico Egon Pearson propusieron en 1928 probar la hipótesis para mejorar las partes vagas del trabajo de Fisher, particularmente en su interpretación heurística. Argumentaban que se requería una hipótesis alternativa y que ambas debían usarse juntas para definir los errores tipo I y II.2 Estos errores eran los que el investigador podría cometer en el proceso de dócima de hipótesis; el tipo I se refiere a la obtención de resultados falsos positivos y el tipo II a los resultados falsos negativos. Con el tiempo ambas hipótesis se fusionaron dando origen a lo que hoy conocemos como dócimas de hipótesis basadas en el cálculo del valor de p o dócimas de significación estadística. Con ello se establece la magnitud del error tipo I y II antes del experimento, posteriormente se calcula el valor de p y finalmente se rechaza la hipótesis nula si el valor de p es menor que la magnitud del error tipo I, establecida con anterioridad.1
El valor de 0.05 como magnitud del error tipo I se fijó de manera arbitraria.
Recientemente la Asociación Americana de Estadística (ASA) publicó una declaración sobre la práctica de reportar e interpretar resultados de estadística, el consenso fue aprobado en enero de 2016. La ASA propone los siguientes seis principios referentes al uso, uso incorrecto e interpretación errónea de los valores de p en los estudios de investigación.3,4
Los valores de p pueden indicar el grado de incompatibilidad de los datos con la hipótesis que se está evaluando.
Los valores de p no miden la probabilidad de que la hipótesis estudiada sea verdadera o la probabilidad de que los datos se deban sólo al azar.
Las conclusiones científicas y decisiones comerciales o políticas no deben basarse únicamente en el hecho de que el valor de p rebase un umbral específico. Ejemplo p = 0.05.
La inferencia adecuada requiere un reporte completo y transparencia.
Un valor de p o significancia no mide el tamaño del efecto o la importancia del resultado.
El valor de p por sí mismo no representa una buena medida de evidencia con respecto a un modelo o hipótesis.
Derivado de lo anterior algunos estadísticos prefieren sustituir el o los valores de p con otros métodos como intervalos de predicción o métodos bayesianos, es decir métodos que enfatizan la estimación en la prueba.
Como conclusión podría decirse que debe llevarse a cabo una práctica adecuada en estadística, un diseño apropiado de su estudio, entender el fenómeno con base en el estudio y la interpretación de resultados de manera lógica. La meta dentro del proceso de investigación no es generar valores de p o realizar pruebas de hipótesis, ya que estas pruebas estadísticas, así como otras, pueden ser útiles, pero deben aplicarse con mesura teniendo en cuenta sus limitaciones. Desafortunadamente no hay herramienta estadística o técnica que garantice el camino corto a la verdad.3,4