Señor editor: He leído con gran interés un artículo publicado recientemente en Salud Pública de México, que brinda resultados interesantes acerca de la satisfacción con la vida, victimización y percepción de seguridad en México.1 No obstante, es necesario agregar algunos comentarios al artículo porque se utiliza el test de significancia estadística de la hipótesis nula (NHST) para extraer conclusiones.
El NHST fue diseñado en 1925 por Ronald Fisher con el propósito de buscar evidencia en contra de la hipótesis nula. Sin embargo, cuando dichos postulados fueron extrapolados a otras ciencias, surgió un problema de interpretación con el vocablo significativo, entendiéndose como sinónimo de importante o relevante. Pese a ello, el término denota la probabilidad de error al decidir rechazar la hipótesis nula asumiendo que es verdadera (denominado “error tipo I” o “falso positivo”). Para tal caso, se utiliza como criterio de decisión el nivel de significancia (por conveniencia, 0.05) y cuando el valor de p es inferior a este criterio, se rechaza la hipótesis nula. En consecuencia, un valor de p pequeño indica un menor error en la decisión de rechazar la hipótesis nula.
En el artículo mencionado utilizan diferentes niveles de significancia. Sin embargo, es frecuente tomar al 0.05 como criterio pese a que está basado en una arbitrariedad, debido a la ausencia de argumento en la elección de ese valor. Acciones como la anterior han sido severamente criticadas con expresiones como: “[…] seguramente Dios ama al 0.06 tanto como al 0.05”,2 o “los investigadores desarrollan una obsesión compulsiva que puede ser llamada significantitis”.3
En ese sentido, es oportuno indicar que el NHST consiste en cuánto error está dispuesto a correr el investigador al rechazar la hipótesis nula suponiendo que es verdadera; por lo tanto, debe ser establecido por el investigador. En caso de utilizar el 0.05, se está aceptando un error máximo de 5%. No obstante, el NHST no denota la magnitud de una diferencia ni si tal diferencia es pequeña, mediana o grande. Para ese propósito se han diseñado los estadísticos del tamaño del efecto, que aún son poco conocidos, incluso en el ámbito de la salud.
En el artículo en mención utilizan el η2, que es considerado un estadístico del tamaño del efecto; sin embargo, no se otorga la debida importancia, ni refiere los valores interpretativos del mismo como 0.01, 0.06, 0.14; pequeño, mediano y grande, respectivamente.4 Los autores prefieren centrar su atención en el nivel de significancia pese a que presenta algunos inconvenientes, como ser dependiente del tamaño muestral, con lo cual rechazan la hipótesis nula en muestras grandes,5 algo que sucede en el estudio por contar con 7 535 participantes y ser válido en datos seleccionados por muestreo aleatorio.6
Con base en lo previamente señalado, se recomienda que los investigadores tengan cuidado al momento de utilizar el valor de p y el término estadísticamente significativo en estudios venideros, recordando interpretar correctamente el NHST, pues no refiere importancia práctica o clínica, sino sólo la cantidad de error al rechazar la hipótesis nula. Por esta razón, es más apropiado preferir estadísticas de tamaño del efecto y justificar la elección del nivel de significancia.