Comparación de algunas pruebas estadísticas asintóticas de no-inferioridad para dos proporciones independientes

Almendra-Arao, Félix; Sotres-Ramos, David

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO
Accesos

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Agrociencia

versión On-line ISSN 2521-9766versión impresa ISSN 1405-3195

Agrociencia vol.43 no.2 Texcoco feb./mar. 2009

Matemáticas aplicadas, estadística y computación

Comparación de algunas pruebas estadísticas asintóticas de no–inferioridad para dos proporciones independientes

Comparison of some non–inferiority asymptotic statistical tests for two independent proportions

Félix Almendra–Arao¹, David Sotres–Ramos²*

¹ UPIITA del Instituto Politécnico Nacional. Avenida Instituto Politécnico Nacional 2580. 07340 México, D. F. (falmendra@ipn.mx).

² Colegio de Postgraduados, Km. 36.5. Carretera México–Texcoco. 56230. Montecillo, México. *Autor responsable: (sotres.davida@kendle.com)

Recibido: Mayo, 2008.
Aprobado: Enero, 2009.

Resumen

En este trabajo se compararon las pruebas asintóticas de no–inferioridad de Blackwelder, Farrington–Manning, Böhning–Viwatwongkasen, Hauck–Anderson; la prueba de razón de verosimilitudes y dos variantes de estas pruebas con base en sus niveles de significancia reales y en sus potencias. La prueba de Farrington–Manning resultó con la mejor aproximación del nivel de significancia real al nivel nominal para tamaños de muestra 30<n<100 y para los tres límites de no–inferioridad más frecuentemente utilizados en la práctica. Además, la potencia de la prueba de Farrington–Manning fue muy similar a las potencias de aquellas pruebas con buena aproximación del nivel de significancia real al nominal.

Palabras clave: No–inferioridad, proporción, prueba asintótica.

Abstract

In this study, the asymptotic tests of non inferiority of Blackwelder, Farrington–Manning, Böhning–Viwatwongkasen and Hauck–Anderson, as well as the likelihood ratio test and two variants of these tests were compared based on their real significance levels and their powers. The Farrington–Manning test turned out to be the one with the best approximation to the real significance level to the nominal level for sample sizes 30<n<100 and for the three most frequently used non–inferiority margins. In addition, the power of the Farrington–Manning test was very similar to the power of those tests with good approximation to the real significance level of the nominal level.

Key words: Non–inferiority, proportion, asymptotic test.

INTRODUCCIÓN

Las pruebas estadísticas asintóticas de no–inferioridad se utilizan muy frecuentemente en ensayos clínicos. Estas pruebas sirven para demostrar que una terapia nueva (con menores efectos secundarios o menor costo) no es sustancialmente inferior en eficacia a la estándar (Chen et al., 2000).

El objetivo de este trabajo fue comparar las pruebas asintóticas para no–inferioridad de Blackwelder, Farrington–Manning, Böhning–Viwatwongkasen, Hauck–Anderson, la prueba de razón de verosimilitudes y dos variantes de estas pruebas con base en sus niveles de significancia reales y en sus potencias.

Se han reportado algunas comparaciones de pruebas para no–inferioridad, pero están basadas en simulaciones o en aproximaciones gruesas de los niveles de significancia exactos y de las potencias (Tu, 1997; Chen et al., 2000; Li y Chuang–Stein, 2006). En la literatura consultada no se encontró análisis comparativo de pruebas de no–inferioridad donde sean calculados los niveles de significancia y de las potencias.

Ésto probablemente se debe al muy extenso tiempo de cómputo requerido para calcular dichos valores. En el presente trabajo se usaron las condiciones de convexidad de Barnard y de simetría en la misma cola (Röhmel, 2005), para calcular los niveles de significancia y las potencias de las pruebas y compararlas para los tamaños de muestra 30<n<100, así como para los tres límites de no–inferioridad más frecuentemente utilizados.

MATERIALES Y MÉTODOS

Pruebas estadísticas consideradas

En este trabajo se utilizó el modelo estándar (Bernoulli) para comparar dos tratamientos con base en una variable dicotómica. Este modelo supone que las observaciones correspondientes al primer tratamiento (el estándar) provienen de una muestra aleatoria {X₁₁X₁₂ ,...X₁,_n1}de una distribución Bernoulli con probabilidad de éxito p₁ y que las observaciones del segundo tratamiento (el nuevo o experimental) provienen de otra muestra aleatoria {X₂₁X₂₂ ,...X₂_n2} de una distribución Bernoulli con probabilidad de éxito p₂; se supone además que estas dos muestras son independientes. La hipótesis de interés (hipótesis de no–inferioridad) que se desea probar es la alternativa (H_a) en el siguiente juego de hipótesis:

donde, d = p₁ – p₂ y d₀ es el límite de no–inferioridad, que es una constante positiva y conocida. En el contexto de ensayos clínicos los valores usuales para d₀ son 0.10, 0.15 y 0.20.

Seis de las estadísticas de prueba consideradas son del tipo:

donde, es el estimador de máxima verosimilitud de p_i para es un estimador consistente de la desviación estándar de ; la séptima estadística es aquélla para la prueba de razón de verosimilitudes:

La diferencia entre las seis estadísticas del tipo (2) radica en la estimación elegida para la desviación estándar de . Se consideran seis estimadores:

donde, es el estimador de máxima verosimilitud de p_i, es el estimador de máxima verosimilitud restringida bajo la hipótesis nula de p_i (Miettinen y Nurminen, 1985; Farrington y Manning, 1990); y (Böhning y Viwatwongkasen, 2005).

Cuando la estadística T en (2) tiene distribución asintótica normal estándar para cualquier estimador consistente de la desviación estándar de ; para la estadística λ, la distribución asintótica de donde denota la función de distribución acumulada de una variable aleatoria ji–cuadrada con un grado de libertad.

Las pruebas asintóticas para las estadísticas del tipo (2) para un nivel de significancia nominal a tienen región de rechazo de la forma donde z_a es el percentil superior α de la distribución normal estándar, es decir, Φ(z_a) = 1 – α , donde Φ es la función de distribución acumulativa de una variable aleatoria normal estándar.

La región de rechazo para la prueba asintótica correspondiente a la estadística (3) es:

donde es el percentil superior 1 – 2α de la distribución ji–cuadrada con un grado de libertad, i.e

Las correcciones por continuidad analizadas son: 1

donde C₀, C₂ y C₃ son consideradas por Hauck y Anderson (1986) para el caso de las estadísticas T₁ y T₄.

El análisis se realizó para diseños balanceados, es decir, para n₁ =n₂ = n. En esta situación es claro que C_i < C_i₊₁ para i = 0,1,2,3,4.

Así, las estadísticas de prueba consideradas son:

para i = 0,1,2,3,4,5,6 y j = 0,1,2,3,4,5 y

para j = 0,1,2,3,4,5.

Las pruebas T_iCj fueron propuestas en los siguientes artículos: T₁_C0 en Blackwelder (1982), T₂_C0 en Farrington y Manning (1990), T_3C0 en Böhning y Viwatwongkasen (2005), T₄_C0 en Hauck y Anderson (1986). T₅_C0 se obtiene de T₂_C0 al reemplazar n1 por n1 —1 y n₂ por n₂—1 en el denominador del estimador de la desviación estándar, mientras que T₆_C0 se obtiene de T_3C0 al reemplazar n₁ por n₁ — 1 y n₂ por n₂—2 en el denominador del estimador de la desviación estándar. Finalmente, T₇_C0 es la conocida estadística de razón de verosimilitudes (Casella y Berger, 2002).

El nivel de significancia nominal usado en todo este trabajo fue p = 0.05. Las pruebas estadísticas serán simbolizadas de la misma forma que sus correspondientes estadísticas de prueba.

Estrategia para el cálculo del nivel de significancia

De acuerdo con el modelo Bernoulli usado en este trabajo, el espacio muestral es , el

espacio paramétrico es , y dado que X_i tiene distribución binomial con parámetros (n_i,p_i) para i = 1,2, la función de verosimilitud conjunta es:

y la función de potencia es además, el espacio nulo es y el nivel de significancia está dado por

Chan (1998) calculó el nivel de significancia para la prueba de Farrington–Manning (T_2C0) tomando el supremo no en todo el espacio nulo (Θ₀), sino calculando el máximo únicamente en , el cual es sólo una parte de la frontera del espacio nulo. Computacionalmente ésto representa una inmensa ventaja, pues el tiempo de cómputo se reduce aproximadamente a 0.22% del original. Sin embargo, el autor mencionado no justificó formalmente la validez de este argumento. Röhmel (2005) presentó una prueba formal que justifica el procedimiento usado por Chan (1998). En este trabajo se siguió la misma estrategia de Chan (1998). Por tanto, en lo que resta de esta sección, se verifica la validez de la llamada condición de convexidad de Barnard y de la condición de simetría en la misma cola (ver definiciones abajo) para todas las pruebas asintóticas consideradas.

Definición. Una prueba estadística para el problema en (1) con región de rechazo R_T cumple la condición de convexidad de Barnard (C) si satisface las dos propiedades siguientes:

Röhmel y Mansmann (1999) demostraron el resultado ya mencionado para pruebas exactas. A continuación se demuestra el resultado correspondiente para pruebas asintóticas.

Proposición 1. Sea T una estadística con distribución asintótica A_T para el problema de prueba de hipótesis:

con región crítica dada por y sean , cuando a>0 con g creciente y no intersecta p₁ = p₂ si la región crítica es no vacía y satisface la condición de convexidad de Barnard, entonces el supremo es un máximo y se alcanza en un punto frontera sobre la curva p₂ = g(p₁).

Demostración. Puesto que por hipótesis , entonces existe tal que max , es decir:

de donde, por el teorema demostrado para pruebas exactas por Röhmel y Mansmann (1999) se sigue el resultado.

En este trabajo se usa la función g(p₁) = p₁—d₀.

Nótese que, por definición, si y se cumple la condición (C), entonces necesariamente además, y por tanto no T₁ (0, n₂) y T₂ (0, n₂) no están definidas, entonces y en consecuencia R_T₁ y R_T₄ no cumplen (C). Una forma de solventar esta dificultad es redefiniendo la estimación de la desviación estándar en los puntos donde se anula.

Observación 1. Sea entonces

Como para se puede redefinir de la siguiente forma:

de manera similar se redefine .

La demostración del siguiente resultado se establece en Almendra (2007).

Proposición 2. Sea T una estadística con distribución asintótica A_T. Sean las regiones críticas para las pruebas exacta y asintótica R_T y R_T^A . Si R_T cumple la condición de convexidad de Barnard, entonces R_T^A también la cumple.

Como se mencionó, Röhmel (2005) demostró que la versión exacta de la región crítica para T_2C0 cumple la condición de convexidad de Barnard. Entonces, por la proposición anterior, la versión asintótica también cumple la condición de convexidad de Barnard.

Definición. Si n₁ = n₂ = n, una región de rechazo R cumple la condición de simetría en la misma cola si

Proposición 3. Si n₁ = n₂ = n entonces R_TiCJ cumple la condición de simetría en la misma cola para i = 1,3,4,6 y j = 0,1,2,3,4,5.

Demostración. Almendra (2007).

Dado el problema de prueba de hipótesis (1) si se considera una estadística de prueba T(X₁X₂,) con región de rechazo

se define el espacio muestral lícito como la región crítica restringida al espacio muestral lícito es

La importancia del concepto anterior es reiterada por Martin y Herranz (2002, 2004a, 2004b) quienes enfatizan la necesidad de tal concepto, ya que de no restringirse el espacio muestral al espacio muestral lícito, podrían obtenerse inferencias inválidas en algunos casos. La razón de esta restricción es que de otra forma la prueba podría no tener significancia: por ejemplo, si entonces es inferencialmente ilógico concluir que p₁ – p₂ < d₀.

Proposición 4. Para estadísticas tipo (2), el espacio muestral coincide con el espacio muestral lícito, es decir, si T es una estadística de la forma para una prueba con región de rechazo entonces R_T = R'_T .

Para una demostración de la proposición anterior, ver Almendra (2007).

No obstante, para la estadística de razón de verosimilitudes los espacios muestral y muestral lícito no coinciden en general. Por esta razón el cálculo de los niveles de significancia y las potencias para T₇ se realizó con base en el espacio muestral lícito.

Proposición 5. Sean n₁ = n₂ = n y R(α) una región crítica para el problema de prueba de hipótesis [H₀: d > d₀] vs. [H_a: d < d₀], si R(α) cumple la condición de convexidad de Barnard y la condición de simetría en la misma cola, entonces el nivel de significancia está dado por:

Demostración. Almendra (2007).

Observación 2. Todas las pruebas asintóticas , i = 1,2,...,7: j = 0,1,.,5, con estadísticas de prueba definidas en (4) y (5) satisfacen la condición de convexidad de Barnard y la condición de simetría en la misma cola.

La condición de convexidad de Barnard para T_2C₀ se probó analíticamente en la proposición 2. La condición de simetría en la misma cola para T_iCj para i = 1,3,4,6; j = 0,1,2,3,4,5; se probó analíticamente en la proposición 3. Para las demás pruebas, la verificación se efectuó numéricamente mediante programas de cómputo elaborados en S–PLUS®.

Con base en la proposición 5 y la observación 2, se usó la fórmula en (6) para calcular una aproximación del nivel de significancia exacto de todas las pruebas consideradas. La aproximación del nivel de significancia exacta α*, en la fórmula (6), se hizo reemplazando el intervalo continuo [d₀(1 + d₀)/ 2] por el conjunto discreto de puntos: {d₀+ (.001)i = 0,1,2,..., 500(1 – d₀)}, y al valor obtenido de esta aproximación de a* usando tal conjunto discreto se le ha llamado nivel de significancia real de la prueba, el cual será denotado por a_R.

Es importante subrayar que la fórmula en (6), para el cálculo del nivel de significancia (α*) de cualquiera de las pruebas consideradas aquí, es una fórmula exacta. Así que la única aproximación que se hace para calcular el nivel de significancia real (a_R) es al reemplazar al intervalo continuo [d₀(1 + d₀)/ 2] por el conjunto de puntos {d₀+ (.001)i = 0,1,2,..., 500(1 – d₀)}. El grado de error en que incurre esta aproximación se estimó de la siguiente manera: para todas las pruebas consideradas y para cada una de las doce combinaciones de parámetros (n₁ = n₂ = 30, 50 y 100), (a=0.05 y 0.10), (d₀ = 0.10 y 0.15) se analizó el error incurrido al estimar a* por a_R y en todos los casos se verificó que en los valores adyacentes al máximo estimado (a_R) la variación en la función de potencia fue menor o igual a 0.00001, es decir, nuestra estimación del error es que es menor o igual a 0.00001. Por ejemplo, para n₁ = n₂ = 50, a = 0.05 y d₀ = 0.10 los valores adyacentes al máximo estimado (a_R) de la función de potencia son:

en este caso β_T (0.550,.0450) – β_T (0.549,.449) = 0.0000003, el cual es menor a 0.00001. Con base en este análisis es razonable concluir que el error incurrido al estimar α* por α_R es aceptable desde el punto de vista práctico, ya que el nivel de significancia real (a_R) difiere del nivel de sinificancia exacto (α*) cuando mucho en la quinta cifra decimal.

RESULTADOS Y DISCUSIÓN

Comparación de las pruebas con base en sus niveles de significancia reales

Para comparar las 42 pruebas estadísticas consideradas en este trabajo (T_iC con 1 < i <7 y 0< j <5), parece razonable considerar que el nivel de significancia real (α_R) de una prueba tiene un buen comportamiento cuando es decir cuando α_R es menor o igual al nivel nominal (α=0.05), y cuando α_R es una buena aproximación al nivel nominal Con este propósito, para cada prueba se calculó el porcentaje de α_Rs que pertenece al intervalo [0.04,0.05] con base en los 71 tamaños de muestra n en el rango 30< n <100, y para cada uno de los valores de d₀ = 0.10, 0.15 y 0.20. En el Cuadro 1 se reportan estos resultados, pero únicamente para las pruebas que obtuvieron porcentajes mayores o iguales a 90%. T_2C2 y T_5C2resultaron las pruebas con mejor comportamiento del nivel de significancia real (α_R), para los tres valores considerados: d₀ = 0.10, 0.15 y 0.20.

Comparación de las pruebas con base en sus potencias reales

Para cada valor de d₀ (0.10,0.15,0.20) se compararon las potencias de las pruebas T_2C2 y T_5C2para aquellos tamaños de muestra n, 30< n <100, donde la máxima diferencia entre los niveles de significancia reales resultó menor o igual que 0.0001 y donde al menos una de las potencias a comparar fue mayor o igual que 0.7. La comparación de las potencias se realizó en los puntos (p₁, p₂) con con p₁= 0(.5)1 y iniciando en max(p₁– d₀,0) y tomando incrementos de 0.05, es decir, con p₂ = para aquellos i tales que .

En resumen las potencias de T_2C2 y T_5C2 se compararon para un total de (40, 26, y 28) tamaños de muestra en los casos (d₀ = 0.10, 0.15, y 0.20) respectivamente. Para todos estos tamaños de muestra en donde se realizó la comparación, las potencias de las pruebas T_2C2 y T_5C2 resultaron iguales en el 100% de los casos. Estos resultados dan como ganadoras a las pruebas T_2C2 y T_5C2 con ventaja de T_2C2para d₀=0.15 y 0.20. Para el caso 2C25C2d₀=0.10, T2₅C supera a T_2C2 , aunque la diferencia es sólo 1.41%. Para una recomendación práctica se preferirá a la prueba T_2C en todos los casos (d₀ = 0.10, 0.15, y 0.20).

CONCLUSIONES

Para los tamaños de muestra 30< n <100, considerando un nivel de significancia nominal a=0.05 y para los tres límites de no–inferioridad analizados <100, considerando un nivel de significancia nominal α=0.05 y para los tres límites de no–inferioridad analizados (d₀= 0.10, 0.15, y 0.20), se recomienda usar T_2C2; es decir, la prueba de Farrington–Manning con el factor de corrección C₂.

AGRADECIMIENTOS

El primer autor desea agradecer a la UPIITA del Instituto Politécnico Nacional su apoyo al otorgarle licencia para la realización del presente trabajo.

LITERATURA CITADA

Almendra A., F. 2007. Comparación de algunas pruebas estadísticas asintóticas de no–inferioridad para contrastar dos proporciones independientes. Tesis Doctoral, Especialidad en Estadística, ISEI, Colegio de Postgraduados, México. 87 p. [ Links ]

Blackwelder, W. 1982. "Proving the null hypothesis" in clinical trials. Controlled Clinical Trials 3:345–353. [ Links ]

Böhning, D., and C. Viwatwongkasen. 2005. Revisiting proportion estimators. Statistical Methods in Medical Res. 14: 1–23. [ Links ]

Casella, G., and L. Berger. 2002. Statistical Inference. Second Edition. Duxbury, Thompson Learning. USA. 660 p. [ Links ]

Chan, I. S. F. 1998. Exact tests of equivalence and efficacy with a non zero lower bound for comparative studies. Statistics in Medicine 17: 1403–1413. [ Links ]

Chen, J., Y. Tsong, and S. Kang. 2000. Tests for equivalence or noninferiority between two proportions. Drug Information J. 34: 569–578. [ Links ]

Farrington, C., and G. Manning. 1990. Test statistics and sample size formulae for comparative binomial trials with null hypothesis of non–zero risk difference or non–unity relative risk. Statistics in Medicine 9: 1447–1454. [ Links ]

Hauck, W., and S. Anderson. 1986. A comparison of large–sample confidence interval methods for the difference of two binomial probabilities. The Am. Statistician 40: 318–322. [ Links ]

Li, Z., and C. Chuang–Stein. 2006. A note on comparing two binomial proportions in confirmatory noninferiority trials. Drug Information J. 40: 203–208. [ Links ]

Martin A., A., and I. Herranz T. 2002. Equivalence testing for binomial random variables: which test to use?. The Am. Statistician 56(3): 253–254, Letter to the editor. [ Links ]

Martin A., A., and I. Herranz T. 2004a. Asymptotical test on the equivalence, substantial difference and non–inferiority problems with two proportions. Biometrical J. 46: 305–319. [ Links ]

Martin A., A., and I. Herranz T. 2004b. Exact unconditional non–classics tests on the difference of two proportions. Computational Statistics & Data Analysis 45: 373–388. [ Links ]

Miettinen, O., and M. Nurminen. 1985. Comparative analysis of two rates. Statistics in Medicine 4: 213–226. [ Links ]

Röhmel, J. 2005. Problems with existing procedures to calculate exact unconditional p–values for noninferiority/superiority and confidence intervals for two binomials and how to resolve them. Biometrical J. 47: 37–47. [ Links ]

Röhmel, J., and U. Mansmann. 1999. Unconditional nonasymptotic one sided tests for independent binomial proportions when the interest lies in showing noninferiority and or superiority. Biometrical J. 2: 149–170. [ Links ]

Tu, D. 1997. A comparative study of some statistical procedures in establishing therapeutic equivalence of nonsystemic drugs with binary endpoints. Drug Information J. 31: 1291–1300. [ Links ]