SciELO - Scientific Electronic Library Online

 
vol.45 número5Crecimiento y producción de repollo en función de la densidad de población y nitrógenoModelaje del peligro de incendio forestal en las zonas afectadas por el huracán Dean índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay artículos similaresSimilares en SciELO

Compartir


Agrociencia

versión On-line ISSN 2521-9766versión impresa ISSN 1405-3195

Agrociencia vol.45 no.5 Texcoco jul./ago. 2011

 

Matemáticas aplicadas, estadística y computación

 

Asociación espuria en el modelo de regresión logística con series de tiempo

 

Spurious asociation in logistic time series binary regression models

 

Gustavo Ramírez–Valverde1, J. Carlos Islas–Monroy1, Benito Ramírez–Valverde2

 

1 Estadística. Campus Montecillo. Colegio de Postgraduados. 56230. Montecillo, Estado de México. (gramirez@colpos.mx).

2 Estrategias para el Desarrollo Agrícola Regional. Campus Puebla. Carretera Federal, México Puebla. 72760. Puebla, Puebla.

 

Recibido: marzo, 2010.
Aprobado: junio, 2011.

 

Resumen

La asociación espuria en el modelo de regresión lineal ocurre cuando la variable independiente contribuye a explicar de manera importante la variabilidad de la variable respuesta de acuerdo con la prueba de hipótesis sobre el parámetro de la variable independiente, a pesar de que ambas variables no tienen ninguna relación. En modelos con variable respuesta categórica la presencia de asociación espuria no está reportado en la literatura. Por tanto, en este estudio se muestra empíricamente la existencia del fenómeno en regresión logística cuando los datos son generados por diferentes procesos de serie de tiempo que involucran series no estacionarias. El análisis de los resultados obtenidos indica que este fenómeno ocurre cuando el mecanismo generador de la variable respuesta y de la variable explicativa es no estacionario.

Palabras clave: modelos de respuesta binaria, regresión con series de tiempo, procesos no estacionarios, regresión logística.

 

Abstract

Spurious association in the linear regression model occurs when the independent variable makes an important contribution to explaining the variability of the response variable according to the hypothesis test of the parameter of the independent variable, even though the two variables have no relationship. In models with categorical response variable, the presence of spurious association is not reported in the literature. Therefore, in this study the existence of the phenomenon is shown empirically in logistic regression when the data are generated by different processes of time series that involve non–stationary series. The analysis of the results indicates that this phenomenon occurs when the generating mechanism of the response variable and of the explicative variable is non–stationary.

Key words: binary response models, regression with time series, non–stationary processes, logistic regression.

 

INTRODUCCIÓN

El fenómeno de asociación espuria en el modelo de regresión lineal ocurre cuando la variable independiente contribuye a explicar la variabilidad de la variable respuesta, a pesar de que evidentemente las variables no tienen relación de acuerdo con la prueba de hipótesis sobre el parámetro de la variable independiente. Yule (1926) describe un ejemplo de este fenómeno donde hay una correlación de 0.95 entre dos variables independientes. Las variables eran la proporción de matrimonios por la iglesia sobre todos los casamientos en Inglaterra de 1866 a 1911, con la variable tasa de mortalidad estandarizada por cada 1000 personas en el mismo periodo, mostrando como en casos de series generadas con mecanismos semejantes y con tendencia determinística, se presenta asociación espuria cuando se observaban intervalos de tiempo pequeños, y esta asociación disminuía al aumentar el intervalo de tiempo, sugiriendo el mecanismo generador de las observaciones como explicación para que aparezcan asociaciones espurias. Según Granger y Newbold (1974), al simular Xt e Yt caminatas aleatorias independientes, se presenta asociación espuria en algunos casos, a pesar de que por construcción X e Y son independientes. Phillips (1998) reporta que los mecanismos de tendencia en ambas series es lo que frecuentemente conduce a relaciones de regresión espuria, dando una explicación teórica al fenómeno en regresión lineal simple y múltiple.

A partir de los resultados de Grager y Newbold (1974) se muestra la presencia de regresión espuria en procesos integrados de orden 2 (Haldrup, 1994), en procesos de orden d (Marmol, 1995), en casos donde el orden de integración de la variable respuesta es diferente al orden de la variable independiente (Marmol, 1996), en procesos integrados de orden fraccional (Marmol 1998), en casos donde las series temporales tenían una raíz unitaria y presentaban deriva (Entorf, 1997), en series que no involucran un proceso persistente (Granger et al., 2001), y Kim et al. (2004) lo hacen usando una serie estacionaria con una tendencia deterministica lineal generada independientemente. Noriega y Ventosa–Santaulària (2006 y 2007) estudiaron el fenómeno de la asociación espuria en series integradas de orden 1 y 2, con tendencias deterministas sujetas a cambios estructurales, deriva y sus combinaciones, mientras que Zaldivar et al. (2009) encuentran presencia de asociación espuria en series con especificaciones dinámicas.

En economía aumenta el uso de modelos cuando la respuesta es binaria; por ejemplo, la aplicación de técnicas de predicción del cambio de signo de los retornos de mercado es un tema de creciente interés para la comunidad financiera. Algunos estudios que muestran el uso de esto modelos son los siguientes: Wu y Zhang (1997) sugieren que las estrategias de transacción basadas en la estimación de la dirección del cambio en el nivel de precios son más efectivas y pueden generar beneficios más altos que aquellas basadas en una predicción puntual del nivel de precios de los instrumentos financieros; Lo y MacKinlay (1988) reportan los retornos semanales para una variedad de índices y portafolios de tamaño medio con datos de los EE.UU., Europa Occidental y Japón para el período de 1962 a 1985; y Conrad y Kaul (1988) señalan la predictibilidad de los retornos en el corto plazo usando datos semanales para el período de 1962 a 1985.

En regresión logística el problema de asociación espuria no se encuentra reportado en la literatura, por lo que se realizó un estudio de simulación basado en distintos procesos generadores de los datos, donde la variable numérica X fue generada independientemente de la variable respuesta binaria Y.

 

MATERIALES Y MÉTODOS

Modelo de regresión logística

Sean y1, y2,..., yT T observaciones de una variable de respuesta binaria con función de distribución de probabilidades Bernoulli (πt) (t=1,...,T). Se quiere modelar la probabilidad de éxito πten función de una variable explicativa fija xt. El modelo de regresión logístico se expresa como:

La función de log–verosimilitud l, de las observaciones es

De la cual se obtiene el vector de derivadas parciales , que al evaluarse en β e igualando a cero cada uno de sus elementos resulta un sistema de dos ecuaciones no lineales en los parámetros desconocidos β0 y β1. Este sistema no tiene solución cerrada y puede resolverse numéricamente. La generalización de este modelo al caso de p variables explicativas es directa.

Para inferir sobre los parámetros se utiliza el estadístico de Wald que bajo Ho tiene distribución asintótica Chi–cuadrada con p grados de libertad (xp2), donde p es el número de parámetros en el vector β y es el vector de parámetros estimados (Dobson, 1990). Para probar la hipótesis nula H0: βj=0 para alguna j:1<j<p se usa el estadístico t = j / e. e. (j), donde e. e. (i) es el error estándar del estimador i, y la distribución asintótica de t bajo H0 es normal estándar.

Procesos de serie de tiempo considerados

Noriega y Ventosa–Santaulària (2007) usaron experimentos de simulación y un análisis asintótico para mostrar la existencia del fenómeno de asociación espuria en el modelo de regresión clásico con diferentes combinaciones de procesos generadores de las variables de respuesta y explicativa. En el presente estudio se utilizaron procesos semejantes a los usados por Noriega y Ventosa–Santaulària (2007), para conocer si los resultados en modelos de regresión con respuesta binaria tenían comportamiento semejante al de regresión lineal, y los seis procesos considerados se muestran en el Cuadro 1.

En el Cuadro 1 uzt ~ NIID(0, σz2), DUzt es una variable indicadora que afecta a los periodos posteriores a la fecha del cambio estructural (Tbz) en una magnitud θz esto es, DUzt = 1 si t >Tbz y DUzt = 0 si t< Tbz; DTzt es una variable indicadora que afecta la pendiente de la serie en una magnitud Φz en los periodos posteriores a la fecha del cambio estructural, esto es, DTzt = (t— Tbz) si t > Tbz y DTzt =0 si t< Tbz; I(·) muestra el orden de integración del proceso, br indica corte estructural, dr la tendencia lineal y TS el proceso estacionario en tendencias.

Estudio de simulación

El objetivo fue mostrar la existencia del fenómeno de asociación espuria en el modelo de regresión logística, mediante simulación. En cada modelo se simularon 36 situaciones resultantes de combinar los seis procesos del Cuadro 1 con zt = xt , yt como generadores de las observaciones de la variable explicativa xt y de la variable de respuesta yt. Las variables xt y yt se generaron de forma independiente. La simulación se realizó en el paquete R usando los generadores de números aleatorios propios del lenguaje R.

Generación de las observaciones

Los componentes estocásticos del Cuadro 1 se obtuvieron con un generador de números aleatorios suponiendo σz2=1 y Tbz~ U (1, T), donde U denota la función de distribución de probabilidades uniforme discreta. La generación de las observaciones de la variable explicativa xt, fue directa del Cuadro 1, ya que estas observaciones corresponden a variables numéricas.

La variable de respuesta binaria yt se obtuvo con un proceso Bernoulli como generador de los datos con P(Yt =1) = πt, donde πt depende de una variable subyacente wt generada como alguno de los procesos del Cuadro 1. Además, la relación entre P(Yt =1) = πt y wt sigue un modelo de regresión logística; esto es, πt = exp(β0 + β1wt)[1+ exp(β0 + β1wt)]–1, (β0 y β1 son constantes arbitrarias distintas de cero) y una vez obtenido el valor de wt se calculaba el valor de πt con πt = exp(β0 + β1wt)[1+ exp(β0 + β1wt)]–1 y la observación yt se obtuvo usando el método de la transformada inversa (Ross, 1999).

Simulación en el modelo de regresión logística

El experimento consistió en modelar la dependencia de P(Yt =1|xt) en xt (t=1,...,T) a través del modelo logístico donde el proceso generador de los datos de Yt fue independiente del proceso generador de xt, esto es, la hipótesis HO: β1=0 es cierta. Este experimento se realizó con 1000 repeticiones para cada uno de los niveles de los factores estudiados (tipo de proceso de la variable respuesta y tipo de proceso de la variable independiente) y se registró el rechazo (1) o no rechazo (0) de la hipótesis nula HO: β1=0 en los 1000 experimentos simulados. Se estudiaron los tamaños de muestra: 25, 50, 75, 100, 250, 500, 750, 1000, 2500

y 5000.

El tamaño de la prueba se estimó con la proporción de rechazos obtenida con el cociente nr/r, donde nr es el número de rechazos y r el número de repeticiones del experimento.

 

RESULTADOS Y DISCUSIÓN

Se realizaron las simulaciones de los 36 casos resultantes de utilizar como xt variable explicativa a cada uno de los seis procesos estudiados (Cuadro 1) y ser combinados con estos procesos como variable respuesta yt. En las Figuras aparece un recuadro en la parte inferior con cuatro números compuestos de dos dígitos y cada uno de estos números representa una combinación de los procesos del Cuadro 1: el primer dígito indica el proceso que generó yt, y el segundo el proceso que generó xt.

En la Figura 1 se observa que cuando la variable respuesta yt fue un proceso estacionario (proceso 1) y la variable explicativa xt fue alguno de los seis procesos del Cuadro 1, no se presentó la regresión espuria y el tamaño de la prueba se mantiene en un valor cercano al nominal α=0.05. Este resultado coincide con el reportado por Noriega y Ventosa–Santaulària (2006 y 2007) en regresión lineal.

La Figura 2 muestra los casos en que la variable repuesta yt no era estacionario, pero la falta de estacionariedad se debió a un cambio estructural (proceso 2). Se puede observar que cuando la variable explicativa xt fue alguno de los procesos no estacionarios del Cuadro 1 (procesos del 2 al 6), los valores de el tamaño de la prueba tienen una clara tendencia a aumentar con el tamaño de muestra dando evidencias de regresión espuria, y la proporción de rechazos en lugar de disminuir aumenta fuertemente al grado de obtener entre 60 y 90 % de rechazos en tamaños de muestra de 5000.

La Figura 2 muestra un cierto ordenamiento respecto a la magnitud del problema y fue más grave en los procesos no estacionarios con orden de integración 1 (procesos 5 y 6) y los no estacionarios con tendencia determinística (procesos 3 y 4). El proceso no estacionario con menos problemas fue aquel con falta de estacionariedad debida exclusivamente a un cambio estructural (proceso 2).

Los resultados de los procesos que tuvieron como variable respuesta los procesos 3, 4, 5 y 6 del Cuadro 1 (Figura 3, 4, 5 y 6) tuvieron un comportamiento muy similar al observado cuando la variable repuesta y no era estacionario, pero la falta de estacionariedad se debió a un cambio estructural (Figura 2), aunque con efectos más marcados. Estos resultados coinciden con lo reportado en regresión lineal por Phillips (1998), Noriega y Ventosa–Santaulària (2006 y 2007), Marmol (1995, 1996 y 1998), Kim et al. (1994) y Haldrup (1994).

La similitud en los resultados de la regresión logística y la regresión lineal podrían explicarse si en la regresión logística se supone una variable latente no observable que determina la probabilidad de que la variable respuesta sea igual a la categoría uno, y que las relaciones expresadas en la literatura para dos variables continuas (presencia de asociación espuria) se mantienen con la variable latente continua, por lo que finalmente se expresa en la aparición de asociación espuria en modelos de regresión logística.

 

CONCLUSIONES

El fenómeno de asociación espuria se presentó en el modelo de regresión logística y al igual que en regresión lineal, la ocurrencia de este fenómeno depende principalmente de la no estacionariedad.

En todos los casos en que la variable respuesta y la variable explicativa fueron no estacionarios se presentó regresión espuria, sin importar si la no estacionariedad fue de tipo determinístico.

Las 36 combinaciones de procesos generadores de los datos consideradas son un grupo, si no extenso, medianamente amplio de situaciones en las que se puede incurrir en modelos de respuesta binaria erróneos al tratar con observaciones de serie de tiempo.

 

LITERATURA CITADA

Conrad, J., and G. Kaul. 1988. Time–variation in expected returns. J. Business 61: 409–425.         [ Links ]

Dobson, A. J. 1990. An Introduction to Generalized Linear Models. First edition. Ed. Chapman and Hall. London. 174 p.         [ Links ]

Entorf, H. 1997. Random walks with drifts: Nonsense regression and spurious fixed–effect estimation. J. Econometrics 80: 287–296.         [ Links ]

Granger, C.W.J., N. Hyung, and Y. Jeon. 2001. Spurious regressions with stationary series. Appl. Econ. 33: 899–904.         [ Links ]

Granger, C. W. J., and P. Newbold. 1974. Spurious regression in econometrics. J. Econometrics 2:111–120.         [ Links ]

Haldrup, N. 1994. The asymptotics of single–equation cointe–gration regressions with I(1) and I(2) variables. J. Econometrics 63:153–181.         [ Links ]

Kim, T.H., Y.S. Lee, and P. Newbold. 2004. Spurious regressions with stationary processes around linear trends. Econ. Lett. 83: 257–262.         [ Links ]

Lo, A., and C. MacKinley. 1988. Stock market price do not follow random walk: Evidence from a simple specification test. Rev. Financial Studies 1:41–66.         [ Links ]

Marmol, F. 1995. Spurious regressions for I(d) processes. J. Time Series Analysis 16: 313–321.         [ Links ]

Marmol, F. 1996. Nonsense regressions between integrated processes of different orders. Oxford Bull. Econ. and Statistics 58(3): 525–36.         [ Links ]

Marmol, F. 1998. Spurious regression theory with nonstationary fractionally integrated processes. J. Econometrics 84: 23350.         [ Links ]

Noriega, E. A., and D. Ventosa–Santaulària. 2006. Spurious regression under broken–trend stationarity. J. Time Series Analysis 27(5): 671–684.         [ Links ]

Noriega, E. A., and D. Ventosa–Santaulària. 2007. Spurious regression and trending variables. Oxford Bull. Econ. and Statistics 69(3): 439–444.         [ Links ]

Phillips, P. C. B. 1998. New tools for understanding spurious regressions. Econometrica 66 (6): 1299–1325.         [ Links ]

Ross, S. M. 1999. Simulación. Segunda edición. Ed. Prentice Hall Hispanoamericana. S. A. México. 282 p.         [ Links ]

Wu, Y., and H. Zhang. 1997. Forward premiums as unbiased predictors of future currency depreciation: A non–parametric analysis. J. Int. Money and Finance 16: 609–623.         [ Links ]

Yule, G. U. 1926. Why do we sometimes get nonsense–correlations between time series? A study in sampling and the nature of time series. J. Royal Statistical Soc. 89(1):1–63.         [ Links ]

Zaldivar M, G., M. Castro O., y D. Ventosa–Santaulària. 2009. Regresión espuria en especificaciones dinámicas. Ensayos 28(1): 1–20.         [ Links ]

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons