APÉNDICE B

 

Regresión local

La regresión local es un método no paramétrico que se emplea para suavizar y ajustar curvas y superficies. La idea básica del método puede expresarse considerando el modelo:

yi = f(x1i, x2i,..., xip) + εi, i = 1,..., n

donde yi es la variable dependiente; xip son las variables independientes, y εi son los errores que, suponemos, están distribuidos normal e independientemente con media 0 y varianza constante σ2. El objetivo es estimar la función de regresión f directamente, sin referencia a formas funcionales previas.

La regresión local estima la función f para cada valor x en el espacio dimensional p empleando mínimos cuadrados ponderados. Esta estimación se obtiene definiendo una vecindad en el espacio de las variables independientes que comprenden un subconjunto de observaciones cercanas a x. La distancia de la vecindad queda definida por una banda κ, con 0 < κ≤ 1. El ancho de la banda indica la proporción de puntos del total de observaciones consideradas en el cálculo de la función suavizada. Este ancho controla la suavidad del ajuste. La validación cruzada generalizada y el criterio de información de Akaike se usaron para definir el ancho de banda.

La banda define una vecindad en el espacio de las variables independientes; se ponderan los puntos en el espacio de acuerdo con su distancia a x. Los puntos cercanos a x tienen ponderaciones más grandes; los puntos más alejados de x tienen menor ponderación. La función de ponderación empleada en las estimaciones en este trabajo fue la función gaussiana. Asimismo, es necesario seleccionar el grado del polinomio de las variables independientes que ajustan la variable dependiente. En las aplicaciones de este trabajo el grado es igual a 1 ó 2. El grado del ajuste se eligió mediante una serie de gráficas de regresión local según lo recomendado por Loader (1999). Este procedimiento define el valor de la función estimada en x. Esto se repite para cada punto de interés para obtener la función estimada.

Loader (1999), Cleveland y Devlin (1988) y Cleveland (1993) sugieren una serie de gráficas para verificar los supuestos de normalidad y varianza constante de los valores residuos. La observación de estas gráficas sugiere que los residuos fueron homocedásticos.

Las propiedades estadísticas de la regresión local han sido estudiadas, lo que permite calcular intervalos de confianza y probar hipótesis. Cleveland y Devlin (1988) y Fan y Gijbels (1996) presentan los conceptos básicos de la inferencia estadística en la regresión local. En el presente trabajo el cálculo de los intervalos de confianza se computaron localmente, intervalos de confianza punto por punto. Loader (1999) discute la diferencia entre intervalos de confianza punto por punto e intervalos de confianza simultáneos.

Considerando que la regresión local proporciona un ajuste razonable para los datos en la ventana de suavización, la pendiente de la regresión local proporciona una buena estimación de la derivada (Loader, 1999: 101). El grado del polinomio debe ser al menos del orden de 1, o mayor que la derivada que se estimará. Es importante considerar que la estimación de la derivada es la pendiente del ajuste de la regresión local. Fan y Gijbels (1996) discuten las ventajas de la estimación de derivadas mediante regresión local, en relación con otros métodos Kernel.