SciELO - Scientific Electronic Library Online

 
vol.7 número4Modelo Seawat para intrusión salina en el acuífero de Boca Abierta, Sonora índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay artículos similaresSimilares en SciELO

Compartir


Tecnología y ciencias del agua

versión On-line ISSN 2007-2422

Tecnol. cienc. agua vol.7 no.4 Jiutepec jul./ago. 2016

 

Notas técnicas

Una aplicación hidrológica de la regresión lineal múltiple ponderada

An Hydrological Application of Weighted Multiple Linear Regression

Daniel Francisco Campos-Aranda1 

1Profesor Jubilado de la Universidad Autónoma de San Luis Potosí, Genaro Codina 240, Colonia Jardines del Estadio 78280 San Luis Potosí, San Luis Potosí, México, campos_aranda@hotmail.com


Resumen:

La regresión lineal múltiple tiene dos aplicaciones hidrológicas básicas: (1) ampliar registros cortos con base en series largas cercanas, y (2) deducir ecuaciones empíricas que permiten estimar, en sitios de interés sin aforos, crecientes de diseño (QTr). Como ambas aplicaciones se realizan en un contexto regional, siempre está presente la multicolinealidad en el primer caso, y la falta de homocedasticidad en el segundo. Para corregir la no uniformidad que tienen las varianzas de la variable dependiente (Yi) se usa una función de ponderado (wi) en el ajuste de mínimos cuadrados, lo cual conduce a la técnica de mínimos cuadrados ponderados (MCP). En este trabajo se exponen con detalle dos procedimientos para estimar las wi óptimas. El primero toma en cuenta la teoría de los residuales y el error medio del ajuste de mínimos cuadrados ordinarios y el segundo se basa en los datos que son vecinos cercanos, para buscar la manera en que varían las varianzas de Yi. Ambos métodos se aplican a las ecuaciones empíricas que permiten estimar el gasto máximo medio anual (Qma) de la Región Hidrológica 10 (Sinaloa, México). Con base en los resultados, se concluye que es recomendable aplicar siempre el método de MCP, al obtener ecuaciones empíricas que estiman el Qma, o bien las QTr, pues sus indicadores de desempeño evaluados en el dominio real muestran mejoría de ajuste.

Palabras clave: homocedasticidad; mínimos cuadrados ordinarios; mínimos cuadrados ponderados; desviación absoluta media; error estándar medio; error relativo estándar medio; creciente media anual; Región Hidrológica 10

Abstract:

Multiple linear regression has two basic hydrological applications: (1) to extend short records based on long series that are close and (2) to derive empirical equations to estimate flood design (QTr) at sites of interest where records are not available. Since both applications are made in a regional context, multicollinearity is always present in the first case, and the lack of homoscedasticity in the second. In order to correct the non-uniformity with the variances of the dependent variable (Yi) a weighting function (wi) in the least squares fit is used, which leads to the weighted least squares (WLS) technique. In this work two methods to estimate the optimal w. are discussed in detail; the first one takes into account the theory of residuals and the mean error of setting ordinary least squares and the second one is based on data that are close neighbors, seeking for changes on the variances of Yi. Both methods are applied to empirical equations that estimate the average annual maximum flow (Qaa) of Hydrological Region No. 10 (Sinaloa). Based on the results it is concluded that it is advisable to always apply the method of WLS, to obtain empirical equations that estimate the Qaa or the QTr, due to the improvement of adjustment of the performance indicators evaluated in the real domain.

Keywords: Homoscedasticity; ordinary least squares; weighted least squares; mean absolute deviation; mean standard error; means standard relative error; average annual flood; Hydrological Region No. 10

Introducción

La regresión lineal múltiple (RLM) es una técnica estadística básica empleada por los hidrólogos para transferir información de las características del escurrimiento, calculadas en cuencas con hidrometría hacia sitios o cuencas donde tal información es necesaria y no existen aforos. Por ejemplo, la RLM se emplea para completar series de volumen escurrido anual (Y) en sitios con pocos datos, con base en varios registros amplios y cercanos (Xp); también se ha utilizado para encontrar ecuaciones empíricas que relacionan la creciente media anual (Qma) o de cierto periodo de retorno (QTr ) con las características físicas de las cuencas con aforos, por lo común el tamaño de la cuenca y ciertas propiedades del cauce, o tormentas de la zona (Pandey & Nguyen, 1999; Griffis & Stedinger, 2007; Salas et al, 2008; Wilks, 2011).

Desde el inicio del siglo XXI se han comenzado a notar los efectos negativos del cambio climático a través de observar eventos extremos, como tormentas, crecientes y sequías más severos y más frecuentes. Ante tal evidencia se han sugerido varias acciones (Campos-Aranda, 2015), una de ellas, quizá la más importante, sea aumentar los sitios de registro de lluvias, gastos y niveles en lagos, embalses y acuíferos. Sin embargo, la realidad demuestra que el número de estaciones pluviográficas, pluviométricas e hidrométricas ha disminuido notablemente, hasta llegar a una situación crítica, como lo han destacado Lafragua-Contreras, González-Rojas y Solís-Alvarado (2006). En este escenario, es prioritario hacer un uso eficiente de la información hidrológica disponible y la RLM es la técnica estadística que lo permite, al trabajar los datos regionalmente tanto en el transporte de datos como en la estimación de ecuaciones empíricas.

Los parámetros de ajuste de un modelo definido por una RLM se estiman a través del método o técnica de mínimos cuadrados ordinarios (MCO), la cual acepta o asume que las varianzas de la variable dependiente (Yi) son las mismas para toda i, lo cual se conoce como condición de homocedasticidad. Lo anterior implica que todas las observaciones de Y sean "igualmente confiables". En cualquier aplicación hidrológica regional de la RLM, tal condición seguramente será violada debido a que la confiabilidad en la estimación de las características del escurrimiento depende de la amplitud de su registro, o bien de las condiciones de medición en las estaciones de aforos. Cuando la hipótesis de homocedasticidad no es satisfecha, los parámetros estimados no tienen varianza mínima y todas las estimaciones asociadas con la RLM no son exactas (Tasker, 1980; Stedinger & Tasker, 1985; Tasker & Stedinger, 1989; Pandey & Nguyen, 1999; Kottegoda & Rosso, 2008).

Como las varianzas de la variable dependiente σ2(Yi) no son iguales, se puede aplicar una función de ponderado (wi) que corrija tal variación, según se expone en la teoría del método de mínimos cuadrados ponderados (MCP). Tal función es óptima cuando wi = 1/σ2(Yi).

El objetivo de este trabajo consiste en exponer con detalle dos procedimientos para encontrar y aplicar la función de ponderado óptima. El primero utiliza el algoritmo desarrollado por Tasker (1980), que toma en cuenta la teoría de los residuales y los resultados del método de MCO. El segundo se basa en una propiedad de los valores cercanos del regresor (X1), que son considerados puntos de repetición. Ambos procedimientos se aplican en la obtención de dos ecuaciones de regresión potencial, que permiten estimar el gasto máximo medio anual (Qma) de la Región Hidrológica 10 (Sinaloa, México). Como los resultados del método de MCP mejoran el ajuste de MCO, según indicadores evaluados en el dominio real, se recomienda su aplicación sistemática al estimar ecuaciones empíricas por RLM.

Resumen de la teoría operativa

Regresión lineal múltiple (RLM)

Algunas veces se puede establecer una relación de tipo lineal entre la variable dependiente (Y) y varias (p) independientes X1, X2..., Xp o regresores, la cual es la generalización o extensión natural de la regresión lineal simple. Su expresión es (Ryan, 1998):

1

Entonces, los principios que rigen la regresión lineal se aplican a la RLM, por ejemplo, que tanto Y como las Xp estén normalmente distribuidas, y que los errores e sean independientes y tengan distribución normal de media cero y misma varianza (σ2) para cada X. La solución de mínimos cuadrados de los residuos de forma matricial para el caso general expuesto y con n observaciones o datos de Y, y de los regresores es la siguiente (Ryan, 1998):

2

siendo:

El planteamiento de esta solución implica que la sumatoria de 1 a n de los residuos al cuadrado debe ser minimizada, es decir que:

3

Entonces, diferenciando el lado derecho de la ecuación anterior con respecto a β0, β1, β2,.. βp por separado, se originan las ecuaciones llamadas normales, función de los parámetros desconocidos. En notación matricial, estas ecuaciones son:

4

cuya solución es:

5

en la cual X' es la matriz transpuesta de X y (X'-X)-1 indica la matriz inversa de X'-X.

Solución de mínimos cuadrados ponderados

Como ya se indicó, las suposiciones que por lo común se establecen en relación con RLM (ecuación (2)) son que E(ε) = 0 y que Var(e) = σ2-I, siendo I la matriz unitaria o identidad. Con frecuencia, tales premisas son irrazonables, pues se tiene que Var(ε) = a2-V, siendo V una matriz conocida de n x n. Si V es diagonal, con elementos diagonales distintos, las observaciones Y no están correlacionadas, pero tienen varianzas desiguales; en cambio, si existen algunos elementos fuera de la diagonal principal de V, las observaciones están correlacionadas y la solución de mínimos cuadrados de los residuos es (Montgomery, Peck, & Vining, 2002):

6

En la ecuación anterior, β^g es el estimador de mínimos cuadrados generalizados (MCG) de β. Cuando V es una matriz diagonal, con elementos 1/w1, 1/w2... 1/wn, se hace W = V-1, siendo W una matriz también diagonal con elementos que son los pesos o factores de ponderación (w1, w2 ... wn), la solución de mínimos cuadrados de los residuos será:

7

en la cual β^p es el estimador de mínimos cuadrados ponderados (MCP) de p. Conviene notar que los datos con varianzas grandes tienen menos peso que los de varianzas pequeñas (Montgomery et al., 2002). Los estimados β^p se pueden obtener con facilidad modificando ligeramente el programa de cómputo de mínimos cuadrados ordinarios (MCO). Se multiplica cada uno de los datos o valores de la i-ésima observación, incluyendo el uno de la ordenada al origen por la raíz cuadrada del peso (wi) correspondiente a tales datos. Así, se obtendrán las siguientes matrices de datos transformados (Montgomery et al., 2002):

Aplicando MCO a los datos transformados, se obtiene el estimador de mínimos cuadrados ponderados, que será:

8

Para usar la técnica de mínimos cuadrados ponderados se deben conocer los pesos wi. Con frecuencia se puede recurrir a la experiencia o conocimiento previo, a la información de un modelo teórico, o bien el análisis de los residuos puede indicar que la varianza de los errores puede ser una función de uno de los regresores; por ejemplo, si Var(ε) = σ2.XLi , entonces wi = 1/ X1i r Incluso, en aplicaciones prácticas, se pueden suponer los pesos y hacer iteraciones para mejorar la regresión y/o minimizar algunos residuos (Montgomery et al., 2002).

Indicadores de calidad del ajuste

Cuando se obtienen ecuaciones de RLM con mínimos cuadrados ponderados es necesario compararlas para escoger la de mejor ajuste, lo cual implica evaluar indicadores basados en los residuos. El más común de tales indicadores es el coeficiente de determinación (R2), que indica la proporción de la varianza de la variable dependiente que es explicada por la ecuación de regresión. Por ello su expresión es (Ryan, 1998):

9

en la cual Y^i es el valor estimado de la variable dependiente con la ecuación de regresión y Y- es su media aritmética observada. Cuando se usan los logaritmos de las variables, el R2 no es confiable, pues los residuos se evalúan en el dominio logarítmico, como han señalado McCuen, Leahy y Johnson (1990). Por lo anterior, las ecuaciones de RLM que se analizan o contrastan se evaluarán por medio de los tres índices de desempeño (ID) siguientes, calculados en el dominio real (Pandey & Nguyen, 1999). DAM es la desviación absoluta media con las mismas unidades que Y i:

10

siendo npa el número de parámetro de ajuste de la ecuación de RLM. EEM es el error estándar medio también con las unidades de Yi:

11

Por último, EREM es el error relativo estándar medio, que es adimensional:

12

Aplicación hidrológica

Antecedentes

Clarke (1994) presenta los datos de 23 estaciones hidrométricas ubicadas dentro del sistema del río Itajaí-Acú en Brasil, relativos al gasto máximo medio anual (Qma, m3/s), áreas de cuenca (A, km2) y número de años de registro (NA). Los valores de Qma variaron de 31 a 3194 m3/s; los de A de 105 a 11 719 km2, y los de NA de 3 a 118 años. Realiza una regresión lineal del tipo Qma = b0 + b1A, cuyo coeficiente de determinación (R2 ) resultó de 0.828. Para mejorar la estimación, se emplea la regresión potencial Qma = b0·-Abl , cuyo R2 resultó de 0.909. El análisis de los residuos de esta última ecuación indica que los mayores errores corresponden a los datos que tienen las menores amplitudes de registro, por ello aplica la técnica de MCP utilizando wi = NA, obteniendo un R2 de 0.935 y observando que los residuos disminuyeron. La función de ponderado aplicada por Clarke (1994) es en realidad una versión bastante simplificada de la función óptima, como se deduce a continuación en su primer procedimiento de búsqueda. Este enfoque simple para la aplicación del ajuste de MCP también ha sido aplicado por Vogel, Wilson y Daly (1999).

Primera aproximación

Procedimiento que divide la varianza residual

Tasker (1980) desarrolló un procedimiento para estimar la función de ponderado óptima wi = 1/σ2 (Yi ), a utilizar en el ajuste por MCP. Partió de los resultados de Matalas y Gilroy (1968), que establecieron que la varianza de la variable dependiente (Y i ) se puede dividir en dos componentes: la primera originada por el error del modelo σ2i ) y la segunda debida al error de muestreo σ2(ei); es decir:

13

El subíndice i varía de uno al número de datos o valores de Yi, y también es igual al número de estaciones hidrométricas (NE) o registros procesados en los análisis regionales. La condición de homocedasticidad requiere que tanto σ2 i) como σ2(ei) sean independientes de i. En el procedimiento desarrollado por Tasker (1980), sólo se acepta la independencia del error del modelo. Para estimar la varianza del error de muestreo, se considera que las crecientes asociadas con un cierto periodo de retorno (Tr) siguen una distribución Pearson tipo III y entonces de acuerdo con Bobée (1973) se tiene:

14

en la cual a es la desviación estándar de los gastos máximos anuales; n, el número de gastos anuales observados en la estación hidrométrica i; γ, el coeficiente de asimetría de los gastos máximos anuales, y Kp es la desviación estandarizada con distribución Pearson tipo III asociada con el valor de γ y de la probabilidad de no excedencia p. Algunas veces Kp se designa por KTr, pues Tr = 1/(1 - p). En estudios hidrológicos regionales se puede aceptar que y y a2 son aproximadamente constantes en todos los sitios de tal zona o región debido precisamente a la homogeneidad regional verificada previamente (Hosking & Wallis, 1997) y entonces la varianza de Yi (ecuación 13) se expresa como (Tasker, 1980):

15

siendo co = σ2i) una constante y c1 otra, que se logra estimar con base en la información regional disponible, según la expresión:

16

en la cual σ^,γ^ y K^p son estimaciones regionales de las mismas variables descritas en la ecuación (14). La aproximación de la constante co será, según la ecuación (15):

17

en donde σ^2(Yi) es el cuadrado medio residual, cuya raíz cuadrada es el error estándar de la regresión obtenido usando MCO y n- es la media aritmética de las amplitudes de registro en las estaciones hidrométricas que integran la región; σ^2(Yi) equivale al numerador de la ecuación (9) divido entre NE - np, siendo np el número de parámetros que se estiman en la regresión. Finalmente, la estimación de la función de ponderado (wi) para el ajuste de MCP será:

18

siendo ni el número de datos de cada registro procesado. Tasker (1980) indica que cuando el error debido al modelo es grande, c^o tiende a ser mayor que c^1 y w^i se aproxima a un valor constante para toda i, lo cual es el caso de ajuste de MCO. Para errores de modelo pequeños ocurre lo contrario y entonces wi tiende a una relación directa con ni, que es la función de ponderado apropiada cuando no existe error debido al modelo. Tasker y Stedinger (1986) exponen otra aplicación del procedimiento anterior para estimar el coeficiente de asimetría regional de la distribución Log-Pearson tipo III.

Cuando se disponga de los datos anuales de cada variable dependiente (Yi), el procedimiento anterior puede ser mejorado, calculando la magnitud de la constante c^1 (ecuación (16)), con base en tales valores, de manera que el error de muestreo se estime para cada registro procesado. También se puede aplicar el equivalente de la ecuación (14) para adoptar otro modelo probabilístico, como los descritos en Kite (1977), Rao y Hamed (2000), o Asquith (2011).

Aspectos operativos previos

Para aplicar el procedimiento de Tasker (1980), descrito en las ecuaciones (13) a (18), primero se deben definir las expresiones de las estimaciones regionales σ^,γ^ y K^p de la ecuación (16). De inicio se aclara que en la aplicación hidrológica que se describirá, relativa al gasto máximo medio anual (Qma), se tiene que el Tr es de dos años y por tanto la probabilidad de excedencia es de 0.50 en tal evento; además, NE = 22 (ver Cuadro 1). Como ya se indicó, n varía de 21 a 56 datos, con n- = 37. Para los valores de Qma, las expresiones de σ^ y γ^ son:

19

20

siendo:

21

Para la estimación del valor de K^p se usará la aproximación polinomial obtenida por Bobée y Ashkar (1991) para los valores tabulados por Harter (1969), cuya expresión es:

22

La ecuación anterior está limitada a |γ|4; algunos de los valores de los coeficientes b se tienen en el Cuadro 1. Cuando el coeficiente de asimetría γ es negativo, se aplica la siguiente igualdad: K^p(γ) = -K^1-p(-γ). Por ejemplo, para p = 99% y γ = -1.5, se calcula K^p para p = 1% y γ = 1.5, que es -1.25611; por lo tanto, el valor buscado es 1.25611.

Cuadro 1 Coeficientes bi de la ecuación (22), función de periodo de retorno (Tr) en años. 

Análisis de resultados

Los datos que serán procesados se muestran en el Cuadro 2 en sus primeras seis columnas; proceden de Campos-Aranda (2013), y corresponden a los valores del gasto máximo medio anual (Qma) o creciente media anual, así como de varias propiedades fisiográficas de 22 cuencas de las estaciones hidrométricas de la Región Hidrológica 10 (Sinaloa), que no presentan régimen hidrológico modificado, las cuales fueron tomadas de Escalante-Sandoval y Reyes-Chávez (2002). La regresión del tipo Qma = b0Abl se obtuvo con el método de MCO, b0 = 11.6751 y b1 = 0.5258, y las estimaciones y residuales mostrados en las columnas 2 y 3 del Cuadro 3. Este método condujo a un valor de R2 de 0.813, con el resto de indicadores de ajuste mostrados al final de la citada columna 3 y un error estándar de ajuste de 309.8 m3/s.

Cuadro 2 Datos de las 22 estaciones hidrométricas procesadas de la Región Hidrológica 10 (Sinaloa) y estimación de las funciones de ponderado (wi) según procedimiento indicado 

Simbología:

1 mínimos cuadrados ordinarios.

2 mínimos cuadrados ponderados, con función de ponderado con procedimiento que divide la varianza residual.

3 mínimos cuadrados ponderados, con función de ponderado con procedimiento basado en datos cercanos.

Cuadro 3 Gasto máximo medio anual (Qma) estimado con la ecuación de regresión indicada y sus residuos, en las 22 estaciones hidrométricas procesadas de la Región Hidrológica 10 (Sinaloa). 

Para los datos de la columna 3 del Cuadro 2 se obtiene que su coeficiente de asimetría es 2.0303, lo cual conduce a un valor de K = -0.3104. Con base en estos valores y los citados anteriormente, se obtuvo que c0 = 88 468.7 y c1 = 27 7787.1, ambos con unidades de varianza (m6/s2). Los correspondientes factores de ponderación (ecuación (18)) se muestran en la columna 7 del Cuadro 2.

El método de MCP aporta b0 = 11.7339 y b1 = 0.5251, con las estimaciones de Qma, los residuos y sus indicadores de desempeño (ID) que se tienen en las columnas 4 y 5 del Cuadro 3. Se observa en la porción final de la columna 5 que los ID del método de MCP son casi iguales a los del ajuste de MCO. Este resultado se considera congruente, pues en esta aplicación numérica, las amplitudes de los registros procesados son semejantes (ver Cuadro 2), variando de 21 a 56, con una media de 37 años.

También se revisó la regresión potencial del tipo Qma = b0 Ab1Lcpb2, cuyos resultados del ajuste de MCO fueron (Campos-Aranda, 2013): b0 = 11.7598, b1 = 0.5334 y b2 = -0.0148, con las estimaciones y residuos expuestos en las columnas 8 y 9 del Cuadro 3; así como los ID mostrados al final de la columna 9. Empleando los resultados citados, el error estándar de ajuste resulta de 312.5 m3/s, pues ahora np = 3; con tal valor y los ya citados se obtuvieron c0 = 94113.8 y c1 = 131 764.9, con los factores de ponderación (ecuación (18)), que se exponen en la columna 8 del Cuadro 2. El método de MCP conduce a b0 = 11.7911, b1 = 0.5334 y b2 = -0.0153, con las estimaciones de Qma, los residuos y sus ID que se tienen en las columnas 10 y 11 del Cuadro 3. Se observa al final de la columna 11 que dos ID del método de MCP aumentan con respecto a los del ajuste de MCO y sólo disminuye el error estándar medio.

Segunda aproximación

Procedimiento basado en datos cercanos

Sugerido por Draper y Smith (1998), y por Montgomery et al. (2002), comienza por definir conjuntos de valores del regresor X1 que son "vecinos cercanos", por tener observaciones con magnitudes semejantes de X1. El procedimiento supone que tales conjuntos pueden considerarse "puntos de repetición" y por lo tanto se puede usar la varianza promedio de sus respuestas (Yi ) para estimar la forma en que, de manera aproximada, cambia Var(Y) en función de X1.

En la columna 9 del Cuadro 2 se indica el renglón donde comienza cada conjunto de datos repetidos, el número de elementos que incluye entre paréntesis y el valor promedio de X1, es decir, del área de cuenca (A). En la columna 10 se indica la varianza muestral (promedio, aproximadamente) de las Yi de cada conjunto, estimada con la expresión siguiente:

23

Con base en las seis parejas de valores calculados de A- y de Var(Qma) se realiza una regresión polinomial casi perfecta (R2 > 0.9999) del tipo:

24

con a0 = -2 025.336, a1 = 26.55365, a2 = -1.122622E-02, a3 = 1.481098E-06, a4 = -4.118003E-11 y error estándar de la estimación de 9 315 m3/s. Con base en tal ecuación se obtuvieron los factores de ponderación (wi ) mostrados en la columna 11 del Cuadro 2.

Cuando se tienen dos o más regresores, resulta muy difícil la identificación visual de los datos que son vecinos cercanos y por ello se debe aplicar una técnica analítica para buscar pares de puntos cercanos entre sí en el espacio de Xp (Montgomery et al., 2002), o bien aplicar la ecuación (8), con la función de ponderado estimada con el primer regresor (X1), que es el más importante.

Análisis de resultados

Al aplicar la técnica de MCP, con la función de ponderado mostrada en la columna final del Cuadro 2 y la regresión del tipo Qma = b0·Ab1, se obtienen b0 = 7.7896 y b1 = 0.5784, con una ligera mejoría en el ajuste, pues ahora se tiene un R2 de 0.824 y los valores del error disminuyen (ver EEM y EREM) al final de la columna 7 del Cuadro 3. Las estimaciones de Qma y sus residuos se tienen en las columnas 6 y 7 del citado Cuadro 3. Este ajuste reduce notablemente los residuos positivos de las estaciones hidrométricas Huites y Guatenipa II, lo cual se ve reflejado en el valor del EEM. Lo anterior se puede observar al comparar las Figuras 1 y 2.

Figura 1 Gráfica de residuales para el ajuste de MCO con la ecuación potencial Qma = b0Ab1. 

Figura 2 Gráfica de residuales para el ajuste de MCP con la ecuación potencial Qma = b0 Ab1 y la función de ponderado basada en datos cercanos. 

Al aplicar la técnica de MCP a la segunda regresión potencial, se obtuvieron estos resultados: b0 = 8.0767, b1 = 0.6563 y b2 = -0.1422. Las estimaciones y los residuos de este método se tienen en las dos columnas finales del Cuadro 3. Los ID relacionados con el error muestran una mejoría de ajuste, como se observa al comparar los tres últimos renglones de las columnas 9 y 13. Al igual que la ecuación potencial anterior, los residuos de las estaciones Huites y Guate-nipa II se reducen de modo sustancial y ello se aprecia en los ID del error.

Conclusiones

En los experimentos numéricos realizados por Tasker (1980) variaron: (1) el error del modelo de 0 a 100%; (2) la correlación entre estaciones tomó valores de 0.0, 0.4 y 0.8, y (3) la amplitud de los registros fluctuó de 10 a 50 años, con tres formas aleatorias de variación. Concluye, con base en la simulación numérica, que cuando se aplica la función de ponderado (wi) definida por la ecuación (18), en el método de mínimos cuadrados ponderados (MCP), la ecuación de regresión resultante siempre tiene mejores indicadores de desempeño (ecuaciones (9) a (12)), que la obtenida con mínimos cuadrados ordinarios (MCO); excepto cuando ni no varía y/o existe correlación cruzada importante entre los eventos anuales de las variables dependientes. En este último caso, habrá que aplicar la técnica de mínimos cuadrados generalizados (Griffis & Stedinger, 2007).

Con base en la aplicación hidrológica descrita, se pudo verificar que siempre alguno o varios de los indicadores de desempeño (ID) mostraron un mejor ajuste, es decir, se redujeron, al aplicar la técnica de MCP, en comparación con los ID obtenidos por MCO. Para el caso mostrado, en general los errores residuales se reducen más (se obtienen valores menores de los ID) con la segunda función de ponderado, la cual se obtiene con base en los datos cercanos.

Por lo anterior, se recomienda revisar las ecuaciones potenciales obtenidas para estimar Qma, o bien QTr , a través del ajuste de MCP, empleando al menos la primera función de ponderado descrita, pues la segunda requiere la ocurrencia de datos cercanos. Incluso en su versión simplificada, como la utilizó Clarke (1994) y Vogel et al. (1999), es decir, con w. = NA, podrá aportar una mejoría estadística, esto es, reducir los ID o cuando menos verificar la similitud numérica de resultados del ajuste.

Agradecimiento

Se agradecen las observaciones y sugerencias de árbitro anónimo, las cuales permitieron volver explícito el texto y ayudaron a mostrar mejor sus alcances prácticos.

Referencias

Asquith, W. H. (2011). Chapter 8: L-Moments of Three Parameter Univariate Distributions (pp. 169-201). In: Distributional Analysis with L-moment Statistics using the R Environment for Statistical ComputingTexas, USA: Author edition. [ Links ]

Bobée, B. (1973). Sample Error of T-Year Events Computed by Fitting a Pearson Type 3 Distribution. Water Resources Research9(5), 1264-1270. [ Links ]

Bobée, B., & Ashkar, F. (1991). Chapter 4: The One Parameter Gamma, G1(A) and Standardized Pearson Type 3, SP(A) Distributions (pp. 27-39). In: The Gamma Family and Derived Distributions Applied in HydrologyLittleton, USA: Water Resources Publications. [ Links ]

Campos-Aranda, D. F. (2013). Estimación de la creciente media anual en la Región Hidrológica No. 10 de México con base en ecuaciones de regresión potencial. Ingeniería. Investigación y Tecnología14(4), 563-574. [ Links ]

Campos-Aranda, D. F. (2015). Aplicación de la distribución de probabilidades no acotada del Sistema Johnson para estimación de crecientes. Ingeniería. Investigación y Tecnología 16(4), 527-537. [ Links ]

Clarke, R. T. (1994). Chapter 4: Linear Relationships with explanatory variables (pp. 86-163). In: Statistical Modelling in HydrologyChichester, England: John Wiley & Sons, Ltd. [ Links ]

Draper, N. R., & Smith, H. (1998). Chapter 9: Multiple Regression: Special Topics (pp. 217-234). In: Applied Regression AnalysisThird edition. New York: John Wiley & Sons, Inc. [ Links ]

Escalante-Sandoval, C., & Reyes-Chávez, L. (2002). Apéndice A (pp. 291-298). En: Técnicas estadísticas en hidrologíaMéxico, DF: Facultad de Ingeniería de la UNAM. [ Links ]

Griffis, V. W., & Stedinger, J. R. (2007). The Use of GLS Regression in Regional Hydrologic Analyses. Journal of Hydrology344(1-2), 82-95. [ Links ]

Harter, H. L. (1969). A New Table of Percentage Points of the Pearson Type III Distribution. Technometrics11(1), 177-187. [ Links ]

Hosking, J. R. M., & Wallis, J. R. (1997). Chapter 4: Identification of Homogeneous Regions (pp. 54-72). In: Regional Frequency Analysis. An Approach Based on L-MomentsCambridge: Cambridge University Press. [ Links ]

Kite, G. W. (1977). Frequency and Risk Analyses in Hydrology (224 pp.). Fort Collins, USA: Water Resources Publications. [ Links ]

Kottegoda, N. T., & Rosso, R. (2008). Chapter 6: Methods of Regression and Multivariate Analysis (pp. 326-404). Applied Statistics for Civil and Environmental EngineersSecond edition. Oxford, United Kingdom: Blackwell Publishing Ltd. [ Links ]

Lafragua-Contreras, J., González-Rojas, D., & Solís-Alvarado, Y. (2006). Cantidad y calidad de la información climatológica e hidrométrica para el cálculo de la disponibilidad de agua superficialTema: Hidrología, Ponencia 7. XIX Congreso Nacional de Hidráulica, del 8 al 10 de noviembre, Cuernavaca, Morelos, México. [ Links ]

Matalas, N. C., & Gilroy, E. J. (1968). Some Comments on Regionalization in Hydrologic Studies. Water Resources Research 4(6), 1361-1369. [ Links ]

McCuen, R. H., Leahy, R. B., & Johnson, P. A. (1990). Problems with Logarithmic Transformations in Regression. Journal of Hydraulic Engineering116(3), 414-428. [ Links ]

Montgomery, D. C., Peck, E. A., & Vining, G. G. (2002). Capítulo 5: Transformaciones y ponderación para corregir inadecuaciones del modelo (pp. 155-184). En: Introducción al análisis de regresión linealMéxico, DF: Compañía Editorial Continental. [ Links ]

Pandey, G. R., & Nguyen, V. T. V. (1999). A Comparative Study of Regression Based Methods in Regional Flood Frequency Analysis. Journal of Hydrology 225(1-2), 92-101. [ Links ]

Rao, A. R., & Hamed, K. H. (2000). Flood Frequency AnalysisBoca Raton, USA: CRC Press. [ Links ]

Ryan, T. P. (1998). Chapter 14: Linear Regression (pp. 14.114.43). In: Handbook of Statistical Methods for Engineers and ScientistsWadsworth, H. W. (ed.). Second edition. New York: McGraw-Hill Co. [ Links ]

Salas, J. D., Raynal, J. A., Tarawneh, Z. S., Lee, T. S., Frevert, D., & Fulp, T. (2008). Chapter 20: Extending Short Record of Hydrologic Data (pp. 717-760). In: Hydrology and HydraulicsSingh, V. P. (ed.). Highlands Ranch, USA: Water Resources Publications. [ Links ]

Stedinger, J. R., & Tasker, G. D. (1985). Regional Hydrologic Analysis 1. Ordinary, Weighted and Generalized Least Squares Compared. Water Resources Research 21(9), 1421-1432. [ Links ]

Tasker, G. D. (1980). Hydrologic Regression with Weighted Least Squares. Water Resources Research 16(6), 1107-1113. [ Links ]

Tasker, G. D., & Stedinger, J. R. (1986). Regional Skew with Weighted LS Regression. Journal of Water Resources Planning and Management112(2), 225-237. [ Links ]

Tasker, G. D., & Stedinger, J. R. (1989). An Operational GLS Model for Hydrologic Regression. Journal of Hydrology 111(1-4), 361-375. [ Links ]

Vogel, R. M., Wilson, I., & Daly, C. (1999). Regional Regression Models of Annual Streamflow for the United States. Journal of Irrigation and Drainage Engineering125(3), 148-157. [ Links ]

Wilks, D. S. (2011). Chapter 7: Statistical forecasting (pp. 215-300). Statistical Methods in the Atmospheric SciencesThird edition. San Diego: Academic Press (Elsevier). [ Links ]

Recibido: 20 de Enero de 2015; Aprobado: 16 de Febrero de 2016

Creative Commons License Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons