Introducción
En el proyecto del Inventario Nacional Forestal y de Suelos (INFyS) se utiliza el diseño de muestreo estratificado sistemático por conglomerados. Éstos se localizan en equidistancias de 5 km en bosques, así como en selvas altas y medianas, de 10 km en selvas bajas y comunidades semiáridas, y de 20 km en comunidades áridas (CONAFOR, 2012).
El conglomerado o unidad de muestreo primaria (UMP), desde el punto de vista conceptual, es una parcela circular de 1 ha (56.42 m de radio), en la cual se evalúan cuatro unidades de muestreo secundarias (UMS) o sitios, de 400 m2 cada una, dispuestas geométricamente en forma de una Y invertida con respecto al norte; éstas son circulares en el caso de bosques y vegetación de zonas áridas, y rectangulares en selvas. La UMS número 1 es el centro de la UMP y el punto de georeferenciación del conglomerado; las UMS 2, 3 y 4 son periféricas (satélite). La distancia del centro de la UMS 1 (sitio 1) al de las otras UMS (sitio 2, 3 y 4) es 45.14 m cuando los sitios son circulares y 36.42 m cuando son rectangulares. El azimut para localizar las UMS 2, 3 y 4 a partir del centro de la UMS 1 es 0°, 120° y 240°, respectivamente. Las unidades de estudio (UE) son los árboles u otros elementos biológicos en las UMS (Velasco et al., 2005; CONAFOR, 2012). En cada UMS se mide el diámetro normal (DN) y la altura total de los árboles mayores a 7.5 cm de DN. El diseño del conglomerado es similar al del programa de Inventario Forestal y Análisis (FIA) para la evaluación de recursos forestales en EE.UU. (Bechtold y Scott, 2005; McRoberts et al., 2005).
La ubicación de los conglomerados en campo está sujeta a las condiciones y la vegetación del terreno. En un conglomerado podría ser imposible instalar alguna o varias de las UMS, ya que se ubicarían en barrancas, lagos, terrenos agrícolas, caminos o minas (UMS inexistentes). En otras circunstancias, por escala en la cartografía base (Uso de Suelo y Vegetación SERIE IV de INEGI, 1:250 000) es posible que en campo una parte de conglomerado se ubique en un estrato diferente al definido en la cartografía. En otros casos, debido a los linderos o las barreras topográficas solo se puede instalar una parte del conglomerado y entonces las UMS serán inaccesibles. Esta situación de conglomerados de tamaño diferente ha conducido al uso de estimadores de razón en el INFyS.
Aun así cuando un conglomerado comprende dos o más subparcelas disjuntas es tratado como una sola parcela debido a que el conglomerado es atado a un solo punto muestral. En efecto, el conglomerado de parcelas sirve para identificar aquellos elementos cuyas zonas de inclusión espacialmente disjuntas incluyen al punto muestral (Gregoire y Valentine, 2008). Así, hay formas diferentes para estimar los parámetros de interés forestal.
La selva mediana aporta poco a la realidad y potencial de producción maderable, pero es útil para obtener algunos productos forestales no maderables. Además de la biodiversidad, la selva mediana subperennifolia es de importancia mínima en cuanto a su capacidad de almacenamiento de carbono. Eaton y Lawrence (2009) reportan que en la selva mediana subperennifolia de Campeche y Quintana Roo el carbono en la biomasa viva sobre el suelo oscila de 4.8 Mg ha-1 en un bosque secundario de tres años hasta 73.5 Mg ha-1 en un bosque maduro, mientras que el carbono aéreo combinado con el carbono del suelo varía de 192 Mg ha-1 en un bosque secundario de 12 años hasta 469 Mg ha-1 en selva madura. Estas cualidades reducen la importancia de estudiar a la selva mediana subperennifolia desde el punto de vista cuantitativo.
Aunque la relación lineal entre la variable de interés (volumen, área basal, número de árboles) y la auxiliar (área) es débil y la recta no pasa siempre por el origen, el estimador de razón se usa en el proyecto de Inventario Nacional Forestal y de Suelos (INFyS) de México. Por lo tanto y para investigar el comportamiento de estimadores alternativos en ecosistemas forestales complejos, el objetivo del presente estudio fue comparar los estimadores de medias de razones, razón de medias, y FIA, y el parámetro de interés fue el volumen maderable (m3 ha-1) en selva mediana subperennifolia y subcaducifolia de Quintana Roo y Campeche, México. La hipótesis fue que los tres estimadores no son estadísticamente diferentes.
Materiales y métodos
Diseño del conglomerado y zona de inclusión
El diseño del conglomerado del INFyS es un conglomerado de subparcelas (circulares o rectangulares) que comprende una subparcela central georeferida en un punto muestral (x s , z s ) y n-1 subparcelas satélite no traslapadas en un arreglo fijo. Este tipo de arreglo de subparcelas define una zona de inclusión espacialmente disjunta alrededor del punto central de cualquier árbol (Valentine et al., 2006). Un conglomerado de subparcelas incluye un árbol si el punto muestral cae en cualquier parte de la zona de inclusión del árbol (Valentine et al., 2006; Gregoire y Valentine, 2008).
Con el fin de presentar los posibles estimadores y sus respectivas varianzas enseguida se detalla la notación.
Notación
A: área forestal de la región de interés (ha); U
k
: k-ésimo elemento en la población; m: puntos de muestreo; P
s
: s-ésimo conglomerado, s=1,2,..., m; (x
s
, z
s
): coordenadas del conglomerado P
s
; (x
k
, z
k
): ubicación geográfica de un elemento de la población, U
k
; a
sj
: área de cada subparcela (400 m2) en P
S
; n
s
: número de subparcelas efectivamente evaluadas en campo en la parcela s, n
s
=1,2,3,4; ak: área de la subzona de inclusión del elemento U
k
; n
s
a
k
: área de la zona de inclusión del elemento U
k
; π
k
=n
s
a
k
/A: probabilidad de inclusión del elemento U
k
; y
k
: valor de un atributo de interés asociado a U
k
(área basal, volumen, biomasa, carbono);
N: número de árboles en el área forestal de la región de interés; t: número de árboles en la subparcela.
Estimadores
Bajo el principio de que los conglomerados pueden ser de tamaño diferente, Velasco et al. (2005) propusieron estimadores de razón de medias para analizar datos del Inventario Nacional Forestal de México. En el denominador consideraron el atributo de interés (volumen) y en denominador el área del conglomerado como variable auxiliar. En este sentido el estimador se expresa como:
En (1)y s es la cantidad total del atributo en la parcela muestral s y a s es el área (ha) de la parcela muestral s efectivamente evaluada en campo. La varianza estimada de (1), según Cochran (1993), es:
donde
El estimador de razón es un estimador sesgado, pero hay circunstancias donde puede ser insesgado. El estimador de razón (1) es más efectivo cuando: 1) la relación entre y s y a s es una línea recta que pasa por el origen, y 2) la varianza de y s alrededor de esta recta es proporcional a a s . De manera práctica, el uso de (1)s se justifica si: 1) el coeficiente de correlación entre y s y a s es mayor a 0.5, y 2) el tamaño de muestra es mayor a 30 (Scheaffer et al., 1987; Cochran, 1993).
Scott et al. (2005), en el marco del programa de Inventario Forestal y Análisis (FIA) de EE.UU., propusieron un estimador para atributos forestales similar a una media de razones, pero para la estimación en cada parcela muestral s se considera un área ajustada:
donde, a
0 es área total usada para observar el atributo de interés en una parcela (cuatro veces el área de la subparcela) y p
0 es la proporción media de áreas de las parcelas observadas que caen dentro de la población de interés, se obtiene con
Los valores y ha (s) de (3) se usan para la estimación de la media por hectárea:
La varianza de (4) se estima de la siguiente manera:
El estimador de Scott et al. (2005) es un estimador de media de razones que en cada parcela muestral s considera el área del conglomerado completo ajustada por la proporción media de áreas de las parcelas observadas que caen dentro de la población de interés.
La probabilidad de incluir un elemento U k en cada punto muestral permite derivar otro estimador desde el punto de vista de muestreo replicado. Así, T y se puede estimar mediante un estimador insesgado Horvitz-Thompson (HT), es decir:
En la expresión (6) ρ k = y k / n s a k es el valor de y k prorrateado por unidad de área y p s es la suma de todos los valores prorrateados para el conglomerado P S . La instalación de múltiples conglomerados independientes P S en A, seguido por la estimación HT de T y con los datos de cada P S (Ecuación 6), es el muestreo replicado (Barabesi y Fattorini, 1998; Barabesi y Pisani, 2004). Según Schreuder et al. (1993) y Gregoire y Valentine (2008), el estimador de T y basado en un muestreo replicado de m P S es:
La varianza de
La cantidad total de un atributo de interés dividido por el área de la población resulta en la cantidad promedio por unidad de área, es decir, λ y =T y / A. Esta cantidad puede ser estimada insesgadamente con datos de la muestra mediante λ yπs =T yπs / A. Considerando esta expresión y (7), el estimador de λ y y a partir de muestreo replicado de m conglomerados es:
donde,
La Ecuación (9) no requiere la determinación explícita de las probabilidades de inclusión de cada árbol, pero sí supone que independiente del número de suparcelas satélite que al final integren el conglomerado en campo, las subzonas de inclusión estén completas (no truncadas). Así, (9) implica que para cada elemento, el atributo de interés sea dividido entre el área del conglomerado efectivamente evaluado en campo (n s a k = n s a sj ), la cual es común para todos los árboles que pertenecen al mismo conglomerado.
Suponiendo que las subzonas de inclusión de los árboles estén completas, el estimador (9) puede considerarse como una media de razones (Smelko y Merganic, 2008). El método media de razones fue recomendado para muestreo sistemático con parcelas muestrales de tamaño diferente (Smelko y Saborowski,1999). Por lo tanto, en cada parcela muestral s los datos muestrales y s necesitan ser calculados a un área igual (1 ha) usando la siguiente formula (Smelko y Merganic, 2008):
donde y s es la cantidad total del atributo en la parcela muestral s y a a es el área (ha) de la parcela muestral s efectivamente evaluada en campo.
Estos valores por hectárea y ha (s) son usados para la estimación de la media por hectárea:
No existen estimadores para la varianza de (12) cuando se utiliza muestreo sistemático, por lo tanto se estima de la siguiente manera:
la cual se mostró que es una varianza conservadora en aplicaciones de muestreo sistemático (Smelko y Saborowski, 1999).
La estimación de la varianza para los estimadores (1), (4) y (12) considera un muestreo aleatorio aun cuando el diseño de muestreo del inventario nacional forestal es sistemático. Sin embargo, en inventarios forestales es razonable suponer que el muestreo sistemático es aproximadamente equivalente al muestreo aleatorio simple (Zarnoch y Bechtold, 2000). Velasco et al. (2005) refieren el uso del muestreo aleatorio en inventarios forestales cuando los datos son recolectados en una malla sistemática. Cochran (1993) indica que si la población es aleatoria la fórmula para la varianza en muestreo sistemático es la misma que para una muestra aleatoria simple.
Otra forma para estimar la varianza de (1), (4) y (12) es con el método bootstrap no paramétrico, en el cual la varianza se calcula con base en un gran número de estimaciones correspondientes a muestras bootstrap obtenidas desde la muestra original (Efron, 1979; Särndal et al., 1992; Pérez, 2000). En cualquier caso, suponiendo una distribución de
Base de datos
En este estudio se usaron datos de selva mediana subperennifolia y subcaducifolia de Quintana Roo y Campeche, tomados en campo en 2010 en el marco del proyecto de Inventario Nacional Forestal y de Suelos. Para Quintana Roo se usaron m=206 conglomerados de selva mediana subperennifolia y m=22 de selva mediana subcaducifolia; para Campeche m=127 conglomerados de selva mediana subperennifolia y m=58 de selva mediana subcaducifolia. Las ecuaciones usadas fueron las de volumen fustal reportadas por SAG (1976) y SARH (1985), las cuales son aplicación a nivel estatal y por grupo botánico. La elección del volumen maderable como parámetro de interés se basó en que a nivel regional existen funciones de volumen en el Sureste mexicano. Las variables volumen y carbono están altamente correlacionadas, por lo cual se esperan resultados similares cuando la variable carbono sea de interés. Para el análisis de la información se elaboró un programa en el software Sistema de Análisis Estadístico Versión 9.2 (SAS, 2009). En este programa se generó una matriz (mxp); sus columnas correspondieron a la longitud, latitud, área basal, densidad arbórea, volumen maderable fustal y área efectivamente muestreada del conglomerado, y sus filas identificaron a los conglomerados.
La selva mediana subperennifolia y subcaducifolia del sureste mexicano tiene importancia limitada desde el punto de vista cuantitativo per se, pero se decidió realizar la presente investigación en cuatro poblaciones forestales tropicales diferentes -selva mediana subperennifolia y subcaducifolia de Quintana Roo y Campechepara evaluar el comportamiento estadístico de los estimadores bajo distintos tamaños de muestra. En estas condiciones se espera que los resultados sean generalizables a otras poblaciones de interés forestal.
El volumen maderable fustal por hectárea se estimó con los siguientes métodos: 1) Media de razones (Smelko y Merganic, 2008), 2) razón de medias (Velasco et al., 2005) y, 3) media de razones con área ajustada (Scott et al., 2005). Las varianzas se obtuvieron según las expresiones convencionales reportadas para cada estimador. Además de las estimaciones puntuales se obtuvieron las estimaciones por intervalo. Para el estimador de razón adicionalmente se estimó el sesgo mediante
El traslape de los intervalos de confianza y similitud en el error de muestreo se utilizaron como criterios para comparar los estimadores estudiados.
Resultados y discusión
La correlación entre el volumen maderable y el área del conglomerado efectivamente muestreada en campo fue alrededor del 0.43. En las condiciones estudiadas las correlaciones fueron significativas al 5 %.
Los diagramas de dispersión indicaron que en todos los casos la varianza del volumen fue proporcional al área del conglomerado. En la selva mediana subperennifolia (Quintana Roo y Campeche) los conglomerados pequeños (0.04, 0.08 y 0.12 ha) estuvieron bien representados, pero en la selva mediana subcaducifolia sucedió lo contrario. Así, en Quintana Roo (m=22) no hubo conglomerados con área de 0.12 ha, y en Campeche (m=58) solo un conglomerado ocurrió con área de 0.04 ha y otro con área de 0.08 ha. Esta última situación puede deberse al tamaño de muestra relativamente bajo.
Las regresiones del volumen sobre el área del conglomerado, y=β0+β1 a, indicaron que para la selva mediana subperennifolia de Quintana Roo y Campeche el intercepto fue significativo al 5 % (valor de p de la prueba de t menor a 0.05), es decir, se rechazó H o : β0 =0. En la selva mediana subcaducifolia, de las dos entidades federativas, no se rechazó H o : β0 =0. Dada la dispersión de las observaciones, en ningún caso el coeficiente de determinación superó al 0.5.
La situación anterior pone en desventaja al estimador de razón de medias, que para ser efectivo requiere un coeficiente de correlación mayor al 0.5 entre la variable de interés y la variable auxiliar, y la relación entre ambas debe ser una línea recta que pase por el origen. Sin embargo, debe tenerse en mente que en tres de las cuatro poblaciones estudiadas el número de observaciones rebasa en mucho el tamaño de muestra sugerido, el cual debe ser por lo menos de 30; así el uso del estimador de razón se justifica.
Los valores puntuales por hectárea calculados mediante los tres estimadores, en cada población, también fueron parecidos, y de manera consistente, el estimador media de razones proporciona valores ligeramente menores (conservadores) en comparación con los otros dos estimadores. Los sesgos relativos estimados del estimador de razón (sesgo respecto al error estándar) fueron de 0.18, 0.73, 0.43 y 0.22 %, para SMSUPQROO, SMSUCQROO, SMSUPCAMP y SMSUCCAMP, respectivamente. El sesgo relativo de 0.73 % correspondió a la población muestreada con sólo 22 conglomerados. Todos estos valores son menores al 10 %, por lo que el sesgo del estimador de razón es prácticamente insignificante (Cuadro 1).
Población de interés | Estimador | Estimación puntual | Límite inferior | Límite superior | Error de muestreo (%) |
---|---|---|---|---|---|
SMSUPQROO (m=206) | MR | 105.90 | 96.54 | 115.25 | 8.83 |
RM | 109.23 | 99.95 | 118.52 | 8.50 | |
FIA | 109.23 | 99.26 | 119.21 | 9.13 | |
SMSUCQROO (m=22) | MR | 112.35 | 77.30 | 147.40 | 31.20 |
RM | 118.75 | 83.46 | 154.05 | 29.72 | |
FIA | 118.75 | 80.00 | 157.50 | 32.63 | |
SMSUPCAMP (m=127) | MR | 106.10 | 94.32 | 117.87 | 11.10 |
RM | 111.50 | 99.85 | 123.14 | 10.44 | |
FIA | 111.50 | 98.19 | 124.81 | 11.94 | |
SMSUCCAMP (m=58) | MR | 98.32 | 86.10 | 110.55 | 12.43 |
RM | 99.92 | 87.68 | 112.17 | 12.25 | |
FIA | 99.92 | 86.78 | 113.07 | 13.15 |
SMSUPQROO: Selva mediana subperennifolia de Quintana Roo, SMSUCQROO: Selva mediana subcaducifolia de Quintana Roo, SMSUPCAMP: Selva mediana subperennifolia de Campeche, SMSUCCAMP: Selva mediana subcaducifolia de Campeche
En todos los casos el estimador de razón de medias, a pesar de que en general existe correlación débil entre la variable de interés y la auxiliar, es ligeramente más preciso (menor error de muestreo), le siguen el estimador media de razones y FIA. Esto puede explicarse porque en la selva mediana subperennifolia el tamaño de muestra fue mayor a 100, y en el caso de la selva mediana subcaducifolia, aunque el tamaño de muestra fue menor a 100, hay evidencia de una relación lineal al origen del volumen y el área del conglomerado. Al existir traslape de los intervalos de confianza al 95 %, puede considerarse que los tres estimadores no son estadísticamente diferentes. También, en cada población estudiada, los errores de muestreo de los estimadores evaluados presentaron un grado alto de similaridad.
En las dos poblaciones estudiadas de cada estado, el estimador FIA tuvo una precisión un poco más baja que los otros dos; de manera consistente se observa que presenta mayor error de muestreo incluso donde el tamaño de muestra es superior a 100. Esto puede deberse a que el denominador de la expresión que permite obtener los valores por hectárea considera un área ajustada común; el área del conglomerado originalmente deseable (0.16 ha) es ajustada por una proporción media de todas las áreas efectivamente muestreadas en campo.
Los resultados anteriores son congruentes con otros estudios que compararon estimadores media de razones y razón de medias en el ámbito forestal. Al respecto, Smelko y Saborowski (1999) con datos de la región forestal del norte de Slovakia, 32 parcelas muestrales de diferente tamaño (desde 100 hasta 1000 m2 en intervalos de 100) levantadas en 1991 y 1995, estudiaron los estimadores media de razones (método A) y razón de medias (método B) en la estimación del número de árboles y volumen maderable por hectárea. Las correlaciones entre el número de árboles y el área de las parcelas fueron bajas (0.323 y 0.278 para 1991 y 1995, respectivamente), mientras que las correlaciones entre el volumen y el área de las parcelas fueron moderadas (0.82 ambas en ocasiones); en este segundo caso no se observó una relación de línea recta que pase por el origen. En los dos años el método A dio menor volumen por hectárea que el B (1991: A 423.3 y B 453.9 m3 ha-1; 1995: A 443.5 y B 470 m3 ha-1), y errores estándar más pequeños que el B. Lo contrario fue verdadero para el número de árboles por hectárea. Para las dos ocasiones y los dos parámetros las diferencias de los errores estándar en ambos métodos no superaron el 2.7 %.
Smelko y Merganic (2008) evaluaron el estimador de razón de medias y media de razones con datos del Inventario Nacional Forestal y Monitoreo de Slovakia. Para el volumen maderable comercial reportan los siguientes resultados por hectárea
En el estimador de razón los valores de las unidades de muestreo se tratan de manera global, esto es, se obtiene el total de la variable de interés y el total de la variable auxiliar, y al final se obtiene el cociente de ambos. En el estimador media de razones, el primer nivel de inferencia es a nivel de hectárea (parcela) y después a nivel poblacional. Un método estadístico potente para analizar datos de inventario obtenidos con muestreo panelizado es Mínimos Cuadrados Generalizados, el cual considera la covarianza entre parcelas remedidas. Así, es preferible mantener el nivel de inferencia a nivel de hectárea.
El tamaño de muestra tiene un efecto notable en el error de muestreo. Por ejemplo, para el volumen estimado por FIA, cuando m=206 el error de muestreo máximo es 9.15 %, cuando m=127 el error máximo de muestreo es 12.35 %, cuando m=58 el error máximo de muestreo es 13.24 % y cuando m=22 el error máximo de muestreo asciende hasta 32.85 %. Con 22 observaciones, en los estimadores de razón y media de razones también se obtuvo un error de muestreo alrededor del 30 %. Esta situación no deber ser preocupante si se considera que el INFyS está diseñado para estudiar poblaciones forestales de gran magnitud. Poblaciones con tamaños de muestreo bajos requerirán una mayor intensidad de muestreo para lograr estimaciones confiables.
Al considerar que
Esta situación hace suponer que en otras poblaciones forestales diferentes a las selvas, los estimadores MR, RM y FIA tendrán un comportamiento como el obtenido en este estudio.
Conclusiones
En cada situación evaluada, el traslape de los intervalos de confianza al 95 % permite concluir que los estimadores evaluados son equivalentes; es poco más preciso el estimador de razón.
El tamaño de muestra tiene un efecto fuerte en la precisión de los estimadores. Así, en la población donde se estudiaron menos de 30 conglomerados, los errores de muestreo de los tres estimadores analizados ascienden hasta 30 % aproximadamente en la estimación del volumen maderable.
Todos los sesgos relativos del estimador de razón fueron menores al 10 %, por lo cual se considera prácticamente insignificante.