Introducción
En la dinámica poblacional de organismos plaga, los datos de conteos reflejan la presencia y abundancia de las especies en un periodo fijo de tiempo (Hashim et al., 2021). Debido a las complejas interacciones entre los componentes bióticos y abióticos, a las características inherentes de las especies plaga, a dependencias espacio-temporales, a la heterogeneidad ambiental no explicada (Zou et al., 2021) y a las técnicas agroecológicas de control (Villanueva-Jiménez et al., 2017; García-González et al., 2018) es común que en los muestreos de poblaciones plaga se presenten valores de cero en exceso.
El estudio y el monitoreo de los periodos en que los organismos plaga presentan exceso de ceros puede ser de gran utilidad, ya que permiten realizar el manejo preventivo de sus poblaciones y reconocer etapas tempranas de invasión de plagas para la aplicación de métodos preventivos de manejo, tales como los que oferta la agricultura de precisión (Jankielsohn, 2017; Clay et al., 2018), así como el uso de las tácticas de combate antes de que las plagas causen daño en los cultivos, lo que evitaría el uso abusivo del plaguicidas organosintéticos, con lo que también se reduciría el daño al ambiente (Shannon et al., 2018; Talaviya et al., 2020).
El exceso de ceros es un problema teórico y práctico que se presenta cuando la elevada frecuencia de ceros, altera las probabilidades esperadas por las distribuciones de variables discretas Poisson y binomial negativa (Yesilova et al., 2010; Hashim et al., 2021; Haslett et al., 2022) y no se ha puesto atención en los mecanismos que explican el origen del cero, a pesar de sus repercusiones en la estimación de los parámetros poblacionales en especies de organismos plaga (Haslett et al., 2022).
Para el estudio de poblaciones de plagas en agroecosistemas, se propone analizar el exceso de cero a partir de las propuestas de (Mullahy, 1986; Lambert 1992); es decir, reconocer dos posibles orígenes del cero distinguiendo entre cero estructural (plantas sin brotes susceptibles para el establecimiento de una plaga) y cero no estructural (plantas con brotes susceptibles libres de la plaga y brotes susceptibles plagados), modelar el cero por su origen con distribuciones binomiales (Lambert, 1992; Zou et al., 2021: Haslett et al., 2022) y dependiendo del valor observado de los conteos mayores que cero, estudiar el efecto de la sobredispersión (Hall, 2000; Cheung, 2002; Doyle, 2009).
En conteos de plagas se emplean de manera recurrente las ecuaciones de tamaño óptimo de muestra para la distribución Poisson o binomial negativa, pero debido al exceso de ceros, los tamaños de muestra óptimos estimados son tan grandes que resultan imprácticos (Southwood y Henderson, 2000); sin embargo, en el manejo integrado de plagas no se dispone de ecuaciones que estimen el tamaño de muestra óptimo de distribuciones cero infladas, ni propuestas que consideren el origen del cero.
Aquí se proponen ecuaciones que estiman el tamaño de muestra óptimo (Karandinos, 1976), ajustadas a las distribuciones cero infladas. Los objetivos de la presente investigación fueron: modelar el exceso de ceros, estimar los parámetros mediante los métodos de los momentos y máxima verosimilitud de las distribuciones Poisson cero inflado y binomial negativa cero inflado, y derivar ecuaciones para calcular el tamaño de muestra óptimo.
Materiales y métodos
Para la estimación del tamaño de muestra óptimo, se modeló el exceso de ceros; se determinaron los parámetros mediante los métodos de momentos y máxima verosimilitud de las distribuciones Poisson cero inflado y binomial negativa cero inflado y se derivaron las ecuaciones de cálculo del tamaño de muestra.
Modelado del exceso de ceros
Para modelar el exceso de ceros, se realizaron las siguientes etapas: i) se incluyó como causa de extra-ceros, la ausencia de tejido vegetal que permite alojar a la plaga. De esta manera, se tuvieron dos orígenes: el ‘cero estructural’, cuando no existe en la planta tejido susceptible que pueda ser ocupado la plaga y el cero ‘no estructural’, cuando si existe en la planta tejido adecuado, pero no está habitado por una plaga.
Con esta definición, se modeló la frecuencia del cero estructural mediante una distribución binomial (Mullahy, 1986). Donde: X es el número de ceros estructurales presentes en una muestra tamaño n, por tanto: X ~ B(n,p_e ). Donde: Pe es la proporción de ceros estructurales y qe = 1- pe es la proporción de tejido vegetal susceptible libre de la presencia de la plaga (cero no estructural), más el tejido vegetal habitado por la especie blanco (valores enteros positivos).
De esta manera, la función de probabilidad de la variable aleatoria X o el número de ceros estructurales en la muestra de tamaño n, está dada por:
1). Si
2). Donde: pne es la probabilidad de ocurrencia de un cero no estructural; entonces, en una muestra de tamaño n, X = x es el número de ceros estructurales en la muestra, Y = y es el número de ceros no estructurales, mientras que n-x-y es el número de unidades de tejido vegetal con la presencia de una plaga; de esta forma, qne = 1- pne representa la proporción de la población del tejido susceptible, habitado por el organismo de interés; iii) para modelar la abundancia de una plaga que excluya los ceros estructurales, se emplearon las distribuciones de conteos Poisson cuando la media sea igual que la varianza (equidispersión) y binomial negativa cuando la varianza sea mayor que la media (Hilbe, 2011).
La distribución Poisson se utiliza en una muestra n- x cuando Y es el número de insectos en una unidad muestral que no es un cero estructural, por lo que se puede utilizar:
3). Donde: ( es la media del número de insectos en la población excluyendo los ceros estructurales (es decir, no se toman en cuenta las unidades muestrales sin tejido susceptible).
Con sobredispersión se emplea la binomial negativa, donde sea Y el número de insectos en una unidad que no es un cero estructural:
4). Donde: ( es la media del número de insectos en la población, excluyendo los ceros estructurales; k es un parámetro de sobre dispersión y ((y) es la función matemática gamma. De esta manera, las estimaciones no se ven afectadas por el exceso de ceros (ceros estructurales).
Puede notarse que, bajo este esquema, la probabilidad de un cero no estructural está dado por
si es Poisson y (1+kλ)^(-1/k) si es binomial negativa. La probabilidad de un cero estructural en ambos casos es pe; iv) para modelar la abundancia de la plaga considerando la mezcla los ceros estructurales y no estructurales (los dos orígenes del cero) se tienen dos casos. Si la media y varianza es igual (equidispersión), se modeló la población con la distribución Poisson cero inflada (Lambert, 1992; Zou et al., 2021) de la siguiente manera:
5). La media de esta distribución es (1- pe)λ ; además, la varianza es (1- pe)λ(1+λpe) En el segundo caso, cuando se encontró sobredispersión, se utilizó la distribución binomial negativa cero inflada (BNCI) (Fang et al., 2016). Donde:
6). La media de esta distribución es (1- pe)λ; además, la varianza es (1- pe)λ(1+λ(pe+k)).
Estimación de los parámetros
Para obtener los parámetros de las distribuciones i) Poisson cero inflada; y ii) binomial negativa cero inflada, se emplearon los métodos de los momentos y máxima verosimilitud. a) para la distribución Poisson cero inflada se utilizan los estimadores de momentos para pe y λ, dados respectivamente por (Banik y Kibria, 2009):
7). Con
El estimador de máxima verosimilitud para
8); b) para la distribución binomial negativa cero inflada no existen los
estimadores de momentos para p
e
, k y λ (Banik y Kibria,
2009; Hilbe, 2011). Dado que
el exceso de ceros es estructural (sin tejido susceptible), con X =
x ceros estructurales en una muestra de tamaño n y
que X~B(n,p
e
), entonces el estimador de momentos de p
e
está dado por
10). Donde:
El estimador de máxima verosimilitud para pe, k y λ se obtienen maximizando la función de log-verosimilitud dada por:
11). Con base en lo anterior, se propone usar los estimadores de momentos de la binomial negativa (Banik y Kibria, 2009), pero excluyendo de la ecuación los ceros estructurales, como una aproximación a los momentos de la binomial negativa cero inflada.
Derivación de las ecuaciones
Para derivar las ecuaciones de tamaño de muestra óptimo, se sustituyeron los
parámetros obtenidos de los modelos iii y iv en las ecuaciones de Karandinos (1976), relacionadas con el
coeficiente de variación (CV), la proporción fija de la media (
Distribución | Tamaño de muestra óptimo*, con base en: | ||
---|---|---|---|
Coeficiente de variación | Proporción de la media |
Intervalo de confianza h | |
General |
|
|
|
Poisson |
|
|
|
Binomial negativa |
|
|
|
Poisson cero inflado |
|
|
|
Binomial negativa cero inflado |
|
|
|
*= para obtener el tamaño de muestra óptimo, se sustituyen los valores de λ, pe y k por sus estimadores.
Muestreos en campo vs simulaciones
Se realizaron seis muestreos sistemáticos (n= 100) en tres huertos de toronja (Citrus paradisi Macfad) Río Red en la Finca Sayula, SPR de RL de CV, Veracruz, México (latitud 19.20722, longitud -96.35194). Los datos de los muestreos fueron conteos directos en unidades pequeñas (tres hojas por brote por árbol), realizados durante los meses de junio y julio de 2021 y enero de 2022.
Tres de los muestreos se efectuaron para detectar la presencia del minador de la hoja de los cítricos Phyllocnistis citrella Stainton y tres más para detectar la presencia del pulgón vector del virus de la tristeza de los cítricos Toxoptera citricida Kirkaldy. Además, se simularon tres muestreos con Poisson cero inflado y tres muestreos con binomial negativa cero inflado; ambos con n= 100, números generados al azar. Las simulaciones se realizaron con RStudio, mediante los programas rbinom (100, size = 1, prob = 0.1, 0.4, 0.6), rpois (100-x, 1.5), rnbinom (100, 1.5) y zeroinfl (x∼1 | 1, dist = ‘poisson’, ‘negbin’) de las librerías vgam y pscl.
Para los seis muestreos de campo, tres de P. citrella (Cuadro 2) y tres de T. citricida (Cuadro 3) y para las seis simulaciones (Cuadro 4), se estimó la proporción simulada y observada de ceros estructurales, los ceros no estructurales, el parámetro k de sobredispersión, la probabilidad de cero estructural y el tamaño de muestra óptimo mediante las ecuaciones de coeficiente de variación, proporción de la media y mitad de intervalo de confianza (Cuadro 1).
Muestreo | Método | Distribución de probabilidad | Prce / Prcne | k | pe | CV | D
|
h |
---|---|---|---|---|---|---|---|---|
1 | log-ver mom | PCI BNCI PCI BNCI | 0.33/0.43 | 1.4e-5 1.29 | 0.67 0.67 0.629 0.33 | 81 69 70 75 | 81 69 70 75 | 51 51 - 351 |
2 | log-ver mom | PCI BNCI PCI BNCI | 0.27/0.45 | 1.9e-5 2.69 | 0.537 0.537 0.465 0.27 | 53 55 43 102 | 53 55 43 102 | 41 41 - 472 |
3 | log-ver mom | PCI BNCI PCI BNCI | 0.13/0.46 | 8.1e-6 1.35 | 0.543 0.543 0.499 0.13 | 54 34 47 42 | 54 34 47 42 | 148 148 50 1151 |
log-ver= log-verosimilitud; mom= momentos; Prce=
proporción de cero estructural; Prcne= proporción de
cero no estructural; k= parámetro de sobredispersión;
pe= probabilidad estimada de cero estructural;
tamaño de muestra óptimo por: CV= coeficiente de variación; D
Muestreo | Método | Distribución de probabilidad | Prce/ Prcne | k | pe | CV | D
|
h |
---|---|---|---|---|---|---|---|---|
1 | log-ver mom | PCI BNCI PCI BNCI | 0.33/0.64 | 181.8 0.02 | 0.97 0.97 0.987 0.33 | 1061 2994 2447 18 | 1061 2994 2447 18 | - 24686 - 1207 |
2 | log-ver mom | PCI BNCI PCI BNCI | 0.27/0.68 | 0.426 0.056 | 0.95 0.949 0.96 0.27 | 623 450 801 17 | 623 450 801 17 | 2266 3945 - 983 |
3 | log-ver mom | PCI BNCI PCI BNCI | 0.13/0.84 | 0.474 0.025 | 0.97 0.969 0.978 0.13 | 1050 779 1475 12.55 | 1050 779 1475 12.55 | 5738 8486 - 854 |
log-ver= log-verosimilitud; mom= momentos; Prce=
proporción de cero estructural; Prcne= proporción de
cero no estructural; k= parámetro de sobredispersión;
pe= probabilidad estimada de cero estructural;
tamaño de muestra óptimo por CV= coeficiente de variación; D
Muestreo | Método | Distribución de probabilidad | Prce | k | pe | CV | D
|
h |
---|---|---|---|---|---|---|---|---|
SPCI1 | log-ver | PCI | 0.1 | 4.8e-5 | 0.089 | 19 | 19 | 29 |
SPCI2 | log-ver | PCI | 0.4 | 0.107 | 0.479 | 45 | 45 | 31 |
SPCI3 | log-ver | PCI | 0.6 | 1e-5 | 0.476 | 45 | 45 | 22 |
SBNCI1 | log-ver | BNCI | 0.1 | 2.221 | 0.005 | 39 | 39 | 664 |
SBNCI2 | log-ver | BNCI | 0.4 | 0.623 | 0.429 | 32 | 32 | 1268 |
SBNCI3 | log-ver | BNCI | 0.6 | 0.656 | 0.651 | 62 | 62 | 1935 |
SPCI= simulaciones Poisson cero inflado (1-3); SBNCI=
simulaciones binomiales negativa cero inflado (1-3); log-ver=
log-verosimilitud; Prce= proporción de cero
estructural; k= parámetro de sobredispersión; pe=
probabilidad estimada de cero estructural; tamaño de muestra
óptimo por: CV= coeficiente de variación; D
Resultados y discusión
Ecuaciones propuestas para estimar el tamaño de muestra óptimo de plagas con exceso de ceros
Las ecuaciones propuestas para estimar el tamaño de muestra óptimo de plagas con exceso de ceros se detallan en la metodología (Cuadro 1).
Tamaño de muestra óptimo
Se encontró que el tamaño de muestra óptimo calculado por la proporción de la
media (
El tamaño de muestra óptimo de la mitad del intervalo de confianza (h) incrementó conforme aumentó el parámetro de sobredispersión (k), y resultó en tamaños de muestra óptimo muy grandes o difíciles de estimar, cuando las poblaciones de plagas presentan exceso de ceros (Cuadros 2, 3 y 4).
La estimación del tamaño de muestra óptimo por log-verosimilitud del parámetro k de las muestras de P. citrella (Cuadro 2) indicó que los muestreos tienen distribución Poisson cero inflado. La k estimada por el método de momentos de la distribución binomial negativa cero inflado, al excluir los ceros estructurales, mostró que los ceros no estructurales y los valores enteros positivos presentaban sobredispersión.
Este resultado concuerda con lo reportado por Banik y Kibria (2009), quienes indicaron que al condicionar o eliminar los ceros estructurales de una población modelada con una distribución Poisson cero inflado, también se puede modelar con una distribución binomial negativa, siempre que los datos del componente no estructural presenten sobredispersión.
Los valores de pe para los métodos de momentos y de log-verosimilitud para Poisson cero inflado fueron similares, por tanto, ambos métodos son eficientes para la estimación de los parámetros. Los tamaños de muestra estimados para P. citrella son menores cuando se estiman por momentos que por log-versomilitud, incluso cuando el número de ceros estructurales (Prce) es mayor; sin embargo, la diferencia entre ambas estimaciones no es muy grande (< 20 unidades).
El efecto de la sobredispersión afectó de manera importante el tamaño de muestra
estimado por h; para P. citrella los resultados indican que es
preferible la estimación por CV o por
, ya que aunque el intervalo oscila entre 47 y 70, el tamaño de muestra es menor al obtenido por Poisson y binomial negativa, debido a que los métodos aquí propuestos consideran el número de ceros estructurales y no estructurales.
En los muestreos de T. citricida (Cuadro 3), insecto con alta tendencia a la agregación, los valores de k estimados por log-verosimilitud indican poblaciones con distribución binomial negativa cero inflado. El valor de k por el método de los momentos resultó en valores bajos, lo que indica que, al excluir el componente estructural, las pocas unidades muestrales encontradas con plaga presentaron baja variación.
El resultado es interesante, ya que las poblaciones con distribución binomial
negativa cero inflado presentan distribución al azar al nivel de predio, pero
los pocos árboles ocupados tuvieron un elevado número de individuos, lo que
indica agregación, en concordancia con la biología del insecto. La exclusión del
cero estructural, la frecuencia de los ceros no estructurales y la reducción de
la variación en los conteos con valores enteros positivos dieron por resultado
tamaños de muestra muy pequeños para el CV y
estimados con el método de los momentos.
El tamaño de muestra óptimo de la distribución binomial negativa cero inflada, calculada por momentos, es menor porque distingue los diferentes orígenes del cero. Al tomar en cuenta para la estimación del tamaño de muestra solo los ceros no estructurales y los valores enteros positivos, se estableció una diferencia con los parámetros estimados por log-verosimilitud que no distingue el origen del cero. Por tanto, el método de los momentos para Poisson cero inflado y binomial negativa cero inflada permite estimar tamaños de muestra óptimos similares o menores que los estimados por máxima verosimilitud.
En las simulaciones (Cuadro 4) se observó que, conforme incrementaba el número de ceros estructurales, incrementaba el tamaño de muestra en ambas distribuciones, ya que como sólo se estimó el tamaño de muestra por el método de log-verosimilitud, al simular no se distingue el origen del cero. Además, el valor estimado del parámetro de sobredispersión k es congruente con los valores obtenidos en campo.
Para Poisson cero inflado se obtuvieron valores de k muy pequeños, debido a la cercanía de los valores de media y varianza, mientras que para las simulaciones de la binomial negativa cero inflada, el parámetro de sobredispersión fue mayor que cero, lo que indica sobredispersión, similar a lo reportado por Zou et al. (2021); Haslett et al. (2022).
Conclusiones
Las distribuciones de probabilidad Poisson cero inflado y binomial negativa cero inflada permiten modelar poblaciones de organismos plaga con densidades bajas y exceso de ceros. Los parámetros obtenidos por el método de los momentos distinguen el origen del cero y estiman tamaños de muestra óptimos equivalentes o menores a los estimados por log-verosimilitud, la cual no distingue el origen del cero. Una población Poisson cero inflada puede modelarse también con una distribución binomial negativa, siempre que el componente no estructural presente sobredispersión.
La estimación del tamaño de muestra óptimo en poblaciones de plagas con exceso de
ceros se puede realizar de manera equivalente con la ecuación del coeficiente de
variación (CV) y la ecuación de la proporción de la media (
). Por otro lado, la estimación del tamaño de muestra óptimo con la ecuación de la mitad del intervalo de confianza (h) depende del valor del parámetro de sobredispersión (k), ya que no tiene un valor fijo que permita establecer una equivalencia.