Introdução
Os inventários florestais são um componente integral do monitoramento e gestão de recursos naturais (Fankhauser et al., 2018). Os inventários florestais são tradicionalmente realizados por meio de amostragem de campo intensiva, com o objetivo de fornecer aos gestores uma compreensão da composição e estrutura de uma floresta (Goodbody et al., 2017).
Estimar os volumes das árvores individuais é, na maioria das vezes, a principal finalidade dos levantamentos florestais, notadamente quando se trata de povoamentos destinados para fins comerciais (Machado e Figueiredo-Filho, 2009).
As estimativas volumétricas podem ser obtidas por meio de fatores de forma, quociente de forma, equações de volume, equações de múltiplos volumes ou de afilamento (Burkhart e Tome, 2012; Campos e Leite, 2017). A equação de volume é a forma mais usual de realizar a estimação do volume. Ela é uma expressão em que o volume da madeira é apresentado como função de outras grandezas ou variáveis da árvore (normalmente o diâmetro a altura do peito e a altura) que podem ser medidas e estimadas por meio não destrutivo (Batista et al., 2014). Porém nos últimos anos, as equações volumétricas têm sido utilizadas em estudos comparativos juntamente com aplicações de ferramentas da inteligência artificial, haja vista os bons resultados obtidos em alguns trabalhos na ciência florestal, dada à sua flexibilidade no treinamento e modelagem das relações entre variáveis, capacidade de aprendizado de informações de um conjunto de dados e a generalização desse aprendizado para dados desconhecidos (Binoti et al. 2016; Bonete et al., 2019; Abreu et al., 2020).
Avaliar novas abordagens de modelagem preditiva é uma importante ação na busca por modelos mais precisos e na superação de problemas comuns às técnicas convencionais. Os avanços nas técnicas computacionais, como algoritmos de aprendizado de máquina, têm sido cada vez mais utilizados para modelar dados biológicos. Esses algoritmos permitem o uso de dados categóricos, com ruídos estatísticos (outliers) e dados incompleto, portanto, podem atender às necessidades sob diferentes cenários de conjunto de dados (Breiman, 2001). O aprendizado de máquina, de acordo com Bell (2015), é um ramo da inteligência artificial, no qual são efetuados sistemas que são induzidos a aprender por meio de dados a serem treinados, computacionalmente, o modelo vai aprendendo por meio de aperfeiçoamentos com a experiência no decorrer do tempo. Recentemente, uma nova cultura de modelagem estatística - aprendizado de máquina - ganhou impulso e foi aplicada para resolver questões desafiadoras em diversas áreas da ciência e tecnologia (Dalla-Corte, 2020).
As redes neurais artificiais (RNA) são ferramentas do aprendizado de máquina, que segundo Feltrin (2019) apresentam neurônios que estão ligados por meio de estrutura de entradas, intermediárias e saída. No qual esse neurônio se denomina Perceptron, que matematicamente efetua interpretação de dados de entradas, além dos pesos empregados sobre eles e as funções de ativação para o processamento final, basicamente se apresentando como um neurônio biológico, no qual as RNA são baseadas em sistemas biológicos com objetivo de execução de uma determinada tarefa (Haykin, 2007; Bulinaria, 2016).
Para Haykin (2007), as Máquinas de Vetores de Suporte (Support Vector Machines) compreendem um algoritmo de aprendizagem de máquina supervisionado, isto é, um algoritmo com capacidade de explorar um conjunto de dados de treinamento a fim de descobrir relações entre os atributos (variáveis independentes) e uma variável alvo (dependente).
Objetivos
Com a necessidade de estimativas mais precisas, haja vista a potencialidade da aplicação das MVS e das RNA, o objetivo do presente estudo é aplicar essas metodologias na modelagem de volume individual com casca em povoamentos de eucalipto, efetuando comparação dos métodos com a modelagem tradicional.
Materiais e métodos
Os dados desse estudo são de plantios comerciais não desbastados de Eucalyptus urophylla St Blake, com idades variando entre 22 meses e 88 meses, localizados em quatro municípios (Ferreira Gomes, Itaubal, Porto Grande e Tartarugalzinho) da mesorregião sul do estado do Amapá. O clima equatorial úmido ou tropical super úmido, marcado por altas temperaturas, e elevados índices pluviométricos (média anual de 2500 mm), a temperatura média varia entre 36 °C a 20 °C. Em linhas gerais os solos contidos nas áreas operacionais são distróficos, altamente coesos, com baixa fertilidade. O relevo predominante nas áreas operacionais é o plano a suave ondulado, com altitudes variando de 30 m a 120 m.
Foi realizada a cubagem rigorosa de 214 árvores-amostra, onde seus respectivos diâmetros foram mensurados ao longo do fuste em posições fixas, nas seguintes medidas: 0 cm (base); 0,50 m; 1,0 m; 2,0 m e a partir desse ponto de 2,0 m em 2,0 m até o diâmetro mínimo de 4,0 cm, sendo o volume individual determinado pelo método de Smalian.
Foram ajustados os modelos de Schumacher e Hall (1933) na sua forma linearizada (1) e o modelo de Spurr (1952) (2).
As amplitudes mínimas, máximas e médias das variáveis dendrométricas utilizadas para estimar o volume são apresentadas na Tabela 1.
Variável | Ajuste/Treinamento | Validação/Generalização | ||||
Mín. | Máx. | Média | Mín. | Máx. | Média | |
Dap(cm) | 6,3 | 23,7 | 13,4 | 5,8 | 21,5 | 13,8 |
Ht(m) | 12 | 26,7 | 19,7 | 10 | 25,7 | 19,3 |
Volume (m³) | 0,02 | 0,447 | 0,145 | 0,02 | 0,327 | 0,149 |
DAP = diâmetro à altura de 1,30 m; Ht = altura total; V = volume.
Utilizou-se 80% dos dados para ajuste/treinamento (n=171), e 20% para validação/generalização (n = 43) das estimativas de volumes individuais obtidos pelas metodologias avaliadas no presente trabalho. Tanto para MVS quanto para RNA, as variáveis de entrada foram o dap e a altura, sendo o volume total com casca a variável de saída. Para o treinamento e generalização de todas as estimativas de volume individual com a técnica MVS, foram utilizadas quatro configurações, formadas a partir de duas funções de erro e duas funções de Kernel, sendo que as funções de erro foram: função do tipo I (3) e do tipo II (7).
Função do tipo I:
Sujeito as seguintes restrições:
Em que:
w = vetor de coeficientes
C = parâmetro de penalidade do erro
ξ𝑖ξ𝑖∗variáveis de folga que caracterizam, respectivamente, o erro acima e abaixo do 𝜀− tubo
i = casos de treinamento
N = número total de casos de treinamento
𝜙.(𝑥𝑖)= kernel utilizado
b = bias
𝑦i = dados de saída
ε = erro máximo admitido
Função do tipo II:
Sujeito as seguintes restrições:
As quatro configurações de MVS utilizadas foram função de base radial (RBF) e linear, tipo I e tipo II, apresentadas matematicamente conforme Tabela 2.
Para as redes neurais, utilizou-se configurações de redes do tipo Adaline (Adaptive Linear Element); multilayer perceptron (MLP) e funções de base radial (radial basis function-RBF), tendo como arquitetura genérica, a camada de entrada são as variáveis independentes utilizadas na regressão convencional, uma camada intermediária com n neurônios e uma camada de saída (volume).
Utilizou-se o algoritmo Resilient Propagation na sua variação RPROP+ por ser um algoritmo eficiente em trabalhos recentes na área florestal (Tavares-Júnior et al., 2019; Freitas et al., 2020; Silva et al., 2020).
A definição do número ideal de neurônios da camada intermediária foi realizada conforme Bonete (2020), foi avaliada a função de ativação sigmoidal na camada oculta, combinando com a função sigmoidal e logarítmica na camada de saída, observando-se a ineficiência ou a não capacidade de ajuste da rede quando na presença de poucos neurônios na camada intermediária, bem como valores baixos da raiz quadrada do erro quadrático médio percentual (RMSE%) no treinamento e valor crescente da RMSE% na validação, quando na presença de muitos neurônios na camada intermediária. O número de neurônios na camada intermediária é responsável, principalmente, pela extração de características de não linearidade dos dados (Leite et al., 2016).
Como critério de parada do treinamento das redes foi adotada a formatação padrão do software Neuro 4.0, em que a RNA interrompe o ajuste dos pesos ao atingir o erro médio de 0,0001 ou 3000 ciclos de treinamento.
A qualidade dos ajustes dos modelos de regressão e das estimativas foram avaliadas utilizando-se o coeficiente de correlação entre os volumes individuais observados e estimados (ryŷ), a raiz quadrada do erro médio, expresso em porcentagem da média (RMSE%) e distribuição gráfica dos resíduos, demonstrados na Tabela 3. E para verificar a significância dos parâmetros estimados dos modelos de regressão, utilizou-se o teste t a 5% de probabilidade de erro.
Estatísticas | Fórmulas | Nº |
Coeficiente de correlação |
|
(13) |
Raiz quadrada do erro quadrático médio (%) |
|
(14) |
Resíduo |
|
(15) |
Em que: yi = valores observados;
O ajuste das regressões e o treinamento da máquina de vetor de suporte foram efetuados utilizando o software R (R Core Team, 2019), por meio do pacote e1071 (Meyer et al., 2019). E as redes neurais artificiais foram treinadas utilizando o software NeuroForest -Volumetric.
Resultados e discussão
Na Tabela 4 estão os resultados dos ajustes dos modelos de volume comercial com casca. Todos os modelos tiveram parâmetros significativos (p < 0,05) pelo teste t.
Autor/Fonte | Modelo | Coeficientes | ryŷ | RMSE% | Nº |
Schumacher e Hall (1933) |
|
β0 = -9,9085574
β1 = 1,68596775 β2 = 1,168174 |
0,9917 | 7,92 | 4 |
Spurr (1952) |
|
β0 = 0,0170752
β1 = 0,00003107 |
0,9899 | 8,73 | 5 |
Em que: βis = coeficientes estimados; ryŷ = coeficiente de correlação entre volumes observados e estimados; RMSE% = raiz do erro quadrático médio percentual.
Ao analisar o coeficiente de correlação dos dois modelos, pode-se dizer que os mesmos apresentaram resultados semelhantes. Quanto a estatística RMSE%, o modelo de Schumacher e Hall demonstrou maior precisão. Para Campos e Leite (2017), esse modelo tem sido o mais difundido por resultar quase sempre em estimativas não tendenciosas. Outras pesquisas na literatura florestal, também demonstram a superioridade do modelo de Schumacher e Hall, como Müller et al. (2014) que selecionaram modelos alométricos de Eucalyptus para estimativas volumétricas sendo que o modelo de Schumacher & Hall se destacou com estatísticas ligeiramente superiores aos demais; no trabalho de Hernandes Ramos et al. (2017) na quantificação de volume comercial de clones e sementes de Eucalyptus urophylla no sudeste do México, onde os melhores modelos foram o de Schumacher-Hall seguido do modelo de Spurr. No entanto, na modelagem da relação altura-diâmetro e o volume de mognos jovens africanos estabelecidos em sistemas agroflorestais sucessórios no nordeste do Brasil estudo de Santos et al. (2019), o modelo Spurr de dupla entrada foi mais preciso do que os outros 6 modelos avaliados.
Na Figura 1, estão as distribuições dos erros percentuais para as estimativas de volumes individuais, para cada um dos modelos ajustados.
Nota-se uma certa semelhança entre os volumes estimados e observados na distribuição dos resíduos, no modelo de Spurr, uma tendência de superestimação para as árvores com diâmetros menores que 10 cm foi observada.
Na Tabela 5 são demonstrados os resultados das estatísticas dos modelos volumétricos para os dados de validação.
Autor/Fonte | Coeficientes | ryŷ | RMSE% | Nº |
Schumacher e Hall (1933) | β0 =
-9,9085574 β1 = 1,68596775 β2 = 1,168174 |
0,9842 | 9,38 | 4 |
Spurr (1952) | β0 =
0,0170752 β1 = 0,00003107 |
0,9827 | 9,81 | 5 |
Em que: Coeficientes de correlação (ryŷ); raiz do erro quadrático médio percentual (RMSE%); ln = logaritmo natural; h= altura estimada; d= DAP = diâmetro à altura do peito (cm).
Na etapa de validação, o modelo de Schumacher e Hall, obteve um maior coeficiente de correlação (ryŷ) e menor raiz do erro quadrático médio (RMSE%). Pode-se observar na Figura 1 que o modelo de Spurr manteve a tendência em superestimar o volume nos diâmetros menores, sendo que alguns resíduos ultrapassaram 40%. Já o modelo de Schumacher e Hall, apresentou distribuição residual livre de tendenciosidades.
As estatísticas de avaliação da MVS são exibidas na Tabela 6. As configurações que fizeram uso das funções Kernel linear, não se ajustaram aos dados, gerando estimativas volumétricas com valores negativos, provavelmente isso ocorreu em decorrência das funções de Kernel do tipo Linear não conseguirem extrair relações entre as variáveis de entrada (diâmetro e altura) e a variável de saída (volume). Uma característica importante que uma função de Kernel deve possuir é satisfazer condições do teorema de Mercer. De forma geral, um kernel satisfaz as condições do teorema de Mercer se der origem à matriz positiva semidefinida (Lorena e Carvalho, 2007). Mais detalhes sobre o teorema de Mercer podem ser encontrados em Burges (1998).
MVS | Função | Kernel | ryŷ | RMSE% |
2 | Tipo I | RBF | 0,9940 | 6,72 |
4 | Tipo II | RBF | 0,9943 | 6,60 |
Em que: ryŷ = coeficiente de correlação entre os volumes observados e estimados; RMSE% = raiz do erro quadrático médio percentual.
A MVS 4 obteve ligeiramente maior correlação e menor RMSE% que a MVS 2 e também que o modelo de regressão de Schumacher e Hall, que apresentou correlação de 0,9917 e RMSE% 7,92.
Resultados de maior exatidão utilizando a MVS para a estimação do volume, superando o modelo de Schumacher e Hall, também foram encontrados por Binoti et al., (2016) e Cordeiro et al. (2015). Esses autores concluíram que a MVS pode ser utilizada para a predição volumétrica de espécies do gênero Eucalyptus e Acacia mangium, respectivamente. Em ambos os trabalhos, a MVS conseguiu maior exatidão nas estimativas, Vale ressaltar que no trabalho desses autores foi utilizada apenas uma configuração da MVS, composta pela função do tipo II e pela função de Kernel RBF.
No gráfico de distribuição dos resíduos, houve superestimação de volumes individuais da MVS 2, nas árvores com diâmetros menores que 10 cm. Tendo em vista esses resultados, a MVS 4 foi a que obteve os melhores resultados, conforme apresenta a Figura 2.
Nieto et al. (2016), visando estimar o volume sem casca de árvores de Eucalyptus globulus, confrontaram duas técnicas de inteligência artificial como alternativa aos modelos estatísticos convencionais de dupla entrada. Esses autores concluíram que a MVS foi a melhor técnica para estimar o volume sem casca para os dados em questão em relação às RNA e aos modelos de regressão. No trabalho desses autores, foram testadas três funções de Kernel (Polinomial, sigmoidal e RBF), com melhores estimativas geradas pela função de Kernel RBF. É importante ressaltar que nesse estudo foram testadas quatro funções de Kernel (polinomial, sigmoidal, RBF e linear), constatou-se que a função de Kernel RBF, obteve as melhores estimativas.
Na etapa da validação, a MVS 4 também demonstrou estatísticas ligeiramente melhores que a MVS 2, as estatísticas dessa etapa da generalização são mostradas na Tabela 7.
MVS | Função | Kernel | ryŷ | RMSE% |
2 | Tipo I | RBF | 0,9891 | 7,81 |
4 | Tipo II | RBF | 0,9895 | 7,64 |
Em que: ryŷ= coeficiente de correlação entre volumes observados e estimados; RMSE%= raiz do erro quadrático médio percentual.
A MVS 4 do tipo II, obteve estimativas mais precisas na generalização indicando ser a melhor configuração de MVS para os dados desse estudo. A análise gráfica demonstra, menor dispersão de erros residuais, conforme Figura 2.
Os resultados obtidos pela MVS 2 são similares aos encontrados por Abreu et al. (2020) ao avaliar alternativas para estimar volumes individuais em diferentes formações florestais no estado de Minas Gerais, relatou que mesmo apresentando bons resultados, a MVS, para alguns volumes pequenos, não conseguiu apresentar boas estimativas, comparando-se a outras metodologias avaliadas. Montaño (2016), ao modelar variáveis dendrométricas para plantios comerciais, também utilizou MVS para biomassa seca em florestas tropicais e nesse estudo, as MVS também foram inferiores a outras metodologias utilizadas no trabalho desse autor.
Os resultados estatísticos de avaliação do treinamento das três configurações das RNA, sendo elas Adaline (Adaptive linear Element), Perceptron de múltiplas camadas (Multilayer Perceptron - MLP) e Funções de Base Radial (Radial Basis Function-RBF), são demonstrados na Tabela 8.
RNA | Tipo* | FA | Arquitetura** | Treinamento | ||
CO | CS | ryŷ | RMSE% | |||
1 | Adaline | S | S | 2-1 | 0,9939 | 6,79 |
2 | MLP | S | S | 2-7-1 | 0,9940 | 6,74 |
3 | RBF | S | LOG | 2-2-1 | 0,9967 | 4,98 |
Em que: FA = Função de ativação; *Tipo de RNA: Adaline = Perceptron, MLP = Multilayer Perceptron, RBF = Radial Basis Function; CO = camada oculta; CS = camada de saída; S= Sigmoidal; LOG= Logarítmica; ** Número de neurônios em cada camada; ryŷ= coeficiente de correlação entre volumes observados e estimados; RMSE%= raiz do erro quadrático médio percentual.
As redes do tipo Adaline e MLP (1 e 2 respectivamente) obtiveram estatísticas semelhantes, sendo que a rede 3 obteve maior coeficiente de correlação (ryŷ) e menor RMSE% (raiz do erro quadrático médio percentual).
Analisando os gráficos de dispersão de resíduos, observou-se uma leve tendência em superestimar árvores com diâmetros menores, comportamento comum em uma série de dados biológicos, por se tratar de erro relativo. Isso demonstra a importância de se testar diferentes configurações de RNA e MVS, combinando as variantes existentes (função do tipo I e II) com diferentes funções de Kernel, buscando aquela que melhor se adeque a determinado problema e que obtenha maior exatidão na generalização.
Todas as configurações de rede obtiveram valores estatísticos superiores aos modelos de regressão conforme trabalhos de Azevedo et al. (2020), que utilizaram diferentes estratégias para modelar volumes de Eucalyptus urophylla, em Ribas do Rio Pardo, Mato Grosso do Sul, Brasil, onde foi treinada 1000 redes utilizando o layout Multilayer Perceptron (MLP) com algoritmo Backpropagation, em comparação também com o modelo de Schumacher e Hall, as RNA demonstraram ser mais adequadas do que os modelos de regressão na estimativa de vários volumes de eucaliptos, revelando maior precisão e praticidade; Abreu et al. (2017), que avaliou alternativas para estimar volumes individuais de uma floresta nativa semidecidual, na cidade de Viçosa, nos estado de Minas Gerais, Brasil, no referido trabalho, utilizou-se modelos lineares e lineares híbridos, 8 configurações de MVS com 4 funções kernel (Linear, Polinomial, Sigmoidal e RBF), RNA do tipo Adaline e RBF, utilizando os algoritmos Backpropagation e Simulated Annealing respectivamente. MVS e RNA demonstraram resultados estatisticamente melhores comparados como o uso dos modelos de regressão, para aquela tipologia florestal.
Na Tabela 9 estão indicados os resultados das estatísticas obtidas na fase de generalização para as três configurações de RNA que foram utilizadas nesse estudo, onde a rede do tipo RBF apresentou maior correlação e menor RMSE%. Bons resultados na modelagem de volumes individuais de árvores de Eucalyptus spp., com a rede neural RBF, são encontros nos trabalhos de Silva-Júnior et al. (2018) e Dantas et al. (2020).
RNA | Tipo* | FA | Arquitetura** | Generalização | ||
CO | CS | ryŷ | RMSE% | |||
1 | Adaline | S | S | 2-1 | 0,9884 | 8,05 |
2 | MLP | S | S | 2-7-1 | 0,9884 | 8,06 |
3 | RBF | S | LOG | 2-2-1 | 0,9960 | 4,71 |
Em que: FA = Função de ativação; *Tipo de RNA: Adaline = Perceptron, MLP = Multilayer Perceptron, RBF = Radial Basis Function; CO = camada oculta; CS = camada de saída; S= Sigmoidal; LOG= Logarítmica; ** Número de neurônios em cada camada; ryŷ= coeficiente de correlação entre volumes observados e estimados; RMSE%= raiz do erro quadrático médio percentual.
Na Figura 3 é demonstrado que graficamente na RNA 3, a distribuição dos resíduos está mais próxima ao eixo-x, que a redes Adaline e MLP nessa fase de generalização das redes.
Conclusões
Com o desenvolvimento desse estudo, verificou-se que as metodologias que utilizaram aprendizado de máquina, MVS e RNA demonstraram ser alternativas eficazes e estatisticamente satisfatórias à análise de regressão convencional, nas estimativas de volumes individuais para Eucalyptus urophylla St Blake, sendo que a metodologia que utilizava RNA, obtiveram melhores resultados.
Diante dos resultados, a eficiência e flexibilidade na aplicação das metodologias de MVS e RNA, apresentaram-se como boas alternativas em estudos de mensuração e manejo florestal.