Jornacitec Botucatu, XI JORNACITEC - Jornada Científica e Tecnológica

Tamanho da fonte: 
Importância do processo de Data Wrangling em técnicas de Machine Learning aplicadas na colheita mecanizada de madeira
André Lucas Sousa Da Silva, Thamires Da Silva, Rodrigo Oliveira De Almeida, Danilo Simões

Última alteração: 2022-10-05

Resumo


No âmbito da colheita mecanizada de madeira, utiliza-se máquinas florestais autopropelidas dentre os sistemas de colheita, como no cut-to-length, no qual produtividade da operação está diretamente associada a manutenção, e portanto, influência nos custos de colheita (SAMPIETRO et al., 2022). Desse modo, a otimização dos processos torna-se importante para a redução de custos e disponibilidade das máquinas florestais autopropelidas. As técnicas de aprendizado de máquinas (Machine Learning) são empregadas no processamento de grandes quantidades de informações, sendo divididas em conjunto de treinamento e teste. Logo, cria-se modelos que resultam na demonstração da correlação entre as informações, as quais são utilizadas a fim de predizer a manutenção e aumentar a eficiência destas máquinas (TORTORELLA et al., 2021; ZHOU et al., 2021). O processo de Data Wrangling concerne na limpeza e estruturação dos dados, uma etapa crucial no âmbito da técnica de Machine Learning, cuja qualidade dos resultados depende da disposição das informações no dataset aplicado (AZEROUAL, 2020). Diante deste contexto, o objetivo foi demonstrar a importância do processo de Data Wrangling em técnicas de Machine Learning aplicadas em máquinas florestais autopropelidas dispostas na colheita mecanizada de madeira, a partir de dados coletados por vários implementos e tratando-os de acordo com essas técnicas. Durante a limpeza dos dados, utilizou-se a linguagem de programação R (2022), sendo que, variáveis com valores de instâncias nulos foram descartados, reduzindo a quantidade de instâncias em 89%. Posteriormente, ocorreu a remoção de outliers, com redução de 7% dos dados, totalizando uma redução de 97,18% da base de dados bruta. Em outro dataset, ao efetuar a filtragem de valores e variáveis nulas, a quantidade de instâncias e variáveis foi reduzida em 98% e 78%, respectivamente, os quais são caracterizados como atributos que outrora poderiam influenciar na formação de modelos, produzindo modelos de baixa qualidade e comprometendo a tomada de decisão (DREISBACH; KOLECK, 2020). Portanto, os processos de Data Wrangling nas técnicas de Machine Learning aplicadas em máquinas florestais autopropelidas na colheita mecanizada de madeira mostram-se importantes, pois fazem base de dados desbalanceadas e imprecisas aptas para geração de modelos visando a predição de manutenção e através da filtragem de dados e eliminação de outliers.


Texto completo: PDF