Importância do processo de Data Wrangling em técnicas de Machine Learning aplicadas na colheita mecanizada de madeira

André Lucas Sousa Da Silva; Thamires Da Silva; Rodrigo Oliveira De Almeida; Danilo Simões

Jornacitec Botucatu, XI JORNACITEC - Jornada Científica e Tecnológica

André Lucas Sousa Da Silva, Thamires Da Silva, Rodrigo Oliveira De Almeida, Danilo Simões

Última alteração: 2022-10-05

Resumo

No âmbito da colheita mecanizada de madeira, utiliza-se máquinas florestais autopropelidas dentre os sistemas de colheita, como no cut-to-length, no qual produtividade da operação está diretamente associada a manutenção, e portanto, influência nos custos de colheita (SAMPIETRO et al., 2022). Desse modo, a otimização dos processos torna-se importante para a redução de custos e disponibilidade das máquinas florestais autopropelidas. As técnicas de aprendizado de máquinas (Machine Learning) são empregadas no processamento de grandes quantidades de informações, sendo divididas em conjunto de treinamento e teste. Logo, cria-se modelos que resultam na demonstração da correlação entre as informações, as quais são utilizadas a fim de predizer a manutenção e aumentar a eficiência destas máquinas (TORTORELLA et al., 2021; ZHOU et al., 2021). O processo de Data Wrangling concerne na limpeza e estruturação dos dados, uma etapa crucial no âmbito da técnica de Machine Learning, cuja qualidade dos resultados depende da disposição das informações no dataset aplicado (AZEROUAL, 2020). Diante deste contexto, o objetivo foi demonstrar a importância do processo de Data Wrangling em técnicas de Machine Learning aplicadas em máquinas florestais autopropelidas dispostas na colheita mecanizada de madeira, a partir de dados coletados por vários implementos e tratando-os de acordo com essas técnicas. Durante a limpeza dos dados, utilizou-se a linguagem de programação R (2022), sendo que, variáveis com valores de instâncias nulos foram descartados, reduzindo a quantidade de instâncias em 89%. Posteriormente, ocorreu a remoção de outliers, com redução de 7% dos dados, totalizando uma redução de 97,18% da base de dados bruta. Em outro dataset, ao efetuar a filtragem de valores e variáveis nulas, a quantidade de instâncias e variáveis foi reduzida em 98% e 78%, respectivamente, os quais são caracterizados como atributos que outrora poderiam influenciar na formação de modelos, produzindo modelos de baixa qualidade e comprometendo a tomada de decisão (DREISBACH; KOLECK, 2020). Portanto, os processos de Data Wrangling nas técnicas de Machine Learning aplicadas em máquinas florestais autopropelidas na colheita mecanizada de madeira mostram-se importantes, pois fazem base de dados desbalanceadas e imprecisas aptas para geração de modelos visando a predição de manutenção e através da filtragem de dados e eliminação de outliers.

Texto completo: PDF