Detecção de solicitações de usuários duplicadas utilizando aprendizado de máquina

Cruz, Márcio Afonso

Visualizar/Abrir

Mestrado em Sisitemas de Informação e Gestão do Conhecimento FUMEC 2021 (2.993Mb)

Data

2021

Autor

Cruz, Márcio Afonso

xmlui.mirage2.itemSummaryView.MetaData

Mostrar registro completo

Resumo

Empresas de prestação de serviços de tecnologia adotam sistemas de gerenciamento de solicitações de usuários também chamados de tickets. Normalmente tais sistemas contam com muitos usuários e ocorre de diferentes usuários encontrarem e reportarem o mesmo incidente, solicitação e/ou dúvida gerando tickets duplicados nos repositórios. Nesse contexto, ocorre um trabalho dispendioso e redundante de classificação manual dos tickets tornando oneroso em termos de custo e tempo para intervenção manual. Este trabalho avaliou o desempenho das técnicas de Aprendizado de Máquina utilizados na literatura para classificação e recuperação de tickets duplicados em língua estrangeira, e aplicou essas técnicas para detecção e recuperação de tickets duplicados em base de dados de língua portuguesa (Brasil). Foi realizada a revisão da literatura com o objetivo de identificar as técnicas de Aprendizado de Máquina que apresentaram os melhores desempenho na tarefa de classificação e recuperação de ticket duplicados. As técnicas que atenderam esses critérios foram Naive Bayes, SVM, LSTM e BERT. A Base de dados que foi utilizada por esse trabalho pertence a uma empresa brasileira de prestação de serviços de tecnologia, terceirizadora de ativos e serviços para infraestrutura de TI (Locação de equipamentos e sistemas). A Empresa utiliza sistemas de gerenciamento de solicitações de usuários (tickets). Foram coletados 132.703 ticket contendo registros de Incidentes/Problemas, Perguntas/Dúvidas e Solicitações de Tarefas/Serviços, registrados no período compreendido entre Out/2019 e Set/2020. Após a execução do experimento observou-se que o desempenho apresentado está próximo ao desempenho relatado na literatura para os modelos avaliados. Naive Bayes apresentou 53,30% de acurácia e 45,17% de precisão, SVM apresentou 63,87% de acurácia e 61,18% de precisão, LSTM apresentou 80,15% de acurácia e 73,64% de precisão e o melhor desempenho foram as abordagens baseadas em BERT (DistilBERT 78,47% de acurácia e 73,47% de precisão, BERT-Base 84,28% de acurácia e 81,00% de precisão e XML-RoBERTa 85,23% de acurácia e 82,58% de precisão sendo portanto o modelo que apresentou o melhor desempenho na tarefa de classificação e recuperação de ticket duplicados.

Technology service providers adopt user request management systems also called tickets. Usually such systems have many users and different users find and report the same incident, request and/or doubt generating duplicate tickets in the repositories. In this context, there is an expensive and redundant work of manual classification of tickets making it costly and time-consuming for manual intervention. This work evaluated the performance of Machine Learning techniques used in the literature for classification and retrieval of duplicate tickets in a foreign language, and applied these techniques to detect and retrieve duplicate tickets in a Portuguese database (Brazil). A literature review was carried out in order to identify the Machine Learning techniques that presented the best performance in the task of classification and retrieval of duplicate ticket. The techniques that met these criteria were Naive Bayes, SVM, LSTM and BERT. The database used by this work belongs to a Brazilian company providing technology services, outsourcing assets and services for IT infrastructure (Lease of equipment and systems). The Company uses user request management systems (tickets). 132,703 tickets were collected containing records of Incidents/Problems, Questions/Doubts and Task/Service Requests, recorded in the period between Oct/2019 and Sept/2020. After carrying out the experiment, it was observed that the performance presented is close to the performance reported in the literature for the evaluated models. Naive Bayes had 53.30% accuracy and 45.17% accuracy, SVM had 63.87% accuracy and 61.18% accuracy, LSTM had 80.15% accuracy and 73.64 % accuracy and the best performance were the BERT-based approaches (DistilBERT 78.47% accuracy and 73.47% accuracy, BERT-Base 84.28% accuracy and 81.00% accuracy and XML-RoBERTa 85.23% accuracy and 82.58% precision, being therefore the model that presented the best performance in the task of classification and retrieval of duplicate ticket.

URI

https://repositorio.fumec.br/xmlui/handle/123456789/925

xmlui.mirage2.itemSummaryView.Collections

Dissertações