Detecção de solicitações de usuários duplicadas utilizando aprendizado de máquina
Resumo
Empresas de prestação de serviços de tecnologia adotam sistemas de gerenciamento de
solicitações de usuários também chamados de tickets. Normalmente tais sistemas contam
com muitos usuários e ocorre de diferentes usuários encontrarem e reportarem o mesmo
incidente, solicitação e/ou dúvida gerando tickets duplicados nos repositórios. Nesse contexto, ocorre um trabalho dispendioso e redundante de classificação manual dos tickets
tornando oneroso em termos de custo e tempo para intervenção manual.
Este trabalho avaliou o desempenho das técnicas de Aprendizado de Máquina utilizados
na literatura para classificação e recuperação de tickets duplicados em língua estrangeira,
e aplicou essas técnicas para detecção e recuperação de tickets duplicados em base de
dados de língua portuguesa (Brasil).
Foi realizada a revisão da literatura com o objetivo de identificar as técnicas de Aprendizado de Máquina que apresentaram os melhores desempenho na tarefa de classificação e
recuperação de ticket duplicados. As técnicas que atenderam esses critérios foram Naive
Bayes, SVM, LSTM e BERT. A Base de dados que foi utilizada por esse trabalho pertence a uma empresa brasileira de prestação de serviços de tecnologia, terceirizadora
de ativos e serviços para infraestrutura de TI (Locação de equipamentos e sistemas). A
Empresa utiliza sistemas de gerenciamento de solicitações de usuários (tickets). Foram
coletados 132.703 ticket contendo registros de Incidentes/Problemas, Perguntas/Dúvidas
e Solicitações de Tarefas/Serviços, registrados no período compreendido entre Out/2019
e Set/2020.
Após a execução do experimento observou-se que o desempenho apresentado está próximo
ao desempenho relatado na literatura para os modelos avaliados. Naive Bayes apresentou
53,30% de acurácia e 45,17% de precisão, SVM apresentou 63,87% de acurácia e 61,18% de
precisão, LSTM apresentou 80,15% de acurácia e 73,64% de precisão e o melhor desempenho foram as abordagens baseadas em BERT (DistilBERT 78,47% de acurácia e 73,47% de
precisão, BERT-Base 84,28% de acurácia e 81,00% de precisão e XML-RoBERTa 85,23%
de acurácia e 82,58% de precisão sendo portanto o modelo que apresentou o melhor desempenho na tarefa de classificação e recuperação de ticket duplicados. Technology service providers adopt user request management systems also called tickets. Usually such systems have many users and different users find and report the same
incident, request and/or doubt generating duplicate tickets in the repositories. In this context, there is an expensive and redundant work of manual classification of tickets making
it costly and time-consuming for manual intervention.
This work evaluated the performance of Machine Learning techniques used in the literature for classification and retrieval of duplicate tickets in a foreign language, and applied
these techniques to detect and retrieve duplicate tickets in a Portuguese database (Brazil).
A literature review was carried out in order to identify the Machine Learning techniques
that presented the best performance in the task of classification and retrieval of duplicate ticket. The techniques that met these criteria were Naive Bayes, SVM, LSTM and
BERT. The database used by this work belongs to a Brazilian company providing technology services, outsourcing assets and services for IT infrastructure (Lease of equipment
and systems). The Company uses user request management systems (tickets). 132,703
tickets were collected containing records of Incidents/Problems, Questions/Doubts and
Task/Service Requests, recorded in the period between Oct/2019 and Sept/2020.
After carrying out the experiment, it was observed that the performance presented is close
to the performance reported in the literature for the evaluated models. Naive Bayes had
53.30% accuracy and 45.17% accuracy, SVM had 63.87% accuracy and 61.18% accuracy,
LSTM had 80.15% accuracy and 73.64 % accuracy and the best performance were the
BERT-based approaches (DistilBERT 78.47% accuracy and 73.47% accuracy, BERT-Base
84.28% accuracy and 81.00% accuracy and XML-RoBERTa 85.23% accuracy and 82.58%
precision, being therefore the model that presented the best performance in the task of
classification and retrieval of duplicate ticket.