O uso da mineração de textos para o incremento da segurança dentro de sistemas de recuperação da informação da área financeira
Data
2020Autor
Vieira, Hector Matheus Soares
xmlui.mirage2.itemSummaryView.MetaData
Mostrar registro completoResumo
Processos de mineração de textos e processamento de linguagem natural são áreas de estudo
difundidas dentro da ciência atual e com aplicações reais no cenário corporativo, sendo assim,
o objetivo deste trabalho foi identificar qual dessas técnicas pode ser utilizada para incrementar
a segurança documental em sistemas de recuperação da informação e também quais as melhores
formas de isto ser feito de forma aplicada. Apresentando as condições dos sistemas em estudo,
a pesquisa se propõe a avaliar como a combinação de algoritmos de inteligência artificial pode
auxiliar no processo de controle de acesso aos documentos, avaliando qual a acurácia dos
algoritmos selecionados de aprendizagem de máquina para identificar se o documento pertence
ao usuário que está tentando acessá-lo. Resultados satisfatórios trouxeram a possibilidade de
ser utilizado um módulo extra de segurança, a fim de se evitar o acesso a um documento restrito
devido a um possível erro dentro de seus atributos e/ou metadados. A fim de ter uma base de
comparação de resultados e métodos utilizados, foram levantados estudos anteriores que
possuem afinidade com o tema, auxiliando, assim, a escolha de passos adotados nos futuros
métodos e encontrado o estado da arte atual dentro de mineração de textos em documentos.
Foram escolhidos dois tipos de algoritmos que pudessem fazer o processo de recuperar os
atributos do documento para servir de base para o controle de acesso. Os algoritmos escolhidos
foram os de Support Vector Machine (SVM) e Bidirectional Long Short-Term Memory
(BiLSTM). Foi realizada a aprendizagem de máquina dentro do dataset, levantado
anteriormente, de documentos de um sistema de recuperação da informação pertencente à área
financeira. Durante os testes, ficou evidente que o processo de extração bag-of-words se torna
ineficaz, mas modelos utilizando conjuntos mais extensos de palavras foram capazes de
resultados acima de 90%. Foi testada também a utilização de um segundo conjunto de
documentos utilizado por pessoas distintas, porém, a mudança nos indicadores se mostrou
muito tímida. Por fim, os testes realizados com a utilização do modelo BiLSTM obtiveram uma
melhor acurácia, próxima dos 99%. Com estes resultados foi possível sugerir formas nas quais
possa ser incrementada a segurança dos documentos com os usos dos métodos apresentados. The processes of text mining and natural language processing are increasingly widespread
within different uses on our current world, so the objective of work identifies which of these
techniques can be used to increase the document security in information retrieval systems and
also which is the best way that this can be achieved. This project brings a theoretical base that
did intend to bring information on important topics on the topics of Artificial Intelligence,
Metadata, Information Retrieval Systems, Information Security, Natural language processing.
To have a basis to compare results and methods used were raised some previous studies that
have some similarities with the topic, helping on this on choosing the steps adopted in future
methods and thus finding the current state-of-the-art within document classifications. At this
point 2 types of algorithms were chosen that could classify a document to serve as a basis for
access control, the chosen algorithms were the Support Vector Machine SVM and Bidirectional
Long Short-Term Memory BiLSTM. The learning process was executed on the dataset that
were been previously collected from documents of a financial information retrieval system.
During the tests. It was evident that the bag-of-words model becomes ineffective, but models
using a larger number of words were able to obtain results above 90% of accuracy, the use of a
different set of documents used by different people was also tested, but the change in the
indicators proved to be small on results. After all, tests were made using the BiLSTM model
obtained excellent accuracy above the mark of 99 %. With these results, it was possible to
suggest ways where the security of documents can be increased with the uses of the presented
methods.