Comparison of Machine Learning Techniques for Genre Analysis of Software Engineering Research Articles
Data
2020Autor
Britto, Felipe Araújo de
xmlui.mirage2.itemSummaryView.MetaData
Mostrar registro completoResumo
The exponential growth in the number of scientific publications is not accompanied in
the same pace by the growth of people curating scientific literature. The lack of these
professionals to meet all the existing demands poses a challenge to various research communities. Machine learning techniques for natural language processing produce significant
results in downstream tasks and may be used to analyse linguistic elements in research
articles by indicating the presence or absence of common rhetorical patterns. This study
aims to compare machine learning techniques when computing genre analysis in software
engineering research articles. To achieve this goal, a scientific-research sentence corpus
was created and annotated in a semi-supervised fashion using SVM. Supervised and unsupervised techniques (KNN, SVM, logistic regression, DBScan and LDA) were used to
perform gender analysis over the corpus. SVM performs very satisfactorily for genre analysis with an average of 84.22 on f-score when querying linguistic elements on an overall
level. O crescimento exponencial do número de publicações científicas não é acompanhado no
mesmo ritmo pelo crescimento de pessoas que fazem a curadoria da literatura científica.
A falta desses profissionais para atender toda a demanda existente coloca um desafio
para várias comunidades de pesquisa. Técnicas de machine learning produzem resultados
significativos em tarefas de processamento de linguagem natural e podem ser usadas para
analisar elementos lingüísticos em artigos científicos, indicando a presença ou ausência de
elementos retóricos comuns. Este estudo tem como objetivo comparar técnicas de machine
learning na análise de gênero em artigos científicos de engenharia de software. Para atingir
esse objetivo, um corpus de sentenças de artigos científicos foi criado e anotado de forma
semi-supervisionada usando SVM. Técnicas supervisionadas e não supervisionadas (KNN,
SVM, regressão logística, DBScan e LDA) foram utilizadas para realizar a análise de
gênero no corpus. O SVM teve um desempenho satisfatório na análise de gênero científico,
com uma média de 84,22 no f-score ao analisar elementos linguísticos em um nível geral.