Estudo do IFSC usa redes complexas para auxiliar classificação de textos

Publicado em Ciências por em

Júlio Bernardes / Agência USP de Notícias

No Instituto de Física de São Carlos (IFSC) da USP, pesquisa desenvolveu métodos de classificação de textos em categorias específicas. O trabalho de Diego Raphael Amancio utiliza a modelagem por redes complexas, que transforma as palavras dos textos em partes de uma rede para obter características específicas de sua construção, ou seja, do modo com que as palavras são combinadas. A rede então é submetida a sistemas de reconhecimento de padrões de modo a classificá-los por estilo, complexidade e até identificar sua autoria. A técnica, que não exige processamento computacional complexo, pode ser adotada para aprimorar as técnicas convencionais de classificação textual e também para apontar plágio e inconsistências estilísticas, entre outras utilidades.

O estudo, orientado pelos professores Luciano da Fontoura Costa e Osvaldo Novais de Oliveira Junior, do IFSC, conquistou o 3° Prêmio Tese Destaque USP, da Pró-Reitoria de Pós-Graduação da USP, categoria “Ciências Exatas e da Terra”, no último dia 5 de dezembro. Amancio conta que o problema de classificação é importante, por exemplo, para organizar a grande quantidade de dados gerados na Internet diariamente. “A organização dos dados permite que as buscas se tornem mais rápidas”, aponta. “A pesquisa analisou o relacionamento entre as palavras no texto, ou seja, a estrutura textual, diferente dos estudos tradicionais, que verificam quais palavras estão presentes no texto, isto é, o seu conteúdo semântico.”

O modelo de redes complexas, em sua concepção mais geral, é utilizado para modelar uma grande quantidade de sistemas reais, como a internet, a world wide web, transportes, relações sociais, biológicas etc. “Uma rede é formada por um conjunto de vértices (pontos) ligados por arestas (conexões)”, diz o pesquisador. “No caso dos textos, cada palavra é um vértice e duas palavras aparecem como conectadas se elas apareceram no texto como vizinhas pelo menos uma vez”, diz. Na pesquisa, na maioria das aplicações, foram removidas as palavras sem conteúdo semântico, como artigos e preposições. Isto porque as principais propriedades estilísticas do textos são encontradas no relacionamento entre palavras de conteúdo.

Os textos analisados durante o estudo foram transformados em redes no computador para extração de propriedades, como os caminhos mínimos (distância típica entre duas palavras da rede), número médio de vizinhos (quantidade média de vizinhos de cada palavra na rede), coeficiente de aglomeração (densidade de conexões entre vizinhos de uma dada palavra na rede) e centralidade (importância de cada palavra na rede). “Com essas medidas, cada texto foi caracterizado de acordo com o seu estilo ou estrutura. Todas estas medidas levam em consideração apenas as relações de conectividade entre as palavras, sem analisar seu conteúdo”, observa Amancio. Isso torna a modelagem genérica, de forma que ela pode ser aplicada, a princípio, a qualquer idioma.

Caracterização dos textos

A partir da caracterização dos textos, por meio da utilização de métodos de reconhecimento de padrões, foi possível identificar os autores de textos desconhecidos, classificar automaticamente o estilo literário de livros e o sentido de palavras ambíguas automaticamente. Também foi possível estabelecer níveis de complexidade dos escritos e identificar a natureza de manuscritos desconhecidos.

Amancio, atualmente professor do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, explica que cada aplicação do método teve um teste específico. “Por exemplo, na tarefa de reconhecimento de autoria, coletamos livros de vários autores, modelamos estes livros como redes e tentamos descobrir automaticamente que autor corresponde a cada livro”, diz. “A técnica foi capaz de executar várias tarefas de processamento de línguas naturais apenas a partir da análise de conectividade das redes.”

Por meio da técnica de redes complexas, foi possível também identificar as propriedades estatísticas do manuscrito Voynich, provavelmente produzido no século XV, cujo conteúdo permanece desconhecido até os dias atuais. “Uma vez determinado o modo com que as palavras são combinadas no texto, a tradução para a linguagem atual, que irá esclarecer o assunto do manuscrito, é tarefa para criptógrafos”, observa o pesquisador.

O método não demanda muito processamento computacional, pois foi trabalhado com a modelagem de livros. “Além das aplicações mencionadas, os métodos desenvolvidos podem ser combinados com a estratégia de classificação textual convencional”, diz Amâncio.  “Portanto, pode ainda ser útil para identificar plágio, spams, inconsistências estilísticas, avaliação de qualidade de textos etc.”

Mais informações: email diegoraphael@gmail.com, com Diego Raphael Amancio

.