ICMC e Embrapa criam tecnologias com mineração de textos

Publicado em Tecnologia por em

Denise Casatti / Assessoria de Comunicação ICMC

Pesquisas desenvolvidas numa parceria entre o Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, e a Embrapa Informática Agropecuária, de Campinas, estão empregando técnicas de mineração de textos (text mining) com o objetivo de organizar e analisar a informação técnico-científica disponível para apoio à gestão do conhecimento e da inovação. Os resultados obtidos por meio dessas pesquisas poderão ser aplicados a vários projetos relacionados a zoneamento agrícola, auxílio ao gerenciamento de recursos naturais e organização da informação, entre outros.

As técnicas de mineração de textos visam auxiliar especialistas na organização, análise e descoberta de conhecimento em grandes coleções de documentos, segundo a professora do ICMC, Solange Rezende. “A pesquisa em mineração de textos contribui para o avanço de todas as áreas do conhecimento, pois torna possível o acesso rápido à informação mais relevante de acordo com as necessidades dos usuários, e o acesso ao conhecimento, em geral, escondido nesses dados”, afirma.

“Com os resultados da aplicação das técnicas de mineração de textos, os especialistas serão capazes de encontrar documentos relevantes para uma determinada região e/ou temática, obtendo uma visão geral do conhecimento produzido até o momento sobre aquele assunto, o que facilita a seleção de informações específicas e relevantes, como dados socioeconômicos ou o impacto ambiental das culturas relacionadas àquela região e/ou temática”, explica Solange.

De acordo com a pesquisadora Maria Fernanda Moura, da Embrapa Informática Agropecuária — que fez doutorado no ICMC — a equipe vem trabalhando com ferramentas capazes de identificar e classificar, de forma automática, tópicos textuais, cobertura geográfica dos textos e tópicos, além da cobertura temporal. As tecnologias envolvem métodos e ferramentas de análise de dados, como classificadores e técnicas de extração de informações e de desambiguação de termos e a produção de softwares adaptados para a língua portuguesa.

A desambiguação textual permite que um sistema computacional reconheça, de forma automática, palavras extraídas de uma publicação em seu contexto de abrangência. Um exemplo é a identificação correta de determinada cidade ainda que existam outras com o mesmo nome. Com o método criado pelos pesquisadores, o sistema consegue reconhecer as localidades mais próximas e indicar aquela que está sendo referida em um texto.

Aprimorando metodolgias

Um exemplo da aplicação dessas técnicas de mineração de textos é o projeto Tecnologias Inovadoras em mineração de textos para apoio à Espacialização de Notícias Agrícolas – piloto cana-de-açúcar (Tiena). Para validar as tecnologias em desenvolvimento, foi construído um protótipo de software que permitiu consultar uma base de dados de notícias agrícolas e observá-las de acordo com a região de abrangência, com classificação hierárquica dos temas abordados.

“Os resultados obtidos até agora foram muito bons, com um grau de precisão bastante elevado se compararmos com outros métodos existentes”, diz Maria Fernanda. As informações extraídas são inseridas em uma base de dados para consulta. A ideia é usar esse conhecimento para aprimorar a metodologia usada e aplicar em publicações científicas. “Se tivermos bases históricas, podemos construir cenários que servirão para orientar a criação de políticas públicas, por exemplo”, complementa.

Outro exemplo é o projeto Compilação e Recuperação de Informações Técnico-científicas e Indução ao Conhecimento de Forma Ágil na Rede AgroHidro (Critic@). Resultado de uma parceria entre o ICMC, a Embrapa Informática Agropecuária, a Embrapa Monitoramento por Satélite (Campinas) e o Instituto de Engenharia de Sistemas e Computadores do Porto (Portugal), o projeto visa analisar a produção científica de uma rede de pesquisa para identificar temas e tendências tecnológicas.

A equipe que atua no Critic@ pretende aprofundar as pesquisas com a aplicação de classificadores, ou seja, recursos computacionais que vão permitir classificar os textos em tópicos, de forma hierárquica, conforme a sua relevância no contexto estudado. “São estratégias de business intelligence”, conta Maria Fernanda. “De posse dessas informações, é possível definir cenários e inclusive estabelecer parcerias mais focadas”, finaliza.

Mais informações: (16) 3373-9666 ou email comunica@icmc.usp.br, com Neylor Fabiano ou Denise Casatti

.