"Term-Weighting Approaches in Automatic Text Retrieval" Gerard Salton, Christopher Buckley [1997]
Comentado por Margarida Afonso


Neste artigo, Salton e Buckley apresentam uma análise sintetizada do conhecimento e experiência acumulados nos 20 anos transactos que indiciam que os sistemas de indexação de texti que se baseiam na atribuição de pesos a termos produzem resultados de recuperação de informação superiores a representações mais elaboradas do texto.

Luhn sugeriu (anos 50) que os sistemas de recuperação automática de textos deveriam ser desenhados por forma a permitir a comparação entre vectores de termos que representem a pergunta e vectores de termos que representem o texto armazenado. Na concepção destes sistemas levantam-se duas questões:
  • que termos devem ser considerados e incluidos na representação de pesquisas e documentos?
  • A determinação de pesos fornece os meios para uma diferenciação clara entre termos mais ou menos cruciais para a identificação de conteúdos relevantes?

Em relação à primeira questão podem considerar-se várias hipóteses:

  • utilizar termos simples;
  • gerar sets de termos relacionados;
  • gerar frases de termos (compostas por um cabeçalho com o termo lider seguido pelos termos dependentes;
  • utilizar metodos de agrupamento de termos (do tipo fornecido pelos Thesauros);
  • construir knowledge bases e estrutura (inteligência artifical) que representem os conteúdos;
A experiência acumulada sugere que a utilização de termos simples é preferível à de estruturas mais complexas que levantam questões como a escalabilidade (introdução de novos termos de indexação) ou o caracter distintivo dos termos (ou conjuntos de termos) construídos.

No que toca à definição de pesos, os autores salientam a importância deste método para a optimização da qualidade dos sistemas de recuperação de informação. Sugerem ainda que a utilização de pesos compostos (com componente de avaliação de recuperação e e precisão) produz resultados mais satisfatórios.

Têm sido desenvolvidas experiências sobre grupos de documentos visando aferir quais as fórmulas de avaliação de pesos de documentos e de pesquisas que são eficientes. A análise dos resultados da aplicação destes métodos em pesquisas realizadas sobre diferentes bases de dados permite extrair algumas conclusões interessantes, apresentadas pelos autores, sobre quais as componentes de term-frequency, collection frequency e normalização mais adequadas para compor os pesos atribuídos a documentos em função do caracter da informação armazenada (vocabulário técnico, vocabulário variado,...).