"Term-Weighting Approaches in Automatic Text Retrieval" Gerard Salton, Christopher Buckley [1997] |
Comentado por Margarida Afonso
Neste artigo, Salton e Buckley apresentam uma análise sintetizada do conhecimento e experiência acumulados nos 20 anos transactos que indiciam que os sistemas de indexação de texti que se baseiam na atribuição de pesos a termos produzem resultados de recuperação de informação superiores a representações mais elaboradas do texto. Luhn sugeriu (anos 50) que os sistemas de recuperação automática de textos deveriam ser desenhados por forma a permitir a comparação entre vectores de termos que representem a pergunta e vectores de termos que representem o texto armazenado. Na concepção destes sistemas levantam-se duas questões:
Em relação à primeira questão podem considerar-se várias hipóteses:
No que toca à definição de pesos, os autores salientam a importância deste método para a optimização da qualidade dos sistemas de recuperação de informação. Sugerem ainda que a utilização de pesos compostos (com componente de avaliação de recuperação e e precisão) produz resultados mais satisfatórios. Têm sido desenvolvidas experiências sobre grupos de documentos visando aferir quais as fórmulas de avaliação de pesos de documentos e de pesquisas que são eficientes. A análise dos resultados da aplicação destes métodos em pesquisas realizadas sobre diferentes bases de dados permite extrair algumas conclusões interessantes, apresentadas pelos autores, sobre quais as componentes de term-frequency, collection frequency e normalização mais adequadas para compor os pesos atribuídos a documentos em função do caracter da informação armazenada (vocabulário técnico, vocabulário variado,...). |