Comentário - "Term-Weighting Approaches in Automatic Text Retrieval", Gerard Salton and Christopher Buckley. Information Processing and Management, 24, 513-523. Reprint in "Readings in Information Retrieval", Karen Spark-Jones and Peter Willet, Morgan-Kaufmann 1997, pp.323-328.

No final dos anos 50, Luhn sugeriu que os sistemas de procura de informação podiam ser desenhados baseando-se na comparação de identificadores de conteúdos ligados aos textos armazenados e à pesquisa da informação pelo utilizador. Habitualmente certas palavras extraídas dos textos de documentos e de pesquisas seriam utilizadas na identificação do conteúdo; em alternativa as representações de conteúdo poderiam ser escolhidas manualmente por pessoas treinadas e conhecedoras das áreas do tema sob consideração e com os conteúdos das colecções de documentos.

Ao desenhar sistemas automáticos de procura de informação colocam-se duas questões. Primeiro quais é que são as unidades de conteúdo apropriadas para serem incluídas no documento e nas representações da pesquisa? Segundo, a determinação do peso dos termos capazes de distinguir os termos importantes dos menos cruciais para a identificação de conteúdos?

No que concerne à escolha dos termos devem ser consideradas diversas possibilidades. Nas 1ª experiências termos simples sozinhos eram usados para representar conteúdos, consistindo frequentemente em palavras extraídas de textos de documentos e de formulários. Em muitos casos pode ser obtida uma pesquisa efectiva usando termos simples. Ultimamente, no entanto, conjuntos de termos simples não podem fornecer uma identificação completa do conteúdo do documento. Por esta razão foram propostas muitas melhorias na análise de conteúdo e procedimentos de indexação nos últimos anos num esforço de gerar representações textuais completas. Foram consideradas as seguintes possibilidades:

o        Gerar conjuntos de termos relacionados;

o        A formação de frases de termos;

o        Uso de métodos de agrupar palavras do tipo theasaurus;

o        A construção de bases de conhecimento e estruturas de inteligência artificial desenhadas para representar o conteúdo da área em consideração.

Na revisão da enorme quantidade de literatura acumulada nos últimos 25 anos na área da avaliação de procura de informação, existe uma evidência de que o uso de termos identificativos únicos é preferível à incorporação de entidades mais complexas extraídas dos textos ou obtidas de schedules de vocabulário disponíveis.

A principal função de um sistema de peso dos termos é a melhoria dos resultados da pesquisa. Os resultados efectivos dependem de dois factores principais: itens eventualmente relevantes para as necessidades do utilizador devem ser fornecidos pela pesquisa e itens estranhos devem ser rejeitados. Duas medidas são normalmente usadas para medir a capacidade de um sistema para fornecer os itens relevantes e rejeitar os não relevantes de uma colecção conhecida como recall e precisão. Recall é a proporção de itens relevantes fornecidos, medida pelo quociente do nº de itens relevantes e do nº total de itens relevantes; precisão é a proporção de itens fornecidos que são relevantes, medida pelo quociente do nº de itens relevantes e do nº total de itens fornecidos.

Em principio é preferível um sistema que produz um resultado em que tudo é relevante e que tenha uma alta precisão (rejeita todos os itens estranhos). A função recall da pesquisa parece ser mais bem servida se forem usados termos de alta frequência e de largo espectro que ocorrem em muitos dos documentos da colecção. O factor de precisão funciona melhor se forem utilizados termos altamente específicos e estreitos que são capazes de isolar os poucos termos relevantes a partir da massa de termos não relevantes.

Assim, as evidências experimentais acumuladas nos últimos 20 anos indicam que os sistemas de texto indexantes baseados nos resultados obtidos a partir de termos simples balanceados apropriados são superiores aos obtidos com representações de texto mais elaboradas. Estes resultados dependem crucialmente da escolha efectiva dos sistemas de pesos dos termos. Este artigo resume a visão ganha no pesos de termos automático e fornece modelos básicos de termos simples de indexação com os quais se podem comparar procedimentos de análise de conteúdo.