OS TESTES AOS MECANISMOS DAS LINGUAGENS DE INDEXAÇÃO DE CRANFIELD



CRANFIELD I

Investigou a performance operacional de quatro sistemas de indexação:



Utilizou dois instrumentos de medição:


Os testes de Cranfield I mostraram que quase todos os sistemas de indexação são uma amálgama de mecanismos de recall e de precisão, e que estes interagem de forma tão complexa que é impossível medir o seu efeito na performance global dos sistemas de indexação.


CRANFIELD II

Procurou-se investigar os mecanismos das linguagens de indexação isoladamente e em todas as combinações possíveis, tentando medir o efeito que cada mecanismo tem na performance.
Analisou-se uma colecção de 1400 documentos, sobretudo na área da aerodinâmica. Os documentos foram indexados de três formas:


Aquando da indexação, deu-se um "peso" a cada conceito para indicar a sua importância relativa (1 para os mais importantes, 2 para os medianamente importantes, 3 para os menos importantes).


Para o teste, usaram-se 221 questões.


A primeira tarefa consistiu em determinar a relevância de cada documento na colecção para cada uma das questões, numa escala de 1 a 4:


  1. documentos que respondiam cabalmente à questão;
  2. documentos com um elevado grau de relevância;
  3. documentos com algum interesse;
  4. documentos com interesse mínimo.

Numa pesquisa, a colecção de documentos divide-se em dois grupos: os documentos recuperados e os documentos deixados no sistema. Cada um desses grupos pode subdividir-se em outros dois: os documentos relevantes e os documentos não relevantes.



Relevantes Não relevantes
Recuperados
a
b
a + b
Não recuperados
c
d
c + d
a + c b + d a + b + c + d = N


Para avaliar um sistema de recuperação de informação, a performance é avaliada pela intersecção da taxa de recall com a taxa de precisão (ou com a taxa de fallout).


Foram testadas 33 linguagens de indexação, e medidos os resultados obtidos.


CONCLUSÕES

Os resultados foram inesperados. Chegou-se à conclusão de que:

Parece absurdo dizer que, em todas as situações, a forma mais eficaz da linguagem de indexação é aquela que combina uma simples pós-coordenação com os termos de linguagem natural.


Estes resultados podem dever-se ao facto da área estudada ser uma área tecnológica (aeronáutica); o estudo ou análise de outra área (ciências sociais) poderia dar resultados diferentes destes.


Estes resultados poderiam também ser diferentes se os documentos analisados estivessem escritos em várias línguas ou se a área de estudo não fosse tão restrita.


Seria até absurdo, para qualquer organização, abandonar as linguagens de indexação controladas com base nestes testes.


No entanto, este teste de Cranfield mostrou quer o uso de termos da linguagem natural com junção de sinónimos e de raízes de palavras é uma linguagem de indexação simples e perfeitamente razoável.


BIBLIOGRAFIA

CLEVERDON, Cyril - The Cranfield Tests on Index Language Devices. In: JONES, Karen Sparck; WILLETT, Peter - «Readings in Information Retrieval», San Francisco (CA), Morgan Kaufmann, 1997, p. 47- 59.

Rosário Trindade
Manuel Montenegro
FEUP, 21/03/1999