Comentário - "The Probability Ranking Principle in IR", S.E.Robertson. journal of Documentation, 33, 294-304. Reprint in "Readings in Information Retrieval, Karen Sparck-Jones and Peter Willet, Morgan-Kaufmann 1997, pp. 2281.286.
Robertson, no seu
artigo “The Probablity Ranking Principle
in IR” publicado em 1977 faz uma análise sobre Modelos Probabílisticos
de recuperação de informação. Começa por citar Cooper
que referencia para uma óptima recuperação de informação se devem ordenar
os documentos segundo a utilidade e probabilidade de relevância. No entanto,
este método só pode ser aplicado quando os seus pressupostos são válidos,
tendo como principal problema a independência de cada documento relativamente a
todos os outros. Este método é melhorado com a contribuição de Maron
e Kuhns que introduzem a ideia da
necessidade de serem utilizados cálculos probabílisticos. Para isto definem a
relevância de um documento como sendo a probabilidade de aplicação deste
termo satisfazer ou não
o utilizador com esse documento, usando um index de termos. Contudo, de
certo modo Robertson considera uma definição confusa da palavra relevância.
Neste
artigo, relevância é encarada como um critério dicotómico variável definido
fora do próprio sistema. Aplicando este critério leva a que o documento mais
indicado para o utilizador lhe seja apresentado em primeiro lugar . Foi
designado por The Probablity Ranking
Principle, por Cooper.
Robertson,
apresenta neste trabalho uma discussão sobre a natureza deste critério,
referindo medidas tradicionais de effectiveness
e
decision theory,
e explora áreas não abrangidas pelos pressupostos de base retirados dos
exemplos dados por Cooper, elaborando um diferente ranking
principle, em que os documentos devem
ser ordenados de tal modo que a probabilidade do utilizador ficar satisfeito
seja máxima.
Assim,
conclui que o PRP (Probability Ranking
Principle) e as suas aplicações devem ser encaradas como uma teoria geral
de recuperação de informação documento a documento, mas no entanto, enquanto
houver dependência na recuperação da informação, nomeadamente nas pesquisas
tipo cluster, esta teoria geral
apresenta-se como uma prioridade máxima.