"The probability Ranking Principle in IR". S.E.Robertson [1977]
Comentado por Margarida Afonso

O princípio de ordenamento probabilístico (PRP - Probability Ranking Principle) é largamnete utilizado em Sistemas de Recuperação de Informação (Information Retrieval Systems). O princípio propõe que é possível, a partir de uma questão, ordenar a resposta do sistema por ordem decrescente da probabilidade de cada documento ser relevante para o utilizador. Este princípio é combinado com diversos algoritmos que, documento a documento, calcula a probabilidade de relevância do documento face à questão colocada pelo utilizador. No artigo "The Probability Ranking Principle in IR", Robertson faz uma análise crítica do PRP, assumindo que a relevância é dicotómica (o documento ou é relevante ou não é) e propõe algumas modificações ao algoritmo.

Uma das dificuldades da aplicação deste princípio é o facto de a relevância de um documento não ser independente da relevância de outro. Se dois documentos forem muito similares e ambos relevantes se analisados de forma independente, quando ordenados de acordo com o PRP, aquele que for colocado na segunda posição será irrelevante para o utilizador após a consulta do primeiro. Robertson sugere uma modificação do PRP que corrija este efeito: o recálculo da probabilidade de relevância de cada documento após a consulta de um dado documento.

No entanto, o PRP fornece a resposta óptima em algumas situações, em que a relevância de cada documento seja independente da relevância dos restantes documentos presentes na document colection e a utilidade do documento para o utilizador não seja dependente do número de documentos recuperados. Robertson apresenta duas justificações para que, nestas condições, o PRP leve à performance óptima: a primeira é uma prova matemática utilizando medidas de eficiência e a segunda recorre à teoria de decisão.

No entanto, em muitos casos, as condições não se verificam, pelo que o PRP não atinge a performance óptima. Uma das razões apontadas por Robertson é o facto de o PRP ter um funcionamento por documento (document-by-document) enquanto, no entender do autor, o comportamento óptimo estará associado a uma política por pedido (request-by-request). Robertson propõe uma alteração do princípio: "Os documentos deverão ser ordenados por forma a que a probabilidade de o utilizador ficar satisfeito numa dada posição ser máxima." Esta definição tem algumas limitações: a definição de satisfação é difícil e não se adapta à política document-by-document. Finalmente, este critério dificilmente permitirá atingir a performance óptima já que a probabilidade de satisfação do utilizador usando o ranking y é diferente da mesma probabilidade usando o ranking w. Robertson propõe uma nova modificação do algoritmo: os documentos devem ser ordenados de forma a maximizar a curva de probabilidade de satisfação do utilizador. No entanto, o autor reconhece que é dificil definir uma algoritmo que implemente esta modificação.

Para uma análise document-by-document, Robertson propõe duas alterações. A primeira já se referiu acima e consiste no recálculo de da probabilidade de relevância de cada documento após a consulta de um dado documento. A segunda é a definição de uma medida de utilidade do documento em função do número de documentos que o utilizador pretende recuperar, de tal forma que a soma das probabilidade de relevância (com influência da medida de utilidade) seja 1. Apesar destas modificações, Robertson reconhece que, em algumas situações, o algoritmo não apresentará a performance máxima.

Em conclusão, Robertson afirma que o PRP e a sua aplicação devem ser encarados como uma teoria geral da Recuperação de Informação segundo uma política document-by-document, no entanto, reforça a não existência de nenhuma teoria comparável que contemple a dependência entre documentos, que poderia contribuir para melhorar a satisfação do utilizador perante cada documento que lhe é apresentado.