O Impacto das Base Rates em Evidências
![Base rate,property,terminology,scrabble,free pictures - free image ...](https://storage.needpix.com/rsynced_images/base-rate-2564727_1280.jpg)
No artigo “Evidential Impact of Base Rates” (Tversky, 1982), Tversky and Kahneman propõem o seguinte problema (tradução livre minha):
Um táxi se envolveu num acidente à noite e fugiu do local. Duas companhias de táxis, a Verde e a Azul, operam na cidade. Você é apresentado com os seguintes dados:
(a) 85% dos táxis da cidade são verdes e 15% são azuis;
(b) Uma testemunha identificou o táxi do acidente como sendo azul;
(c) A Justiça testou a confiabilidade da testemunha sob as mesmas circunstâncias da noite do acidente e concluiu que a testemunha identifica corretamente cada uma das duas cores em 80% das vezes e erra em 20% das vezes.
Qual é a probabilidade dessa testemunha ter identificado corretamente a cor do taxi nesse acidente?
Seja B o universo de possibilidades de o táxi ser identificado como Azul, e G o universo de possibilidades de o táxi ser identificado como Verde, e seja R o universo de possibilidades de a testemunha identificar corretamente, e W o universo de possibilidades de a testemunha identificar erroneamente.
Então:
Desejamos estimar a probabilidade de a testemunha estar correta (hipótese) dado que ela identificou o táxi como azul (evidência).
Seja:
P(R|B) – a probabilidade condicional de a testemunha estar correta dado que ela identificou o taxi como azul.
P(B|W) – a probabilidade condicional de o taxi ser identificado como azul dado que a testemunha se equivocou.
P(B|R) – a probabilidade condicional de o taxi ser azul dado que a testemunha está correta.
P(B|W) – a probabilidade condicional de o taxi ser azul dado que a testemunha está equivocada.
P(B) – a probabilidade de um taxi ser identificado como azul (esteja a testemunha correta ou equivocada).
P(G) – a probabilidade de um taxi ser identificado como verde (esteja a testemunha correta ou equivocada).
P(R) – a probabilidade de a testemunha estar correta (não importando qual a cor do taxi).
P(W) – a probabilidade de a testemunha estar equivocada (não importando qual a cor do taxi).
Existe uma relação matemática chamada Fórmula de Bayes, que estabelece a seguinte proporção:
O denominar da expressão acima pode ser interpretado da seguinte forma: existem duas situações em que um taxi pode ser identificado como azul: a) ele realmente é azul e a testemunha acertou na identificação; ou b) ele é verde, mas a testemunha se equivocou e identificou como azul.
Em números:
Note que há apenas 41% de chance de a testemunha estar correta se ela identificou o taxi como azul, embora a confiabilidade da testemunha seja alta (80%). Isso se deve não apenas ao fato de a testemunha não ser 100% confiável, mas também ao fato de a base rate de 85% de carros verdes ser muito maior que a base rate de 15% de carros azuis.
O valor de 0,15 é a probabilidade “a priori” de o carro ser azul, ao passo que o valor de 0,41 é chamado de probabilidade “a posteriori”.
Eu vou agora estender essa análise para a avaliação da probabilidade de uma hipótese, dadas as evidências que corroboram a hipótese. Seja P(H) a probabilidade de uma hipótese ser válida, e P(E) a probabilidade de ser válida uma evidência que corrobora a hipótese. Por exemplo, seja H a hipótese de que uma pessoa tem uma doença e seja E o exame (evidência) que detecta a doença. Então:
Neste exemplo:
P(H|E) é a probabilidade de a pessoa estar doente dado que o exame deu positivo;
P(E|H) é a probabilidade de o exame dar positivo dado que a pessoa está doente (trata-se de um verdadeiro positivo);
P(E|~H) é a probabilidade de o exame dar positivo dado que a pessoa não está doente (trata-se de um falso positivo);
P(H) é a probabilidade de uma pessoa estar com a doença;
P(~H) é a probabilidade de uma pessoa não estar com a doença;
Onde: P(E) = P(E|H) x P(H) + P(E|~H) x P(~H).
Pela Fórmula de Bayes:
Exemplo numérico: Em uma população a taxa de incidência de uma doença é de 5%. Um exame para detecção dessa doença tem um histórico de 7% de falsos positivos, e consegue detectar corretamente a doença em 60% dos casos. Uma pessoa pertencente a essa população fez o exame e deu positivo. Dado este resultado, qual a probabilidade de essa pessoa estar realmente doente?
Note como as taxas históricas de verdadeiros positivos e falsos positivos do exame influenciam na probabilidade a posteriori de a pessoa estar realmente doente dado o resultado positivo do exame. Essas taxas atuaram como fatores de ponderação (0,60 e 0,07) que foram aplicados às base rates (5% e 95%) para a obtenção da probabilidade procurada.
-x-
Referência
Tversky, A., Kahneman, D. Evidential Impact of Base Rates In: Kahneman, Daniel et al.: Judgement Under Uncertainty: Heuristics and Biases – Cambridge University Press – 1982 – pp 156/157.
Comentários
Postar um comentário