O Impacto das Base Rates em Evidências


                                                     Base rate,property,terminology,scrabble,free pictures - free image ...

No artigo “Evidential Impact of Base Rates” (Tversky, 1982), Tversky and Kahneman propõem o seguinte problema (tradução livre minha): 

Um táxi se envolveu num acidente à noite e fugiu do local. Duas companhias de táxis, a Verde e a Azul, operam na cidade. Você é apresentado com os seguintes dados: 

(a) 85% dos táxis da cidade são verdes e 15% são azuis; 
(b) Uma testemunha identificou o táxi do acidente como sendo azul; 
(c) A Justiça testou a confiabilidade da testemunha sob as mesmas circunstâncias da noite do acidente e concluiu que a testemunha identifica corretamente cada uma das duas cores em 80% das vezes e erra em 20% das vezes. 

Qual é a probabilidade dessa testemunha ter identificado corretamente a cor do taxi nesse acidente? 

Seja B o universo de possibilidades de o táxi ser identificado como Azul, e G o universo de possibilidades de o táxi ser identificado como Verde, e seja R o universo de possibilidades de a testemunha identificar corretamente, e W o universo de possibilidades de a testemunha identificar erroneamente. 

Então:

                            


Desejamos estimar a probabilidade de a testemunha estar correta (hipótese) dado que ela identificou o táxi como azul (evidência). 

Seja: 

P(R|B) – a probabilidade condicional de a testemunha estar correta dado que ela identificou o taxi como azul. 
P(B|W) – a probabilidade condicional de o taxi ser identificado como azul dado que a testemunha se equivocou. 
P(B|R) – a probabilidade condicional de o taxi ser azul dado que a testemunha está correta. 
P(B|W) – a probabilidade condicional de o taxi ser azul dado que a testemunha está equivocada. 
P(B) – a probabilidade de um taxi ser identificado como azul (esteja a testemunha correta ou equivocada). 
P(G) – a probabilidade de um taxi ser identificado como verde (esteja a testemunha correta ou equivocada). 
P(R) – a probabilidade de a testemunha estar correta (não importando qual a cor do taxi). 
P(W) – a probabilidade de a testemunha estar equivocada (não importando qual a cor do taxi). 

Existe uma relação matemática chamada Fórmula de Bayes, que estabelece a seguinte proporção:

                                                      

O denominar da expressão acima pode ser interpretado da seguinte forma: existem duas situações em que um taxi pode ser identificado como azul: a) ele realmente é azul e a testemunha acertou na identificação; ou b) ele é verde, mas a testemunha se equivocou e identificou como azul. 

Em números: 

                                                        

Note que há apenas 41% de chance de a testemunha estar correta se ela identificou o taxi como azul, embora a confiabilidade da testemunha seja alta (80%). Isso se deve não apenas ao fato de a testemunha não ser 100% confiável, mas também ao fato de a base rate de 85% de carros verdes ser muito maior que a base rate de 15% de carros azuis. 

O valor de 0,15 é a probabilidade “a priori” de o carro ser azul, ao passo que o valor de 0,41 é chamado de probabilidade “a posteriori”. 

Eu vou agora estender essa análise para a avaliação da probabilidade de uma hipótese, dadas as evidências que corroboram a hipótese. Seja P(H) a probabilidade de uma hipótese ser válida, e P(E) a probabilidade de ser válida uma evidência que corrobora a hipótese. Por exemplo, seja H a hipótese de que uma pessoa tem uma doença e seja E o exame (evidência) que detecta a doença. Então: 

                                               

Neste exemplo: 

P(H|E) é a probabilidade de a pessoa estar doente dado que o exame deu positivo; 
P(E|H) é a probabilidade de o exame dar positivo dado que a pessoa está doente (trata-se de um verdadeiro positivo); 
P(E|~H) é a probabilidade de o exame dar positivo dado que a pessoa não está doente (trata-se de um falso positivo); 
P(H) é a probabilidade de uma pessoa estar com a doença; 
P(~H) é a probabilidade de uma pessoa não estar com a doença; 
Onde: P(E) = P(E|H) x P(H) + P(E|~H) x P(~H). 

Pela Fórmula de Bayes: 

                                                         

Exemplo numérico: Em uma população a taxa de incidência de uma doença é de 5%. Um exame para detecção dessa doença tem um histórico de 7% de falsos positivos, e consegue detectar corretamente a doença em 60% dos casos. Uma pessoa pertencente a essa população fez o exame e deu positivo. Dado este resultado, qual a probabilidade de essa pessoa estar realmente doente? 

                                                              

Note como as taxas históricas de verdadeiros positivos e falsos positivos do exame influenciam na probabilidade a posteriori de a pessoa estar realmente doente dado o resultado positivo do exame. Essas taxas atuaram como fatores de ponderação (0,60 e 0,07) que foram aplicados às base rates (5% e 95%) para a obtenção da probabilidade procurada. 

-x- 

Referência 

Tversky, A., Kahneman, D.  Evidential Impact of Base Rates In: Kahneman, Daniel et al.: Judgement Under Uncertainty: Heuristics and Biases – Cambridge University Press – 1982 – pp 156/157.


Comentários

Postagens mais visitadas deste blog

As Leis de Newton adaptadas às Ciências Sociais e Políticas

Sobre o Óbvio

Verdades, Estatísticas e Probabilidades