terça-feira, 1 de março de 2016

sexta-feira, 18 de julho de 2014

O mito da margem de erro

Quando entramos em período eleitoral, começam a ser divulgadas pesquisas a torto e a direito para informar a intenção de voto a diversos cargos.
Uma das exigências do TSE ultimamente é informar nestas pesquisas, o intervalo de confiança e a margem de erro, o que vem sido observado, pelo menos nos registros, pelas empresas.
como exemplo, reparem este registro do Datafolha:
No quadro plano amostral, encontramos o seguinte:
"Margem de Erro: A margem de erro máxima prevista é de 2 pontos percentuais para mais ou para menos, considerando um nível de confiança de 95%. Os intervalos de confiança serão calculados considerando os resultados obtidos para um nível de confiança de 95%"
Ou seja: a pesquisa se embasou em uma margem de erro para um determinado intervalo de confiança.
Contudo, não se observa tal cuidado na hora de divulgar os resultados na mídia, onde, de maneira conservadora, consideram uma diferença de 4 pontos, um empate.
Vamos então simular a probabilidade desta afirmativa ser real (houver empate ou vitória do candidato com menor proporção com uma diferença de 4 pontos entre eles.
Esta mesma pesquisa citada anteriormente, divulgada dia 17/07 divulgou um cenário em que o segundo turno estaria em 44 a 40, o que configuraria o 'empate técnico'.
Confrontando esta informação com o tamanho do intervalo de confiança, se verifica facilmente via simulação que este empate técnico em uma amostra contendo 2401 eleitores (tamanho mínimo para se obter um erro de 2 pontos percentuais com 95% de confiança) só seria possível, se este intervalo de confiança não fosse de 95%, sim de pelo menos 99%. Se pensarmos utilizando os mesmos parâmetros do Datafolha, este intervalo de confiança deveria ser pelo menos 99.9%
Mas como se chegou a esta conclusão?
Uma definição boa de intervalo de confiança é que se realizarmos infinitas vezes o experimento (neste caso, uma pesquisa política), em x% das vezes, o experimento conduzirá a este resultado, ou seja: um erro dentro do esperado.
Portanto, em um experimento (ou pesquisa) que pensamos um intervalo de confiança de 95%, 95 em cada 100 apresentarão resultados dentro da margem de erro e 5 não apresentarão.
No caso do resultado que estamos analisando (44, 40, 16) temos 3 resultados possíveis: Candidato A (Dilma, com 44), Candidato B (Aécio, com 40) e C (Não Sabe, Não Respondeu, etc), ou seja: nem todos os resultados para A serão transferidos para B, poderão ir para a opção C (outros).
De fato, para este caso, a probabilidade de o candidato com menor resultado estar empatado ou à frente do com maior resultado é próxima a 1,7% se considerarmos o tamanho mínimo de amostra para 95% de confiança e 2 pontos percentuais de erro.
Mas o caso apresentado é um erro mais contundente, pois o tamanho da amostra apresentado na pesquisa é 5468. Para este cenário, a probabilidade do candidato com menor resultado estar à frente do candidato com maior resultado diminui para 0,07%.
Cabe agora identificar onde está a falha de comunicação, se na empresa que conduziu os trabalhos, ou na mídia, que divulgou os resultados apontando tal empate, sem o mesmo estatisticamente existir.
A seguir, a memória de cálculo, utilizando-se o software estatístico R, para quem tiver curiosidade de reproduzir o meu raciocínio.