segunda-feira, 15 de outubro de 2012

O Judiciário e as Pesquisas Eleitorais - O mito das porcentagens

Este artigo é o terceiro de uma série iniciada para discutir a relação confusa entre o judiciário e as pesquisas eleitorais.
Como explicado nos artigos anteriores, esta série de artigos teve seu início motivado por inúmeros absurdos estatísticos que foram recentemente validados pela justiça eleitoral brasileira, culminando com um artigo entitulado 'Fraudes em pesquisas eleitorais' o qual estou, com esta série de artigos, explicando o que há de mito e verdade nas alegações do autor.

Hoje discutirei o mito referente a 'entrevistar eleitores em percentuais bem diferentes do informado pela Justiça Eleitoral'.

O mito das porcentagens


Em seu artigo, o autor cita o funcionamento desta fraude como sendo da seguinte maneira: Em determinado município os jovens com menos de 34 anos, seguidores do candidato “A”, representam 30% do eleitorado e a pesquisa, por razões inexplicáveis, resolve entrevistar apenas 10% (dez por cento), pois o candidato “B” tem a preferência do eleitorado mais idoso. Esta pesquisa não representa a intenção do eleitorado e atende a interesses escusos.

Ao proferir tal afirmativa, o autor se esqueceu de informar que:

  1. Não existe no Código Eleitoral nem em resoluções do TSE, referências a qual proporção seria a correta a ser adotada.
  2. A referência que existe mais próxima a esta seria a obrigação de se apresentar 'ponderação quanto a sexo, idade, escolaridade e nível econômico'.
Ora vejamos:

O TSE produz em seu sítio, informações apenas referentes a Sexo, faixa etária e escolaridade, sendo estas obtidas NO MOMENTO DA INCRIÇÃO, o que tornaria a utilização da variável escolaridade inviável. No meu caso, por exemplo, apesar de possuir pós graduação completa, eu possuia no ato de minha inscrição enquanto eleitor, apenas segundo grau completo. Esta situação se repete para a maioria dos inscritos, inviabilizando o uso de tal variável como ponderação.

A segunda afirmativa é sim uma provável fonte de fraude, mas a maneira como foi explicada no texto nos induz a acreditar que em uma pesquisa, devemos entrevistar quantidades fixas de pessoas de cada faixa etária e sexo. Ao fazer isto, DEIXARIAMOS DE TER UMA MARGEM DE ERRO para a pesquisa, pois esta deixaria de ser probabilística (Não existe meio exato de calcular margem de erro e respectivo intervalo de confiança em uma pesquisa que não seja probabilística).

Ainda neste assunto, se fizermos uma pesquisa com quantidades fixas para cada uma das variáveis, estaríamos com certeza violando preceitos da resolução TSE 23.364/2011, o que se verifica ao acessar aqui, e depararmos com o seguinte texto:

Porque aleatorizar?

Porque não temos controle de tudo e assim evitamos escolher apenas indivíduos dentro de um subgrupo que não temos consciência de que ele difere dos demais. Ou seja, aleatorizamos para evitar um viés na amostra. Além disso, esse esquema permite que a análise seja replicável por outras entidades. Esta última característica é extremamente desejável em ciência, onde os experimentos devem ser replicáveis para que outros pesquisadores verifiquem sua validade.
Um dos problemas debatidos entre os estatísticos é o método de amostragem utilizado nas eleições. Sabe-se que as instituições não retiram uma amostra probabilística, entretanto utilizam os métodos estatísticos que supõem amostras probabilísticas. A amostra geralmente é retirada por cotas e não tem validade científica, pois não é possível calcular o erro-padrão nem mesmo saber se as estimativas são não-viciadas. Uma discussão interessante sobre o tema que fala sobre a falsidade das margens de erro de pesquisas eleitorais feita pelos Professores José Ferreira de Carvalho (Professor aposentado da UNICAMP) e Cristiano Ferraz (Professor da UFPE) pode ser vista aqui
Portanto, o uso de quantidades fixas, como alega o autor do texto, poderia causar um desastre maior ainda para a pesquisa, a tornando irregular sob a luz da resolução 23.364/2011. Note também que ao se adotar uma abordagem não probabilística (Pesquisa por quotas), deixamos de ter controle sobre todos os fatores e limitamos a escolha a um subgrupo que possa vir a não representar a população como supostamente deveria fazê-lo.

Ainda no referido link, descobrimos que se a população que estamos estudando for extremamente homogênea, então tanto faz selecionar aleatoriamente ou intencionalmente (Pesquisa por quotas). O grande problema é que isso não ocorre na prática. Sempre teremos algum subgrupo escondido na população que é bem homogêneo dentro dele e que difere dos outros grupos que formam a população. Mesmo estratificando sua população ao nível máximo conhecido, nunca teremos certeza de que ainda existe algum outro subgrupo que seria necessário estratificar. No caso de pesquisas eleitorais, a Resolução TSE 23.364/2011 quando obriga a definir ponderação por estrutura de gênero, idade, escolaridade e condição econômica, JÁ ESTÁ ADMITINDO tal heterogeneidade na população, o que vedaria a adoção de amostragem por quotas.

A Estatística resolve este tipo de dilema com a adoção de pesos. Estes, ao serem aplicados após a coleta dos dados, conseguem fazer a amostra refletir com exatidão os parâmetros populacionais

Contudo, o que se vê nos regístros de pesquisa eleitoral, é a importância maior dada a proporções citadas pelo autor do referido artigo e um completo abandono da parte referente à ponderação.

Reparem os seguintes regístros, como exemplo de possível fraude apenas ao observar o plano amostral:

CE-00177/2012 - Reparem que, no plano amostral, foi citado 'elaborada por quotas proporcionais em função de variáveis significativas' no início do plano e em seguida, encontra-se, no mesmo texto os dizeres 'aplicando-se a técnica de amostragem probabilística', o que reflete uma falta de domínio no que se propõe fazer. Ainda no plano amostral, encontramos os dizeres 'os respondentes são selecionados através das seguintes cotas'. comprovando mais uma vez a confusão teórica da empresa.

CE-00179/2012 - A empresa já adimite a fraude na metodologia, onde escreve 'Domiciliar - procurada'. Também se observa a intenção de se fazer a pesquisa por quotas proporcionais, o que violaria a resolução TSE 23.364/2011, como explicado neste documento. Mesmo não sendo assunto deste artigo, se verifica um erro grotesco no cálculo da margem de erro. foi informado 3,1% para um intervalo de confiança de 95% e um tamanho mínimo de amostra de 304. O valor verdadeiro para a margem de erro seria algo próximo a 5,6%

CE-00159/2012 - Este fez o dever de casa corretamente, explicou o plano amostral de uma maneira a ser pelo menos compreendido e reproduzido. Pecou ao admitir que a pesquisa era por quotas, o que foi verificado anterirmente nestge artigo, viola a resolução 23.364/2011 do TSE.

Ainda fica uma pergunta a ser respondida: E as proporções de sexo, idade, etc? A isso foi atribuída uma importância grande demais pelo autor do referido artigo, importância esta que deve ser apenas relativa, vejamos um exemplo:

Imagine um município qualquer onde temos 54,99% de eleitores do sexo feminino e 45,01% de eleitores do sexo masculino (Fortaleza-CE é um município com tais características, segundo o TSE).

Se formos amostrar neste município hipotético, 385 eleitores (o que produz uma margem de erro de 5% conforme exemplo do artigo agora analisado, teríamos:

  1. Cada entrevista representando 1/385 = 0,26% no resultado final
  2. Um número esperado de 212 (0.5499 * 385 = 211,69) entrevistados do sexo feminino
  3. Um número esperado de 173 (0.4501 * 385 = 173,31) entrevistados do sexo masculino
Observe que como estamos lidando com quantidades inteiras, caso fossem entrevistados exatamente 212 mulheres, esta proporção passaria para 55,065%, mas continuaria deixando a amostra como válida. Um peso igual a 1 ainda seria aceitável para tal pesquisa. (considera-se aceitável, pois produz pesos próximos de 1: Pesos de 0.9986 para feminino e 1.0017 para masculino).

Não existe padrão para se determinar o que seria aceitável ou não em termos de diferença entre o valor estatísticamente esperado e o valor obtido na amostragem. o bom senso nos leva a buscar diferenças que possam influenciar o resultado final. como temos uma margem de erro como parâmetro, em 385 entrevistas (nosso caso em estudo), e como sabemos que cada entrevista acarreta em 0,26% do resultado final, digamos que uma diferença de 10 entrevistas para mais ou para menos em cada categoria possa vir a prejudicar (10 entrevistas a mais acarretaria um aumento de 2,5% em uma e uma redução de igual valor nas demais).

Ao se aplicar esta regra, caso fossem entrevistados 222 indivíduos do sexo feminino e 163 do sexo masculino, aí sim poderíamos pensar em uma distorção na amostra, a qual poderia ser corrigida aplicando se:
  1. peso 0.9537 para os entrevistados do sexo feminino
  2. peso 1.0631 para os entrevistados do sexo masculino
Ao se fazer uso destes pesos, obteremos uma amostra com os parâmetros corretos para osexo masculino e feminino.

Infelizmente o TSE não obriga as empresas de pesquisa a informar os pesos reais aplicados nas pesquisas, o que torna impossível a fiscalização deste fato sem a obtenção dos dados questionário a questionário da pesquisa realizada. Resumindo: O problema das proporções existe, pode sim ser fonte de manipulação e fraude por parte das empresas de pesquisa. Cabe ao TSE aprimorar a legislação para que se possa haver fiscalização neste quesito.