Mostrando postagens com marcador Pesquisas Eleitorais. Mostrar todas as postagens
Mostrando postagens com marcador Pesquisas Eleitorais. Mostrar todas as postagens

sexta-feira, 19 de outubro de 2012

O Judiciário e as Pesquisas Eleitorais - Sobre o plano amostral e ponderação quanto a sexo, idade, grau de instrução e nível econômico do entrevistado

Este artigo é o terceiro de uma série iniciada para discutir a relação confusa entre o judiciário e as pesquisas eleitorais.

Ao contrário dos primeiros textos, os quais se basearam em um artigo de um Juíz eleitoral publicado no sítio JusNavigandi, este se baseia também em uma decisão da Justiça eleitoral do Piauí, a qual impugnou uma pesquisa do IBOPE.

acredito que tal impugnação seja fruto também de outro mito disseminado sobre as pesquisas, o qual foi definido por Djalma Sobreira Dantas como sendo "A terceira prática, igualmente ilegal, consiste em não obedecer a pesquisa a proporcionalidade do eleitorado de cada bairro, vila ou sítio, entrevistando 5% do universo da pesquisa em uma comunidade que representa apenas 0,05% do eleitorado e deixando de pesquisar outra comunidade que tem 6% dos votantes do município."

Para entender melhor o porquê desta afirmativa - E a impugnação ocorrida no Piauí - ser um absurdo explicaremos a partir de agora o que é um plano amostral, analisando o plano amostral do IBOPE, o qual foi impugnado.

O interessante deste caso do Piauí em particular é que muito provavelmente o reclamante atirou no que viu e acertou o que não viu, pois como será demonstrado a seguir, existem alguns problemas no plano amostral do IBOPE, mas tais irregularidades somente seriam percebidas por um Estatístico com bastante experiência. O que nos deixa a pergunta: Existiu laudo de Estatístico como base para tal impugnação?

Em caso de não existir tal laudo, a sentença desta reclamação feita à justiça eleitoral do Piauí poderá tornar, em tese, qualquer pesquisa registrada hoje no Brasil passível de impugnação.

Sobre o plano amostral e ponderação quanto a sexo, idade, grau de instrução e nível econômico do entrevistado


Plano amostral


Numa pesquisa o plano amostral é um conjunto de etapas que possibilitam a definição de segmentos pertencentes a uma amostra de resultados, os segmentos podem ser a “população” e o “universo”.

A “população” refere-se ao público-alvo pretendido para a extração de informações a uma amostra. O “universo” é o conjunto de todos os elementos amostrais da população.

Dentro da pesquisa a unidade amostral é o ambiente onde está situado o elemento amostral; o elemento amostral, por sua vez, é o objeto de uma mensuração, a fonte de informações sobre o tema e problemapei a ser pesquisado e estudado.

No plano amostral, a extensão geográfica denomina a área geográfica na qual está sendo realizada a coleta de dados de uma pesquisa. O tempo é o prazo referido em dia, semana, mês e ano de levantamento.

É importante salientar que em um plano amostral, deve ser informado como se procederá a amostragem dentre as diversas técnicas disponíveis.

Também deve ser respeitado o que se exige na resolução TSE 23.364/11, onde se impõe a presença de ‘Margem de erro e intervalo de Confiança, o que por sí só já vedaria algumas técnicas de amostragem, como a amostragem por quotas.

O que está constando no regístro

Ao se verificar o regístro da referida pesquisa, se encontra o seguinte texto:

Plano amostral e ponderação quanto a sexo, idade, grau de instrução e nível econômico do entrevistado; intervalo de confiança e margem de erro:

Representativa do eleitorado da área em estudo, elaborada em dois estágios.
No primeiro estágio faz-se um sorteio probabilístico dos setores censitários, onde as entrevistas serão realizadas, pelo método PPT (probabilidade Proporcional ao Tamanho), tomando o eleitorado como base para tal seleção.
No segundo e último estágio, dentro dos setores sorteados, os respondentes são selecionados através de quotas amostrais proporcionais em função de variáveis significativas, a saber:
SEXO: (masculino) 45%; (feminino) 55%;
IDADE: 16-24 (masculino) 23% (feminino) 21%; 25-29 (masculino) 14% (feminino) 14%; 30-39 (masculino) 23% (feminino) 22%; 40-49 (masculino) 17% (feminino) 18%; 50 e+ (masculino) 23% (feminino) 25%;
INSTRUÇÃO: Até Ensino Médio (masculino) 79% (feminino) 77%; Ensino Superior (masculino) 21% (feminino) 23%;
NÍVEL ECONÔMICO: Economicamente ativo (masculino) 76% (feminino) 52%; Não Economicamente ativo (masculino) 24% (feminino) 48%.
Está prevista eventual ponderação para correção das variáveis sexo e idade, com base nos percentuais anteriormente mencionados, caso ocorram diferenças superiores a 3 pontos percentuais entre o previsto na amostra e a coleta de dados realizada.
Para as variáveis de grau de instrução e nível econômico do entrevistado, o fator previsto para ponderação é 1 (resultados obtidos em campo).
O intervalo de confiança estimado é de 95% e a margem de erro máxima estimada considerando um modelo de amostragem aleatório simples, é de 4 (quatro) pontos percentuais para mais ou para menos sobre os resultados encontrados no total da amostra.
FONTE DOS DADOS: Censo 2010 | TSE 2012

Verificamos no texto acima a presença de:
  1. Público pesquisado
  2. Tipo de amostra
  3. Ponderações
  4. Intervalos de Confiança e Margem de Erro
No plano amostral, encontramos os seguintes dizeres:

  1. Representativa do eleitorado da área em estudo, elaborada em dois estágios.
    1. No primeiro estágio faz-se um sorteio probabilístico dos setores censitários, onde as entrevistas serão realizadas, pelo método PPT (probabilidade Proporcional ao Tamanho), tomando o eleitorado como base para tal seleção.
    2. No segundo e último estágio, dentro dos setores sorteados, os respondentes são selecionados através de quotas amostrais proporcionais em função de variáveis significativas
  2. Está prevista eventual ponderação para correção das variáveis sexo e idade, com base nos percentuais anteriormente mencionados, caso ocorram diferenças superiores a 3 pontos percentuais entre o previsto na amostra e a coleta de dados realizada.
  3. Para as variáveis de grau de instrução e nível econômico do entrevistado, o fator previsto para ponderação é 1 (resultados obtidos em campo).
  4. O intervalo de confiança estimado é de 95% e a margem de erro máxima estimada considerando um modelo de amostragem aleatório simples, é de 4 (quatro) pontos percentuais para mais ou para menos sobre os resultados encontrados no total da amostra.
 Verificamos neste texto, no ítem 1, a definição de como se dará o processo de amostragem, a qual consistirá:
  1. Sorteio de setores Censitários
  2. Dentro dos setores, sorteio dos respondentes
Contudo, o texto deixa o plano amostral inconclusivo ao afirmar:
  1. Que as entrevistas serão realizadas pelo método PPT
  2. Será tomando o eleitorado como base para tal seleção
Na minha visão, houve uma ligeira confusão na redação, pois não está claro:
  1.  O processo de sorteio dos setores Censitários
    1.  Sabemos que cada setor Censitário possui quantidades diferentes de residentes, o que demandaria
      1. Probabilidades de seleção diferentes para cada um destes, ou
      2. Ponderação específica em cada um
  2. O processo de se chegar até o eleitor dentro de cada Setor censitário sorteado.
Estas dúvidas existem porque ao se definir o plano amostral em vários estágios, se precisa conhecer exatamente como chegar a cada unidade amostral (1º Estágio = Setores Censitários, 2º Estágio = Eleitor). Contudo, tal informação não prejudica a execução dos trabalhos, pois existe uma linha de raciocínio a ser seguida. Única dúvida que permanece é sobre como se dará a ponderação dos setores censitários (1º estágio)

Vejamos agora outro exemplo de regístro (PI-00583/2012), o qual foi registrado em data próxima ao do IBOPE para a cidade de Teresina/PI

no regístro, encontramos os seguintes dizeres:

Metodologia de pesquisa:
Pesquisa do tipo quantitativa, por amostragem não probabilística por cotas, com aplicação de questionário estruturado e abordagem individual domiciliar. O conjunto do eleitorado do município do TERESINA-PI com 16 anos ou mais de idade será tomado como universo da pesquisa.

Claramente, a empresa informa que está descumprindo a resolução 23.364/2011 do tse ao afirmar que o processo amostral é não probabilístico

Plano amostral e ponderação quanto a sexo, idade, grau de instrução e nível econômico do entrevistado; intervalo de confiança e margem de erro:
A amostragem será por cotas de zona, gênero, escolaridade, faixa etária em acordo com os dados eleitorais disponíveis no TER/TSE e faixa de renda disponível no IBGE com entrevistas distribuídas proporcionalmente entre as cotas citadas com percentuais a saber: SEXO (TSE) MASCULINO = 45,54% e FEMININO = 54,46% ZONA (IBGE) URBANA = 94,27% e RURAL = 5,73% FAIXA ETÁRIA (TSE) ATÉ 24 ANOS = 18,23%, MAIS DE 24 A 34 ANOS = 26,58%, MAIS DE 34 A 44 ANOS = 20,19%, MAIS DE 44 A 59 ANOS = 21,50%, 60 OU MAIS ANOS = 13,50% ESCALARIDADE (TSE) ANALFABETO = 4,63%, LÊ E ESCREVE = 11,81% FUNDAMENTAL INCOMPLETO/COMPLETO = 36,98%, MÉDIO, INCOMPLETO/COMPLETO = 39,31%, SUPERIOR INCOMPLETO/COMPLETO = 7,27% FAIXA DE RENDA (IBGE) ATÉ 1 SALÁRIO MÍNIMO = 52,97%, MAIS DE 1 A 2 SALÁRIOS MÍNIMOS = 23,47%, MAIS DE 2 A 5 SALÁRIOS MÍNIMOS = 14,55% MAIS DE 5 A 10 SALÁRIOS MÍNIMOS = 5,86%, MAIS DE 10 SALÁRIOS MÍNIMOS = 3,15% Nivel de confiança de 95% e Margem de erro máximo admitida de 3%. 
 Neste plano, ao contrário do anterior, não se tem a mínima idéia de o quê se fará para sortear a amostra, prevalece o senso comum de que será feita uma amostra estratificada por zonas

Aí entra em questão a afirmativa do Magistrado Djalma Sobreira, onde ele aponta como provável fonte de manipulação, não obedecer a proporcionalidade do eleitorado de cada bairro. A visão que todos tem de pesquisa eleitoral é a que devemos fazer uma pesquisa tal que todos sejam ouvidos, o que contraria todos princípios de amostragem, onde existem várias soluções de amostragem para se obter uma amostra confiável sem passar por uma estratificação de 'zonas', como proposto neste último regístro.

Infelizmente, os estatísticos, ao não saber redigir corretamente os planos amostrais, estão colaborando e muito para que este tipo de pensamento prospere.

E esta afirmativa de não saber redigir ganha força ao se acessar o sítio do IBOPE, onde encontramos  em detalhes como funciona o processo de amostragem de suas pesquisas.

Neste endereço, descobrimos que o processo de seleção da amostragem final do IBOPE passa por três estágios distintos:
  • Seleção probabilística dos municípios que comporão a amostra por meio do método de Probabilidade Proporcional ao Tamanho (PPT), tomando como base a população de cada um deles. Este método permite que a proporcionalidade existente entre as várias áreas do município sejam respeitadas.
  • Seleção probabilística dos setores censitários do IBGE onde serão realizadas as entrevistas, utilizando também o método PPT.
  • Seleção dos entrevistados de acordo com cotas proporcionais de sexo, idade, grau de instrução e setor de dependência econômica, dentro dos setores censitários sorteados previamente.
    • As cotas servem para evitar erros decorrentes da não existência de cadastros dos eleitores dentro dos setores censitários e da impossibilidade do levantamento de tal informação durante o processo da pesquisa.
Portanto, o IBOPE tem o conhecimento de como fazer, apenas negligenciou a parte de escrita no texto do regístro.

segunda-feira, 15 de outubro de 2012

O Judiciário e as Pesquisas Eleitorais - O mito das porcentagens

Este artigo é o terceiro de uma série iniciada para discutir a relação confusa entre o judiciário e as pesquisas eleitorais.
Como explicado nos artigos anteriores, esta série de artigos teve seu início motivado por inúmeros absurdos estatísticos que foram recentemente validados pela justiça eleitoral brasileira, culminando com um artigo entitulado 'Fraudes em pesquisas eleitorais' o qual estou, com esta série de artigos, explicando o que há de mito e verdade nas alegações do autor.

Hoje discutirei o mito referente a 'entrevistar eleitores em percentuais bem diferentes do informado pela Justiça Eleitoral'.

O mito das porcentagens


Em seu artigo, o autor cita o funcionamento desta fraude como sendo da seguinte maneira: Em determinado município os jovens com menos de 34 anos, seguidores do candidato “A”, representam 30% do eleitorado e a pesquisa, por razões inexplicáveis, resolve entrevistar apenas 10% (dez por cento), pois o candidato “B” tem a preferência do eleitorado mais idoso. Esta pesquisa não representa a intenção do eleitorado e atende a interesses escusos.

Ao proferir tal afirmativa, o autor se esqueceu de informar que:

  1. Não existe no Código Eleitoral nem em resoluções do TSE, referências a qual proporção seria a correta a ser adotada.
  2. A referência que existe mais próxima a esta seria a obrigação de se apresentar 'ponderação quanto a sexo, idade, escolaridade e nível econômico'.
Ora vejamos:

O TSE produz em seu sítio, informações apenas referentes a Sexo, faixa etária e escolaridade, sendo estas obtidas NO MOMENTO DA INCRIÇÃO, o que tornaria a utilização da variável escolaridade inviável. No meu caso, por exemplo, apesar de possuir pós graduação completa, eu possuia no ato de minha inscrição enquanto eleitor, apenas segundo grau completo. Esta situação se repete para a maioria dos inscritos, inviabilizando o uso de tal variável como ponderação.

A segunda afirmativa é sim uma provável fonte de fraude, mas a maneira como foi explicada no texto nos induz a acreditar que em uma pesquisa, devemos entrevistar quantidades fixas de pessoas de cada faixa etária e sexo. Ao fazer isto, DEIXARIAMOS DE TER UMA MARGEM DE ERRO para a pesquisa, pois esta deixaria de ser probabilística (Não existe meio exato de calcular margem de erro e respectivo intervalo de confiança em uma pesquisa que não seja probabilística).

Ainda neste assunto, se fizermos uma pesquisa com quantidades fixas para cada uma das variáveis, estaríamos com certeza violando preceitos da resolução TSE 23.364/2011, o que se verifica ao acessar aqui, e depararmos com o seguinte texto:

Porque aleatorizar?

Porque não temos controle de tudo e assim evitamos escolher apenas indivíduos dentro de um subgrupo que não temos consciência de que ele difere dos demais. Ou seja, aleatorizamos para evitar um viés na amostra. Além disso, esse esquema permite que a análise seja replicável por outras entidades. Esta última característica é extremamente desejável em ciência, onde os experimentos devem ser replicáveis para que outros pesquisadores verifiquem sua validade.
Um dos problemas debatidos entre os estatísticos é o método de amostragem utilizado nas eleições. Sabe-se que as instituições não retiram uma amostra probabilística, entretanto utilizam os métodos estatísticos que supõem amostras probabilísticas. A amostra geralmente é retirada por cotas e não tem validade científica, pois não é possível calcular o erro-padrão nem mesmo saber se as estimativas são não-viciadas. Uma discussão interessante sobre o tema que fala sobre a falsidade das margens de erro de pesquisas eleitorais feita pelos Professores José Ferreira de Carvalho (Professor aposentado da UNICAMP) e Cristiano Ferraz (Professor da UFPE) pode ser vista aqui
Portanto, o uso de quantidades fixas, como alega o autor do texto, poderia causar um desastre maior ainda para a pesquisa, a tornando irregular sob a luz da resolução 23.364/2011. Note também que ao se adotar uma abordagem não probabilística (Pesquisa por quotas), deixamos de ter controle sobre todos os fatores e limitamos a escolha a um subgrupo que possa vir a não representar a população como supostamente deveria fazê-lo.

Ainda no referido link, descobrimos que se a população que estamos estudando for extremamente homogênea, então tanto faz selecionar aleatoriamente ou intencionalmente (Pesquisa por quotas). O grande problema é que isso não ocorre na prática. Sempre teremos algum subgrupo escondido na população que é bem homogêneo dentro dele e que difere dos outros grupos que formam a população. Mesmo estratificando sua população ao nível máximo conhecido, nunca teremos certeza de que ainda existe algum outro subgrupo que seria necessário estratificar. No caso de pesquisas eleitorais, a Resolução TSE 23.364/2011 quando obriga a definir ponderação por estrutura de gênero, idade, escolaridade e condição econômica, JÁ ESTÁ ADMITINDO tal heterogeneidade na população, o que vedaria a adoção de amostragem por quotas.

A Estatística resolve este tipo de dilema com a adoção de pesos. Estes, ao serem aplicados após a coleta dos dados, conseguem fazer a amostra refletir com exatidão os parâmetros populacionais

Contudo, o que se vê nos regístros de pesquisa eleitoral, é a importância maior dada a proporções citadas pelo autor do referido artigo e um completo abandono da parte referente à ponderação.

Reparem os seguintes regístros, como exemplo de possível fraude apenas ao observar o plano amostral:

CE-00177/2012 - Reparem que, no plano amostral, foi citado 'elaborada por quotas proporcionais em função de variáveis significativas' no início do plano e em seguida, encontra-se, no mesmo texto os dizeres 'aplicando-se a técnica de amostragem probabilística', o que reflete uma falta de domínio no que se propõe fazer. Ainda no plano amostral, encontramos os dizeres 'os respondentes são selecionados através das seguintes cotas'. comprovando mais uma vez a confusão teórica da empresa.

CE-00179/2012 - A empresa já adimite a fraude na metodologia, onde escreve 'Domiciliar - procurada'. Também se observa a intenção de se fazer a pesquisa por quotas proporcionais, o que violaria a resolução TSE 23.364/2011, como explicado neste documento. Mesmo não sendo assunto deste artigo, se verifica um erro grotesco no cálculo da margem de erro. foi informado 3,1% para um intervalo de confiança de 95% e um tamanho mínimo de amostra de 304. O valor verdadeiro para a margem de erro seria algo próximo a 5,6%

CE-00159/2012 - Este fez o dever de casa corretamente, explicou o plano amostral de uma maneira a ser pelo menos compreendido e reproduzido. Pecou ao admitir que a pesquisa era por quotas, o que foi verificado anterirmente nestge artigo, viola a resolução 23.364/2011 do TSE.

Ainda fica uma pergunta a ser respondida: E as proporções de sexo, idade, etc? A isso foi atribuída uma importância grande demais pelo autor do referido artigo, importância esta que deve ser apenas relativa, vejamos um exemplo:

Imagine um município qualquer onde temos 54,99% de eleitores do sexo feminino e 45,01% de eleitores do sexo masculino (Fortaleza-CE é um município com tais características, segundo o TSE).

Se formos amostrar neste município hipotético, 385 eleitores (o que produz uma margem de erro de 5% conforme exemplo do artigo agora analisado, teríamos:

  1. Cada entrevista representando 1/385 = 0,26% no resultado final
  2. Um número esperado de 212 (0.5499 * 385 = 211,69) entrevistados do sexo feminino
  3. Um número esperado de 173 (0.4501 * 385 = 173,31) entrevistados do sexo masculino
Observe que como estamos lidando com quantidades inteiras, caso fossem entrevistados exatamente 212 mulheres, esta proporção passaria para 55,065%, mas continuaria deixando a amostra como válida. Um peso igual a 1 ainda seria aceitável para tal pesquisa. (considera-se aceitável, pois produz pesos próximos de 1: Pesos de 0.9986 para feminino e 1.0017 para masculino).

Não existe padrão para se determinar o que seria aceitável ou não em termos de diferença entre o valor estatísticamente esperado e o valor obtido na amostragem. o bom senso nos leva a buscar diferenças que possam influenciar o resultado final. como temos uma margem de erro como parâmetro, em 385 entrevistas (nosso caso em estudo), e como sabemos que cada entrevista acarreta em 0,26% do resultado final, digamos que uma diferença de 10 entrevistas para mais ou para menos em cada categoria possa vir a prejudicar (10 entrevistas a mais acarretaria um aumento de 2,5% em uma e uma redução de igual valor nas demais).

Ao se aplicar esta regra, caso fossem entrevistados 222 indivíduos do sexo feminino e 163 do sexo masculino, aí sim poderíamos pensar em uma distorção na amostra, a qual poderia ser corrigida aplicando se:
  1. peso 0.9537 para os entrevistados do sexo feminino
  2. peso 1.0631 para os entrevistados do sexo masculino
Ao se fazer uso destes pesos, obteremos uma amostra com os parâmetros corretos para osexo masculino e feminino.

Infelizmente o TSE não obriga as empresas de pesquisa a informar os pesos reais aplicados nas pesquisas, o que torna impossível a fiscalização deste fato sem a obtenção dos dados questionário a questionário da pesquisa realizada. Resumindo: O problema das proporções existe, pode sim ser fonte de manipulação e fraude por parte das empresas de pesquisa. Cabe ao TSE aprimorar a legislação para que se possa haver fiscalização neste quesito.

O Judiciário e as Pesquisas Eleitorais

Nos últimos 45-60 dias, venho deparando com pessoas ligadas ao meio jurídico tentando 'ditar' como se deve fazer uma pesquisa eleitoral. Fim de setembro, ao deparar com mais uma impugnação de regístro de pesquisa, escrevi um post neste blog sobre o assunto.

Mas o tempo passou, o CONFE agiu, mas o problema ainda continuou e no último sábado, me deparo com um artigo de um juiz eleitoral do Ceará que recebeu o título de 'Fraudes em Pesquisas Eleitorais'.

No artigo, o Juíz Djalma Sobreira Júnior aponta os seguintes fatores como origem de 'Fraude' em pesquisa eleitoral:

  1. Margem de erro de, normalmente, cinco por cento
  2. Não obedecer os parâmetros divulgados pelo TSE para o eleitorado
  3. Não obedecer a pesquisa a proporcionalidade do eleitorado de cada bairro, vila ou sítio
 Dos 3 motivos apontados pelo ilustre Juíz, estes podem sim vir a causar dano a uma pesquisa eleitoral, mas, da forma como vem sendo alegadas nas impugnações, nota-se um despreparo tanto por parte dos magistrados, como por parte dos advogados para fazer as alegações.

Esta falta de conhecimento gerou este ano diversos 'absurdos estatísticos' que, pelo que acompanhei de perto, possuem sintomas de golpe, de um erro cometido 'de propósito' pelos advogados.

Existem problemas sérios referentes às pesquisas eleitorais, pretendo explicar nas próximas postagens para este blog, não só o que existe de verdade (e senso comum) nestas alegações, como também apontar os reais problemas nas pesquisas eleitorais.

Estes problemas serão abordados nos posts seguintes deste blog.
  1. O Golpe da Margem de Erro 
  2. O mito das porcentagens 
  3. Sobre o plano amostral e ponderação quanto a sexo, idade, grau de instrução e nível econômico do entrevistado

quinta-feira, 7 de junho de 2012

A falsidade das margens de erro em pesquisas eleitorais

No dia 26 de agosto de 2006, o Conselho Regional de Estatística da terceira região promoveu na cidade de São Paulo uma reunião de profissionais para discutir o tema "Pesquisas eleitorais".

Este debate contou com a presença de palestrantes como o prof Dr Lourival dos Santos, professor da USP, o Dr Carlos Alberto de Bragança Pereira, também da USP,além da presença de Márcia Cavallari, diretora de pesquisas do IBOPE.

Este Debate/Seminário produziu um documento a posteriori, o qual incluo neste post.

A Falsidade das Margens de Erro de Pesquisas Eleitorais Baseadas em Amostragem por Quotas