A minha opinião

sábado, 11 de outubro de 2025

Sobre dados e cientistas

Ontem, durante uma conversa com um amigo, falávamos sobre etarismo e Analytics. Comentei o absurdo que se tornou o mercado atual, onde quem se destaca na busca por oportunidades é aquele que consegue transformar seu histórico profissional em um prompt e pedir para um modelo generativo criar um currículo perfeito para determinada vaga. O profissional competente, por si só, já não tem mais visibilidade.

Fui então surpreendido por uma experiência que ele compartilhou: sua empresa buscava um profissional sênior no mercado e recebeu quase 500 currículos. O curioso é que a maioria não tinha o perfil solicitado. Uma ferramenta de inteligência artificial filtrou os 20 melhores e, para surpresa dele, muitos eram apenas operadores de ferramentas de BI — faltava a eles a competência de cientista de dados exigida pela vaga.

Levanto aqui uma reflexão: até que ponto os processos de seleção que utilizam algoritmos estão realmente entregando os profissionais certos? Não acredito que faltem profissionais com essa senioridade. Eu mesmo já recebi devolutivas dizendo que não preenchia todos os requisitos — será que estão encontrando os candidatos ideais? Ou será apenas mais um filtro mal calibrado?

Partindo da lógica de que a "inteligência" (artificial ou não) do RH seleciona os melhores currículos, como explicar que profissionais de qualidade duvidosa ocupem vagas sênior com certa facilidade, enquanto os verdadeiros especialistas enfrentam enormes dificuldades para assumir novos desafios? Quem está errando: o profissional sênior/especialista ou o setor de atração de talentos, que não consegue captar os melhores?

Para fechar: uma empresa de consultoria onde ex-colegas meus (alguns excelentes, outros nem tanto) ocupam posições sênior me convidou para assumir uma vaga de júnior, pois estavam com dificuldade de preenchê-la. O mercado enlouqueceu? O júnior virou o novo especialista?

sábado, 30 de dezembro de 2017

Meu primeiro textão aleatório

Sou muito realista com minhas coisas. Meus amigos me chamam de cético, eu mesmo me considero como tal.

Mas, acontecimentos dos últimos 10 dias me fizeram mudar um pouco de opinião.

Eu sempre gosto de analisar as coisas por pelo menos dois lados, preferencialmente se eles forem de "temáticas diferentes". Pois bem, vou analisar o que ocorreu nos últimos 10 dias sob duas óticas. A ótica da psicologia e a ótica espírita.

Pois bem, em janeiro de 2006 eu tive uma experiência muito esquisita, a qual não consegui explicação lógica até hoje. Era um sonho que tive, no qual eu estava morto. Em meu velório não havia ninguém, apenas uma pessoa que veio a se tornar minha namorada e primeira esposa. Enquanto isto, uma amiga, que era um caso paralelo, estava jogando sinuca em um local distante de onde ocorria o velório.

Dois dias depois, ao chegar em meu local de trabalho, na cidade de Joinville, eu tenho um mal subito e acordo no hospital, sem lembrar de nada. Médicos não conseguiram explicação alguma, os exames estavam normais em tudo. E ...

A única pessoa que se importou foi justamente esta que viria a ser minha namorada. E a outra? quando perguntei, estava se divertindo em outro lugar. Cheguei a comentar deste sonho (Lógico, depois do ocorrido) com psicologos e com uma amiga, que é da igreja Maranata. Interpretação psicológica foi para o lado de stress, Eu estava por decidir isto e meu subconsciente me fez lembrar. O lado da religião foi para a história de que era mensagem de Deus para mim. Comprei o lado da psicologia e segue o enterro (Ops, narrativa).

O tempo passou e cá estou eu, em uma outra situação que psicologos apontam como de elevado stress (Ops, meu mundo sempre foi estressante). Estava em um momento de fim de uma união na qual apostei muitas fichas, e acabei jogando estas fora. E em uma situação delicada: Eu precisava ter o resto de meus bens de volta. Já havia tentado de todas as formas, e a outra parte se recusava a dialogar. Algumas amigas (Não vou citá-las, mas elas sabem muito bem quem são) me aconselharam procurar um Centro Espírita. Me aconselharam não para reaver meus bens, longe disto, elas aconselharam pois notaram que eu, de alguma maneira, precisava de explicações, de mais opções de interpretação do problema que eu estava passando.

A situação não se resumia somente a "ter os bens de volta", existiam outras coisas fortes que ocorreram este ano, como mortes e tentativas frustradas de suicidio de pessoas próximas a mim. Eu estava lutando seriamente contra isto, mas chegou uma hora em que eu não tinha mais opções de explicação, então resolvi buscar o lado espiritual da coisa: precisava ter equilíbrio para pensar. Precisava equilíbrio, pois detectei que estava muito perto de ter algo parecido com crises de pânico, stress estava em um nível bem próximo ao que passei no fim de 2012. Precisava agir.

Fui então conhecer o que era um centro espírita, ver a "aura" deles precisava buscar a paz. A energia que encontrei neste local é alçgo indescritivel. E lá, do nada, me lembrei do tal sonho, o qual contei no início deste texto. E, após esta lembrança, veio um sonho, por vários dias seguidos. Neste sonho, havia uma ordem expressa de meu ex sogro (falecido este ano), de que eu movesse uma mesa de sinuca. Estava cercado de amigos. Mas, no sonho, minha ex esposa deitava sobre a mesa e não deixava a mesa sair do lugar. O sonho foi até uma bela manhã, onde decidi mudar a tática da cobrança. A qual surtiu efeito. Minha ex cunhada intermediou a retirada de meus bens e assunto resolvido. E veio, na noite seguinte, lembrança de um novo sonho, o qual eu me lembro, novamente da figura de meu ex sogro fazendo sinal de "Joinha", típico das redes sociais. A minha interpretação destes sonhos pela ótica psicológica é justamente o fato de ser algo que eu buscava resolver e algo que finalmente estava se resolvendo. Estava finalmente mais leve.

Aí veio um sonho bastante diferente, muito estranho. Eu estava com minha mãe discutindo assuntos diversos (discutindo mesmo, divergindo seriamente em opiniões). E aparece uma dupla de pessoas, aparentemente indianos, carregando uma determinada pessoa em uma padiola. Eles jogam esta pessoa em um local parecendo um liquido preto. Minha interpretação inicial não fazia sentido algum, psicologia não explicava, a da religião não tinha explicação (pelo menos que eu tenha notado).

E vem o dia de hoje ... e amanheço com a noticia que atearam fogo na propriedade rural de minha família. E agora, a única explicação que tenho para o sonho é referente à ligação entre colocar uma determinada pessoa em esquecimento (onde aparece outra) e o famoso evento do sofá. Eu provavelmente estaria prevendo o que aconteceu hoje?

Vamos aguardar, mas o fato é que a abordagem do espiritismo começou a fazer muito sentido, melhorando muito meu conhecimento baseado em respaldo psicológico.

segunda-feira, 2 de janeiro de 2017

Turning numbers into stories: Social Science Goes R: Weighted Survey Data

Turning numbers into stories: Social Science Goes R: Weighted Survey Data: Social Science Goes R: Weighted Survey Data Social Science Goes R: Weighted Survey Data To get this blog started...

terça-feira, 1 de março de 2016

ExploringDataBlog: Data Science, Data Analysis, R and Python

ExploringDataBlog: Data Science, Data Analysis, R and Python: The October 2012 issue of Harvard Business Review prominently features the words “Getting Control of Big Data” on the cover, and the magaz...

ExploringDataBlog: Finding outliers in numerical data

ExploringDataBlog: Finding outliers in numerical data: One of the topics emphasized in Exploring Data in Engineering, the Sciences and Medicine is the damage outliers can do to traditional data...

quinta-feira, 19 de novembro de 2015

Musings of a forgetful functor: Web scraping with Python - the dark side of data

Musings of a forgetful functor: Web scraping with Python - the dark side of data: In searching for some information on web-scrapers, I found a great presentation given at Pycon in 2010 by Asheesh Laroia. I thought this mi...

domingo, 2 de novembro de 2014

Stanford Seminar - Expressing yourself in R

sexta-feira, 18 de julho de 2014

O mito da margem de erro

Quando entramos em período eleitoral, começam a ser divulgadas pesquisas a torto e a direito para informar a intenção de voto a diversos cargos.
Uma das exigências do TSE ultimamente é informar nestas pesquisas, o intervalo de confiança e a margem de erro, o que vem sido observado, pelo menos nos registros, pelas empresas.
como exemplo, reparem este registro do Datafolha:
No quadro plano amostral, encontramos o seguinte:

"Margem de Erro: A margem de erro máxima prevista é de 2 pontos percentuais para mais ou para menos, considerando um nível de confiança de 95%. Os intervalos de confiança serão calculados considerando os resultados obtidos para um nível de confiança de 95%"

Ou seja: a pesquisa se embasou em uma margem de erro para um determinado intervalo de confiança.
Contudo, não se observa tal cuidado na hora de divulgar os resultados na mídia, onde, de maneira conservadora, consideram uma diferença de 4 pontos, um empate.
Vamos então simular a probabilidade desta afirmativa ser real (houver empate ou vitória do candidato com menor proporção com uma diferença de 4 pontos entre eles.
Esta mesma pesquisa citada anteriormente, divulgada dia 17/07 divulgou um cenário em que o segundo turno estaria em 44 a 40, o que configuraria o 'empate técnico'.
Confrontando esta informação com o tamanho do intervalo de confiança, se verifica facilmente via simulação que este empate técnico em uma amostra contendo 2401 eleitores (tamanho mínimo para se obter um erro de 2 pontos percentuais com 95% de confiança) só seria possível, se este intervalo de confiança não fosse de 95%, sim de pelo menos 99%. Se pensarmos utilizando os mesmos parâmetros do Datafolha, este intervalo de confiança deveria ser pelo menos 99.9%
Mas como se chegou a esta conclusão?
Uma definição boa de intervalo de confiança é que se realizarmos infinitas vezes o experimento (neste caso, uma pesquisa política), em x% das vezes, o experimento conduzirá a este resultado, ou seja: um erro dentro do esperado.
Portanto, em um experimento (ou pesquisa) que pensamos um intervalo de confiança de 95%, 95 em cada 100 apresentarão resultados dentro da margem de erro e 5 não apresentarão.
No caso do resultado que estamos analisando (44, 40, 16) temos 3 resultados possíveis: Candidato A (Dilma, com 44), Candidato B (Aécio, com 40) e C (Não Sabe, Não Respondeu, etc), ou seja: nem todos os resultados para A serão transferidos para B, poderão ir para a opção C (outros).
De fato, para este caso, a probabilidade de o candidato com menor resultado estar empatado ou à frente do com maior resultado é próxima a 1,7% se considerarmos o tamanho mínimo de amostra para 95% de confiança e 2 pontos percentuais de erro.
Mas o caso apresentado é um erro mais contundente, pois o tamanho da amostra apresentado na pesquisa é 5468. Para este cenário, a probabilidade do candidato com menor resultado estar à frente do candidato com maior resultado diminui para 0,07%.
Cabe agora identificar onde está a falha de comunicação, se na empresa que conduziu os trabalhos, ou na mídia, que divulgou os resultados apontando tal empate, sem o mesmo estatisticamente existir.
A seguir, a memória de cálculo, utilizando-se o software estatístico R, para quem tiver curiosidade de reproduzir o meu raciocínio.

sábado, 22 de março de 2014

A verdade sobre urnas eletrônicas! (eng. Amílcar Brunazo)

domingo, 26 de janeiro de 2014

Como nasce um 'Não vai ter copa'

"EUA financiam protestos de jovens no mundo inteiro para derrubar governos" - https://www.youtube.com/watch?v=fVq82tW6LdU&feature=youtube_gdata_player

terça-feira, 27 de agosto de 2013

Ossami Sakamori: Bolha Imobiliária - agosto/2013.

Ossami Sakamori: Bolha Imobiliária - agosto/2013.: Eu já tinha feito matéria sobre bolha imobiliária no Brasil capítulo final. Mas volto ao assunto, porque ao leigo pode suscitar dúvidas qu...

sexta-feira, 2 de agosto de 2013

Em 30 anos, NE tem maior ganho na esperança de vida: 12,95 anos

http://www.ibge.gov.br/home/estatistica/populacao/tabuas_abreviadas_mortalidade/2010/default.shtm.

A região Nordeste, que tinha a esperança de vida ao nascer mais baixa em 1980 (58,25 anos) teve, em 30 anos, um incremento de 12,95 anos nesse indicador, chegando, em 2010, a 71,20 anos, ligeiramente acima da região Norte, que anteriormente estava à sua frente (de 60,75 para 70,76 anos). Essa inversão se deveu principalmente ao aumento de 14,14 anos na esperança de vida das mulheres nordestinas, que foi de 61,27 anos para 75,41, enquanto que a das mulheres da região Norte aumentou 10,62 anos, de 63,74 para 74,36 anos.

Esse é um dos destaques da publicação “Tábuas de Mortalidade por Sexo e Idade – Brasil, Grandes Regiões e Unidades da Federação – 2010”, que o IBGE lança hoje (2/8/2013). Ela traz comparações com os indicadores das tábuas de 1980, apresentando um panorama das mudanças nos níveis e padrões de mortalidade no período de 30 anos.

Em 2010, entre as unidades da Federação, a menor esperança de vida ao nascer para ambos os sexos foi registrada no Maranhão, 68,69 anos. Em 1980, Alagoas detinha essa posição, com 55,69 anos, mas passou a 69,20 anos em 2010. Essa mudança se deveu principalmente ao aumento de 15,13 anos na expectativa de vida das mulheres alagoanas, que passou de 58,84 para 73,97 anos, enquanto que o Maranhão passou a ter a menor esperança de vida feminina no país, 72,77 anos. Entretanto, Alagoas manteve em 2010 a mais baixa expectativa de vida masculina (64,60 anos), marca que já tinha em 1980 (52,73 anos).

As mulheres alagoanas vivem em média 9,37 anos a mais do que os homens, consequência de ser o estado que apresentou a maior sobremortalidade masculina no grupo de 20 a 24 anos, 7,4 vezes.

Entre as regiões, o Nordeste manteve a maior taxa de mortalidade infantil, apesar de também ter registrado a maior queda entre 1980 (97,1 mortos para cada mil nascidos vivos) e 2010 (23,0‰). A região Sul, que já tinha a menor taxa em 1980 (46.0‰) manteve a posição em 2010, com 10,1‰.

Entre as unidades da Federação, em 2010, a menor taxa de mortalidade infantil estava em Santa Catarina (9,2‰) e a maior, em Alagoas (30,2‰). A maior queda na taxa no período foi registrada na Paraíba, de 117,1‰ para 22,9‰.

A menor taxa de mortalidade na infância (probabilidade de um recém-nascido não completar os cinco anos de idade) também foi observada em Santa Catarina, 11,2 óbitos de menores de cinco anos para mil nascidos vivos, enquanto a maior foi registrada em Alagoas, 33,2‰.

As Tábuas de Mortalidade usam dados dos resultados do Censo Demográfico 2010, das estatísticas de óbitos provenientes do Registro Civil e do Sistema de Informação sobre Mortalidade (SIM) do Ministério da Saúde para o ano de 2010. A publicação completa da pesquisa pode ser acessada na página

Nordeste teve o maior incremento regional na esperança de vida ao nascer

A esperança de vida ao nascer, que em 1980 era de 62,52 anos, passou a 73,76 anos em 2010. O acréscimo de 11,24 anos representa um aumento anual médio de quatro meses e 15 dias. Foi observada uma redução na diferença regional ao longo desses 30 anos. O Nordeste, que tinha a esperança de vida mais baixa em 1980 (58,25 anos) teve um incremento de 12,95 anos no período, chegando a 71,20 anos, ligeiramente acima da região Norte, que anteriormente estava à sua frente (de 60,75 para 70,76 anos). Essa inversão se deve principalmente ao aumento de 14,14 anos na esperança de vida das mulheres nordestinas, que passou de 61,27 anos para 75,41, enquanto que a das mulheres da região Norte aumentou 10,62 anos, de 63,74 para 74,36 anos. A esperança de vida masculina no Nordeste (de 55,40 para 67,15 anos) também aumentou mais do que no Norte (de 58,18 para 67,57 anos), com menor evidência do que a feminina (9,39 contra 11,75 anos).

A região Sul permaneceu em primeiro lugar na esperança ao nascer regional, passando de 66,01 anos em 1980 para 75,84 anos em 2010, um incremento de 9,83 anos (o menor em termos regionais no período). No Sudeste a esperança de vida ao nascer passou de 64,82 para 75,40 anos e, no Centro-Oeste, de 62,85 para 73,64 anos.

Esperança de vida das alagoanas coloca seu estado à frente do Maranhão em 2010

Entre as unidades da Federação, a menor esperança de vida ao nascer para ambos os sexos em 2010 foi registrada no Maranhão, 68,69 anos. Em 1980, Alagoas detinha essa posição, com 55,69 anos, mas passou a 69,20 anos em 2010. Essa mudança se deveu principalmente ao aumento de 15,13 anos na expectativa de vida das mulheres alagoanas, que passou de 58,84 para 73,97 anos, enquanto que o Maranhão passou a ter a menor esperança de vida feminina no país, 72,77 anos. Entretanto, Alagoas manteve em 2010 a mais baixa expectativa ao nascer masculina (64,60 anos), marca que já tinha em 1980 (52,73 anos).

O maior acréscimo na esperança de vida no período de 30 anos foi registrado no Rio Grande do Norte, 15,85 anos para ambos os sexos, 14,65 para homens e 17,03 para as mulheres.

Já a maior expectativa de vida para ambos os sexos em 1980 era a do Rio Grande do Sul (67,83 anos) e passou a ser de Santa Catarina em 2010 (76,80 anos), estado que também apresentou as maiores esperanças de vida masculina (73,73 anos) e feminina (79,90 anos) em 2010.

Em Alagoas, homens de 20 anos têm 7,4 vezes mais chances de não chegar aos 25 anos do que mulheres

A diferença entre as esperanças de vida ao nascer das mulheres e dos homens foi de 7,17 anos em 2010. Em 1980, essa diferença era de 6,07 anos. A sobremortalidade masculina ficou evidente em todas as faixas etárias em 2010, com pico no grupo de 20 a 24 anos: a probabilidade de um homem de 20 anos não chegar aos 25 era 4,4 vezes maior do que esta mesma probabilidade para a população feminina.

Em 2010, a maior diferença das expectativas de vida ao nascer entre homens e mulheres foi encontrada em Alagoas. As mulheres alagoanas vivem em média 9,37 anos a mais do que os homens, consequência de Alagoas ser o estado que apresentou a maior sobremortalidade masculina no grupo de 20 a 24 anos, 7,4 vezes a mortalidade de mulheres na mesma faixa etária. Em 1980, essa diferença era de 1,7 vez, uma das mais baixas do país. Naquele ano, a maior sobremortalidade masculina nesse grupo etário havia sido foi registada no Rio de Janeiro (3,0 vezes).

Mortalidade infantil caiu de 69,1‰ em 1980 para 16,7‰ em 2010

Em 1980, ocorriam no Brasil 69,1 óbitos de crianças menores de um ano de idade para cada mil nascidos vivos; chegando a 16,7 óbitos 30 anos depois. Neste período deixaram de morrer 52 crianças menores de um ano de vida para mil nascidos vivos, representando um declínio nos níveis de mortalidade infantil de 75,8%.

Entre os fatores que contribuíram para essa mudança, destacam-se: o aumento da escolaridade feminina, a elevação do percentual de domicílios com saneamento básico adequado (esgotamento sanitário, água potável e coleta de lixo), a diminuição da desnutrição infanto-juvenil e um maior acesso da população aos serviços de saúde, proporcionando uma relativa melhoria na qualidade do atendimento pré-natal e durante os primeiros anos de vida dos nascidos vivos. Também são notáveis as ações diretamente realizadas no intuito de reduzir a mortalidade infantil: campanhas de vacinação em massa, atenção ao pré-natal, incentivo ao aleitamento materno, entre outras.

Nordeste tem a maior queda na mortalidade infantil, de 97,1‰ para 23,0‰

Entre as regiões, o Nordeste manteve a maior taxa de mortalidade infantil, apesar de também ter registrado a maior queda entre 1980 (97,1‰) e 2010 (23,0‰). A região Sul, que já tinha a menor taxa em 1980 (46,0‰) manteve a posição em 2010, com 10,1‰. Entre os estados, foram observadas grandes variações. Em 2010, a menor taxa de mortalidade infantil era em Santa Catarina (9,2‰) e a maior em Alagoas (30,2‰). A maior queda na taxa no período foi registrada na Paraíba, de 117,1‰ para 22,9‰.

Santa Catarina tem a menor taxa de mortalidade na infância, 11,2‰

O mesmo comportamento da taxa de mortalidade infantil foi observado na mortalidade da infância (de crianças até cinco anos de idade). Em 2010, a taxa de mortalidade na infância foi de 19,4‰, redução de 64,6% em relação a 1980, quando o valor era de 84,0‰.

A menor taxa de mortalidade na infância foi observada em Santa Catarina, 11,2 óbitos de menores de cinco anos para mil nascidos vivos, enquanto a maior foi registrada em Alagoas, 33,2‰. Entre 1980 e 2010, a maior redução foi observada na Paraíba, onde 128,7 crianças menores de cinco anos deixaram de falecer para cada mil nascidos vivos, passando de 155,0‰ para 26,3‰ nesse período de 30 anos.

Este texto foi copiado do link abaixo.

Em 30 anos, NE tem maior ganho na esperança de vida: 12,95 anos

segunda-feira, 21 de janeiro de 2013

Jarbas Lacerda e Lincoln Pinheiro no 60 minutos sobre PPP do Mineirão

domingo, 11 de novembro de 2012

A verdade sobre urnas eletrônicas! (eng. Amílcar Brunazo)

sexta-feira, 19 de outubro de 2012

O Judiciário e as Pesquisas Eleitorais - Sobre o plano amostral e ponderação quanto a sexo, idade, grau de instrução e nível econômico do entrevistado

Este artigo é o terceiro de uma série iniciada para discutir a relação confusa entre o judiciário e as pesquisas eleitorais.

Ao contrário dos primeiros textos, os quais se basearam em um artigo de um Juíz eleitoral publicado no sítio JusNavigandi, este se baseia também em uma decisão da Justiça eleitoral do Piauí, a qual impugnou uma pesquisa do IBOPE.

acredito que tal impugnação seja fruto também de outro mito disseminado sobre as pesquisas, o qual foi definido por Djalma Sobreira Dantas como sendo "A terceira prática, igualmente ilegal, consiste em não obedecer a pesquisa a proporcionalidade do eleitorado de cada bairro, vila ou sítio, entrevistando 5% do universo da pesquisa em uma comunidade que representa apenas 0,05% do eleitorado e deixando de pesquisar outra comunidade que tem 6% dos votantes do município."

Para entender melhor o porquê desta afirmativa - E a impugnação ocorrida no Piauí - ser um absurdo explicaremos a partir de agora o que é um plano amostral, analisando o plano amostral do IBOPE, o qual foi impugnado.

O interessante deste caso do Piauí em particular é que muito provavelmente o reclamante atirou no que viu e acertou o que não viu, pois como será demonstrado a seguir, existem alguns problemas no plano amostral do IBOPE, mas tais irregularidades somente seriam percebidas por um Estatístico com bastante experiência. O que nos deixa a pergunta: Existiu laudo de Estatístico como base para tal impugnação?

Em caso de não existir tal laudo, a sentença desta reclamação feita à justiça eleitoral do Piauí poderá tornar, em tese, qualquer pesquisa registrada hoje no Brasil passível de impugnação.

Sobre o plano amostral e ponderação quanto a sexo, idade, grau de instrução e nível econômico do entrevistado

Plano amostral

Numa pesquisa o plano amostral é um conjunto de etapas que possibilitam a definição de segmentos pertencentes a uma amostra de resultados, os segmentos podem ser a “população” e o “universo”.

A “população” refere-se ao público-alvo pretendido para a extração de informações a uma amostra. O “universo” é o conjunto de todos os elementos amostrais da população.

Dentro da pesquisa a unidade amostral é o ambiente onde está situado o elemento amostral; o elemento amostral, por sua vez, é o objeto de uma mensuração, a fonte de informações sobre o tema e problemapei a ser pesquisado e estudado.

No plano amostral, a extensão geográfica denomina a área geográfica na qual está sendo realizada a coleta de dados de uma pesquisa. O tempo é o prazo referido em dia, semana, mês e ano de levantamento.

É importante salientar que em um plano amostral, deve ser informado como se procederá a amostragem dentre as diversas técnicas disponíveis.

Também deve ser respeitado o que se exige na resolução TSE 23.364/11, onde se impõe a presença de ‘Margem de erro e intervalo de Confiança, o que por sí só já vedaria algumas técnicas de amostragem, como a amostragem por quotas.

O que está constando no regístro

Ao se verificar o regístro da referida pesquisa, se encontra o seguinte texto:

Plano amostral e ponderação quanto a sexo, idade, grau de instrução e nível econômico do entrevistado; intervalo de confiança e margem de erro:

Representativa do eleitorado da área em estudo, elaborada em dois estágios.
No primeiro estágio faz-se um sorteio probabilístico dos setores censitários, onde as entrevistas serão realizadas, pelo método PPT (probabilidade Proporcional ao Tamanho), tomando o eleitorado como base para tal seleção.
No segundo e último estágio, dentro dos setores sorteados, os respondentes são selecionados através de quotas amostrais proporcionais em função de variáveis significativas, a saber:
SEXO: (masculino) 45%; (feminino) 55%;
IDADE: 16-24 (masculino) 23% (feminino) 21%; 25-29 (masculino) 14% (feminino) 14%; 30-39 (masculino) 23% (feminino) 22%; 40-49 (masculino) 17% (feminino) 18%; 50 e+ (masculino) 23% (feminino) 25%;
INSTRUÇÃO: Até Ensino Médio (masculino) 79% (feminino) 77%; Ensino Superior (masculino) 21% (feminino) 23%;
NÍVEL ECONÔMICO: Economicamente ativo (masculino) 76% (feminino) 52%; Não Economicamente ativo (masculino) 24% (feminino) 48%.
Está prevista eventual ponderação para correção das variáveis sexo e idade, com base nos percentuais anteriormente mencionados, caso ocorram diferenças superiores a 3 pontos percentuais entre o previsto na amostra e a coleta de dados realizada.
Para as variáveis de grau de instrução e nível econômico do entrevistado, o fator previsto para ponderação é 1 (resultados obtidos em campo).
O intervalo de confiança estimado é de 95% e a margem de erro máxima estimada considerando um modelo de amostragem aleatório simples, é de 4 (quatro) pontos percentuais para mais ou para menos sobre os resultados encontrados no total da amostra.
FONTE DOS DADOS: Censo 2010 | TSE 2012

Verificamos no texto acima a presença de:

Público pesquisado
Tipo de amostra
Ponderações
Intervalos de Confiança e Margem de Erro

No plano amostral, encontramos os seguintes dizeres:

Representativa do eleitorado da área em estudo, elaborada em dois estágios.

No primeiro estágio faz-se um sorteio probabilístico dos setores censitários, onde as entrevistas serão realizadas, pelo método PPT (probabilidade Proporcional ao Tamanho), tomando o eleitorado como base para tal seleção.
No segundo e último estágio, dentro dos setores sorteados, os respondentes são selecionados através de quotas amostrais proporcionais em função de variáveis significativas

Está prevista eventual ponderação para correção das variáveis sexo e idade, com base nos percentuais anteriormente mencionados, caso ocorram diferenças superiores a 3 pontos percentuais entre o previsto na amostra e a coleta de dados realizada.
Para as variáveis de grau de instrução e nível econômico do entrevistado, o fator previsto para ponderação é 1 (resultados obtidos em campo).
O intervalo de confiança estimado é de 95% e a margem de erro máxima estimada considerando um modelo de amostragem aleatório simples, é de 4 (quatro) pontos percentuais para mais ou para menos sobre os resultados encontrados no total da amostra.

Verificamos neste texto, no ítem 1, a definição de como se dará o processo de amostragem, a qual consistirá:

Sorteio de setores Censitários
Dentro dos setores, sorteio dos respondentes

Contudo, o texto deixa o plano amostral inconclusivo ao afirmar:

Que as entrevistas serão realizadas pelo método PPT
Será tomando o eleitorado como base para tal seleção

Na minha visão, houve uma ligeira confusão na redação, pois não está claro:

O processo de sorteio dos setores Censitários

Sabemos que cada setor Censitário possui quantidades diferentes de residentes, o que demandaria

Probabilidades de seleção diferentes para cada um destes, ou
Ponderação específica em cada um

O processo de se chegar até o eleitor dentro de cada Setor censitário sorteado.

Estas dúvidas existem porque ao se definir o plano amostral em vários estágios, se precisa conhecer exatamente como chegar a cada unidade amostral (1º Estágio = Setores Censitários, 2º Estágio = Eleitor). Contudo, tal informação não prejudica a execução dos trabalhos, pois existe uma linha de raciocínio a ser seguida. Única dúvida que permanece é sobre como se dará a ponderação dos setores censitários (1º estágio)

Vejamos agora outro exemplo de regístro (PI-00583/2012), o qual foi registrado em data próxima ao do IBOPE para a cidade de Teresina/PI

no regístro, encontramos os seguintes dizeres:

Metodologia de pesquisa:
Pesquisa do tipo quantitativa, por amostragem não probabilística por cotas, com aplicação de questionário estruturado e abordagem individual domiciliar. O conjunto do eleitorado do município do TERESINA-PI com 16 anos ou mais de idade será tomado como universo da pesquisa.

Claramente, a empresa informa que está descumprindo a resolução 23.364/2011 do tse ao afirmar que o processo amostral é não probabilístico

Plano amostral e ponderação quanto a sexo, idade, grau de instrução e nível econômico do entrevistado; intervalo de confiança e margem de erro:
A amostragem será por cotas de zona, gênero, escolaridade, faixa etária em acordo com os dados eleitorais disponíveis no TER/TSE e faixa de renda disponível no IBGE com entrevistas distribuídas proporcionalmente entre as cotas citadas com percentuais a saber: SEXO (TSE) MASCULINO = 45,54% e FEMININO = 54,46% ZONA (IBGE) URBANA = 94,27% e RURAL = 5,73% FAIXA ETÁRIA (TSE) ATÉ 24 ANOS = 18,23%, MAIS DE 24 A 34 ANOS = 26,58%, MAIS DE 34 A 44 ANOS = 20,19%, MAIS DE 44 A 59 ANOS = 21,50%, 60 OU MAIS ANOS = 13,50% ESCALARIDADE (TSE) ANALFABETO = 4,63%, LÊ E ESCREVE = 11,81% FUNDAMENTAL INCOMPLETO/COMPLETO = 36,98%, MÉDIO, INCOMPLETO/COMPLETO = 39,31%, SUPERIOR INCOMPLETO/COMPLETO = 7,27% FAIXA DE RENDA (IBGE) ATÉ 1 SALÁRIO MÍNIMO = 52,97%, MAIS DE 1 A 2 SALÁRIOS MÍNIMOS = 23,47%, MAIS DE 2 A 5 SALÁRIOS MÍNIMOS = 14,55% MAIS DE 5 A 10 SALÁRIOS MÍNIMOS = 5,86%, MAIS DE 10 SALÁRIOS MÍNIMOS = 3,15% Nivel de confiança de 95% e Margem de erro máximo admitida de 3%.

Neste plano, ao contrário do anterior, não se tem a mínima idéia de o quê se fará para sortear a amostra, prevalece o senso comum de que será feita uma amostra estratificada por zonas

Aí entra em questão a afirmativa do Magistrado Djalma Sobreira, onde ele aponta como provável fonte de manipulação, não obedecer a proporcionalidade do eleitorado de cada bairro. A visão que todos tem de pesquisa eleitoral é a que devemos fazer uma pesquisa tal que todos sejam ouvidos, o que contraria todos princípios de amostragem, onde existem várias soluções de amostragem para se obter uma amostra confiável sem passar por uma estratificação de 'zonas', como proposto neste último regístro.

Infelizmente, os estatísticos, ao não saber redigir corretamente os planos amostrais, estão colaborando e muito para que este tipo de pensamento prospere.

E esta afirmativa de não saber redigir ganha força ao se acessar o sítio do IBOPE, onde encontramos em detalhes como funciona o processo de amostragem de suas pesquisas.

Neste endereço, descobrimos que o processo de seleção da amostragem final do IBOPE passa por três estágios distintos:

Seleção probabilística dos municípios que comporão a amostra por meio do método de Probabilidade Proporcional ao Tamanho (PPT), tomando como base a população de cada um deles. Este método permite que a proporcionalidade existente entre as várias áreas do município sejam respeitadas.
Seleção probabilística dos setores censitários do IBGE onde serão realizadas as entrevistas, utilizando também o método PPT.
Seleção dos entrevistados de acordo com cotas proporcionais de sexo, idade, grau de instrução e setor de dependência econômica, dentro dos setores censitários sorteados previamente.

As cotas servem para evitar erros decorrentes da não existência de cadastros dos eleitores dentro dos setores censitários e da impossibilidade do levantamento de tal informação durante o processo da pesquisa.

Portanto, o IBOPE tem o conhecimento de como fazer, apenas negligenciou a parte de escrita no texto do regístro.

segunda-feira, 15 de outubro de 2012

O Judiciário e as Pesquisas Eleitorais - O mito das porcentagens

Este artigo é o terceiro de uma série iniciada para discutir a relação confusa entre o judiciário e as pesquisas eleitorais.
Como explicado nos artigos anteriores, esta série de artigos teve seu início motivado por inúmeros absurdos estatísticos que foram recentemente validados pela justiça eleitoral brasileira, culminando com um artigo entitulado 'Fraudes em pesquisas eleitorais' o qual estou, com esta série de artigos, explicando o que há de mito e verdade nas alegações do autor.

Hoje discutirei o mito referente a 'entrevistar eleitores em percentuais bem diferentes do informado pela Justiça Eleitoral'.

O mito das porcentagens

Em seu artigo, o autor cita o funcionamento desta fraude como sendo da seguinte maneira: Em determinado município os jovens com menos de 34 anos, seguidores do candidato “A”, representam 30% do eleitorado e a pesquisa, por razões inexplicáveis, resolve entrevistar apenas 10% (dez por cento), pois o candidato “B” tem a preferência do eleitorado mais idoso. Esta pesquisa não representa a intenção do eleitorado e atende a interesses escusos.

Ao proferir tal afirmativa, o autor se esqueceu de informar que:

Não existe no Código Eleitoral nem em resoluções do TSE, referências a qual proporção seria a correta a ser adotada.
A referência que existe mais próxima a esta seria a obrigação de se apresentar 'ponderação quanto a sexo, idade, escolaridade e nível econômico'.

Ora vejamos:

O TSE produz em seu sítio, informações apenas referentes a Sexo, faixa etária e escolaridade, sendo estas obtidas NO MOMENTO DA INCRIÇÃO, o que tornaria a utilização da variável escolaridade inviável. No meu caso, por exemplo, apesar de possuir pós graduação completa, eu possuia no ato de minha inscrição enquanto eleitor, apenas segundo grau completo. Esta situação se repete para a maioria dos inscritos, inviabilizando o uso de tal variável como ponderação.

A segunda afirmativa é sim uma provável fonte de fraude, mas a maneira como foi explicada no texto nos induz a acreditar que em uma pesquisa, devemos entrevistar quantidades fixas de pessoas de cada faixa etária e sexo. Ao fazer isto, DEIXARIAMOS DE TER UMA MARGEM DE ERRO para a pesquisa, pois esta deixaria de ser probabilística (Não existe meio exato de calcular margem de erro e respectivo intervalo de confiança em uma pesquisa que não seja probabilística).

Ainda neste assunto, se fizermos uma pesquisa com quantidades fixas para cada uma das variáveis, estaríamos com certeza violando preceitos da resolução TSE 23.364/2011, o que se verifica ao acessar aqui, e depararmos com o seguinte texto:

Porque aleatorizar?

Porque não temos controle de tudo e assim evitamos escolher apenas indivíduos dentro de um subgrupo que não temos consciência de que ele difere dos demais. Ou seja, aleatorizamos para evitar um viés na amostra. Além disso, esse esquema permite que a análise seja replicável por outras entidades. Esta última característica é extremamente desejável em ciência, onde os experimentos devem ser replicáveis para que outros pesquisadores verifiquem sua validade.
Um dos problemas debatidos entre os estatísticos é o método de amostragem utilizado nas eleições. Sabe-se que as instituições não retiram uma amostra probabilística, entretanto utilizam os métodos estatísticos que supõem amostras probabilísticas. A amostra geralmente é retirada por cotas e não tem validade científica, pois não é possível calcular o erro-padrão nem mesmo saber se as estimativas são não-viciadas. Uma discussão interessante sobre o tema que fala sobre a falsidade das margens de erro de pesquisas eleitorais feita pelos Professores José Ferreira de Carvalho (Professor aposentado da UNICAMP) e Cristiano Ferraz (Professor da UFPE) pode ser vista aqui

Portanto, o uso de quantidades fixas, como alega o autor do texto, poderia causar um desastre maior ainda para a pesquisa, a tornando irregular sob a luz da resolução 23.364/2011. Note também que ao se adotar uma abordagem não probabilística (Pesquisa por quotas), deixamos de ter controle sobre todos os fatores e limitamos a escolha a um subgrupo que possa vir a não representar a população como supostamente deveria fazê-lo.

Ainda no referido link, descobrimos que se a população que estamos estudando for extremamente homogênea, então tanto faz selecionar aleatoriamente ou intencionalmente (Pesquisa por quotas). O grande problema é que isso não ocorre na prática. Sempre teremos algum subgrupo escondido na população que é bem homogêneo dentro dele e que difere dos outros grupos que formam a população. Mesmo estratificando sua população ao nível máximo conhecido, nunca teremos certeza de que ainda existe algum outro subgrupo que seria necessário estratificar. No caso de pesquisas eleitorais, a Resolução TSE 23.364/2011 quando obriga a definir ponderação por estrutura de gênero, idade, escolaridade e condição econômica, JÁ ESTÁ ADMITINDO tal heterogeneidade na população, o que vedaria a adoção de amostragem por quotas.

A Estatística resolve este tipo de dilema com a adoção de pesos. Estes, ao serem aplicados após a coleta dos dados, conseguem fazer a amostra refletir com exatidão os parâmetros populacionais

Contudo, o que se vê nos regístros de pesquisa eleitoral, é a importância maior dada a proporções citadas pelo autor do referido artigo e um completo abandono da parte referente à ponderação.

Reparem os seguintes regístros, como exemplo de possível fraude apenas ao observar o plano amostral:

CE-00177/2012 - Reparem que, no plano amostral, foi citado 'elaborada por quotas proporcionais em função de variáveis significativas' no início do plano e em seguida, encontra-se, no mesmo texto os dizeres 'aplicando-se a técnica de amostragem probabilística', o que reflete uma falta de domínio no que se propõe fazer. Ainda no plano amostral, encontramos os dizeres 'os respondentes são selecionados através das seguintes cotas'. comprovando mais uma vez a confusão teórica da empresa.

CE-00179/2012 - A empresa já adimite a fraude na metodologia, onde escreve 'Domiciliar - procurada'. Também se observa a intenção de se fazer a pesquisa por quotas proporcionais, o que violaria a resolução TSE 23.364/2011, como explicado neste documento. Mesmo não sendo assunto deste artigo, se verifica um erro grotesco no cálculo da margem de erro. foi informado 3,1% para um intervalo de confiança de 95% e um tamanho mínimo de amostra de 304. O valor verdadeiro para a margem de erro seria algo próximo a 5,6%

CE-00159/2012 - Este fez o dever de casa corretamente, explicou o plano amostral de uma maneira a ser pelo menos compreendido e reproduzido. Pecou ao admitir que a pesquisa era por quotas, o que foi verificado anterirmente nestge artigo, viola a resolução 23.364/2011 do TSE.

Ainda fica uma pergunta a ser respondida: E as proporções de sexo, idade, etc? A isso foi atribuída uma importância grande demais pelo autor do referido artigo, importância esta que deve ser apenas relativa, vejamos um exemplo:

Imagine um município qualquer onde temos 54,99% de eleitores do sexo feminino e 45,01% de eleitores do sexo masculino (Fortaleza-CE é um município com tais características, segundo o TSE).

Se formos amostrar neste município hipotético, 385 eleitores (o que produz uma margem de erro de 5% conforme exemplo do artigo agora analisado, teríamos:

Cada entrevista representando 1/385 = 0,26% no resultado final
Um número esperado de 212 (0.5499 * 385 = 211,69) entrevistados do sexo feminino
Um número esperado de 173 (0.4501 * 385 = 173,31) entrevistados do sexo masculino

Observe que como estamos lidando com quantidades inteiras, caso fossem entrevistados exatamente 212 mulheres, esta proporção passaria para 55,065%, mas continuaria deixando a amostra como válida. Um peso igual a 1 ainda seria aceitável para tal pesquisa. (considera-se aceitável, pois produz pesos próximos de 1: Pesos de 0.9986 para feminino e 1.0017 para masculino).

Não existe padrão para se determinar o que seria aceitável ou não em termos de diferença entre o valor estatísticamente esperado e o valor obtido na amostragem. o bom senso nos leva a buscar diferenças que possam influenciar o resultado final. como temos uma margem de erro como parâmetro, em 385 entrevistas (nosso caso em estudo), e como sabemos que cada entrevista acarreta em 0,26% do resultado final, digamos que uma diferença de 10 entrevistas para mais ou para menos em cada categoria possa vir a prejudicar (10 entrevistas a mais acarretaria um aumento de 2,5% em uma e uma redução de igual valor nas demais).

Ao se aplicar esta regra, caso fossem entrevistados 222 indivíduos do sexo feminino e 163 do sexo masculino, aí sim poderíamos pensar em uma distorção na amostra, a qual poderia ser corrigida aplicando se:

peso 0.9537 para os entrevistados do sexo feminino
peso 1.0631 para os entrevistados do sexo masculino

Ao se fazer uso destes pesos, obteremos uma amostra com os parâmetros corretos para osexo masculino e feminino.

Infelizmente o TSE não obriga as empresas de pesquisa a informar os pesos reais aplicados nas pesquisas, o que torna impossível a fiscalização deste fato sem a obtenção dos dados questionário a questionário da pesquisa realizada. Resumindo: O problema das proporções existe, pode sim ser fonte de manipulação e fraude por parte das empresas de pesquisa. Cabe ao TSE aprimorar a legislação para que se possa haver fiscalização neste quesito.

O Judiciário e as Pesquisas Eleitorais - A margem de erro

Continuando o explicado no post anterior, oqual foi motivado por um artigo no sítio jusnavigandi que, em uma primeira leitura, se vê que foi um artigo bem intencionado, mas cheio de incoerências estatísticas por parte do autor.

Visando esclarecer o tema, este post aborda os problemas conceituais referentes à margem de erro do referido

Lembrando que este tema já foi abordado em um post anterior, quando se detectou tal problema, Esta discussão pode ser acessado aqui

O Golpe da margem de erro

A cerca de 20 dias, fui surpreendido com uma impugnação de uma pesquisa em Uberlândia, onde a advogada reclamante fazia duas alegações: A segunda delas dizia: 'Intervalo de confiança (95%) e Margem de erro (3,01%) que somados, são inferiores a 100% - Atecnia – Inobservância do disposto no Artigo 1º, inciso IV da Resolução 23.364/2011'.

Um Estatístico, só de ler tal alegação, já se encontra indignado, pois demonstra o baixo conhecimento do assunto por parte do advogado reclamante.

A margem de erro é um conceito complexo de ser entendido inclusive para pessoas que lidam com a área de ciências exatas. A melhor maneira que encontrei para explicar aos magistrados em nossas defesas foi explicar em conjunto o funcionamento do mecanismo “Margem de erro – Intervalo de confiança – Tamanho da amostra", mostrando, em detalhes a fórmula para seu cálculo.

Verificando-se pela página 6 do documento contido aqui, que a relação 'Margem de Erro - Intervalo de Confiança" não é tão simples assim.

Para se obter o número de indivíduos na amostra (n), é preciso ter conhecimento de:

Valor crítico que corresponde ao grau de confiança desejado
Proporção populacional de indivíduos que pertence a categoria que estamos interessados em estudar - No caso em tela, a proporção de voto a um dos candidatos ao cargo de prefeito (p).
Proporção populacional de indivíduos que NÃO pertence à categoria que estamos interessados em estudar (q = 1 – p) – No caso em tela, a proporção dos indivíduos que NÃO VOTA em um dos candidatos ao cargo de prefeito.
Margem de erro ou ERRO DE ESTIMATIVA. Esta identifica a diferença máxima entre a PROPORÇÃO AMOSTRAL e a verdadeira PROPORÇÃO POPULACIONAL (p).

Verifica-se já, pelos itens 1 e 4, que intervalo de confiança e margem de erro NÃO SÃO A MESMA COISA. Valores diferentes de ambos acarretam em tamanhos de amostra diferentes.

Ainda no campo das reclamações referentes a margem de erro em regístro de pesquisa eleitoral, encontramos reclamações como:

“Apresenta um intervalo de confiança muito baixo, no patamar de 80%, visando baixar a quantidade da amostra”
“Para fins de Estatística confiável, transparente e verdadeira, o padrão correto é 95%”

Quanto ao item 1, se observa ainda a falta de conhecimento do tema por parte do advogado reclamante, o qual cria uma relação "intervalo de confiança muito baixo" com a "baixa qualidade da amostra". como se observou acima, o tamanho do intervalo de confiança baixo, na verdade implica no contrário do alegado, pois intervalo de confiança baixo é uma garantia de que a empresa está garantindo ter competência suficiente para ter um erro menor com aquele tamanho de amostra proposto.

A presença do Item 2 nos faz compreender a razão das alegações do ilustre magistrado quando afirma que "uma margem de erro de 5% pode representar uma variação muito grande".

Aos 'Não estatísticos', foi sempre ensinado que o padrão seria 95% e todos esperam tal valor para um intervalo de confiança. Também observamos no artigo do jurista em questão que 'Se o candidato “A” estiver com 40% e o candidato “B” com 50% eles estarão tecnicamente empatados. Na prática, se a pesquisa concluir por empate técnico a vitória com 10.000 (mil) votos ainda estará dentro da margem de erro'.

Esta afirmativa seria correta SE não existisse a possibilidade de: Brancos, Nulos, Indecisos, outros candidatos, etc.

Ao se atribuir erro máximo de 5%, este ocorrendo em sua totalidade (Em um intervalo de confiança de 95%, implica que tal erro de 5% ocorrerá no máximo em 5% dos casos), mas ele se diluirá entre as demais opções, o que tornaria, na prática, impossível estes 5% se unirem a um determinado candidato. Além do mais, um intervalo de confiança é centrado na média, errar 'para baixo' teria uma probabilidade de 2,5% em um intervalos de confiança de 95%. Na verdade, no caso demonstrado pelo magistrado, a probabilidade de encontrarmos tal aberração seria no máximo 2,5% (Definição de intervalo de confiança).

Ainda referente a esta afirmativa, acredito que tenha se baseado no 'senso comum de que dada uma margem de erro, ela é a mesma para todos os candidatos. Verificamos na página 7 do referido documento, que quando não conhecemos o valor correto para a proporção, se substitui p*q por 0.25 (O documento não explica o motivo, mas se deve ao fato de que o valor máximo possível para este produto ser este).

Ao se afirmar que em uma amostra de 385 (Este valor seria o tamanho mínimo de amostra para produzir uma margem de erro máxima de 5% em um intervalo de confiança de 95%), estamos testando a hipotese:

H0: p = 0.5 contra H1: p <> 0.5

dado uma estimativa de 0.4 para este p, o que nos leva, após calcular os valores da estatística do teste, a encontrar uma probabilidade desta afirmativa (p=0.5) ser verdadeira próxima a 0.03%, o que nos leva à conclusão, com uma segurança acima de qualquer suspeita, de que esta margem de erro é algo quase impossível de ser observado na prática.

Este erro de interpretação ocorre muito por culpa da imprensa, que não encontrou ainda uma forma melhor de explicar o funcionamento da 'Margem de erro' ao público em geral. Este assunto será tema de um outro post, ainda este ano.

Meu próximo post, a ser publicado ainda hoje, tratará do mito de obedecer aos padrões de proporção

O Judiciário e as Pesquisas Eleitorais

Nos últimos 45-60 dias, venho deparando com pessoas ligadas ao meio jurídico tentando 'ditar' como se deve fazer uma pesquisa eleitoral. Fim de setembro, ao deparar com mais uma impugnação de regístro de pesquisa, escrevi um post neste blog sobre o assunto.

Mas o tempo passou, o CONFE agiu, mas o problema ainda continuou e no último sábado, me deparo com um artigo de um juiz eleitoral do Ceará que recebeu o título de 'Fraudes em Pesquisas Eleitorais'.

No artigo, o Juíz Djalma Sobreira Júnior aponta os seguintes fatores como origem de 'Fraude' em pesquisa eleitoral:

Margem de erro de, normalmente, cinco por cento
Não obedecer os parâmetros divulgados pelo TSE para o eleitorado
Não obedecer a pesquisa a proporcionalidade do eleitorado de cada bairro, vila ou sítio

Dos 3 motivos apontados pelo ilustre Juíz, estes podem sim vir a causar dano a uma pesquisa eleitoral, mas, da forma como vem sendo alegadas nas impugnações, nota-se um despreparo tanto por parte dos magistrados, como por parte dos advogados para fazer as alegações.

Esta falta de conhecimento gerou este ano diversos 'absurdos estatísticos' que, pelo que acompanhei de perto, possuem sintomas de golpe, de um erro cometido 'de propósito' pelos advogados.

Existem problemas sérios referentes às pesquisas eleitorais, pretendo explicar nas próximas postagens para este blog, não só o que existe de verdade (e senso comum) nestas alegações, como também apontar os reais problemas nas pesquisas eleitorais.

Estes problemas serão abordados nos posts seguintes deste blog.

quarta-feira, 3 de outubro de 2012

A média, a Variância e o senso comum

A média é um dos conceitos estatísticos mais utilizados pelo leigo.

Esse conceito aparece com certa freqüência no nosso dia-a-dia, nas revistas, nos jornais, na internet e na televisão. Se abrirmos uma página de um jornal e nela encontrarmos uma manchete dizendo "3 em cada 5 brasileiros preferem jogar futebol a jogar voleibol", isso é uma média.

O uso massivo da média é talvez responsável pelas diversas interpretações errôneas que são dadas ao conceito de média, dando a ela poderes que ela não tem, como, por exemplo, como um homem de um metro e oitenta poderia ter morrido afogado num rio cuja profundidade média era de um metro e cinqüenta?

É importante lembrar que a definição de média está relacionada ao centro de gravidade, ou seja, é o valor central de uma distribuição, ou ainda é o ponto de equilíbrio de um conjunto de valores.

O conhecimento de apenas a média de uma distribuição não nos dá uma informação precisa sobre ela, ou seja, não podemos saber como os demais valores se comportam em relação à média. Para medir essa variação ou dispersão, a medida utilizada para tal é a variância.

A variância de uma distribuição nunca será negativa e a determinação positiva da raiz quadrada da variância recebe o nome de desvio padrão.

Embora existam infinitas distribuições com mesma média e mesma variância, a
média e a variância nos permitirão tirar conclusões gerais sobre o comportamento da distribuição.

Quando dispomos de informações adicionais, como o comportamento da distribuição dos dados (por exemplo, normalmente distribuídos), a média mais ou menos dois desvios padrões conterá no mínimo 95% dos valores da distribuição. Desta forma fica agora bem mais fácil entender o porque que uma pessoa de um metro e oitenta morreu afogado em um rio com profundidade média de um metro e cinqüenta.

Também cobre de quem informar que tal chuva é acima da média' sem dar detalhes de COMO ESTA CHUVA SE DISTRIBUI. Os meios de comunicação são pródigos nisto.

Nota: Este texto foi baseado em parte no conteúdo presente aqui

segunda-feira, 1 de outubro de 2012

Princípios fundamentais das Estatísticas Oficiais

Abaixo, os 10 príncipios fundamentais das estatísticas oficiais. O Brasil seria muito melhor, existiria muito menos polêmica inútil sobre mal uso de Dados Estatísticos.

Principalmente em Pesquisas Eleitorais, onde recentemente estamos vendo seguidas ofensas a estes princípios por parte dos Advogados eleitorais.

Princípio 1 Relevância, imparcialidade e igualdade de acesso

As estatísticas oficiais constituem um elemento indispensável no sistema de informação de uma sociedade democrática, oferecendo ao governo, à economia e ao público dados sobre a situação econômica, demográfica social e ambiental. Com esta finalidade, os órgãos oficiais de estatística devem produzir e divulgar, de forma imparcial, estatísticas de utilidade prática comprovada, para honrar o direito do cidadão à informação pública.

Princípio 2 Padrões profissionais e ética

Para manter a confiança nas estatísticas oficiais, os órgãos de estatística devem tomar decisões, de acordo com considerações estritamente profissionais, aí incluídos os princípios científicos e a ética profissional, para a escolha dos métodos e procedimentos de coleta, processamento, armazenamento e divulgação dos dados estatísticos.

Princípio 3 Responsabilidade e transparência

Para facilitar uma interpretação correta dos dados, os órgãos de estatística devem apresentar informações de acordo com normas científicas sobre fontes, métodos e procedimentos estatísticos.

Princípio 4 Prevenção do mau uso dos dados

Os órgãos de estatística têm direito de comentar interpretações errôneas e utilização indevida das estatísticas.

Princípio 5 Eficiência

Os dados utilizados para fins estatísticos podem ser obtidos a partir de diversos tipos de fontes, sejam pesquisas estatísticas ou registros administrativos. Os órgãos de estatística devem escolher as fontes levando em consideração a qualidade, oportunidade, custos e ônus para os informantes.

Princípio 6 Confidencialidade

Os dados individuais coletados pelos órgãos de estatística para elaboração de estatísticas, sejam referentes a pessoas físicas ou jurídicas, devem ser estritamente confidenciais e utilizados exclusivamente para fins estatísticos.

Princípio 7 Legislação

As leis, regulamentos e medidas que regem a operação dos sistemas estatísticos devem ser tornadas de conhecimento público.

Princípio 8 Coordenação nacional

A coordenação entre os órgãos de estatística de um país é indispensável, para que se obtenha coerência e eficiência no sistema estatístico.

Princípio 9 Uso de padrões internacionais

A utilização de conceitos, classificações e métodos internacionais pelos órgãos de estatística de cada país promove a coerência e a eficiência dos sistemas de estatística em todos os níveis oficiais.

Princípio 10 Cooperação internacional

A cooperação bilateral e multilateral na esfera da estatística contribui para melhorar as estatísticas oficiais em todos os países.

Fonte: Comissão de Estatística das Nações Unidas, 1994 (http://unstats.un.org/unsd/methods/statorg/default.htm)