segunda-feira, 31 de outubro de 2011

Previsões Brasileiro 2011 - meus pitacos

Quem me acompanha sabe que a uns 5 anos eu faço por diversão estudos de simulação do Campeonato Brasileiro de Futebol série A.

No último fim de semana, eu andei adaptando os scripts que possuia, os quais eram totalmente escritos em Java,  passando para algo mais próximo de um Estatístico, que é o software R.

As vantagens desta migração são imensas no ponto de vista estatístico, pois os dados passam a ser gerados com algumas facilidades em termos de idéias que não seriam facilmente implementadas em uma linguagem de programação normal.

A partir da rodada seguinte, tentarei colocar alguns destes resultados disponíveis neste meu espaço.

Quero deixar claro que esta divulgação se dá como meio de fazer algo "diferente" do que já existe. algo com um apelo mais estatístico, não tenho intenção de "acertar", sim de mostrar a maneira mais correta de se interpretar as informações que possuímos em mãos.

Para este primeiro preview, fiz uma simulação bem curta, apenas para testar o mecanismo que construí, à medida que forem surgindo idéias de como mostrar melhor esta informação, elas serão com certeza discutidas neste blog.

tentarei colar aqui as saídas tal e qual foram geradas. em um futuro, discutirei com calma todos os detalhes envolvidos no processo entre se ter uma tabela do campeonato semi-preenchida e se obter as probabilidades finais.

As probabilidades para a "libertadores" ainda não foram totalmente corrigidas, creio que nas próximas versões eu possa mostrá-las com maior detalhe, pois elas envolvem algumas coisas que, em princípio, parecem triviais mas acabam por serem tediosos e se não forem feitos com a devida atenção. O resultado será um cálculo errado das mesmas.

Vamos lá então:

Brasileiro 2011- 32ª rodada - Série A - Janela: 10.000 iterações


> probabilities(dados)
               Camp.   top5  last4
América/MG    0.0000 0.0000 0.9915
Atlético/GO   0.0000 0.0021 0.0007
Atlético/MG   0.0000 0.0000 0.0846
Atlético/PR   0.0000 0.0000 0.7610
Avaí          0.0000 0.0000 0.8638
Bahia         0.0000 0.0000 0.2022
Botafogo      0.0742 0.7711 0.0000
Ceará         0.0000 0.0000 0.7437
Corinthians   0.4567 0.9874 0.0000
Coritiba      0.0000 0.0379 0.0000
Cruzeiro      0.0000 0.0000 0.3442
Figueirense   0.0063 0.3222 0.0000
Flamengo      0.0077 0.3717 0.0000
Fluminense    0.0403 0.6666 0.0000
Grêmio        0.0000 0.0478 0.0000
Internacional 0.0107 0.5200 0.0000
Palmeiras     0.0000 0.0005 0.0083
Santos*       0.0000 0.0340 0.0000
São Paulo     0.0019 0.2606 0.0000
Vasco*        0.4022 0.9781 0.0000
* - Equipes previamente classificadas para a copa Toyota Libertadores 2012



Uma maneira mais visual de se mostrar estes dados é a demonstrada a seguir:


A figura anterior foi gerada pelo comando a seguir do software R:

boxplot(
Pos~Equipe, data=dados,
horizontal=TRUE, 
las=2, cex=0.6, col="grey",
xlab="posição prevista ao final do campeonato"
)
abline(v=c(4.5,16.5),lty="dotdash")
title("Boxplot: posição prevista ao final do campeonato")


Gerei mais uma figura semelhante à anterior, representando a pontuação que cada equipe supostamente fará ao fim do campeonato:


a figura foi gerada através do seguinte comando do software R:


boxplot(
P~Equipe, data=dados,
horizontal=FALSE,
las=3, cex=0.5, col="grey",
ylab="Pontuação prevista ao final do campeonato"
)
abline(h=c(68,60,41),lty="dotdash")
title("Boxplot: pontuação prevista por equipe ao final do campeonato")


Pretendo retomar este assunto mais para o fim da semana, afinal de contas estou de folga e com criatividade a mil.