O objetivo desta página é desmistificar muitas das idéias pré-concebidas sobre estatísticas, evitando que o "fascínio" por números e percentagens (ou a ignorância sobre como eles foram produzidos) turvem o senso crítico das pessoas.
Nem todas as estatísticas veiculadas ao público (principalmente pela mídia) estão erradas ou merecem ser consideradas com suspeição, mas muitas vezes as informações são apresentadas de forma tão incompleta que se torna difícil acreditar nelas.
Para verificar a validade de uma estatística, seja ela veiculada em um jornal de grande circulação, na TV, ou em uma revista especializada, você deve fazer cinco perguntas:
Uma empresa americana declarou que os salários no segundo semestre de um ano estavam muito acima daqueles pagos no início do ano, portanto não era hora do sindicato pedir um aumento. O que a empresa "esqueceu" de dizer é que no início do ano havia uma grande quantidade de trabalhadores de meio-período, e que estes passaram a cumprir turno integral a partir do segundo trimestre do ano, sendo assim seus salários teriam que forçosamente subir, mas isso não implica que os salários tenham "melhorado realmente".
Procure os viesamentos, deliberados ou inconscientes, aplicados aos resultados. Quando ouvir "pesquisa feita por médicos americanos revela..." tome cuidado: que médicos são estes? Cuidado com as declarações do tipo "Universidade de Harvard descobriu que...". Verifique se realmente há pessoas qualificadas da "instituição de prestígio" em questão divulgando as descobertas.
Em 1994 foi divulgado um relatório otimista sobre o número de árvores nos Estados Unidos: os peritos chegaram à conclusão que havia muito mais árvores em 1994 do que houvera em 1894 (cem anos antes). Fonte do levantamento: o equivalente a uma associação de madeireiras... Onde está o viés? Está na definição de "árvore": os peritos consideraram "árvore" tanto uma sequóia centenária de 100 metros de altura quanto uma muda de Pinus plantada há pouco...
Um outro viesamento muito comum é encontrado na forma de
apresentar
os resultados. Veja o exemplo abaixo, referente aos salários de
11 pessoas de uma empresa:
Pessoa | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
Salários(u.m.) | 150 | 200 | 200 | 250 | 300 | 350 | 350 | 400 | 400 | 3000 | 8000 |
Alguém da direção desta empresa poderia afirmar que o salário "médio" é de 1236,36 u.m., portanto o nível salarial nesta seção é "muito bom". Alguém do sindicato protesta e diz que na verdade o salário "médio" é de 350 u.m., o que não é um nível "muito bom". Qual dos dois está errado? Surpreendentemente nenhum deles. O homem da direção usou a média aritmética para calcular o salário "médio": a média aritmética pode ser distorcida por valores discrepantes, o que se comprova ao observar na tabela os salários das pessoas 10 e 11 que estão bem distantes da maioria dos outros. Já o homem do sindicato usou uma outra medida estatística a mediana: a mediana divide um conjunto ordenado de dados em duas partes iguais, metade é maior do que a mediana e metade é menor do que a mediana. Na tabela acima a pessoa 6 é "ponto central" e seu salário de 350 u.m. (salário mediano) representa muito melhor o conjunto.
Um caso típico de amostra selecionada indevidamente são as estatísticas resultantes de pesquisas feitas pelo correio: o pesquisador envia pelo correio questionários aos entrevistados, solicitando que eles os preencham e devolvam. Faça a si mesmo esta pergunta: "quantos questionários eu já recebi pelo correio e quantos eu já respondi"? Neste tipo de procedimento de pesquisa o percentual de pessoas ou organizações que efetivamente respondem aos questionários costuma ser muito reduzido, de modo que esses resultados não podem ser considerados representativos.
Quanto às pequenas amostras é necessário maior cautela ainda. Utilizando uma pequena amostra o resultado obtido pode ter ocorrido totalmente POR ACASO! O pesquisador pode ter tomado todos os cuidados, selecionado os elementos da amostra com critério e portar-se com a maior honestidade imaginável, mas a chance de um resultado "por acaso" é muito alta. Quando a amostra é suficientemente grande este risco persiste, mas a probabilidade de sua ocorrência reduz-se drasticamente. Se alguém diz a você que após tratar dez ratos diabéticos com certa erva medicinal,a sua taxa de glicose baixou 2,4%, e que com isso foi provadoestatisticamente que a erva auxilia no tratamento do diabetes, o que você fará? Observe o tamanho da amostra (apenas dez ratos) e a redução obtida (que nesta amostra poderia ter ocorrido totalmente por acaso).
Um dos casos mais intrigantes para nós brasileiros é o resultado de uma pesquisa eleitoral. É plenamente possível obter resultados confiáveis utilizando metodologias de amostragem e tratamento de dados adequadas. Mas não se esqueça que há uma variação em torno dos percentuais (mais ou menos 5%), e que há uma pequena probabilidade (geralmente da ordem de 5%) de que o valor "verdadeiro" do percentual não esteja naquele intervalo.
Se alguém diz que 33,33% (percentual) das mulheres de um curso casaram-se com professores você poderia ter uma má impressão destas moças. Mas se alguém diz que das três mulheres (dados brutos) deste curso uma delas casou-se com um professor o efeito já não será tão grande.
Um jornal afirma que a safra de um ano é quatro vezes maior do que a do ano anterior, o que evidencia a produtividade e o trabalho do homem do campo! Nada contra o homem do campo (que trabalha muito e ganha pouco), mas o jornal pode ter se esquecido de dizer que no ano anterior houve uma enchente que dizimou cerca de 80% da safra prevista, o que torna o ano totalmente inadequado para servir como base para o cálculo.
"Podemos mensurar o aumento da violência pela comparação entre o número de estupros de hoje e o de vinte anos atrás". Qualquer um sabe que a violência está aumentando, mas talvez o número de estupros fosse maior há vinte anos, quando as mulheres sentiam-se muito mais constrangidas em denunciar seus agressores e preferissem o silêncio. Com o passar do tempo, e com a conscientização o número de denúncias aumentou, não necessariamente indicando que a violência aumentou por causa disso... Cuidado com as correlações: identificar que duas variáveis caminham na mesma direção ou em direções opostas NÃO SIGNIFICA NECESSARIAMENTE que a variação de uma causou a da outra (podem haver outras variáveis influenciando ambas).
Uma pesquisa eleitoral, por mais bem conduzida que seja, não indica em quem as pessoas realmente vão votar, mas em quem elas dizem que vão votar naquele momento (alguém que se diz indeciso pode já ter o seu candidato escolhido desde o berço, outro que afirma votar na situação assim procede por ser funcionário público, etc). Assim, se você faz uma pesquisa entre advogados e descobre que eles se acham mal remunerados por seus serviços, e você divulga que os profissionais liberais (incluindo nesta categoria várias outras profissões) se acham mal remunerados você está mudando de assunto.
"A 'população' de uma grande área da China era de 28 milhões. Cinco anos depois chegava a 105 milhões. Muito pouco desse aumento era real. A grande diferença só pôde ser explicada levando-se em conta as finalidades das duas coletas censitárias e a maneira como as pessoas se sentiram ao serem contadas em cada caso. O primeiro censo foi para fins de tributação e serviço militar; o segundo para ajuda em caso de fome".
Logo após a primeira crise do petróleo, em 1973, calculava-se que em 1985 o preço do barril estaria por volta de US$ 80. Sendo assim, muitas formas de energia alternativa foram desenvolvidas tendo em mente aquele valor, acreditando que aquela tendência de crescimento seria mantida, o que não aconteceu: o preço do barril despencou em 1986 e as formas "alternativas" tornaram-se economicamente inviáveis (o que não quer dizer que também o sejam por outros critérios).
Usar tendências antigas, observadas em épocas em que o mundo era muito diferente do que é hoje é extremamente perigoso. Você acha que o Brasil de 1980 é o mesmo Brasil de 2017? A definição de "família padrão" em 1960 continua válida hoje? Extrapolar tais tendências e acreditar que tais conclusões são válidas é, no mínimo, ingênuo.
Estatísticas do tipo para cada dez brasileiros dois têm diabetes: isso significa para uma população de 200 milhões de habitantes 40 milhões de diabéticos! Se for verdade possivelmente não haverá insulina suficiente no país inteiro para tratar tanta gente...