Buscar
  • Andressa Kutschenko Nahas

Meus dados não seguem distribuição normal, e agora?

Após uma longa coleta dos dados, o momento mais esperado do pesquisador são os resultados da análise estatística, que irão mostrar se houve evidências positivas da hipótese do estudo (como disse em outra postagem, nenhum estudo prova nada, apenas mostra evidências). E na ansiedade de obtenção dos dados, um dos primeiros passos do pesquisador é fazer a descrição dos dados e verificar se os dados seguem distribuição normal. E aí que muitas vezes bate um desespero: “Meus dados não seguem distribuição! E agora? Vou ter que usar estatística não-paramétrica?”.


Escuto com frequência esta frase, e isso me deixa muito preocupada, pois muitas análises estatísticas não são realizadas da maneira mais adequada por causa dessa falácia de que se os dados não seguem distribuição normal, deve-se usar técnicas estatísticas não-paramétricas.


Primeiramente é importante definir a diferença de estatística paramétrica e não-paramétrica:

  • Os modelos estatísticos paramétricos pressupõem que os dados são provenientes de um tipo de distribuição de probabilidade, e dessa maneira são feitas inferências sobre os parâmetros da distribuição.

  • A estatísticas não-paramétrica não dependem que os dados sejam provenientes de um tipo de distribuição de probabilidade. As técnicas baseiam-se em ranking das observações, chamados de postos.


Repetindo a primeira definição, os modelos estatísticos paramétricos pressupõem que os dados são provenientes de um tipo de distribuição de probabilidade: alguma distribuição de probabilidade, que não seja necessariamente a distribuição normal! Existem inúmeras distribuições de probabilidade, como Bernoulli, Binomial, Binomial Negativa, Geométrica, Hipergeométrica, Poisson, Uniforme, Logística, Beta, Cauchy, Exponencial, Lognormal, Weibull, dentre outras.


E há o fato de que pouquíssimos modelos paramétricos pressupõem que os dados devam seguir uma certa distribuição para ser validado. O teste t de student para comparação de médias de dois grupos (sejam eles dependentes ou independentes entre si) exigem que os dados de cada grupo sigam distribuição normal. Mas a Análise de Variância, usado para comparação de médias entre três ou mais grupos independentes entre si, não exigem que os dados tenham distribuição normal, e sim que os resíduos do modelo tenham distribuição normal, além das exigências de homogeneidade de variância e independência dos resíduos.


É importante entender o tipo da variável resposta (dependente) do seu modelo estatístico: se sua variável resposta é quantitativa discreta, variando de 0 a 20, por exemplo, provavelmente o modelo ficará melhor ajustado utilizando a distribuição de Poisson ou Binomial Negativa, que são distribuições específicas para dados de contagem.


Os modelos paramétricos são sempre preferíveis aos métodos não-paramétricos pois os modelos paramétricos são mais poderosos. Nos métodos não-paramétricos também há perda de informação pois os dados são trabalhados em forma de ranking, perdendo a magnitude das observações. Como o assunto é extenso, a próxima postagem abordará os métodos não-paramétricos, onde será explicado melhor como esta técnica funciona, os resultados que podem ser obtidos com ela, e suas vantagens e desvantagens.


Gostou das dicas? Foram ou serão úteis? Em caso de dúvidas e sugestões para outras postagens, estou à disposição!


Andressa Kutschenko Nahas andressa@aknconsultoria.com aknconsultoria.com


Imagem: "http://www.freepik.com">Designed by Freepik<