Estatística não paramétrica

Na estatística, o termo estatística não paramétrica refere-se às estatísticas que não possuem dados ou população com estruturas ou parâmetros característicos.

Definições

Em estatística, o termo "estatística não paramétrica" possui pelo menos dois significados diferentes:

O primeiro significado de "não paramétrica" abrange técnicas que não dependem de dados pertencentes a nenhuma distribuição particular. Entre elas estão:
métodos de distribuição livre, que não dependem de suposições extraídas dos dados fornecidos por uma distribuição de probabilidade, dada a natureza aleatória e caótica dos dados. É o oposto de estatística paramétrica. Inclui estatística descritiva, modelos estatísticos, inferência estatística e testes de hipóteses não paramétricos.

estatísticas não paramétricas: o sentido aqui usado é o de estatística de dados, definido como uma função de uma amostra que não depende de parâmetros. A interpretação não depende da população, cabendo assim qualquer distribuição parametrizada. Estatísticas de ordem, que são baseadas no ranking de observações, são um exemplo desse tipo de estatística e desempenham um papel muito importante em muitas abordagens não paramétricas.[carece de fontes]
A seguinte discussão foi retirada do livro Kendall's.[1]
Hipóteses estatísticas dizem respeito ao comportamento de variáveis aleatórias observáveis... Por exemplo, a hipótese (a) que a distribuição normal tem uma média e uma variância especificados é estatística; Assim é a hipótese (b) de que tem uma hipótese dada mas uma variância não especificada; Assim é a hipótese (c) que a distribuição tem a forma normal com tanto a média quanto a variância não especificadas; Por fim, temos a hipótese (d) de que duas distribuições contínuas não especificadas são idênticas.
É notável que nos exemplos (a) e (b) a distribuição subjacentes às observações são de certa forma (normal) e a hipótese diz respeito inteiramente a valores de uma ou duas variáveis dos parâmetros. Essa hipótese é, portanto, chamada de "paramétrica".[carece de fontes]
A hipótese (c) foi de natureza diferente, pois nenhum dos valores dos parâmetros foram especificados na afirmação da hipótese; Nós podemos chamar essa hipótese de "não paramétrica". A hipótese (d) também é "não paramétrica" mas, além disso, não especifica a forma da distribuição, e por isso podemos nos referir como "distribuição livre". Apesar destas distinções, a literatura estatística utiliza comumente o termo "não paramétrica" para procedimentos de teste que nós acabamos de nos referir como "distribuição livre", perdendo assim uma classificação útil.[carece de fontes]
O segundo significado de "não paramétrica" faz referência a técnicas que não presumem que a estrutura de um modelo é fixa. Tipicamente, o modelo cresce para acomodar a complexidade dos dados. Nessas técnicas, variáveis individuais são normalmente consideradas a pertencer a distribuições paramétricas, e suposições sobre tipos de conexões entre as variáveis também são feitas. Essas técnicas incluem, entre outras:
Regressão não paramétrica, refere-se à modelação onde a estrutura das relações entre variáveis é tratada não parametricamente. Pode haver suposições paramétricas sobre a distribuição de modelos residuais.

Modelo hierárquico bayesiano não paramétrico, como modelos baseados no processo de Dirichlet, que permite que o número de variáveis latentes cresça de forma necessária para se adequar aos dados. As variáveis individuais, contudo, seguem modelos paramétricos de distribuição, e até mesmo o processo de controlar a taxa de crescimento latente segue uma distribuição paramétrica.[carece de fontes]

Aplicações e propósito

Métodos não paramétricos são usados largamente no estudo das populações que são tomadas em ordem de classificação (como um filme que recebe de uma a quatro estrelas de classificação). O uso de métodos não paramétricos também pode ser necessário quando os dados têm um ranking, mas nenhuma interpretação numérica clara, como quando se acessam preferências. Em termos de escala, métodos não paramétricos resultam em dados "em ordem".

Como métodos não paramétricos fazem menos suposições, a aplicação deles é mais ampla. Em particular, eles podem ser aplicados em situações em que não se sabe muito sobre o problema em questão. Além disso, por depender menos de hipóteses, métodos não paramétricos são mais robustos.

Outra justificativa é a simplicidade. Em certos casos, até mesmo quando o uso de métodos paramétricos é justificado, métodos não paramétricos são mais fáceis de usar. Por isso, métodos não paramétricos são vistos por algumas pessoas da área estatística como o método que deixa menos espaço para usos indevidos e mal-entendidos.

A maior aplicação e a maior robustez dos testes não paramétricos têm um custo: em alguns casos onde testes paramétricos seriam apropriados, testes não paramétricos têm menos potência estatística. Em outras palavras, uma amostra maior pode ser necessária para retirar conclusões com o mesmo grau de confiança.

Modelos não paramétricos

Modelos não paramétricos diferem dos modelos paramétricos por conta de o modelo de estrutura não ser especificado a priori, mas pode ser determinado pelos dados. O termo "não paramétrico" não significa que falta completamente todos os parâmetros, mas que o número e a natureza destes são flexíveis e não fixados antes.

Um histograma é uma simples estimação não paramétrica de distribuição de probabilidade.
Estimativa de densidade kernel fornece melhores estimativas da densidade do que os histogramas.
Os métodos de regressão não paramétrica e regressão semi-paramétrica foram desenvolvidos baseados em kernels, splines e wavelets.
Análise por envoltória de dados fornece coeficientes similares aos obtidos por análise de multivariáveis sem nenhuma hipótese de distribuição.

Métodos

Métodos de inferência estatística não paramétricos (ou distribuição livre) são procedimentos matemáticos para testes de hipóteses que, diferentemente da estatística paramétrica, não fazem suposições sobre distribuição de probabilidade das variáveis a serem consideradas. Mais frequentemente esses testes incluem:

Teste de Anderson–Darling: testa se uma amostra é retirada de uma distribuição dada;
Método estatístico de bootstrap: Estima a precisão/amostragem da distribuição estatística;
Q de Cochran: Testa se "k" tratamentos em blocos aleatórios com 0/1 de resultado têm efeitos idênticos;
Kaplan–Meier: estima a função de sobrevivência a partir de dados de tempo de vida;
Tau de Kendall: mede a dependência estatística entre duas variáveis;
Teste de Kolmogorov–Smirnov: testa se uma amostra é retirada de uma distribuição dada ou se duas amostras são da mesma distribuição;
Teste de Kuiper: testa se uma amostra é retirada de uma distribuição dada, sensível a variações cíclicas, como os dias da semana;
Teste de Mann–Whitney: testa se duas amostras são retiradas da mesma distribuição, em relação a uma dada hipótese alternativa. Trata-se de um teste semi não paramétrico;
Teste da mediana: testa se duas amostras são retiradas de distribuições com médias iguais;
Teste da permutação de Pitman: um teste de significância estatística que produz valores exatos "p", examinando todos os possíveis rearranjos;
Teste de Siegel–Tukey: teste que procura diferenças de escala entre grupos;
Teste de Conover ao quadrado: testa a igualdade das variâncias em duas ou mais amostras;
Teste de sequências de Wald–Wolfowitz: testa se os elementos de uma sequência são mutuamente independentes/aleatórios;
Teste dos postos sinalizados de Wilcoxon: testa se um par de amostras retirados de uma população tem médias diferentes.

Ver também

Notas

↑ Stuart A., Ord J.K, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model, sixth edition, §20.2–20.3 (Arnold).

Referências gerais

Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011). "Non-parametric tests for complete data", ISTE&WILEY: London&Hoboken. ISBN 978-1-84821-269-5
Corder, G.W. & Foreman, D.I. (2009) Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach, Wiley ISBN 978-0-470-45461-9
Gibbons, Jean Dickinson and Chakraborti, Subhabrata (2003) Nonparametric Statistical Inference, 4th Ed. CRC ISBN 0-8247-4052-1
Hettmansperger, T. P.; McKean, J. W. (1998). Robust nonparametric statistical methods. John Wiley and Sons, Inc. Col: Kendall's Library of Statistics. 5 First ed. London: Edward Arnold. pp. xiv+467 pp. ISBN 0-340-54937-8, 0-471-19479-4 Verifique |isbn= (ajuda). MR 1604954
Wasserman, Larry (2007) All of nonparametric statistics, Springer. ISBN 0-387-25145-6

[1] Stuart A., Ord J.K, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model, sixth edition, §20.2–20.3 (Arnold).

[1]