Saltar ao contido

Contraste de hipóteses

Na Galipedia, a Wikipedia en galego.

En inferencia estatística, un contraste de hipóteses (tamén denominado test de hipóteses ou proba de significación) é un procedemento para xulgar se unha propiedade que se supón nunha poboación estatística é compatible co observado nunha mostra desa poboación. Foi iniciado por Ronald Fisher e fundamentado posteriormente por Jerzy Neyman e Karl Pearson.

Mediante esta teoría, abórdase o problema estatístico considerando unha hipótese determinada e unha hipótese alternativa , e inténtase decidir cal das dúas é a hipóteses verdadeira, tras aplicar o problema estatístico a un certo número de experimentos.

Está fortemente asociado ao concepto estatístico de potencia e aos conceptos de erros de tipo I e II, que definen respectivamente, a posibilidade de tomar un suceso falso como verdadeiro, ou un verdadeiro como falso.

Os tipos máis importantes son os test centrados, de hipóteses e alternativa simple, aleatorizados etc. Dentro dos tests non paramétricos, o máis estendido é probablemente o test da U de Mann-Whitney.

Introdución

[editar | editar a fonte]

Se sospeitamos que unha moeda foi trucada para que se produzan máis caras que cruces ao lanzala ao aire, poderíamos realizar 30 lanzamentos, tomando nota do número de caras obtidas. De obtermos un valor demasiado alto, por exemplo 25 ou máis, consideraríamos que o resultado é pouco compatible coa hipóteses de que a moeda non está trucada, e concluiríamos que as observacións contradín a hipótese.

A aplicación de cálculos probabilísticos permite determinar a partir de que valor debemos rexeitar a hipótese garantindo que a probabilidade de cometer un erro é un valor coñecido a priori. As hipóteses poden clasificarse en dous grupos, segundo:

  1. Especifiquen un valor concreto ou un intervalo para os parámetros do modelo.
  2. Determinen o tipo de distribución de probabilidade que xerou os datos.

Un exemplo do primeiro grupo é a hipóteses de que a media dunha variable é 10, e do segundo que a distribución de probabilidade é a distribución normal.

Aínda que a metodoloxía para realizar o contraste de hipóteses é análoga en ambos os casos, distinguir ambos os tipos de hipóteses é importante posto que moitos problemas de contraste de hipóteses respecto a un parámetro son, en realidade, problemas de estimación, que teñen unha resposta complementaria dando un intervalo de confianza (o conxunto de intervalos de confianza) para ese parámetro. Porén, as hipóteses respecto á forma da distribución adoitan empregarse para validar un modelo estatístico para un fenómeno aleatorio que se está a estudar.

Formulación clásica do contraste de hipóteses

[editar | editar a fonte]

Denomínase hipótese nula á hipótese que se desexa contrastar. O nome de "nula" significa “sen valor, efecto ou consecuencia”, o que suxire que debe identificarse coa hipótese de non cambio (a partir da opinión actual); non diferenza, non mellora etc. representa a hipótese que manteremos a non ser que os datos indiquen a súa falsidade, e pode entenderse, polo tanto, no sentido de “neutra”. A hipótese nunca se considera probada, aínda que pode ser rexeitada polos datos. Por exemplo, a hipótese de que dúas poboacións teñen a mesma media pode ser rexeitada facilmente cando ambas difiren moito, analizando mostras suficientemente grandes de ambas as poboacións, pero non pode ser "demostrada" mediante mostraxe, posto que sempre existe a posibilidade de que as medias difiran nunha cantidade suficientemente pequena para que non poida ser detectada, aínda que a mostra sexa moi grande.

A partir dunha mostra da poboación en estudo, extráse un estatístico (un valor que é función da mostra) cunha distribución de probabilidade que estea relacionada coa hipótese en estudo e sexa coñecida. Tómase entón como rexión de rexeitamento o conxunto de valores que é máis improbable baixo a hipóteses, é dicir, o conxunto de valores para o que rexeitaremos a hipótese nula se o valor do estatístico observado entra dentro del.

A probabilidade de que se obteña un valor do estatístico que entre na rexión de rexeitamento aínda sendo certa a hipótese pode calcularse. Deste xeito, pódese escoller esa rexión de tal forma que a probabilidade de cometer este erro sexa suficientemente pequena.

Seguindo co anterior exemplo da moeda trucada, a mostra da poboación é o conxunto dos trinta lanzamentos que se realizan, o estatístico escollido é o número total de caras obtidas, e a rexión de rexeitamento está constituída polos números totais de caras iguais ou superiores a 25. A probabilidade de cometer o erro de admitir que a moeda está trucada a pesar de que non o está é igual á probabilidade binomial de ter 25 "éxitos" ou máis nunha serie de 30 ensaios de Bernoulli con probabilidade de "éxito" 0,5 en cada un, entón: 0,0002, pois existe a posibilidade, aínda que pouco probable, de que a mostra nos dea máis de 25 caras sen estar trucada a moeda.

Procedementos de proba

[editar | editar a fonte]

Un procedemento de proba é unha regra con base en datos da mostra, para determinar se se rexeita .

Exemplo
Unha proba de : p = 0.10 contra : p < 0.10, podería estar baseada no exame dunha mostra aleatoria de n = 200 obxectos. Representamos con X o número de obxectos defectuosos da mostra, unha variable aleatoria binomial; x representa o valor observado de X. Se é verdadeira, E(X) = np = 200*(0.10) = 20, mentres, podemos esperar menos de 20 obxectos defectuosos se é verdadeira. Un valor de x lixeiramente debaixo de 20 non contradí de maneira contundente a así que é razoable rexeitar só se x é considerablemente menor que 20. Un procedemento de proba é rexeitar se x≤15 e non rexeitar doutra forma. Neste caso, a rexión de rexeitamento está formada por x = 0, 1, 2, …, e 15. non será rexeitada se x= 16, 17,…, 199 o 200.

Un procedemento de proba especifícase polo seguinte:

  1. Un estatístico de proba: unha función dos datos da mostra nos que se basea a decisión de rexeitar ou non rexeitar .
  2. Unha rexión de rexeitamento, o conxunto de todos os valores do estatístico de proba para os que será rexeitada.

Entón, a hipótese nula será rexeitada se e só se o valor observado ou calculado do estatístico de proba se localiza na rexión de rexeitamento

No mellor dos casos poderían desenvolverse procedementos de proba para os que non é posible ningún tipo de erro. Pero isto pode acadarse só se unha decisión se basea nun exame de toda a poboación, o que case nunca é práctico. A dificultade ao usar un procedemento baseado en datos da mostra é que debido á variabilidade na mostraxe pode resultar unha mostra non representativa.

Un bo procedemento é aquel para o que a probabilidade de cometer calquera tipo de erro é pequena. A elección dun valor particular de corte da rexión de rexeitamento fixa as probabilidades de erros tipo I e II. Estas probabilidades de erro son representadas por α e β, respectivamente.

Enfoque actual dos contrastes de hipóteses

[editar | editar a fonte]

O enfoque actual considera sempre unha hipótese alternativa fronte á hipótese nula. De maneira explícita ou implícita, a hipótese nula, á que se denota habitualmente por , enfróntase a outra hipóteses que denominaremos hipótese alternativa e que se denota . Nos casos nos que non se especifica de maneira explícita, podemos considerar que quedou definida implicitamente como “ é falsa”.

Se por exemplo desexamos comprobar a hipótese de que dúas distribucións teñen a mesma media, estamos implicitamente considerando como hipóteses alternativa “ambas as poboacións teñen distinta media”. Non obstante, podemos considerar casos nos que non é a simple negación de . Supoñamos por exemplo que sospeitamos que nun xogo de azar cun dado, este está trucado para obter 6. A nosa hipótese nula podería ser “o dado non está trucado” que intentaremos contrastar, a partir dunha mostra de lanzamentos realizados, contra a hipótese alternativa “o dado foi trucado a favor do 6”. Poderían realizarse outras hipóteses, pero, a efectos do estudo que se pretende realizar, non se consideran relevantes.

Un test de hipóteses enténdense, no enfoque moderno, como unha función da mostra, correntemente baseada nun estatístico. Supoñamos que se ten unha mostra dunha poboación en estudo e que se formularon hipóteses sobre un parámetro relacionado coa distribución estatística da poboación. Supoñamos que se dispón dun estatístico cunha distribución con respecto a , que se coñece. Supoñamos, tamén, que as hipóteses nula e alternativa teñen a formulación seguinte:


Un contraste para estas hipóteses sería unha función da mostra da seguinte forma:


Onde significa que debemos rexeitar a hipóteses nula, (aceptar ) e , que debemos aceptar (ou que non hai evidencia estatística contra ). denomínase rexión de rexeitamento. En esencia, para construír o test desexado, abonda con escoller o estatístico do contraste e a rexión de rexeitamento .

Escóllese de tal xeito que a probabilidade de que T(X) caia no seu interior sexa baixa cando se da .

Erros no contraste

[editar | editar a fonte]
Artigo principal: Erros do tipo I e do tipo II.

Unha vez realizado o contraste de hipóteses, optarase por unha das dúas hipóteses, ou , e a decisión escollida coincidirá ou non coa que en realidade é certa. Pódense dar os catro casos que se expoñen no seguinte cadro:

é certa é certa
Escolleuse Non hai erro Erro de tipo II
Escolleuse Erro de tipo I Non hai erro

Se a probabilidade de cometer un erro de tipo I está univocamente determinada, o seu valor adoita denotarse pola letra grega α, e nas mesmas condicións, denótase por β a probabilidade de cometer o erro de tipo II, é dicir:


Neste caso, denomínase “potencia do contraste” ao valor 1-β, é dicir, á probabilidade de escoller cando é certa


.

Cando é necesario deseñar un contraste de hipóteses, sería desexable facelo de tal maneira que as probabilidades de ambos os tipos de erro fosen tan pequenas como fose posible. Porén, cunha mostra de tamaño prefixado, diminuír a probabilidade do erro de tipo I, α, conduce a incrementar a probabilidade do erro de tipo II, β.

Usualmente, deséñanse os contrastes de tal maneira que a probabilidade α sexa o 5% (0,05), aínda que ás veces emprégase o 10% (0,1) ou 1% (0,01) para adoptar condicións máis relaxadas o máis estritas. O recurso para aumentar a potencia do contraste, é dicir, diminuír β, probabilidade de erro de tipo II, é aumentar o tamaño da mostra, o que na práctica leva a un incremento dos custos do estudo que se quere realizar.

Contraste máis potente

[editar | editar a fonte]

O concepto de potencia permítenos valorar cal entre dous contrastes coa mesma probabilidade de erro de tipo I, α, é preferible. Se se trata de contrastar dúas hipóteses sinxelas sobre un parámetro descoñecido, θ, do tipo:


Trátase de escoller entre todos os contrastes posibles con α prefixado aquel que ten maior potencia, é dicir, menor probabilidade β de caer no erro de tipo II.

Neste caso o Lema de Neyman-Pearson garante a existencia dun contraste de máxima potencia e determina como construílo.

Contraste uniformemente máis potente

[editar | editar a fonte]

No caso de que as hipóteses sexan compostas, é dicir, que non se limiten a especificar un único posible valor do parámetro, senón que sexan do tipo:


onde e son conxuntos de varios posibles valores, as probabilidades α e β xa non están determinadas univocamente, senón que tomarán diferentes valores segundo os distintos valores posibles de θ. Neste caso dise que un contraste ten tamaño α se


é dicir, se a máxima probabilidade de cometer un erro de tipo I cando a hipóteses nula é certa é α. Nestas circunstancias, pódese considerar β como unha función de θ, posto que para cada posible valor de θ na hipótese alternativa habería unha probabilidade distinta de cometer un erro de tipo II. Defínese entón


e a función de potencia do contraste é entón


é dicir, a probabilidade de discriminar que a hipótese alternativa é certa para cada valor posible de θ dentro dos valores posibles desta mesma hipótese.

Dise que un contraste é “uniformemente máis potente de tamaño α” cando todo valor é maior ou igual que o de calquera outro contraste do mesmo tamaño. En resumo, trátase dun contraste que garante a máxima potencia para todos os valores de θ na hipóteses alternativa.

O caso do contraste uniformemente máis potente para hipóteses compostas esixe o cumprimento de condicións máis esixentes que no caso do contraste máis potente para hipóteses simples. Por iso, non existe un equivalente ao Lema de Neyman-Pearson para o caso xeral.

Porén, si existen moitas condicións nas que, cumpríndose determinadas propiedades das distribucións de probabilidade implicadas e para certos tipos de hipóteses, se pode estender o lema para obter o contraste uniformemente máis potente do tamaño que se desexe.

Aplicacións dos contrastes de hipóteses

[editar | editar a fonte]

Os contrastes de hipóteses, como a inferencia estatística en xeral, son ferramentas de amplo uso na ciencia. En particular, a moderna Filosofía da ciencia desenvolve o concepto de falsabilidade das teorías científicas baseándose nos conceptos da inferencia estatística en xeral e dos contrastes de hipóteses. Neste contexto, cando se desexa optar entre dúas posibles teorías científicas para un mesmo fenómeno (dúas hipóteses) débese realizar un contraste estatístico a partir dos datos dispoñibles sobre o fenómeno que permitan optar por unha ou outra.

As técnicas de contraste de hipóteses aplícanse tamén en moitos outros casos, como ensaios clínicos de novos medicamentos, control de calidade, enquisas etcétera.

Véxase tamén

[editar | editar a fonte]

Outros artigos

[editar | editar a fonte]

Ligazóns externas

[editar | editar a fonte]