[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?

Kjetil Halvorsen kjetil1001 en gmail.com
Lun Jul 20 18:08:36 CEST 2009


Mire abajo:

2009/7/20 José Trujillo Carmona <trujillo en unex.es>:
> Si lo he entendido me parece que se trata de un problema de concepto.
>
> El problema del contraste de hipótesis consiste en demostrar que la
> hipótesis nula es falsa y además mientras menos datos para comprobarlo
> mejor. No ponemos la hipótesis que queremos demostrar en la hipótesis
> nula, sino que si hace falta llevamos la igualdad a la hipótesis
> alternativa como hacen los bioensayos.
>
> La hipótesis nula es falsa por principio pero la damos como buena si no
> hay evidencias en contra en base al principio de parsimonia o su forma
> más antigua "la navaja de Occam": si los datos no lo piden no
> compliquemos el modelo.
>
> Pero es que de tu planteamiento se deduce que efectivamente la hipótesis
> nula ha de ser falsa siempre; dices:
>
> En t1, algunos inviduos han entrado, otros han salido, otros han
> cambiado de bloque. ...
>
>
> Es decir, t0 no es igual que t1; hay evolución. Luego siempre debería
> dar falsa H0. A veces el movimiento es tan leve que ni con 100.000
> datos; pero ya sabes que H0 es falsa. El planteamiento del modelo de
> test de hipótesis es: "O son exactamente iguales, como dos números
> reales con infinitos decimales, o H0 es falsa".

Este es justo el problema que Brad Efron (inventor del bootstrap)
trata de resolver. Efectivamente, el esta redefiniendo el concepto
de hipótesis nula de "igualdad exacta" a "diferencias pequeñas sim importar"
y el clave de sus ideas es hacer este operacional mediante suponer a)
muchos datos
(por lo menos 100 H_0, mejor 1000) b) suponer que la gram mayoria de estos
H_0 son verdaderos, y c) bajo el supuesto b) ESTIMAR  la distribución
del criterio test bajo H_0. Yo he visto que esto funciona muy bién.

Si Carlos tiene más que 100 H_0, debe tratar esta idea.

Kjetil

>
> El problema por tanto ha de ser replanteado y definir cuando podemos dar
> por "similar" la situación t0 y t1, porque ya sabes que no son iguales y
> el test Ji-Cuadrado dirá que no son iguales si no son "EXACTAMENTE"
> iguales y tienes suficientes datos para acreditarlo, como es tu caso.
>
> Saludos.
>
>
>
> Carlos J. Gil Bellosta escribió:
>>
>> Hola, ¿qué tal?
>>
>> Las propiedades asintóticas del test de la chi-cuadrado me están
>> llevando a rechazar sistemáticamente hipótesis de homogeneidad. El
>> problema es el siguiente.
>>
>> Parto de una población de n individuos (n del orden de 100.000). En
>> t0, están agrupados en 10 bloques, A1-A10.
>>
>> En t1, algunos inviduos han entrado, otros han salido, otros han
>> cambiado de bloque. Y me interesa estimar la medida en la que ha
>> cambiado la distribución de la población sobre los bloques.
>>
>> Pero encuentro la hipótesis que conduce al test de la chi-cuadrado
>> demasiado restrictivo. De hecho, haciendo las cuentas, observo que las
>> desviaciones de frecuencias respecto a la población original que
>> conducen a un rechazo de la hipótesis de homogeneidad son del orden de
>> la raíz cuadrada de n. Es decir, conforme n aumenta, una desviación de
>> un 1% puede pasar de no provocar un rechazo de H0 a provocarlo.
>>
>> ¿Existe algún test o conjunto de hipótesis distinto al que subyace al
>> test de la chi-cuadrado que útil para el estudio de este tipo de
>> problemas que se usen en campos como demografía, ecología, etc., donde
>> n sea, típicamente grande?
>>
>> Un saludo,
>>
>> Carlos J. Gil Bellosta
>> http://www.datanalytics.com
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
"... an entire human genome would fit on a music CD."

--- www.thinkgene.com



Más información sobre la lista de distribución R-help-es