[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?

Carlos J. Gil Bellosta cgb en datanalytics.com
Lun Jul 20 17:41:35 CEST 2009


Hola, ¿qué tal?

Voy a reescribir la pregunta con números:

He aquí mi población original, dividida en 10 grupos.

> pop.1 <- 20 + floor( 20 * runif( 10 ) )
> pop.1
 [1] 38 29 33 36 34 29 35 36 32 30
>

Pasa un tiempo y la estructura de la población cambia:

> delta <- 10 * runif( 10 ) - 5
> delta
 [1]  4.7020517  4.3205607  2.0654851 -3.7318978 -3.2750279  3.3187095
-2.3651520 -3.2477705 -4.7871293
[10] -0.4588495
> pop.2 <- floor( pop.1 * ( 1 + delta / 100 ) )
> pop.2
 [1] 39 30 33 34 32 29 34 34 30 29

Pero el test de homogeneidad nos indica que no ha variado sustancialmente.

>  summary( as.table( cbind( pop.1, pop.2 ) ) )
Number of cases in table: 656
Number of factors: 2
Test for independence of all factors:
        Chisq = 0.20326, df = 9, p-value = 1

Pero no tengo sum( pop.1 ) individuos sino 100 veces más, y:

>  summary( as.table( 100 * cbind( pop.1, pop.2 ) ) )
Number of cases in table: 65600
Number of factors: 2
Test for independence of all factors:
        Chisq = 20.326, df = 9, p-value = 0.01601

No es que no sepa por qué sucede esto. Muy al contrario. Lo que quiere
decir eso es que dicho test es prácticamente inútil para determinar
cambios en la estructura poblacional de poblaciones muy amplias.

Es decir, que, por ejemplo, el test que sugiere la página 52 de
http://www.bis.org/publ/bcbs_wp14.htm no es práctico dado que se
aplica a poblaciones típicamente del orden de cientos de miles de
individuos.

De ahí mi pregunta: ¿existe algún tipo de medida que utilicen
biólogos, demógrafos, etc.que les permita decir si la estructura de
dos poblaciones (o la misma en dos tiempos distintos) es diferente de
una manera menos rígida para N grande que con el test anterior?

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com








> delta <- 10 * runif( 10 )
> delta
 [1] 6.740857 2.525657 2.873351 4.993330 7.544971 2.166013 8.508014 8.216934
 [9] 4.014574 5.096739
> pop.2 <- floor( pop.1 * ( 1 * delta / 100 ) )
> pop.2
 [1] 2 0 0 1 2 0 2 2 1 1
> pop.2 <- floor( pop.1 * ( 1 + delta / 100 ) )
> pop.2
 [1] 40 29 33 37 36 29 37 38 33 31
> summary( table( pop.1, pop2 ) )
Error en table(pop.1, pop2) : objeto 'pop2' no encontrado
> summary( table( pop.1, pop.2 ) )
Number of cases in table: 10
Number of factors: 2
Test for independence of all factors:
        Chisq = 52.5, df = 42, p-value = 0.1285
        Chi-squared approximation may be incorrect


El 20 de julio de 2009 16:10, Kjetil Halvorsen<kjetil1001 en gmail.com> escribió:
> No estoy seguro si entiendo correctamewnte el problema. peri si si,
> Brad Efron ha desarrollado ideas interesantes para atacar este tripo
> de problemas,
> el esta hablando de "estimar la hipótesis nula"! Estrictamente la
> _distribución_ nula. Así el criterio de rechazo se puede adaptar al
> los datos. Yo he encontrado estas idéas útiles. Estan coneccionados
> con la idea de controlar FDR "la taza de descubrimientos falsos".
>
> http://www-stat.stanford.edu/~ckirby/brad/
> Especialmente, mire:
>
> Mire la lista de sus papeles desde 2000, comenzando con 2003:
> "Large-scale simultaneous hypothesis testing: The choice of a null hypothesis"
>
> Yo encuentro estas idéas superinteresantes (y superútiles!)
>
> Kjetil
>
> 2009/7/20 Carlos J. Gil Bellosta <cgb en datanalytics.com>:
>> Hola, ¿qué tal?
>>
>> Las propiedades asintóticas del test de la chi-cuadrado me están
>> llevando a rechazar sistemáticamente hipótesis de homogeneidad. El
>> problema es el siguiente.
>>
>> Parto de una población de n individuos (n del orden de 100.000). En
>> t0, están agrupados en 10 bloques, A1-A10.
>>
>> En t1, algunos inviduos han entrado, otros han salido, otros han
>> cambiado de bloque. Y me interesa estimar la medida en la que ha
>> cambiado la distribución de la población sobre los bloques.
>>
>> Pero encuentro la hipótesis que conduce al test de la chi-cuadrado
>> demasiado restrictivo. De hecho, haciendo las cuentas, observo que las
>> desviaciones de frecuencias respecto a la población original que
>> conducen a un rechazo de la hipótesis de homogeneidad son del orden de
>> la raíz cuadrada de n. Es decir, conforme n aumenta, una desviación de
>> un 1% puede pasar de no provocar un rechazo de H0 a provocarlo.
>>
>> ¿Existe algún test o conjunto de hipótesis distinto al que subyace al
>> test de la chi-cuadrado que útil para el estudio de este tipo de
>> problemas que se usen en campos como demografía, ecología, etc., donde
>> n sea, típicamente grande?
>>
>> Un saludo,
>>
>> Carlos J. Gil Bellosta
>> http://www.datanalytics.com
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
>
> --
> "... an entire human genome would fit on a music CD."
>
> --- www.thinkgene.com
>



Más información sobre la lista de distribución R-help-es