[R-es] El test de la chi-cuadrado, ¿demasiado restrictivo asintóticamente?
Carlos J. Gil Bellosta
cgb en datanalytics.com
Lun Jul 20 19:56:46 CEST 2009
Hola, ¿qué tal?
El problema que motiva mi mensaje es el siguiente. Imaginad un banco
que ha concedido un millón de hipotecas. Cada hipoteca está asignada a
uno de 10 niveles de riesgo distinto (A1 el menos arriesgado, A10
"subprime").
Pasa un mes y se recalculan los niveles de cada una de las hipotecas.
Algunas ya se han cancelado, hay hipotecas nuevas, etc.
Tanto el banco en cuestión como el regulador (Banco de España, en mi
caso particular) están interesados en detectar si hay "desviaciones
poblacionales significativas". Si se detecta una "desviación
poblacional significativa" se generan una serie de alarmas, hay que
replantear modelos, hay que notificar al regulador, etc.
Para detectar estas "desviaciones poblacionales significativas" se
plantean distintos tests. Uno de ellos (utilizado por algunos bancos,
sugerido también en el documento regulatorio que he apuntado antes) es
el de la chi-cuadrado.
Problema: que la población subyacente es tan grande que los p-valores
obtenidos con fluctuaciones "mínimas" son alarmantes, del tipo
0.000000000000000000000021233. Y eso aun cuando los histogramas, a
simple vista, son casi idénticos.
Claro, es difícil justificar que con histogramas casi idénticos, con
conteos de frecuencias muy similares, haya que decir: "según el
p-valor obtenido por el test de la chi-cuadrado, Vd. tiene que
replantearse la homogeneidad de su población".
Simplemente creo que en este contexto, a pesar de que se utilice el
test de la chi-cuadrado y que incluso se recomiende desde "altas
esferas", es necesario plantearse una alternativa. De ahí que haya
escrito a la lista: no sé si en estudios demográficos, de poblaciones
de especies en ecosistemas, en disciplinas donde se manejen
frecuencias elevadas, se utilizan medidas de "homogeneidad
poblacional" distintas de la de la chi-cuadrado.
Entiendo que, en última instancia, debería ser el banco (o el
regulador) el que determinase cómo de grande debería ser la desviación
que tuviese que generar una alarma (y eso no lo decido yo). Pero me
gustaría ser capaz de proponer una medida alternativa al estadístico
que da lugar al test de la chi-cuadrado que, como propiedad deseable,
no dependiese de n (el tamaño muestral)...
No sé si esto aclara las cosas o consigue el efecto contrario...
Un saludo,
Carlos J. Gil Bellosta
Más información sobre la lista de distribución R-help-es