[R-es] MUESTRA ESTRATIFICADA AFIJ OPTIMA
Olivier Nuñez
onunez en iberstat.es
Dom Feb 7 21:20:05 CET 2010
Tus datos son extremadamente heterogéneos, como lo revela su
distribución:
plot(density(V.PAGADO ))
Lo cual legitima un muestreo estratificado.
Pero, lo primero que haría en este caso es considerar algo más
regular: una transformación log de tus datos
datos= log(V.PAGADO )
Al representar la distribución de esta transformación de los datos
plot(density( datos ))
se obtiene algo a lo cual se puede razonablemente ajustar una mixtura
de distribuciones normales.
Un manera de determinar un número de strata para tu muestreo consiste
en determinar el número optimo (según el BIC) de componentes de esta
mixtura.
Para ello, puedes utilizar el paquete "mclust"
require(mclust)
y luego :
fit=Mclust(datos)
> best model: unequal variance with 2 components
Por lo tanto, una muestreo estratificado con 2 strata debería ser una
buena opción.
Luego, para definir los dos strata puedes utilizar la clasificación
propuesta por Mclust:
strata= fit$classification
Una afijación optima requiere una estimación de la variabilidad
(sigma) en el seno de los stratas y sus respectivos tamaños (N):
N = table(strata)
sigma = sqrt(fit$parameters$variance$sigmasq)
A partir de ello, puedes deducir la afijación optima (en el sentido
de Neyman):
Afijacion = round(K*N*sigma/sum(N*sigma) )
donde K es el tamaño muestral que habrás elegido.
Obviamente, si consideras la población de los 62.000 casos en vez de
los 50 que mandaste,
el número de strata puede cambiar sustancialmente.
--
____________________________________
Olivier G. Nuñez
Email: onunez en iberstat.es
Tel : +34 663 03 69 09
Web: http://www.iberstat.es
____________________________________
El 07/02/2010, a las 18:20, John Jacho escribió:
> V.PAGADO <- c(247.38, 55.59, 124.05, 84.02, 44.51, 9.34, 36.99,
> 133.12, 17.00, 72.00, 1005.05, 58.55, 1031.25, 88.79, 58.14, 47.61,
> 201.41, 1703.27, 69.51, 37.02, 27.35, 36.14, 70.00, 110.29, 713.30,
> 63.18, 51.77, 44.24, 1250.00, 31.50, 1180.50, 31.17, 148.28, 22.50,
> 21.60, 19.00, 12.00, 9.00, 9.00, 9.00, 9.00, 7.00, 6.24, 17.71,
> 110.39, 183.71, 80.00, 31.70, 57.88, 40.00)
Más información sobre la lista de distribución R-help-es