[R-es] MUESTRA ESTRATIFICADA AFIJ OPTIMA

Olivier Nuñez onunez en iberstat.es
Dom Feb 7 21:20:05 CET 2010


Tus datos son extremadamente heterogéneos, como lo revela su  
distribución:

plot(density(V.PAGADO ))

Lo cual legitima un muestreo estratificado.
Pero, lo primero que haría en este caso es considerar algo más  
regular: una transformación log de tus datos

datos= log(V.PAGADO )

Al representar la distribución de esta transformación de los datos

plot(density( datos ))

se obtiene algo a lo cual se puede razonablemente ajustar una mixtura  
de distribuciones normales.

Un manera de determinar un número de strata para tu muestreo consiste  
en determinar el número optimo (según el BIC) de componentes de esta  
mixtura.
Para ello, puedes utilizar el paquete "mclust"

require(mclust)

y luego :

fit=Mclust(datos)

 >  best model: unequal variance with 2 components

Por lo tanto, una muestreo estratificado con 2 strata debería ser una  
buena opción.

Luego, para definir los dos strata puedes utilizar la clasificación  
propuesta por Mclust:

strata= fit$classification

Una afijación optima requiere una estimación de la variabilidad  
(sigma) en el seno de los stratas y sus respectivos tamaños (N):

N = table(strata)
sigma = sqrt(fit$parameters$variance$sigmasq)

A partir de ello, puedes deducir la afijación optima (en el sentido  
de Neyman):

Afijacion = round(K*N*sigma/sum(N*sigma) )

donde K es el tamaño muestral que habrás elegido.


Obviamente, si consideras la población de los 62.000 casos en vez de  
los 50 que mandaste,
el número de strata puede cambiar sustancialmente.

--  
____________________________________

Olivier G. Nuñez
Email: onunez en iberstat.es
Tel : +34 663 03 69 09
Web: http://www.iberstat.es

____________________________________




El 07/02/2010, a las 18:20, John Jacho escribió:

> V.PAGADO <- c(247.38, 55.59, 124.05, 84.02, 44.51, 9.34, 36.99,  
> 133.12, 17.00, 72.00, 1005.05, 58.55, 1031.25, 88.79, 58.14, 47.61,  
> 201.41, 1703.27, 69.51, 37.02, 27.35, 36.14, 70.00, 110.29, 713.30,  
> 63.18, 51.77, 44.24, 1250.00, 31.50, 1180.50, 31.17, 148.28, 22.50,  
> 21.60, 19.00, 12.00, 9.00, 9.00, 9.00, 9.00, 7.00, 6.24, 17.71,  
> 110.39, 183.71, 80.00, 31.70, 57.88, 40.00)



Más información sobre la lista de distribución R-help-es