[R-es] Simulación de modelo logit con interacción

eric ericconchamunoz en gmail.com
Vie Ene 23 20:44:06 CET 2015


Pero que gran comunidad ... si el mundo funcionara con esta generosidad, el estado de cosas sería diferente .... gracias por existir.

Slds, eric.




On 23/01/15 16:24, Emilio Torres Manzanera wrote:
> ¡Mil gracias!
> Parece que el tamaño ¡sí que importa! aunque solo sean 4 coeficientes. Para estimar los 4 coeficientes con cierta precisión, se necesitan unos 2000 datos. La próxima vez que vea un estudio sobre si trabaja (sí/no) en función del sexo (hombre/mujer) y estado civil (casado/soltero), con un tamaño de muestra de n=400, no sé qué le diré al autor...
>
> Respecto a los coeficientes, la verdad es que eran feos (eso me pasa por copiar y pegar de otros ejemplos). Pongo abajo el código definitivo que he utilizado para que mi pobre ordenador pudiera correr la simulación en un tiempo razonable.
>
> ¡Gracias de nuevo!
> Emilio
>
> ## ============================================================
> library(dplyr)
> ## funcion auxiliar
> hacertablafrecuencias <- function(x, vars=NULL, freq=NULL, sort=FALSE){
>   evaldp <- function (.data, .fun.name, ..., .envir = parent.frame())
>     {
>       args <- list(...)
>       args <- partial_eval(args, env = .envir)
>       args <- unlist(args)
>       if (is.function(.fun.name))
>         .fun.name <- as.character(substitute(.fun.name))
>       code <- paste0(.fun.name, "(.data,", paste0(args, collapse = ","),
>                      ")")
>       eval(parse(text = code, srcfile = NULL))
>     }
>   if(is.null(vars)) vars <- names(x)
>   nms <- c(vars, "freq")
>   nmsfreq <- make.names(nms, unique = TRUE)[length(nms)]
>   if (is.null(freq)) {
>     action <- paste( nmsfreq,"=n()" ) ##quote(n())
>   } else {
>     if(freq=="freq") nmsfreq <- "freq"
>     vars <- vars[ vars!= "freq"]
>     action <- paste(nmsfreq, "=sum(",freq,")")
>   }
>   if(nmsfreq!="freq") warning(paste("freq column:",nmsfreq))
>   out <- group_by_(x, .dots = vars) %>%
>     evaldp(summarise, action) %>%
>       ungroup()
>   if (!sort) {
>     out
>   } else {
>     arrange(out, desc(freq))
>   }
> }
>
>  ## modelo : -1 - 4 * dat$x1 + 7 * dat$x2 - 1 *dat$x1* dat$x2
>
> logisticsimulation <- function(n){
>   dat <- data.frame(x1=rep(c(0:1), each=n),
>                     x2=rep(c(0:1), time=n))
>   odds <- exp(-1 - 4 * dat$x1 + 7*dat$x2 - 1 *dat$x1* dat$x2 )
>   pr <- odds/(1+odds)
>   res <- replicate(100, {
>     dat$y <- rbinom(2*n,1,pr)
>     ttdat <- hacertablafrecuencias(dat)
>     coef(glm(y ~ x1*x2, data = ttdat, family = binomial(),weights=ttdat$freq))
>   })
>   t(res)
> }
>
> res <- logisticsimulation(400) # son en realidad 800 datos. Ajusta de pena
> apply(res,2,median)
> ## (Intercept)          x1          x2       x1:x2
> ##  -0.9946226  -4.2473363  19.8453136  -0.5429929
>
> res <- logisticsimulation(1000) # son en realidad 2000 datos. Buen ajuste
> apply(res,2,median)
> ## (Intercept)          x1          x2       x1:x2
> ##   -1.004794   -4.120370    7.243097   -1.267561
>
>
>
>
>
>
> On Friday, January 23 2015, 12:23:25, Olivier Nuñez <onunez en unex.es> wrote:
>
> > Efectivamente, la normalidad tarda en llegar (un problema que merece ser investigado)
> > En cualquier caso, parece que ambos diseños dan varianzas asintóticas similares de los estimadores:
> >
> >> n=1000
> >>
> >> dat <- data.frame(x1=sample(0:1, n,replace=TRUE),x2=sample(0:1, n,replace=TRUE))
> >> dat$intercept=1
> >> odds <- exp(-1 - 4 * dat$x1 + 7*dat$x2  - 1 *dat$x1* dat$x2 )
> >> pr <- odds/(1+odds)
> >> D=diag(pr*(1-pr))
> >> X=as.matrix(dat)
> >> I=t(X)%*%D%*%X
> >> solve(I)
> >                   x1           x2    intercept
> > x1         0.4716741 -0.451997095 -0.014952896
> > x2        -0.4519971  0.470731667 -0.005214237
> > intercept -0.0149529 -0.005214237  0.020017370
> >>
> >> dat$x1= rep(c(0,1), each = n/2)
> >> dat$x2 = rep(c(0,1), times = n/2)
> >> odds <- exp(-1 - 4 * dat$x1 + 7*dat$x2 - 1 * dat$x1 * dat$x2 )
> >> pr <- odds/(1+odds)
> >>   
> >> D=diag(pr*(1-pr))
> >> X=as.matrix(dat)
> >> I=t(X)%*%D%*%X
> >> solve(I)
> >                    x1           x2    intercept
> > x1         0.45113285 -0.430788206 -0.014755274
> > x2        -0.43078821  0.451132851 -0.005589371
> > intercept -0.01475527 -0.005589371  0.020161833
> >>
> >
> >
> > ----- Mensaje original -----
> > De: "Carlos J. Gil Bellosta" <cgb en datanalytics.com>
> > Para: "Olivier Nuñez" <onunez en unex.es>
> > CC: "Emilio Torres Manzanera" <torres en uniovi.es>, "r-help-es" <r-help-es en r-project.org>
> > Enviados: Viernes, 23 de Enero 2015 11:14:44
> > Asunto: Re: [R-es] Simulación de modelo logit con interacción
> >
> > Hola, ¿qué tal?
> >
> > Cierto, cierto, había un error en el código que publiqué. Pero el
> > diagnóstico es parecido. Cuando los datos se generan con el
> > coeficiente de x2 igual a 7, los coeficientes estimados tienen una
> > distribución extraña, bimodal (aparentemente), en lugar de
> > _normalmente_ distribuida alrededor del 7 como se espera. Supongo que
> > depende del número de casos en que x2 = 1 e y = 0.
> >
> > Un saludo,
> >
> > Carlos J. Gil Bellosta
> > http://www.datanalytics.com
> >
> > El día 23 de enero de 2015, 9:54, Olivier Nuñez <onunez en unex.es> escribió:
> >> Emilio,
> >>
> >> espero no haberte generado mucha confusión con mi anterior respuesta.
> >> El problema no es de separación sino más bien de tamaño muestral.
> >> Al coger el código de Carlos, obtenía que "y" y "x1" eran sistemáticamente independiente (la tabla table(dat$y,dat$x1) tiene columnas proporcionales).
> >> En el diseño de Carlos, el código correcto para simular los datos ha de ser dat$y= rbinom(2*n,1,pr).
> >> Con tu diseño, si elijo un tamaño muestral suficientemente grande, obtengo estimaciones razonables de los parámetros de tu modelo:
> >>
> >>> res <- logisticsimulation(10000)
> >>> apply(res,2,median)
> >> (Intercept)          x1          x2       x1:x2
> >>  -0.9955877  -3.9938632   6.9967218  -0.9913839
> >>
> >> Un saludo. Olivier
> >>
> >>
> >> ----- Mensaje original -----
> >> De: "Emilio Torres Manzanera" <torres en uniovi.es>
> >> Para: r-help-es en r-project.org
> >> Enviados: Jueves, 22 de Enero 2015 12:28:14
> >> Asunto: [R-es] Simulación de modelo logit con interacción
> >>
> >> Hola,
> >> Deseo simular un modelo logit con interacción, estimar sus coeficientes y comprobar si son o no parecidos al modelo teórico. Con este ejemplo obtengo que los coeficientes estimados no se asemejan mucho a los originales. ¿Se le ocurre a alguien cuál es el motivo de esta discrepancia? ¿y cómo solucionarlo?
> >> Muchas gracias
> >> Emilio
> >>
> >> logisticsimulation <- function(n){
> >>   dat <- data.frame(x1=sample(0:1, n,replace=TRUE),
> >>                     x2=sample(0:1, n,replace=TRUE))
> >>   odds <- exp(-1 - 4 * dat$x1 + 7*dat$x2 - 1 *dat$x1* dat$x2 )
> >>   pr <- odds/(1+odds)
> >>   res <- replicate(100, {
> >>     dat$y <- rbinom(n,1,pr)
> >>     coef(glm(y ~ x1*x2, data = dat, family = binomial()))
> >>   })
> >>   t(res)
> >> }
> >>
> >> res <- logisticsimulation(100)
> >> apply(res,2,median)
> >> ## (Intercept)          x1          x2       x1:x2
> >> ## -1.0986123 -18.4674562  20.4823593  -0.0512933
> >>
> >> Deberían salir -1, -4, 7, 1
> >>
> >> _______________________________________________
> >> R-help-es mailing list
> >> R-help-es en r-project.org
> >> https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>
> >> _______________________________________________
> >> R-help-es mailing list
> >> R-help-es en r-project.org
> >> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>

-- 
Forest Engineer
Master in Environmental and Natural Resource Economics
Ph.D. student in Sciences of Natural Resources at La Frontera University
Member in AguaDeTemu2030, citizen movement for Temuco with green city standards for living

Nota: Las tildes se han omitido para asegurar compatibilidad con algunos lectores de correo.



Más información sobre la lista de distribución R-help-es