[R-es] Sobre categorías de factores extraídos de un data.frame

Mie Jul 4 23:21:04 CEST 2012

Estimado Freddy López

Si usted tiene más de 1.000.000 de individuos, con o sin mediciones 
repetidas por individuo, pero algunos entran en categorías donde son únicos, 
creo que lo que está desproporcionado son las categorías, son muchas, por 
ejemplo, usted tiene individuos de 1 año, de 2 años, de 3 años, ..., ¿se 
podría crear una categoría con menores de 10, otra con entre 10 y 20, y así 
sucesivamente?

Javier Marcuzzi

-----Mensaje original----- 
From: Freddy López
Sent: Wednesday, July 04, 2012 5:44 PM
To: r-help-es en r-project.org
Subject: [R-es] Sobre categorías de factores extraídos de un data.frame

Hola estimados miembros de la lista,

Tengo una inquietud.

Les cuento: tengo un conjunto de datos en un data.frame. Algunas de las
variables que estÃ¡n en Ã©l son del tipo factor. Estos factores,
naturalmente, tiene categorÃas: a veces demasiadas categorÃas y muchas de
ellas con 1 individuo contemplando el data.frame mÃ¡s de 1 millÃ³n de
individuos.

Estas pequeÃ±as cantidades creo que me estÃ¡n estropeando parte de los
anÃ¡lisis que estoy realizando y he decidido realizar todo solo con aquellos
factores cuyas categorÃas sean al menos un valor k (donde k con toda
seguridad no bajarÃ¡ de al menos 1000, pero esto no lo he decidido :) ).

La decisiÃ³n muy bien, pero al hacer la selecciÃ³n, por ejemplo con sqldf, 
me
quedan aÃºn las categorÃas que no estoy contemplando con un conteo en 0.
Ejemplo:

# datos de ejemplo:
> data.frame(letras=c(rep("a",2),rep("b",2),rep("c",2)),otra=runif(6))
  letras       otra
1      a 0.04860339
2      a 0.79562345
3      b 0.42864128
4      b 0.10950613
5      c 0.69018354
6      c 0.15778063
> ej<-data.frame(letras=c(rep("a",2),rep("b",2),rep("c",2)),otra=runif(6))

# selecciono un subconjunto de los anteriores
> sqldf("select * from ej where letras='a'")
  letras      otra
1      a 0.7142700
2      a 0.7124181
> res<-sqldf("select * from ej where letras='a'")

# he aquÃ el resultado:
> table(res$letras)

a b c
2 0 0

Esos dos Ãºltimos ceros son los que no estoy necesitando. TambiÃ©n se
comporta igual si utilizo:

> table(ej[ej$letras=='a',]$letras)

a b c
2 0 0

dos ceros que no necesito. Si utilizo

> table(factor(ej[ej$letras=='a',]$letras))

a
2

funciona como estoy interesado pero en mi data.frame original tengo mÃ¡s de
100 variables y no me figuro una manera poco redundante para solucionarlo.

Â¿Alguien tendrÃ¡ idea de cÃ³mo puedo deshacerme de las categorÃas que no
tengan conteos en un data.frame?

Muchas gracias.

-- 
Â«But Gwindor answered: 'The doom lies in yourself, not in your name.'Â»

JRR Tolkien

[[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es