[R-es] Cantidad de datos

Kjetil Halvorsen kjetil1001 en gmail.com
Sab Ago 8 00:53:24 CEST 2009


Hola!

2009/8/7 Manuel Bonilla <napso00 en gmail.com>:
> Gracias por la ayuda
>
> Intento con un computador de 3GB Hyper X de ram Procesador core i7 y
> maiboard extreme con video PCIex 1Gb...pero cuando hago el proceso R me dice
> esto:
> Read: 52 232 796 items (pero tengo solamente 30 000 000 datos no se porque
> me dice este numero)

Seguramente incluye overhead durante la lectura, que puede ser grande.
Si usas read.table,
puedes tratar de leer los datos directamente con scan(), que usa menos
memoria. Si usas windows, la utilización de la memoria no es óptimo,
en este caso puede ayudar cambiar a linux!

> Error: no se puede ubicar un vector de tamaño 398.5Mb
> Mi archivo es un archivo .txt de 281 569 Kb.
> Tal ves no uso la buena funcion, para información uso la función "read".

Otras ideas: lee
CRAN Task View: High Performance and Parallel Computing, y
partucularmente los paquetes (CRAN)  biglm que puede estimar modelos
lm() y glm() con datos no en memoria, leyendo los datos por partes., y
bigmemory que también parece interesante.

Otra idea: Con preguntas similares en R-help, Brian Ripley multiples
veces ha comentado
que con conjuntos de datos de este tamaño no se puede esperar
homogeneidad. Seguramente
existe multiples subgrupos dentro de los datos, que se puede analizar
por separado, y despues
juntar los analisis, talvez como un "meta-analisis". para este puede
ayudar representar los datos
usando una base de datos, R tiene múltiples paquetes que hace interfaz
a varios bases de datos.

kjetil

>
> Manuel Bonilla
>
> Kjetil Halvorsen escribió:
>
> Bién, yo creo que tienes que dar un poco más de información, por
> ejemplo cuanto RAM
> tiene tu maquina, sistema operativo, que métodos estadísticos quieres usar,
> etc.
>
> Si 30 000 000 de dator significa 30 000 000 numeros reales, esto significa
> (cada uno usa 8 byte de memoria) 8* 30 000 000 =240 000 000 bytes o
> 240 MB. Como R trabaja con todo en RAM,
> necesitas por lo menos algo como 1 Giga B de RAM. Si 30 000 000 refiere a
> numero
> de individuos (personas "units") en los datos, mucho más. Tienes que
> dar mejor info!
>
> Kjetil
>
> 2009/8/7 Manuel Bonilla <napso00 en gmail.com>:
>
>
> Buenas, tengo 30 000 000 de datos, y el R no me deja trabajar, como podria
> corregir eso problema para trabajar con los 30 000 000, mintras es estoy
> trabajando cada 1 000 000 pero no es igual.
> Espero puedan ayudarme
>
> saludos
>
> --
> Manuel Bonilla
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
>



-- 
"... an entire human genome would fit on a music CD."

--- www.thinkgene.com



Más información sobre la lista de distribución R-help-es