[R-es] cantidad de datos

Carlos J. Gil Bellosta cgb en datanalytics.com
Mie Abr 29 19:06:42 CEST 2015


Hola, ¿qué tal?

291GB viene a ser

280 * 280 * 1e6 * 8 / 2^30 / 2

que es el número de GB necesarios para almacenar la matriz de
distancias entre 280k sujetos.

Hay que buscar una alternativa que no implique precalcular esa enormidad.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com





El día 29 de abril de 2015, 18:20,  <javier.ruben.marcuzzi en gmail.com> escribió:
> Estimados
>
> Creo que se puede presentar un problema con el sistema operativo, al ser de
> 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del todo
> seguro.
>
> Los 292 GB que informa Carlos son una enormidad, esos requerimientos son
> complicados.
>
> ¿Qué posibilidad hay de trabajar con memoria virtual en windows? Aunque me
> parece que no sería optimo, prefiero intentar en Linux y R.
>
> Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el i5 no es
> de 64 bit?. Posiblemente tenga la opción de usar un sistema operativo de 64
> bit, como también de poder comprar más memoria (siempre en 64 bit), aunque
> me asustan los 292 GB que informa Carlos.
>
> Javier Marcuzzi
>
> De: Carlos Ortega
> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
> Para: Alva Valiente, Ricardo (RIAV)
> CC: R-help-es en r-project.org
>
> No sé si va a ser suficiente....
> Acabo de correr un ejemplo equivalente:
>
> # Example
> mydat <- matrix(rnorm(280000*20), ncol=20)
> hc <- hclust(dist(mydat), "ave")
> plot(hc)
> plot(hc, hang = -1)
>
> sobre "Azure Machine Learning" y ...
>
>
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
> El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
> <riav en cajatrujillo.com.pe> escribió:
>>
>> Bueno mi máquina es:
>>
>> HP
>>
>> Windows 7
>>
>> Procesador Core I5 de 2.5 GHz
>>
>> 4 GB de Ram (2.94 GB utilizables)
>>
>> Sistema operativo de 32 bits
>>
>> Versión de R, 3.2.0
>>
>>
>>
>>
>>
>> Atte.
>>
>> Ricardo Alva Valiente
>>
>> Analista de Control Preventivo
>>
>> Unidad de Prevención
>>
>> Of. Recuperaciones – CC Boulevard Chiclayo
>>
>> '(074) 232740
>>
>> RPC 978194441 RPM *157793
>>
>> *riav en cajatrujillo.com.pe
>>
>> www.cajatrujillo.com.pe
>>
>>
>>
>>
>>
>> De: Carlos Ortega [mailto:cof en qualityexcellence.es]
>> Enviado el: miércoles, 29 de abril de 2015 10:39 AM
>> Para: Alva Valiente, Ricardo (RIAV)
>> CC: r-help-es en r-project.org
>> Asunto: Re: [R-es] cantidad de datos
>>
>>
>>
>> Hola,
>>
>> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
>> tengas problemas para cargar este conjunto de datos a tu entorno.
>>
>> El problema puede aparecer en generar el objeto clúster y esto dependerá
>> de la RAM que tengas disponible.
>>
>> Pásanos el detalle de la máquina que utilizarías y la versión de R que
>> usas.
>>
>>
>> He simulado tu conjunto y he tenido problemas a la hora de generar el
>> clúster. Mi máquina es un MacBook, de 8Gb.
>>
>>
>>
>> Saludos,
>>
>> Carlos Ortega.
>>
>>
>>
>> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
>> <riav en cajatrujillo.com.pe> escribió:
>>
>> Estimados dos consultas.
>> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera saber si
>> el programa soporta sin ningún inconveniente análisis cluster y
>> discriminantes, así como análisis uni variados y bi variados.
>> -Cuando se grafica un dendograma como puedo hacer para que todas las
>> líneas de los casos, partan desde el X, porque cuando se genera se visualiza
>> bien desordenado (unas líneas comienzan mas arriba que otras). También como
>> hacer para que los nombres de los casos aparezcan en vertical y no en
>> horizontal; y si es posible el gráfico también.
>>
>> Muchas gracias de antemano.
>>
>> Atte.
>> Ricardo Alva Valiente
>>
>> "Aviso Legal: La información de este correo electrónico, así como de sus
>> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los
>> destinatarios. Si Usted ha recibido este correo por error, por favor
>> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
>> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
>> por otras personas distintas de él o los destinatarios. Cualquier opinión
>> emitida en este correo electrónico es propia del autor o remitente y no
>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
>> Trujillo no puede asegurar que éstos no se encuentren en este correo por
>> causas ajenas a su control, por lo que usted debe analizar este correo y sus
>> archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de
>> Trujillo www.cajatrujillo.com.pe "
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>>
>>
>>
>> --
>>
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> "Aviso Legal: La información de este correo electrónico, así como de sus
>> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los
>> destinatarios. Si Usted ha recibido este correo por error, por favor
>> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
>> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
>> por otras personas distintas de él o los destinatarios. Cualquier opinión
>> emitida en este correo electrónico es propia del autor o remitente y no
>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
>> Trujillo no puede asegurar que éstos no se encuentren en este correo por
>> causas ajenas a su control, por lo que usted debe analizar este correo y sus
>> archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de
>> Trujillo www.cajatrujillo.com.pe "
>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



Más información sobre la lista de distribución R-help-es