[R-es] Ayuda R no puede hubicar un vector de 42gb

Carlos Ortega cof en qualityexcellence.es
Vie Jun 23 00:02:35 CEST 2017


En IBM tenéis esto...:

https://datascience.ibm.com/

Al que también recientemente habéis incorporado H2O:

https://www.hpcwire.com/off-the-wire/h2o-ai-partners-ibm-bring-enterprise-ai-ibm-power-systems/

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 22 de junio de 2017, 23:11, Carlos Ortega <cof en qualityexcellence.es>
escribió:

> http://go.cloudera.com/ml-h20-es-webinar?src=email1&elqTrackId=
> af5517eab2f543afbb31a0686d9ca566&elq=c68d9a8c25ba4b12944b8065d8a06e
> 33&elqaid=4541&elqat=1&elqCampaignId=
>
> El 22 de junio de 2017, 22:59, Carlos Ortega <cof en qualityexcellence.es>
> escribió:
>
>> Hola,
>>
>> Tendrás RStudioServer en un nodo frontera de tu clúster. Y cuando lees
>> algo te lo estás llevando a este nodo frontera que tiene que tener memoria
>> suficiente para poder leer el fichero que quieres. El que digas que tienes
>> 256Gb, entiendo que es repartidos en todo el clúster y no en ese nodo
>> frontera.
>>
>> La forma de trabajar no es esta. La idea es que proceses tus datos de
>> forma distribuida, desde el nodo frontera diriges/distribuyes el trabajo a
>> todos los nodos. Una forma que el propio Cloudera recomienda para este tipo
>> de procesamiento analítico es usar H2O. Con H2O al leer el fichero haces
>> una lectura distribuida, al igual que si realizas cualquier tipo de
>> análisis (modelización) lo haces de forma distribuida (en todos tus nodos).
>>
>> Otra alternativa que también recomienda Cloudera es utilizar RStudio con
>> "sparklyr" y realizar el procesamiento en Spark. Mira el detalles en la
>> página que tiene RStudio de este paquete (que están desarrollando ellos
>> mismos).
>>
>> Si tus datos no son "enormes" puedes perfectamente probar a trabajar
>> sobre una máquina con mucha RAM y te ahorras todas estas complicaciones.
>>
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> El 22 de junio de 2017, 21:33, Ursula Jacobo Arteaga via R-help-es <
>> r-help-es en r-project.org> escribió:
>>
>>> hola, estoy trabajando en cloudera con RStudio server y constantemente
>>> "muere"  R por el tamaño de los archivos que lee. Supuestamente tengo 256gb
>>> de memoria pero con archivos de 42gb muere con sólo leerlos,Amguien tiene
>>> una idea de cómo trabajar con este volumen de info?saludos y gracias
>>>
>>>
>>>
>>>         [[alternative HTML version deleted]]
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es