[R-es] Ayuda R no puede hubicar un vector de 42gb

Ursula Jacobo Arteaga uja80 en yahoo.com.mx
Vie Jun 23 00:47:59 CEST 2017


Te agradezco Carlos...
saludos


 
 
  El jue., 22 de jun de 2017 a la(s) 5:02 p.m., Carlos Ortega<cof en qualityexcellence.es> escribió:   En IBM tenéis esto...:
https://datascience.ibm.com/

Al que también recientemente habéis incorporado H2O:
https://www.hpcwire.com/off-the-wire/h2o-ai-partners-ibm-bring-enterprise-ai-ibm-power-systems/

Saludos,Carlos Ortegawww.qualityexcellence.es
El 22 de junio de 2017, 23:11, Carlos Ortega <cof en qualityexcellence.es> escribió:

http://go.cloudera.com/ml-h20- es-webinar?src=email1& elqTrackId= af5517eab2f543afbb31a0686d9ca5 66&elq= c68d9a8c25ba4b12944b8065d8a06e 33&elqaid=4541&elqat=1& elqCampaignId=

El 22 de junio de 2017, 22:59, Carlos Ortega <cof en qualityexcellence.es> escribió:

Hola,
Tendrás RStudioServer en un nodo frontera de tu clúster. Y cuando lees algo te lo estás llevando a este nodo frontera que tiene que tener memoria suficiente para poder leer el fichero que quieres. El que digas que tienes 256Gb, entiendo que es repartidos en todo el clúster y no en ese nodo frontera.
La forma de trabajar no es esta. La idea es que proceses tus datos de forma distribuida, desde el nodo frontera diriges/distribuyes el trabajo a todos los nodos. Una forma que el propio Cloudera recomienda para este tipo de procesamiento analítico es usar H2O. Con H2O al leer el fichero haces una lectura distribuida, al igual que si realizas cualquier tipo de análisis (modelización) lo haces de forma distribuida (en todos tus nodos).
Otra alternativa que también recomienda Cloudera es utilizar RStudio con "sparklyr" y realizar el procesamiento en Spark. Mira el detalles en la página que tiene RStudio de este paquete (que están desarrollando ellos mismos).
Si tus datos no son "enormes" puedes perfectamente probar a trabajar sobre una máquina con mucha RAM y te ahorras todas estas complicaciones.
Saludos,Carlos Ortegawww.qualityexcellence.es
El 22 de junio de 2017, 21:33, Ursula Jacobo Arteaga via R-help-es <r-help-es en r-project.org> escribió:

hola, estoy trabajando en cloudera con RStudio server y constantemente "muere"  R por el tamaño de los archivos que lee. Supuestamente tengo 256gb de memoria pero con archivos de 42gb muere con sólo leerlos,Amguien tiene una idea de cómo trabajar con este volumen de info?saludos y gracias



        [[alternative HTML version deleted]]

______________________________ _________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/l istinfo/r-help-es




-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es  

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es