[R-es] Big data con R

Mie Ene 4 09:54:12 CET 2017

Hola.

Últimamente ha habido en la lista varios hilos sobre análisis de grandes
volúmenes de datos con R.
Las alternativas que se han mencionado son:
-  Usar una máquina más potente, vía Amazon Web Services, por ejemplo
 -  Paralelización con openMp
-  h2o y su paquete para R,
-  Paquete sparklyr como wrapper de los algoritmos de spark,

Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de
datos, utilizar varias muestras para ajustar los modelos.

A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos
de spark (en la versión 2.1 de spark liberada hace menos de un mes)
 http://spark.apache.org/docs/latest/sparkr.html#machine-learning

Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué
opináis al respecto? ¿Es una tendencia pasajera?
Saludos

	[[alternative HTML version deleted]]