[R-es] Big data con R
José Luis Cañadas
canadasreche en gmail.com
Mie Ene 4 09:54:12 CET 2017
Hola.
Últimamente ha habido en la lista varios hilos sobre análisis de grandes
volúmenes de datos con R.
Las alternativas que se han mencionado son:
- Usar una máquina más potente, vía Amazon Web Services, por ejemplo
- Paralelización con openMp
- h2o y su paquete para R,
- Paquete sparklyr como wrapper de los algoritmos de spark,
Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de
datos, utilizar varias muestras para ajustar los modelos.
A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos
de spark (en la versión 2.1 de spark liberada hace menos de un mes)
http://spark.apache.org/docs/latest/sparkr.html#machine-learning
Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué
opináis al respecto? ¿Es una tendencia pasajera?
Saludos
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es