[R-es] Big data con R

Francisco Rodríguez fjroar en hotmail.com
Mie Ene 4 17:09:58 CET 2017


Coincido contigo José Luis sobre todo en lo de muestrear, todo lo demás no está mal pero siempre que se observe un poco la naturaleza y se entienda lo más posible el cómo se genera la información.


Hablar de mezclar grandes volúmenes de información de sacar relaciones entre miles de variables sin criterios claros de depuración de información y no me refiero sólo al tratamiento (que no eliminación total) de los outliers, sino a determinados datos engañosos que ensucian en ocasiones las tablas y que hay que eliminar o interpolar, ceros o números tipo 999 o 999999999 que se confunden con missing, cadenas de caracteres sin sentido, datos erróneos de transacciones que finalmente no llegaron a existir, ... y que hay que poder detectar y limpiar, además del sentido de negocio y de la interpretabilidad de las soluciones finales, cumplimiento de hipótesis de partida, etc


En fin, bastantes cosas de las que no se habla y que da la sensación (y espero equivocarme) de que casi todo se reduce a aplicar un algoritmo sobre una tabla de 70 GB directamente que te habían pasado de no sé donde, y "ala", hemos encontrado la relación que establece que el Número de Nacimientos en Mozambique que explica bastante bien el Incremento de nuestras Ventas de Cepillos de Dientes


Un saludo


________________________________
De: R-help-es <r-help-es-bounces en r-project.org> en nombre de José Luis Cañadas <canadasreche en gmail.com>
Enviado: miércoles, 4 de enero de 2017 8:54
Para: r-help-es
Asunto: [R-es] Big data con R

Hola.

Últimamente ha habido en la lista varios hilos sobre análisis de grandes
volúmenes de datos con R.
Las alternativas que se han mencionado son:
-  Usar una máquina más potente, vía Amazon Web Services, por ejemplo
 -  Paralelización con openMp
-  h2o y su paquete para R,
-  Paquete sparklyr como wrapper de los algoritmos de spark,

Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de
datos, utilizar varias muestras para ajustar los modelos.

A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos
de spark (en la versión 2.1 de spark liberada hace menos de un mes)
 http://spark.apache.org/docs/latest/sparkr.html#machine-learning
SparkR (R on Spark) - Spark 2.1.0 Documentation<http://spark.apache.org/docs/latest/sparkr.html#machine-learning>
spark.apache.org
SparkR (R on Spark) Overview; SparkDataFrame. Starting Up: SparkSession; Starting Up from RStudio; Creating SparkDataFrames. From local data frames; From Data Sources




Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué
opináis al respecto? ¿Es una tendencia pasajera?
Saludos

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
Página de Información de R-help-es<https://stat.ethz.ch/mailman/listinfo/r-help-es>
stat.ethz.ch
Esta es una lista de correo para solicitar ayuda sobre R en español y se entiende como un complemento social a la documentación, libros, etc. disponibles sobre R ...




	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es