[R-es] Big data con R

Carlos Ortega cof en qualityexcellence.es
Mie Ene 4 20:36:04 CET 2017


Hola,

¡Feliz Año!
Al final estos un tanto "off-topic" son los que más atención e interés
acaban generando.

Sí, es un tema que da mucho de sí, ya en un hilo anterior comenté formas de
poder tratar grandes conjuntos de datos con R, diferenciando cambios en el
software a utilizar y en el hardware.

Recogiendo algunas ideas adicionales de lo que ha comentado Francisco:

   - Es muy diferente el trato (ciclo de vida) que se ha plantear cuando
   hablamos de un entorno industrial frente al que se puede plantear cuando
   uno trabaja en modo "solo".
      - En un entorno industrial, son muchos los elementos, procesos que se
      han de tener en cuenta además de la fase de "descubrimiento". Hay todo un
      capítulo del Gobierno del Dato, Securización, Catalogación, etc. que
      incluyen capítulos como los de "Calidad del Dato" para evitar justamente
      esos casos de datos anómalos.
      - En el modo "solo" estas cosas más o menos te las apañas y si vas
      repitiendo estudios, hasta consigues plantearte un flujo de trabajo.
   - Sobre las tecnologías existentes:
      - Trabajamos en empresas parecidas y sabemos que al menos aquí en
      España, es muy reciente la adopción de Hadoop y mucho más reciente de
      Spark. Los clústeres como el que dice los acaban de estrenar, ahora toca
      explotarlos, así que es ahora cuando aparecerán todas esas necesidades de
      Gobierno del Dato para pasar a la explotación analítica.
         - Y en esta explotación analítica, veo a "R" cada vez más: R con
         SparkR, o la alternativa de R/H2O y "aterrizando" sparklyr.
         - Pero hay mucho que cambiar en todo esto y la transición será
         lenta, SAS sigue estando muy asentado.
         - Y sobre todo esto, se abre el debate de cómo gestionar el ciclo
         de desarrollo de los "salvajes" científicos de datos.
      - Fuera de aquí, de lo que vas viendo por ahí:
         - se sigue apostando por Spark, aunque ya hay alternativas (Flink,
         Apex).
         - pero cada vez se oye más de la computación en la nube, procesar
         y generar tus modelos (por ahora R y Python) y explotarlos de forma
         automática.
         - Y otro elemento que también comienza a tomar cuerpo es el
         "Self-Service Analytics": sube tus datos y de forma
automática te generan
         modelos alternativos, análisis de tus variables, etc.

Quizás en alguna de las reuniones del Grupo de Madrid, debiéramos de hablar
de esto en modo mesa redonda que por cierto nunca hemos hecho ninguna...

Gracias,
Carlos.

El 4 de enero de 2017, 9:54, José Luis Cañadas <canadasreche en gmail.com>
escribió:

> Hola.
>
> Últimamente ha habido en la lista varios hilos sobre análisis de grandes
> volúmenes de datos con R.
> Las alternativas que se han mencionado son:
> -  Usar una máquina más potente, vía Amazon Web Services, por ejemplo
>  -  Paralelización con openMp
> -  h2o y su paquete para R,
> -  Paquete sparklyr como wrapper de los algoritmos de spark,
>
> Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de
> datos, utilizar varias muestras para ajustar los modelos.
>
> A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos
> de spark (en la versión 2.1 de spark liberada hace menos de un mes)
>  http://spark.apache.org/docs/latest/sparkr.html#machine-learning
>
> Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué
> opináis al respecto? ¿Es una tendencia pasajera?
> Saludos
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es