[R-es] OFFTOPIC: SPARK Y H2O

Jesús Para Fernández j.para.fernandez en hotmail.com
Dom Jul 2 10:36:26 CEST 2017


Te estoy entendiendo entonces que salvo el streaming, hacen mas o menos lo mismo con las salvedades de que Spark tiene mucho más soporte a día de hoy?



Enviado desde Correo<https://go.microsoft.com/fwlink/?LinkId=550986> para Windows 10

De: Carlos Ortega<mailto:cof en qualityexcellence.es>
Enviado: sábado, 1 de julio de 2017 23:28
Para: Jesús Para Fernández<mailto:j.para.fernandez en hotmail.com>
CC: r-help-es en r-project.org<mailto:r-help-es en r-project.org>
Asunto: Re: [R-es] OFFTOPIC: SPARK Y H2O

Hola Jesús,

Te comento varios detalles, aunque son muchos los matices...

  *   Desde el punto de vista de algoritmos, H2O tiene ventajas sobre Spark tanto de performance como de variedad. H2O incorpora ya un algoritmo propio de deeplearning y recientemente ya es compatible con Keras, Tensorflow, Mxnet ademas de con xgboost. Spark no ha entrado en este mundo todavía.

     *   Estos son los algoritmos que recoge Spark: https://spark.apache.org/docs/latest/mllib-guide.html
     *   Y estos los de H2O: http://docs.h2o.ai/h2o/latest-stable/index.html#algorithms
     *   No me olvidaría de dar una vuelta por esta comparativa de H2O, Spark, Python, R para diferentes tamaños de conjuntos, capacidad de predicción, velocidad, etc: https://github.com/szilard/benchm-ml

  *   Desde el punto de vista de implementación en "producción". Spark está mucho más extendido, se utiliza como solución para procesamiento en streaming mientras que h2o no está planteado para esto, aunque puedes crear un modelo y como objeto ponerlo en producción independiente de arrancar H2O.

  *   Spark forma parte de las distribuciones enterprise por defecto y hay mucho apoyo de las grandes empresas que junto con una gran comunidad hace más fácil encontrar respuesta a dudas, problemas. H2O está consolidándose cada vez más pero es una compañía de 70 empleados y está centrada puramente en el MachineLearning Aunque van creciendo muy rápido y los acuerdos recientes con Nvidia harán que veamos ya H2O sobre GPUs.

Saludos,
Carlos Ortega
www.qualiytexcellence.es<http://www.qualiytexcellence.es>

El 1 de julio de 2017, 11:06, Jesús Para Fernández <j.para.fernandez en hotmail.com<mailto:j.para.fernandez en hotmail.com>> escribió:
Buenas erreros!!


Una cuestión de las que tengo ciertas dudas es saber en que se diferencian Spark y H2o, si son competencia, si  valen para lo mismo o no....


Según lo poco que se, Spark es una manera de agilizar el Map-Reduce, y con la libreria MLlib, puedes hacer datamining de grandes datasheets, y si lo conectas con R o con Python, puedes usar ese lenguaje.


H2O es una herramienta que nos permite hacer datamining para grandes datasets, balanceando entre los nodos/clusters del sistema, y  conectado con R o Python puedes hacerlo usando el lenguaje de estos.

Entonces, para que me vale Spark si tengo ya H2O?


Es que no veo claro para que vale cada herramienta.


Gracias

Jesús

        [[alternative HTML version deleted]]


_______________________________________________
R-help-es mailing list
R-help-es en r-project.org<mailto:R-help-es en r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es



--
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>


	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es