[R-es] OFFTOPIC: SPARK Y H2O

Carlos Ortega cof en qualityexcellence.es
Sab Jul 1 23:28:33 CEST 2017


Hola Jesús,

Te comento varios detalles, aunque son muchos los matices...

   - Desde el punto de vista de algoritmos, H2O tiene ventajas sobre Spark
   tanto de performance como de variedad. H2O incorpora ya un algoritmo propio
   de deeplearning y recientemente ya es compatible con Keras, Tensorflow,
   Mxnet ademas de con xgboost. Spark no ha entrado en este mundo todavía.
      - Estos son los algoritmos que recoge Spark:
      https://spark.apache.org/docs/latest/mllib-guide.html
      - Y estos los de H2O:
      http://docs.h2o.ai/h2o/latest-stable/index.html#algorithms
      - No me olvidaría de dar una vuelta por esta comparativa de H2O,
      Spark, Python, R para diferentes tamaños de conjuntos, capacidad de
      predicción, velocidad, etc: https://github.com/szilard/benchm-ml


   - Desde el punto de vista de implementación en "producción". Spark está
   mucho más extendido, se utiliza como solución para procesamiento en
   streaming mientras que h2o no está planteado para esto, aunque puedes crear
   un modelo y como objeto ponerlo en producción independiente de arrancar
   H2O.


   - Spark forma parte de las distribuciones enterprise por defecto y hay
   mucho apoyo de las grandes empresas que junto con una gran comunidad hace
   más fácil encontrar respuesta a dudas, problemas. H2O está consolidándose
   cada vez más pero es una compañía de 70 empleados y está centrada puramente
   en el MachineLearning Aunque van creciendo muy rápido y los acuerdos
   recientes con Nvidia harán que veamos ya H2O sobre GPUs.


Saludos,
Carlos Ortega
www.qualiytexcellence.es

El 1 de julio de 2017, 11:06, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió:

> Buenas erreros!!
>
>
> Una cuestión de las que tengo ciertas dudas es saber en que se diferencian
> Spark y H2o, si son competencia, si  valen para lo mismo o no....
>
>
> Según lo poco que se, Spark es una manera de agilizar el Map-Reduce, y con
> la libreria MLlib, puedes hacer datamining de grandes datasheets, y si lo
> conectas con R o con Python, puedes usar ese lenguaje.
>
>
> H2O es una herramienta que nos permite hacer datamining para grandes
> datasets, balanceando entre los nodos/clusters del sistema, y  conectado
> con R o Python puedes hacerlo usando el lenguaje de estos.
>
> Entonces, para que me vale Spark si tengo ya H2O?
>
>
> Es que no veo claro para que vale cada herramienta.
>
>
> Gracias
>
> Jesús
>
>         [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es