[R-es] OFFTOPIC: SPARK Y H2O

Carlos Ortega cof en qualityexcellence.es
Dom Jul 2 14:32:39 CEST 2017


El streaming, la diferencia entre algoritmos y el soporte...

El 2 de julio de 2017, 10:36, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió:

> Te estoy entendiendo entonces que salvo el streaming, hacen mas o menos lo
> mismo con las salvedades de que Spark tiene mucho más soporte a día de hoy?
>
>
>
>
>
>
>
> Enviado desde Correo <https://go.microsoft.com/fwlink/?LinkId=550986>
> para Windows 10
>
>
>
> *De: *Carlos Ortega <cof en qualityexcellence.es>
> *Enviado: *sábado, 1 de julio de 2017 23:28
> *Para: *Jesús Para Fernández <j.para.fernandez en hotmail.com>
> *CC: *r-help-es en r-project.org
> *Asunto: *Re: [R-es] OFFTOPIC: SPARK Y H2O
>
>
>
> Hola Jesús,
>
>
>
> Te comento varios detalles, aunque son muchos los matices...
>
>    - Desde el punto de vista de algoritmos, H2O tiene ventajas sobre
>    Spark tanto de performance como de variedad. H2O incorpora ya un algoritmo
>    propio de deeplearning y recientemente ya es compatible con Keras,
>    Tensorflow, Mxnet ademas de con xgboost. Spark no ha entrado en este mundo
>    todavía.
>
>
>    - Estos son los algoritmos que recoge Spark:
>       https://spark.apache.org/docs/latest/mllib-guide.html
>       <https://spark.apache.org/docs/latest/mllib-guide.html>
>       - Y estos los de H2O: http://docs.h2o.ai/h2o/
>       latest-stable/index.html#algorithms
>       <http://docs.h2o.ai/h2o/latest-stable/index.html#algorithms>
>       - No me olvidaría de dar una vuelta por esta comparativa de H2O,
>       Spark, Python, R para diferentes tamaños de conjuntos, capacidad de
>       predicción, velocidad, etc: https://github.com/szilard/benchm-ml
>
>
>    - Desde el punto de vista de implementación en "producción". Spark
>    está mucho más extendido, se utiliza como solución para procesamiento en
>    streaming mientras que h2o no está planteado para esto, aunque puedes crear
>    un modelo y como objeto ponerlo en producción independiente de arrancar
>    H2O.
>
>
>    - Spark forma parte de las distribuciones enterprise por defecto y hay
>    mucho apoyo de las grandes empresas que junto con una gran comunidad hace
>    más fácil encontrar respuesta a dudas, problemas. H2O está consolidándose
>    cada vez más pero es una compañía de 70 empleados y está centrada puramente
>    en el MachineLearning Aunque van creciendo muy rápido y los acuerdos
>    recientes con Nvidia harán que veamos ya H2O sobre GPUs.
>
>
>
> Saludos,
>
> Carlos Ortega
>
> www.qualiytexcellence.es
>
>
>
> El 1 de julio de 2017, 11:06, Jesús Para Fernández <
> j.para.fernandez en hotmail.com> escribió:
>
> Buenas erreros!!
>
>
> Una cuestión de las que tengo ciertas dudas es saber en que se diferencian
> Spark y H2o, si son competencia, si  valen para lo mismo o no....
>
>
> Según lo poco que se, Spark es una manera de agilizar el Map-Reduce, y con
> la libreria MLlib, puedes hacer datamining de grandes datasheets, y si lo
> conectas con R o con Python, puedes usar ese lenguaje.
>
>
> H2O es una herramienta que nos permite hacer datamining para grandes
> datasets, balanceando entre los nodos/clusters del sistema, y  conectado
> con R o Python puedes hacerlo usando el lenguaje de estos.
>
> Entonces, para que me vale Spark si tengo ya H2O?
>
>
> Es que no veo claro para que vale cada herramienta.
>
>
> Gracias
>
> Jesús
>
>         [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
>
>
> --
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
>
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es