[R-es] OFFTOPIC: SPARK Y H2O
Carlos Ortega
cof en qualityexcellence.es
Dom Jul 2 14:32:39 CEST 2017
El streaming, la diferencia entre algoritmos y el soporte...
El 2 de julio de 2017, 10:36, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió:
> Te estoy entendiendo entonces que salvo el streaming, hacen mas o menos lo
> mismo con las salvedades de que Spark tiene mucho más soporte a día de hoy?
>
>
>
>
>
>
>
> Enviado desde Correo <https://go.microsoft.com/fwlink/?LinkId=550986>
> para Windows 10
>
>
>
> *De: *Carlos Ortega <cof en qualityexcellence.es>
> *Enviado: *sábado, 1 de julio de 2017 23:28
> *Para: *Jesús Para Fernández <j.para.fernandez en hotmail.com>
> *CC: *r-help-es en r-project.org
> *Asunto: *Re: [R-es] OFFTOPIC: SPARK Y H2O
>
>
>
> Hola Jesús,
>
>
>
> Te comento varios detalles, aunque son muchos los matices...
>
> - Desde el punto de vista de algoritmos, H2O tiene ventajas sobre
> Spark tanto de performance como de variedad. H2O incorpora ya un algoritmo
> propio de deeplearning y recientemente ya es compatible con Keras,
> Tensorflow, Mxnet ademas de con xgboost. Spark no ha entrado en este mundo
> todavía.
>
>
> - Estos son los algoritmos que recoge Spark:
> https://spark.apache.org/docs/latest/mllib-guide.html
> <https://spark.apache.org/docs/latest/mllib-guide.html>
> - Y estos los de H2O: http://docs.h2o.ai/h2o/
> latest-stable/index.html#algorithms
> <http://docs.h2o.ai/h2o/latest-stable/index.html#algorithms>
> - No me olvidaría de dar una vuelta por esta comparativa de H2O,
> Spark, Python, R para diferentes tamaños de conjuntos, capacidad de
> predicción, velocidad, etc: https://github.com/szilard/benchm-ml
>
>
> - Desde el punto de vista de implementación en "producción". Spark
> está mucho más extendido, se utiliza como solución para procesamiento en
> streaming mientras que h2o no está planteado para esto, aunque puedes crear
> un modelo y como objeto ponerlo en producción independiente de arrancar
> H2O.
>
>
> - Spark forma parte de las distribuciones enterprise por defecto y hay
> mucho apoyo de las grandes empresas que junto con una gran comunidad hace
> más fácil encontrar respuesta a dudas, problemas. H2O está consolidándose
> cada vez más pero es una compañía de 70 empleados y está centrada puramente
> en el MachineLearning Aunque van creciendo muy rápido y los acuerdos
> recientes con Nvidia harán que veamos ya H2O sobre GPUs.
>
>
>
> Saludos,
>
> Carlos Ortega
>
> www.qualiytexcellence.es
>
>
>
> El 1 de julio de 2017, 11:06, Jesús Para Fernández <
> j.para.fernandez en hotmail.com> escribió:
>
> Buenas erreros!!
>
>
> Una cuestión de las que tengo ciertas dudas es saber en que se diferencian
> Spark y H2o, si son competencia, si valen para lo mismo o no....
>
>
> Según lo poco que se, Spark es una manera de agilizar el Map-Reduce, y con
> la libreria MLlib, puedes hacer datamining de grandes datasheets, y si lo
> conectas con R o con Python, puedes usar ese lenguaje.
>
>
> H2O es una herramienta que nos permite hacer datamining para grandes
> datasets, balanceando entre los nodos/clusters del sistema, y conectado
> con R o Python puedes hacerlo usando el lenguaje de estos.
>
> Entonces, para que me vale Spark si tengo ya H2O?
>
>
> Es que no veo claro para que vale cada herramienta.
>
>
> Gracias
>
> Jesús
>
> [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
>
>
> --
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
>
>
--
Saludos,
Carlos Ortega
www.qualityexcellence.es
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es