[R-es] Ingesta y preprocesamiento de datos

Jesús Para Fernández j.para.fernandez en hotmail.com
Dom Feb 25 16:49:22 CET 2018


Siento si es un poco off-topic, pero entiendo que R-help funciona tb como una union de cientificos de datos y creo que mi pregunta puede ser relevante para el resto de participantes de la lista. De hecho mi propia ignorancia es la que hace que aunque yo lo descnozca exista algo que este desarrollado en R para tal fin.

Me he planteado usar cosas como flume, elasticsearch o similares, porque aunque no sea un gran volumen de datos (1 csv cada 200 segundos), creo que tiene ventajas, como la gestion de colas en caso de caidas de red, etc... ocupando poco en el servidor.

Otra alternativa que me habia planteado era la ponner un sheudle task en windows, y que cada 200 segundos se ejecutra el codigo de R, pero me parece poco robusto en cuanto a la gestion de la misma (el monitorizarla..)

es por ello por lo uqe lo planteo aqui, a ver desde vuestra experiencia que os parece la mejor opcion.

Gracias
Jes�s



De: Carlos Ortega<mailto:cof en qualityexcellence.es>
Enviado: domingo, 25 de febrero de 2018 14:32
Para: Jes�s Para Fern�ndez<mailto:j.para.fernandez en hotmail.com>
CC: r-help-es en r-project.org<mailto:r-help-es en r-project.org>
Asunto: Re: [R-es] Ingesta y preprocesamiento de datos

Hola,

�Pero de qu� volumen de datos est�s hablando para considerar Flume?...

Y...�esto qu� tiene que ver con R?... Obviamente puedes plantearte hacer todo el proceso de ETL desde R...
https://cloud.r-project.org/web/packages/ETLUtils/index.html<https://nam04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fcloud.r-project.org%2Fweb%2Fpackages%2FETLUtils%2Findex.html&data=02%7C01%7C%7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636551623372456917&sdata=qxRZEQd%2BM%2BBhjqJ0k2iJzJsnu8yXfasQGMvyri3S%2BMo%3D&reserved=0>

Gracias,
Carlos Ortega
www.qualityexcellence.es<https://nam04.safelinks.protection.outlook.com/?url=http%3A%2F%2Fwww.qualityexcellence.es&data=02%7C01%7C%7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636551623372456917&sdata=RMiWbxyBwslucIuWHwMS6zjq7DilTRqfmKfA1ApQU9M%3D&reserved=0>

El 25 de febrero de 2018, 12:39, Jes�s Para Fern�ndez <j.para.fernandez en hotmail.com<mailto:j.para.fernandez en hotmail.com>> escribi�:
Buenas,

Quiero hacer una ingesta de datos en una base de datos de un servidor. El proceso es hacer una consulta en la base de datos, que me dice uqe columnas tengo que coger.

Una vez hecha dicha consulta, abrir un csv, coger las columnas que me indicaba esa base de datos y subir el dato concreto del csv a una base de datos.

Estoy pensando en usar Apache Flume o similar, pero es en un servidor Windows. �Que opciones me recomendais?

Gracias
Jes�s

        [[alternative HTML version deleted]]


_______________________________________________
R-help-es mailing list
R-help-es en r-project.org<mailto:R-help-es en r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es<https://nam04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fstat.ethz.ch%2Fmailman%2Flistinfo%2Fr-help-es&data=02%7C01%7C%7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636551623372456917&sdata=GrVM5%2B5MPegby0siMquXBD%2FwCaeEr%2BJSZsInEOrPaXE%3D&reserved=0>



--
Saludos,
Carlos Ortega
www.qualityexcellence.es<https://nam04.safelinks.protection.outlook.com/?url=http%3A%2F%2Fwww.qualityexcellence.es&data=02%7C01%7C%7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%7C636551623372456917&sdata=RMiWbxyBwslucIuWHwMS6zjq7DilTRqfmKfA1ApQU9M%3D&reserved=0>


	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es