[R-es] Ingesta y preprocesamiento de datos

Javier Marcuzzi javier.ruben.marcuzzi en gmail.com
Dom Feb 25 22:06:46 CET 2018


Estimado Jesús

Creo que el enfoque debe ser distinto, usted aquí debe responder cada
cuánto tiempo R debe dar un resultado estadístico. Por otro lado debe
responder de acuerdo a la infraestructura informática el cómo se comunica y
almacena. El responder todo junto tiene alternativas como Oracle o
Microsoft, porque hay un ajuste de sistema operativo, lenguaje, base de
datos, R, y la administración de todo en forma operativa, distinto puede
ser en una universidad donde el problema es pensarlo y el dinero financiado
por el estado, en el ámbito privado puede ser que el costo de no pagar una
licencia sea mayor.

A mi me paso ir a una charla de bigdata, el que charlaba es catedrático,
pero usaban node.js y celeron como servidor, siendo más de uno, pero si
cualquier servidor xenon puede tener 16 o muchos más procesadores, utilizar
un lenguaje compilado que ocupe todos los procesadores e hilos comprados, y
R puede. En términos mi computadora portátil tiene mucho más que todo ese
bigdata presentado por el catedrático, pero a mí no me da la cara para
decir que estoy con bigdata en una portátil.

¿R puede?, sí.
¿Se puede?, si.
¿Es rentable?, depende.

Javier Rubén Marcuzzi

El 25 de febrero de 2018, 12:49, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió:

> Siento si es un poco off-topic, pero entiendo que R-help funciona tb como
> una union de cientificos de datos y creo que mi pregunta puede ser
> relevante para el resto de participantes de la lista. De hecho mi propia
> ignorancia es la que hace que aunque yo lo descnozca exista algo que este
> desarrollado en R para tal fin.
>
> Me he planteado usar cosas como flume, elasticsearch o similares, porque
> aunque no sea un gran volumen de datos (1 csv cada 200 segundos), creo que
> tiene ventajas, como la gestion de colas en caso de caidas de red, etc...
> ocupando poco en el servidor.
>
> Otra alternativa que me habia planteado era la ponner un sheudle task en
> windows, y que cada 200 segundos se ejecutra el codigo de R, pero me parece
> poco robusto en cuanto a la gestion de la misma (el monitorizarla..)
>
> es por ello por lo uqe lo planteo aqui, a ver desde vuestra experiencia
> que os parece la mejor opcion.
>
> Gracias
> Jesús
>
>
>
> De: Carlos Ortega<mailto:cof en qualityexcellence.es>
> Enviado: domingo, 25 de febrero de 2018 14:32
> Para: Jesús Para Fernández<mailto:j.para.fernandez en hotmail.com>
> CC: r-help-es en r-project.org<mailto:r-help-es en r-project.org>
> Asunto: Re: [R-es] Ingesta y preprocesamiento de datos
>
> Hola,
>
> ¿Pero de qué volumen de datos estás hablando para considerar Flume?...
>
> Y...¿esto qué tiene que ver con R?... Obviamente puedes plantearte hacer
> todo el proceso de ETL desde R...
> https://cloud.r-project.org/web/packages/ETLUtils/index.html<
> https://nam04.safelinks.protection.outlook.com/?url=
> https%3A%2F%2Fcloud.r-project.org%2Fweb%2Fpackages%
> 2FETLUtils%2Findex.html&data=02%7C01%7C%7Caea0adf617184cbd410808d57c54
> 2fa8%7C84df9e7fe9f640afb435aaaaaaaaaaaa%7C1%7C0%
> 7C636551623372456917&sdata=qxRZEQd%2BM%2BBhjqJ0k2iJzJsnu8yXfasQGMvyri
> 3S%2BMo%3D&reserved=0>
>
> Gracias,
> Carlos Ortega
> www.qualityexcellence.es<https://nam04.safelinks.protection.
> outlook.com/?url=http%3A%2F%2Fwww.qualityexcellence.es&data=02%7C01%7C%
> 7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaa
> aaaa%7C1%7C0%7C636551623372456917&sdata=RMiWbxyBwslucIuWHwMS6zjq7DilTR
> qfmKfA1ApQU9M%3D&reserved=0>
>
> El 25 de febrero de 2018, 12:39, Jesús Para Fernández <
> j.para.fernandez en hotmail.com<mailto:j.para.fernandez en hotmail.com>>
> escribió:
> Buenas,
>
> Quiero hacer una ingesta de datos en una base de datos de un servidor. El
> proceso es hacer una consulta en la base de datos, que me dice uqe columnas
> tengo que coger.
>
> Una vez hecha dicha consulta, abrir un csv, coger las columnas que me
> indicaba esa base de datos y subir el dato concreto del csv a una base de
> datos.
>
> Estoy pensando en usar Apache Flume o similar, pero es en un servidor
> Windows. ¿Que opciones me recomendais?
>
> Gracias
> Jesús
>
>         [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org<mailto:R-help-es en r-project.org>
> https://stat.ethz.ch/mailman/listinfo/r-help-es<https://
> nam04.safelinks.protection.outlook.com/?url=https%3A%2F%
> 2Fstat.ethz.ch%2Fmailman%2Flistinfo%2Fr-help-es&data=02%7C01%7C%
> 7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaa
> aaaa%7C1%7C0%7C636551623372456917&sdata=GrVM5%2B5MPegby0siMquXBD%
> 2FwCaeEr%2BJSZsInEOrPaXE%3D&reserved=0>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es<https://nam04.safelinks.protection.
> outlook.com/?url=http%3A%2F%2Fwww.qualityexcellence.es&data=02%7C01%7C%
> 7Caea0adf617184cbd410808d57c542fa8%7C84df9e7fe9f640afb435aaaaaaaa
> aaaa%7C1%7C0%7C636551623372456917&sdata=RMiWbxyBwslucIuWHwMS6zjq7DilTR
> qfmKfA1ApQU9M%3D&reserved=0>
>
>
>         [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es