[R-es] Big data con R

Freddy Omar López Quintero freddy.lopez.quintero en gmail.com
Mie Ene 4 19:06:59 CET 2017


2017-01-04 13:09 GMT-03:00 Francisco Rodríguez <fjroar en hotmail.com>:

> casi todo se reduce a aplicar un algoritmo sobre una tabla de 70 GB
> directamente


En muchos entornos, tristemente, esto es así. Un ejemplo muy difundido
conque yo me he topado es que hay personas que al aplicar estos algoritmos
directamente es que no reparan en la naturaleza de las variables
(categóricas, fechas, etc.)​ quedando cuestiones como que la probabilidad
de éxito de la compra de un producto, depende de la marca (brand) 5.5
(¡cuando las marcas eran categóricas, pero nadie lo notó!). Sin embargo, la
crossvalidación, los nodos, las cajas, todo, arrojó ese como mejor
resultado.

Esto ya sucedía muchos años antes de que el big data, machine learning o el
data scientism estuvieran de moda, y se veía mucho cuando las personas
utiliza(ba)n softwares potentísimos como SPSS, en los que se corre el
riesgo de hacer clic en los botones equivocados y errar todo el trabajo.

No sé a quién se pueda responsabilizar de este tipo de situaciones. ¿La
ansiedad de obtener resultados rápidamente, tal vez? En clases formales en
general se hace énfasis en diferenciar para qué sirven los procedimientos,
cuándo y cómo aplicarlos.

​En fin, respondiendo a

Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué
> opináis al respecto? ¿Es una tendencia pasajera?


no, no creo que sea algo pasajero, al menos pensando como un corporativo
(que no lo soy ��). Es algo, en mi opinión, que ha venido para quedarse.
Puede ser que hadoop y spark propiamente pasen de moda (no tan) pronto,
pero, computacionalmente, el presente y futuro ya es el cálculo distribuido
y los esfuerzos se irán poniendo en hallar formas de implementar lo
existente y lo por descubrir en nodos, hilos, clusters, nubes...

¡En fin, esto da para mucho debate!

¡Salud!


-- 
«Pídeles sus títulos a los que te persiguen, pregúntales
cuándo nacieron, diles que te demuestren su existencia.»

Rafael Cadenas

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es