[R-es] Muestreo de bases de datos.-

Carlos J. Gil Bellosta cgb en datanalytics.com
Lun Mayo 4 20:35:28 CEST 2015


Hola, ¿qué tal?

La mejor manera de muestrear una tabla en una base de datos es a
través del módulo de algún valor (típicamente autonumérico), como los
ids. Si no, a través del módulo de un hash de algún identificador
similar. Este procedimiento tiene la ventaja de ser repetible:
consultas sucesivas pueden muestrear la misma subpoblación u otra de
tamaño similar completamente distinta de la anterior. El filtro se
hace en el where de la consulta a la base de datos (y la sintaxis
cambia de una a otra).

Si los datos son grandes y están en una base de datos, es mejor
manipularlos dentro de ella previamente enviando consultas SQL desde R
y solo descargar los datos (debidamente filtrados y muestreados, es
decir, pequeños y/o manejables) al final.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com



El día 4 de mayo de 2015, 20:15, Freddy Omar López Quintero
<freddy.vate01 en gmail.com> escribió:
> ¡Hola!
>
> Mi duda surge por la siguiente anécdota: un amigo (empleado de una enorme
> consultora que tiene SAS) migró a R y ansioso me contó que iba a ejecutar
> las rutinas que había traducido de SAS a R y luego de intentar ejecutarlas
> nada le funcionó porque, ingenuamente, quería hacer cosas para las cuales R
> no está diseñado (operaciones en la base de datos) y porque leyó TODOS los
> datos de una consulta (millones de registros) e intentó correr algún
> procedimiento (!). Me dijo que SAS corre todo lo que él necesita y pues
> quedó tristemente decepcionado.
>
> Yo le dije que es corriente tomar una muestra de los datos para calibrar
> los modelos que se van a necesitar y que no es necesario utilizar los
> millones de registros enteros. Esto me hizo pensar ¿existen normas o buenas
> prácticas para el muestreo de las bases de datos?¿existen
> normativas?¿lineamientos? Es claro que mi primera respuesta sería ocupar
> los métodos ya desarrollados para encuestas, pero quién sabe.
>
> Si existen: ¿tienen su contraparte en R?
>
> Gracias y disculpen las molestias.
>
> ¡Salud!
>
> --
> «No soy aquellas sombras tutelares
> que honré con versos que no olvida el tiempo.»
>
> JL Borges
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es



Más información sobre la lista de distribución R-help-es