[R-es] Como leer una BD con una estructura inadecuada

Patricio Fuenmayor Viteri patricio.fuenmayor en outlook.com
Lun Abr 20 17:50:31 CEST 2015


Hola Eric.Le detallo que es lo que yo hago en estos casos.Identificar el tipo de archivo, es decir, que separadores de columnas tiene ?, que tipo de datos debe tener cada variable?, etc.Si el archivo es muy grande y un editor de texto (como Note++) no lo puede abrir por temas de memoria, puede usar un programa adecuado para esto. Yo uso glogg (http://glogg.bonnefon.org/) que me ha permitido abrir archivos de texto de hasta 3 GbSi no tiene delimitadores, puede usar la opción de carga, campos de ancho fijo, en donde usted debe dar las longitudes de las variables.Si no puede identificar claramente los tipos de datos o los valores por defecto, cargue la variable como "character", para que luego con las funciones adecuadas, pueda transformarla y obtener los tipo de valor y variables deseados.Con respecto a los espacios, cárgelos como le explique, y luego transforme a la variable reemplazando los mismos con la funcion grepl y si es mas complicado con una expresión regular.Los paquetes que le pueden ser de ayuda: data.table (funcion fread), readr, stringr.Espero le sirva.Saludos. 
--Archivo adjunto de mensaje reenviado--
From: cof en qualityexcellence.es
CC: r-help-es en r-project.org
To: ericconchamunoz en gmail.com
Date: Mon, 20 Apr 2015 11:42:03 +0200
Subject: Re: [R-es] Como leer una BD con una estructura inadecuada
>>> El 18 de abril de 2015, 20:03, eric <ericconchamunoz en gmail.com
>>> <mailto:ericconchamunoz en gmail.com>> escribió:
>>>
>>>
>>>     Estimados, tengo el siguiente problema:
>>>
>>>     Tengo una BD de 19 columnas y aprox 500 mil filas, la que tiene
>>>     muchas celdas vacias y esta separada con espacios para hacer
>>>     coincidir los datos bajo los encabezados.
>>>
>>>     Mi problema es que al tratar de importar a R la BD no se como tratar
>>>     con los espacios vacios cuando se trata de una columna de numeros
>>>     (para el texto puse na.strings = "NA") y tampoco se como hacer para
>>>     que al leer cada dato este asociado al encabezado correcto, pues el
>>>     numero de espacios que esta puesto entre cada dato varia de acuerdo
>>>     a la extension en caracteres del dato (hay numeros, nombres, etc).
>>>     Incluso hay encabezados de dos palabras y parece que R los considera
>>>     dos encabezados distintos. Me explico ?
>>>
>>>     Como puedo hacer para leer la BD correctamente ? Alguna idea ??
>>>
>>>     Adjunto un archivo de muestra.
>>>
>>>     Muchas gracias.
>>>
>>>     Eric.
>>>
>>>
>>>
>>>
>>>     --
>>>     Forest Engineer
>>>     Master in Environmental and Natural Resource Economics
>>>     Ph.D. student in Sciences of Natural Resources at La Frontera
>>> University
>>>     Member in AguaDeTemu2030, citizen movement for Temuco with green
>>>     city standards for living
>>>
>>>     Nota: Las tildes se han omitido para asegurar compatibilidad con
>>>     algunos lectores de correo.
>>>
>>>     _______________________________________________
>>>     R-help-es mailing list
>>>     R-help-es en r-project.org <mailto:R-help-es en r-project.org>
>>>     https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>>

 		 	   		  
	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es