[R-es] error al leer una linea desde un archivo de texto

Carlos J. Gil Bellosta cgb en datanalytics.com
Sab Jul 5 20:22:28 CEST 2014


Hola, ¿qué tal?

Dos notas sobre este hilo:

1) La primera es que es fundamental especificar la plataforma sobre la
que uno encuentra los problemas relacionados con los códigos de
caracteres. Para los efectos, solo hay dos: Windows (aferrado al
latin1) y el resto, que utiliza UTF-8.

2) Para leer ficheros con un código de caracteres distinto del de la
plataforma, la opción que hay que modificar en read.table y demás no
es "encoding" sino "fileEncoding". "encoding" especifica el código de
caracteres de las cadenas de texto leídas; fileEncoding, las del
fichero de entrada. Para indicarle a R que va a encontrarse texto en
un juego de caracteres no propio de la plataforma encuestion hay que
utilizar "fileEncoding".

Alguien que aprendió esto a fuerza de cabezazos (todos evitables
leyendo la documentación el debido detalle) escribió

http://www.datanalytics.com/2011/09/08/codigos-de-caracteres-en-r/

donde se da cuenta de ese tipo de problemas y cómo resolverlos.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com

El día 4 de julio de 2014, 19:56, neo <ericconchamunoz en gmail.com> escribió:
> Que raro, habia enviado este email, pero creo que nunca salio de mi
> compu ... gracias a todos por sus sugerencias ... eric.
>
>
>
> Estimados todos, gracias por las sugerencias, al final lo resolvi de un
> modo "carretero" como decimos aca, por el camino largo. Como no eran
> demasiados los archivos corte el contenido y lo pegue en un nuevo
> archivo y funciono. Sin embargo, sigo sin saber la causa. Mi sesion
> info es:
>
> R version 3.0.2 (2013-09-25)
> Platform: x86_64-pc-linux-gnu (64-bit)
>
> locale:
>  [1] LC_CTYPE=en_GB.utf8          LC_NUMERIC=C
>  [3] LC_TIME=en_GB.utf8           LC_COLLATE=en_GB.utf8
>  [5] LC_MONETARY=en_GB.utf8       LC_MESSAGES=en_GB.utf8
>  [7] LC_PAPER=en_GB.utf8          LC_NAME=en_GB.utf8
>  [9] LC_ADDRESS=en_GB.utf8        LC_TELEPHONE=en_GB.utf8
> [11] LC_MEASUREMENT=en_GB.utf8    LC_IDENTIFICATION=en_GB.utf8
>
> attached base packages:
>  [1] parallel  splines   grid      stats     graphics  grDevices utils
>  [8] datasets  methods   base
>
> other attached packages:
>  [1] latticeExtra_0.6-26 RColorBrewer_1.0-5  Biobase_2.22.0
>  [4] BiocGenerics_0.8.0  Hmisc_3.14-4        Formula_1.1-1
>  [7] survival_2.37-7     flowViz_1.26.16     lattice_0.20-24
> [10] flowCore_1.28.24    knitr_1.6           flowPlots_1.10.0
> [13] rkward_0.6.1
>
> loaded via a namespace (and not attached):
>  [1] cluster_1.14.4     corpcor_1.6.6      DEoptimR_1.0-1
> evaluate_0.5.5
>  [5] feature_1.2.10     formatR_0.10       graph_1.40.1
> hexbin_1.26.3
>  [9] IDPmisc_1.1.17     KernSmooth_2.23-10 ks_1.9.2
> MASS_7.3-29
> [13] misc3d_0.8-4       mvtnorm_0.9-99992  pcaPP_1.9-49
> rgl_0.93.986
> [17] robustbase_0.91-1  rrcov_1.3-4        stats4_3.0.2
> stringr_0.6.2
> [21] tools_3.0.2
>
>
>
>
>
>
>
> On Thu 03 Jul 2014 03:57:17 CLT, Jorge I Velez wrote:
>> Hola Eric,
>>
>> Me incliniaria mas por un problema de enconding.  Intenta agregando
>> enconding = 'latin1' al final de read.csv()
>>
>> A lo mejor enviandonos tu sessionInfo()  podriamos ayudarte un poco mas.
>>
>> Saludos,
>> Jorge.-
>>
>>
>> 2014-07-03 5:32 GMT+10:00 neo <ericconchamunoz en gmail.com
>> <mailto:ericconchamunoz en gmail.com>>:
>>
>>     Estimada comunidad, estoy extrayendo una linea de texto desde varios
>>     archivos (unos 200) de esta manera:
>>
>>
>>     dat <- read.csv(filenames[i], header=FALSE, sep=",", dec=".", skip=11,
>>     nrows=1)
>>
>>
>>     pero al tratar de leer esa linea desde el archivo numero 54 obtengo el
>>     siguiente error:
>>
>>
>>     Error in type.convert(data[[i]], as.is <http://as.is> = as.is
>>     <http://as.is>[i], dec = dec, na.strings
>>     = character(0L)) :
>>     invalid multibyte string at '<b5>g' Calls: read.csv -> read.table ->
>>     type.convert
>>
>>
>>     todos los archivos fueron generados de la misma forma, exportados
>>     desde
>>     excel usando un breve script de VB par aplicaciones, pero solo algunos
>>     me dan ese error, que no se lo que significa, por lo tanto no se como
>>     repararlo. Ademas he examinado los archivos y no observo diferencias.
>>
>>     Adjunto un archivo que se lee y uno que no se lee, en una de esas
>>     se me
>>     paso algo por no saber.
>>
>>     Alguna idea ?
>>
>>     Saludos y muchas gracias,
>>
>>     Eric.
>>
>>
>>
>>
>>     --
>>     Forest Engineer
>>     Master in Environmental and Natural Resource Economics
>>     Ph.D. student in Sciences of Natural Resources at La Frontera
>>     University
>>     Member in AguaDeTemu2030, citizen movement for Temuco with green city
>>     standards for living
>>
>>     Nota: Las tildes se han omitido para asegurar compatibilidad con
>>     algunos
>>     lectores de correo.
>>
>>     _______________________________________________
>>     R-help-es mailing list
>>     R-help-es en r-project.org <mailto:R-help-es en r-project.org>
>>     https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>>
>
> --
> Forest Engineer
> Master in Environmental and Natural Resource Economics
> Ph.D. student in Sciences of Natural Resources at La Frontera University
> Member in AguaDeTemu2030, citizen movement for Temuco with green city
> standards for living
>
> Nota: Las tildes se han omitido para asegurar compatibilidad con
> algunos lectores de correo.
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es



Más información sobre la lista de distribución R-help-es