[R-es] Lectura de texto
Jorge Virto
jorge.virto en ehu.es
Mie Mar 12 11:09:36 CET 2014
Parece ser que el problema puede ser el "encoding".
El fichero txt.txt:
$ file txt.txt
txt.txt: Little-endian UTF-16 Unicode text, with very long lines, with CR line
terminators
Si ejecutamos en R:
aa <- read.delim("txt.txt", fileEncoding="UTF-16")
parece leerlo.
Un saludo,
Jorge
On Miércoles, 12 de Marzo de 2014 10:20:44 Carlos Ortega escribió:
Creo que no se ve la imagen incrustada...
Lo adjunto como un "zip"...
El 12 de marzo de 2014, 10:18, Carlos Ortega <cof en qualityexcellence.es>
escribió:
Hola Jorge,
Algo pasa con el fichero...
He abierto el link de Dropbox, y he salvado el texto como "txt.txt" en local.
Pruebo a abrirlo en R y...:
> scan(file="txt.txt")
Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
scan() expected 'a real', got 'ÿþM'
> getwd()
[1] "C:/Users/xIs12136/Downloads"
Pruebo a abrirlo con "vi"... y:
El 12 de marzo de 2014, 9:58, Jorge I Velez <jorgeivanvelez en gmail.com>
escribió:
Gracias, Miguel.
Desafortunadamente tampoco funciona:
head(r)
[1] "\xff\xfeM" "a" "d" "f" "a" "p"
El texto original comienza con
"Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano
Buendía había de recordar aquella tarde remota en que su padre lo llevó a
conocer el hielo..."
y el objeto r parece no contener la informacion en ese orden.
Alguna otra sugerencia?
Saludos,
Jorge.-
2014-03-12 19:53 GMT+11:00 <miguel.angel.rodriguez.muinos en sergas.es>:
Hola.
Con r <- scan(txt, character(0)) creo que debiera montarse el texto carácter a
carácter.
He comprobado que funciona pero no he validado la importación del texto.
Igual es un camino que lleva a alguna parte....
Un Saludo,
Miguel.
-----Mensaje original-----
De: r-help-es-bounces en r-project.org [mailto:r-help-es-bounces en r-project.org]
En nombre de Carlos Ortega
Enviado el: miércoles, 12 de marzo de 2014 9:48
Para: Jorge I Velez
CC: R-help-es
Asunto: Re: [R-es] Lectura de texto
Hola Jorge,
A mi tampoco me funciona con "scan()", pero sí con "readLines()", aunque el
resultado es muy extraño...
Aunque puede ser también debido al tipo de conexión que estoy usando en
este momento...
> txt <- 'http://dl.dropboxusercontent.com/u/9601860/txt.txt'> r <-
scan(txt)Error in scan(file, what, nmax, sep, dec, quote, skip, nlines,
na.strings, :
scan() expected 'a real', got 'ÿþM'> rr <- readLines(txt, n=-1,
encoding="UTF-8")There were 50 or more warnings (use warnings() to see
the first 50)> head(rr,30) [1] "\xff\xfeM" "" "" ""
"" ""
[7] "" "" "" "" "" ""
[13] "" "" "" "" "" ""
[19] "" "" "" "" "" ""
[25] "" "" "" "" "" ""
Saludos,
Carlos Ortega
www.qualityexcellence.es
2014-03-12 4:26 GMT+01:00 Jorge I Velez <jorgeivanvelez en gmail.com>:
> Hola a todos,
>
> Me gustaria leer el texto que se encuentra en
> http://dl.dropboxusercontent.com/u/9601860/txt.txt
>
> He intentado
>
> txt <- 'http://dl.dropboxusercontent.com/u/9601860/txt.txt'
> r <- scan(txt)
> #Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,
> :
> # invalid multibyte string at '<ff><fe>M'
>
> r <- read.table(txt, header = FALSE)
> #Error in type.convert(data[[i]], as.is = as.is[i], dec = dec, na.strings
> =
> # character(0L)) : invalid multibyte string at '<ff><fe>M'
>
> Esta es mi sessionInfo():
>
> > sessionInfo()
> R version 3.0.2 Patched (2013-12-11 r64449)
> Platform: x86_64-apple-darwin10.8.0 (64-bit)
>
> locale:
> [1] en_AU.UTF-8/en_AU.UTF-8/en_AU.UTF-8/C/en_AU.UTF-8/en_AU.UTF-8
>
> attached base packages:
> [1] stats graphics grDevices utils datasets methods base
>
> other attached packages:
> [1] foreign_0.8-59
>
> loaded via a namespace (and not attached):
> [1] tools_3.0.2
>
>
> Alguna sugerencia?
>
> Muchas gracias,
> Jorge.-
>
> [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
--
Saludos,
Carlos Ortega
www.qualityexcellence.es
[[alternative HTML version deleted]]
________________________________
Nota: A información contida nesta mensaxe e os seus posibles documentos
adxuntos é privada e confidencial e está dirixida únicamente ó seu
destinatario/a. Se vostede non é o/a destinatario/a orixinal desta mensaxe,
por favor elimínea. A distribución ou copia desta mensaxe non está autorizada.
Nota: La información contenida en este mensaje y sus posibles documentos
adjuntos es privada y confidencial y está dirigida únicamente a su
destinatario/a. Si usted no es el/la destinatario/a original de este mensaje,
por favor elimínelo. La distribución o copia de este mensaje no está
autorizada.
See more languages: http://www.sergas.es/aviso_confidencialidad.htm
--
Saludos,
Carlos Ortega
www.qualityexcellence.es
--
Saludos,
Carlos Ortega
www.qualityexcellence.es
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20140312/98a97ee0/attachment-0001.html>
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: no disponible
Type: image/png
Size: 0 bytes
Desc: no disponible
URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20140312/98a97ee0/attachment-0001.png>
Más información sobre la lista de distribución R-help-es