[R-es] Lectura de texto

Jorge Virto jorge.virto en ehu.es
Mie Mar 12 11:09:36 CET 2014


Parece ser que el problema puede ser el "encoding".

El fichero txt.txt: 

$ file txt.txt
txt.txt: Little-endian UTF-16 Unicode text, with very long lines, with CR line 
terminators

Si ejecutamos en R:
aa <- read.delim("txt.txt", fileEncoding="UTF-16")

parece leerlo.

Un saludo,

Jorge


On Miércoles, 12 de Marzo de 2014 10:20:44 Carlos Ortega escribió:

Creo que no se ve la imagen incrustada...

Lo adjunto como un "zip"...




El 12 de marzo de 2014, 10:18, Carlos Ortega <cof en qualityexcellence.es> 
escribió:

Hola Jorge,


Algo pasa con el fichero...
He abierto el link de Dropbox, y he salvado el texto como "txt.txt" en local.

Pruebo a abrirlo en R y...:


> scan(file="txt.txt")

Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  : 
  scan() expected 'a real', got 'ÿþM'

> getwd()
[1] "C:/Users/xIs12136/Downloads"



Pruebo a abrirlo con "vi"... y:









El 12 de marzo de 2014, 9:58, Jorge I Velez <jorgeivanvelez en gmail.com> 
escribió:


Gracias, Miguel.   


Desafortunadamente tampoco funciona:


head(r)
[1] "\xff\xfeM" "a"         "d"         "f"         "a"         "p"   


El texto original comienza con 


"Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano 
Buendía había de recordar aquella tarde remota en que su padre lo llevó a 
conocer el hielo..." 


y el objeto r  parece no contener  la informacion en ese orden. 


Alguna otra sugerencia?


Saludos,
Jorge.-  







2014-03-12 19:53 GMT+11:00 <miguel.angel.rodriguez.muinos en sergas.es>:


Hola.

Con r <- scan(txt, character(0)) creo que debiera montarse el texto carácter a 
carácter.
He comprobado que funciona pero no he validado la importación del texto.
Igual es un camino que lleva a alguna parte....

Un Saludo,
Miguel.




-----Mensaje original-----
De: r-help-es-bounces en r-project.org [mailto:r-help-es-bounces en r-project.org] 
En nombre de Carlos Ortega
Enviado el: miércoles, 12 de marzo de 2014 9:48
Para: Jorge I Velez
CC: R-help-es
Asunto: Re: [R-es] Lectura de texto


Hola Jorge,

A mi tampoco me funciona con "scan()", pero sí con "readLines()", aunque el
resultado es muy extraño...
Aunque puede ser también debido al tipo de conexión que estoy usando en
este momento...


> txt <- 'http://dl.dropboxusercontent.com/u/9601860/txt.txt'> r <- 
scan(txt)Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, 
na.strings,  :

  scan() expected 'a real', got 'ÿþM'> rr <- readLines(txt, n=-1,

encoding="UTF-8")There were 50 or more warnings (use warnings() to see

the first 50)> head(rr,30) [1] "\xff\xfeM" ""          ""          ""
        ""          ""
 [7] ""          ""          ""          ""          ""          ""
[13] ""          ""          ""          ""          ""          ""
[19] ""          ""          ""          ""          ""          ""
[25] ""          ""          ""          ""          ""          ""




Saludos,
Carlos Ortega
www.qualityexcellence.es




2014-03-12 4:26 GMT+01:00 Jorge I Velez <jorgeivanvelez en gmail.com>:

> Hola a todos,
>
> Me gustaria leer el texto que se encuentra en
> http://dl.dropboxusercontent.com/u/9601860/txt.txt
>
> He intentado
>
> txt <- 'http://dl.dropboxusercontent.com/u/9601860/txt.txt'
> r <- scan(txt)
> #Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,
>  :
> # invalid multibyte string at '<ff><fe>M'
>
> r <- read.table(txt, header = FALSE)
> #Error in type.convert(data[[i]], as.is = as.is[i], dec = dec, na.strings
> =
> #   character(0L)) :  invalid multibyte string at '<ff><fe>M'
>
> Esta es mi sessionInfo():
>
> > sessionInfo()
> R version 3.0.2 Patched (2013-12-11 r64449)
> Platform: x86_64-apple-darwin10.8.0 (64-bit)
>
> locale:
> [1] en_AU.UTF-8/en_AU.UTF-8/en_AU.UTF-8/C/en_AU.UTF-8/en_AU.UTF-8
>
> attached base packages:
> [1] stats     graphics  grDevices utils     datasets  methods   base
>
> other attached packages:
> [1] foreign_0.8-59
>
> loaded via a namespace (and not attached):
> [1] tools_3.0.2
>
>
> Alguna sugerencia?
>
> Muchas gracias,
> Jorge.-
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



--
Saludos,
Carlos Ortega
www.qualityexcellence.es


        [[alternative HTML version deleted]]


________________________________

Nota: A información contida nesta mensaxe e os seus posibles documentos 
adxuntos é privada e confidencial e está dirixida únicamente ó seu 
destinatario/a. Se vostede non é o/a destinatario/a orixinal desta mensaxe, 
por favor elimínea. A distribución ou copia desta mensaxe non está autorizada.

Nota: La información contenida en este mensaje y sus posibles documentos 
adjuntos es privada y confidencial y está dirigida únicamente a su 
destinatario/a. Si usted no es el/la destinatario/a original de este mensaje, 
por favor elimínelo. La distribución o copia de este mensaje no está 
autorizada.

See more languages: http://www.sergas.es/aviso_confidencialidad.htm






-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es 



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es 


------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20140312/98a97ee0/attachment-0001.html>
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: no disponible
Type: image/png
Size: 0 bytes
Desc: no disponible
URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20140312/98a97ee0/attachment-0001.png>


Más información sobre la lista de distribución R-help-es