[R-es] sobre fread {data.table}

Carlos J. Gil Bellosta cgb en datanalytics.com
Mar Sep 29 18:00:00 CEST 2015


Hola, ¿qué tal?

1) No cambies la extensión de un fichero. Especialmente en Windows. Si
es .rel, es .rel.
2) Seguramente, el .rel es un fichero de texto (no un documento de
Word). Usa un buen editor de texto plano para abrir esos ficheros.
Sospecho que estás en Windows y ahí hay mucha gente que usa Notepad+.
De todos modos, creo que puedes abrirlo hasta con RStudio para
explorarlo.
3) La razón número 1 por la que es posible que se salten líneas es la
presencia de algún apóstrofe en los datos. Mira a ver si alrededor de
la fila 1855 tienes uno.
4) Con read.table puedes gestionar esos apóstrofes (con la opción
"quote"). Con fread creo que no. Lee la ayuda con detenimiento.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com

El día 29 de septiembre de 2015, 17:38, MªLuz Morales
<mlzmrls en gmail.com> escribió:
> De acuerdo,
> voy a probarlo
> Muchas gracias
>
> Saludos
> MªLuz
>
> El 29 de septiembre de 2015, 17:31, Pedro Concejero Cerezo <
> pedro.concejerocerezo en telefonica.com> escribió:
>
>> Hola, M. Luz.
>> Hay infinidad de motivos por los que se te puede cortar la lectura de un
>> archivo de datos, pero los más habituales son encontrar un "#" o unas "" en
>> los registros, o una línea toda en blanco.
>> Lo primero yo creo que es dejar el archivo en texto plano (lo que te
>> recomendaba Carlos de usar el original, no el docx), y buscar esos
>> caracteres con un editor de texto plano tipo Notepad. Los puedes eliminar
>> si no cumplen ninguna función.
>> Yo te recomiendo usar read.table que te permite configurar estos detalles.
>> En concreto:
>>
>> comment.char = ""  no te corta la lectura de fichero como si fuera un
>> comentario, te lo añade a la cadena (eso si quieres usar el carácter, si no
>> elimínalo)
>> quote = ""  lo mismo con la comilla como comienzo de una cadena
>>
>> Pero verás que hay muchísimas más opciones que te evitan que se corte la
>> lectura (blank lines, ...) o que te rellene con NA's si no encuentra todas
>> las columnas del header (flush = TRUE).
>> Luego pasas a data.table con data.table(objeto_que_has_leido) y ya está.
>>
>> read.table(file, header = FALSE, sep = "", quote = "\"'",
>>            dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
>>            row.names, col.names, as.is = !stringsAsFactors,
>>            na.strings = "NA", colClasses = NA, nrows = -1,
>>            skip = 0, check.names = TRUE, fill = !blank.lines.skip,
>>            strip.white = FALSE, blank.lines.skip = TRUE,
>>            comment.char = "#",
>>            allowEscapes = FALSE, flush = FALSE,
>>            stringsAsFactors = default.stringsAsFactors(),
>>            fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
>>
>>
>> Saludos,
>> Pedro
>>
>> =============
>> En respuesta a:
>>
>> ------------------------------
>>
>> Message: 2
>> Date: Tue, 29 Sep 2015 16:55:05 +0200
>> From: MªLuz Morales <mlzmrls en gmail.com><mailto:mlzmrls en gmail.com>
>> To: r-help-es <r-help-es en r-project.org><mailto:r-help-es en r-project.org>
>> Subject: [R-es] sobre fread {data.table}
>> Message-ID:
>>         <
>> CANmAToM+sRRTfOBRYsrgoUdxdXVtrk21_E7LE0rrb8ENmMiBqQ en mail.gmail.com
>> ><mailto:
>> CANmAToM+sRRTfOBRYsrgoUdxdXVtrk21_E7LE0rrb8ENmMiBqQ en mail.gmail.com>
>> Content-Type: text/plain; charset="UTF-8"
>>
>> Buenas tardes,
>>
>> intento almacenar el contenido de un archivo .docx en un data.table, pero
>> solo me devuelve 1855 filas cuando deberñian ser 6821.
>>
>> Sin embargo, el mismo archivo se me descarga completo usando read_docx
>> {qdapTools}, pero este devuelve un vector carácter y no es lo que quiero.
>>
>> ¿Alguien sabe donde puede estar el problema?
>>
>> Nota: El docx procede de un archivo .rel que descargué de internet, al cual
>> cambié la extensión por .doc y una vez abierto guardé como docx.
>>
>> Gracias!!
>> Un saludo
>> MªLuz
>>
>>
>> --
>> Pedro Concejero
>> E-mail: pedro.concejerocerezo en telefonica.com<mailto:
>> pedro.concejerocerezo en telefonica.com>
>> skype: pedro.concejero
>> twitter @ConcejeroPedro<https://twitter.com/ConcejeroPedro>
>> linkedin pedroconcejero<http://www.linkedin.com/in/pedroconcejero/es>
>> Entusiasta R, me encontraréis aquí gRupo R madRid <http://madrid.r-es.org/
>> >
>>
>> ________________________________
>>
>> Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario,
>> puede contener información privilegiada o confidencial y es para uso
>> exclusivo de la persona o entidad de destino. Si no es usted. el
>> destinatario indicado, queda notificado de que la lectura, utilización,
>> divulgación y/o copia sin autorización puede estar prohibida en virtud de
>> la legislación vigente. Si ha recibido este mensaje por error, le rogamos
>> que nos lo comunique inmediatamente por esta misma vía y proceda a su
>> destrucción.
>>
>> The information contained in this transmission is privileged and
>> confidential information intended only for the use of the individual or
>> entity named above. If the reader of this message is not the intended
>> recipient, you are hereby notified that any dissemination, distribution or
>> copying of this communication is strictly prohibited. If you have received
>> this transmission in error, do not read it. Please immediately reply to the
>> sender that you have received this communication in error and then delete
>> it.
>>
>> Esta mensagem e seus anexos se dirigem exclusivamente ao seu destinatário,
>> pode conter informação privilegiada ou confidencial e é para uso exclusivo
>> da pessoa ou entidade de destino. Se não é vossa senhoria o destinatário
>> indicado, fica notificado de que a leitura, utilização, divulgação e/ou
>> cópia sem autorização pode estar proibida em virtude da legislação vigente.
>> Se recebeu esta mensagem por erro, rogamos-lhe que nos o comunique
>> imediatamente por esta mesma via e proceda a sua destruição
>>
>>         [[alternative HTML version deleted]]
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es



Más información sobre la lista de distribución R-help-es