[R-es] sobre fread {data.table}

MªLuz Morales mlzmrls en gmail.com
Mar Sep 29 18:01:24 CEST 2015


El archivo en cuestión es el DRUG-AE.rel que está en:

https://sites.google.com/site/adecorpus/home/document

Saludos

El 29 de septiembre de 2015, 17:54, Carlos Ortega <cof en qualityexcellence.es>
escribió:

> También si nos envías el .rel nos ayudaría a ver qué pasa...
>
> Saludos,
> Carlos Ortega.
>
> El 29 de septiembre de 2015, 17:38, MªLuz Morales <mlzmrls en gmail.com>
> escribió:
>
>> De acuerdo,
>> voy a probarlo
>> Muchas gracias
>>
>> Saludos
>> MªLuz
>>
>> El 29 de septiembre de 2015, 17:31, Pedro Concejero Cerezo <
>> pedro.concejerocerezo en telefonica.com> escribió:
>>
>> > Hola, M. Luz.
>> > Hay infinidad de motivos por los que se te puede cortar la lectura de un
>> > archivo de datos, pero los más habituales son encontrar un "#" o unas
>> "" en
>> > los registros, o una línea toda en blanco.
>> > Lo primero yo creo que es dejar el archivo en texto plano (lo que te
>> > recomendaba Carlos de usar el original, no el docx), y buscar esos
>> > caracteres con un editor de texto plano tipo Notepad. Los puedes
>> eliminar
>> > si no cumplen ninguna función.
>> > Yo te recomiendo usar read.table que te permite configurar estos
>> detalles.
>> > En concreto:
>> >
>> > comment.char = ""  no te corta la lectura de fichero como si fuera un
>> > comentario, te lo añade a la cadena (eso si quieres usar el carácter,
>> si no
>> > elimínalo)
>> > quote = ""  lo mismo con la comilla como comienzo de una cadena
>> >
>> > Pero verás que hay muchísimas más opciones que te evitan que se corte la
>> > lectura (blank lines, ...) o que te rellene con NA's si no encuentra
>> todas
>> > las columnas del header (flush = TRUE).
>> > Luego pasas a data.table con data.table(objeto_que_has_leido) y ya está.
>> >
>> > read.table(file, header = FALSE, sep = "", quote = "\"'",
>> >            dec = ".", numerals = c("allow.loss", "warn.loss",
>> "no.loss"),
>> >            row.names, col.names, as.is = !stringsAsFactors,
>> >            na.strings = "NA", colClasses = NA, nrows = -1,
>> >            skip = 0, check.names = TRUE, fill = !blank.lines.skip,
>> >            strip.white = FALSE, blank.lines.skip = TRUE,
>> >            comment.char = "#",
>> >            allowEscapes = FALSE, flush = FALSE,
>> >            stringsAsFactors = default.stringsAsFactors(),
>> >            fileEncoding = "", encoding = "unknown", text, skipNul =
>> FALSE)
>> >
>> >
>> > Saludos,
>> > Pedro
>> >
>> > =============
>> > En respuesta a:
>> >
>> > ------------------------------
>> >
>> > Message: 2
>> > Date: Tue, 29 Sep 2015 16:55:05 +0200
>> > From: MªLuz Morales <mlzmrls en gmail.com><mailto:mlzmrls en gmail.com>
>> > To: r-help-es <r-help-es en r-project.org><mailto:r-help-es en r-project.org>
>> > Subject: [R-es] sobre fread {data.table}
>> > Message-ID:
>> >         <
>> > CANmAToM+sRRTfOBRYsrgoUdxdXVtrk21_E7LE0rrb8ENmMiBqQ en mail.gmail.com
>> > ><mailto:
>> > CANmAToM+sRRTfOBRYsrgoUdxdXVtrk21_E7LE0rrb8ENmMiBqQ en mail.gmail.com>
>> > Content-Type: text/plain; charset="UTF-8"
>> >
>> > Buenas tardes,
>> >
>> > intento almacenar el contenido de un archivo .docx en un data.table,
>> pero
>> > solo me devuelve 1855 filas cuando deberñian ser 6821.
>> >
>> > Sin embargo, el mismo archivo se me descarga completo usando read_docx
>> > {qdapTools}, pero este devuelve un vector carácter y no es lo que
>> quiero.
>> >
>> > ¿Alguien sabe donde puede estar el problema?
>> >
>> > Nota: El docx procede de un archivo .rel que descargué de internet, al
>> cual
>> > cambié la extensión por .doc y una vez abierto guardé como docx.
>> >
>> > Gracias!!
>> > Un saludo
>> > MªLuz
>> >
>> >
>> > --
>> > Pedro Concejero
>> > E-mail: pedro.concejerocerezo en telefonica.com<mailto:
>> > pedro.concejerocerezo en telefonica.com>
>> > skype: pedro.concejero
>> > twitter @ConcejeroPedro<https://twitter.com/ConcejeroPedro>
>> > linkedin pedroconcejero<http://www.linkedin.com/in/pedroconcejero/es>
>> > Entusiasta R, me encontraréis aquí gRupo R madRid <
>> http://madrid.r-es.org/
>> > >
>> >
>> > ________________________________
>> >
>> > Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario,
>> > puede contener información privilegiada o confidencial y es para uso
>> > exclusivo de la persona o entidad de destino. Si no es usted. el
>> > destinatario indicado, queda notificado de que la lectura, utilización,
>> > divulgación y/o copia sin autorización puede estar prohibida en virtud
>> de
>> > la legislación vigente. Si ha recibido este mensaje por error, le
>> rogamos
>> > que nos lo comunique inmediatamente por esta misma vía y proceda a su
>> > destrucción.
>> >
>> > The information contained in this transmission is privileged and
>> > confidential information intended only for the use of the individual or
>> > entity named above. If the reader of this message is not the intended
>> > recipient, you are hereby notified that any dissemination, distribution
>> or
>> > copying of this communication is strictly prohibited. If you have
>> received
>> > this transmission in error, do not read it. Please immediately reply to
>> the
>> > sender that you have received this communication in error and then
>> delete
>> > it.
>> >
>> > Esta mensagem e seus anexos se dirigem exclusivamente ao seu
>> destinatário,
>> > pode conter informação privilegiada ou confidencial e é para uso
>> exclusivo
>> > da pessoa ou entidade de destino. Se não é vossa senhoria o destinatário
>> > indicado, fica notificado de que a leitura, utilização, divulgação e/ou
>> > cópia sem autorização pode estar proibida em virtude da legislação
>> vigente.
>> > Se recebeu esta mensagem por erro, rogamos-lhe que nos o comunique
>> > imediatamente por esta mesma via e proceda a sua destruição
>> >
>> >         [[alternative HTML version deleted]]
>> >
>> > _______________________________________________
>> > R-help-es mailing list
>> > R-help-es en r-project.org
>> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>> >
>>
>>         [[alternative HTML version deleted]]
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es