[R-es] sobre fread {data.table}

Carlos Ortega cof en qualityexcellence.es
Mar Sep 29 18:19:03 CEST 2015


Mira lo que dice el README.txt que acompaña a los ficheros:

"...
The format of DRUG-AE.rel is as follows with pipe delimiters:

Column-1: PubMed-ID
Column-2: Sentence
Column-3: Adverse-Effect
Column-4: Begin offset of Adverse-Effect at 'document level'
Column-5: End offset of Adverse-Effect at 'document level'
Column-6: Drug
Column-7: Begin offset of Drug at 'document level'
Column-8: End offset of Drug at 'document level'

..."

Así que si en "fread" indicas que el separador es "|" tendrá que
funcionar...
No son muchas líneas, 6821... así que incluso con read.table lo puedes leer
y luego convertir a data.table sin problemas.

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 29 de septiembre de 2015, 18:01, MªLuz Morales <mlzmrls en gmail.com>
escribió:

> El archivo en cuestión es el DRUG-AE.rel que está en:
>
> https://sites.google.com/site/adecorpus/home/document
>
> Saludos
>
> El 29 de septiembre de 2015, 17:54, Carlos Ortega <
> cof en qualityexcellence.es> escribió:
>
>> También si nos envías el .rel nos ayudaría a ver qué pasa...
>>
>> Saludos,
>> Carlos Ortega.
>>
>> El 29 de septiembre de 2015, 17:38, MªLuz Morales <mlzmrls en gmail.com>
>> escribió:
>>
>>> De acuerdo,
>>> voy a probarlo
>>> Muchas gracias
>>>
>>> Saludos
>>> MªLuz
>>>
>>> El 29 de septiembre de 2015, 17:31, Pedro Concejero Cerezo <
>>> pedro.concejerocerezo en telefonica.com> escribió:
>>>
>>> > Hola, M. Luz.
>>> > Hay infinidad de motivos por los que se te puede cortar la lectura de
>>> un
>>> > archivo de datos, pero los más habituales son encontrar un "#" o unas
>>> "" en
>>> > los registros, o una línea toda en blanco.
>>> > Lo primero yo creo que es dejar el archivo en texto plano (lo que te
>>> > recomendaba Carlos de usar el original, no el docx), y buscar esos
>>> > caracteres con un editor de texto plano tipo Notepad. Los puedes
>>> eliminar
>>> > si no cumplen ninguna función.
>>> > Yo te recomiendo usar read.table que te permite configurar estos
>>> detalles.
>>> > En concreto:
>>> >
>>> > comment.char = ""  no te corta la lectura de fichero como si fuera un
>>> > comentario, te lo añade a la cadena (eso si quieres usar el carácter,
>>> si no
>>> > elimínalo)
>>> > quote = ""  lo mismo con la comilla como comienzo de una cadena
>>> >
>>> > Pero verás que hay muchísimas más opciones que te evitan que se corte
>>> la
>>> > lectura (blank lines, ...) o que te rellene con NA's si no encuentra
>>> todas
>>> > las columnas del header (flush = TRUE).
>>> > Luego pasas a data.table con data.table(objeto_que_has_leido) y ya
>>> está.
>>> >
>>> > read.table(file, header = FALSE, sep = "", quote = "\"'",
>>> >            dec = ".", numerals = c("allow.loss", "warn.loss",
>>> "no.loss"),
>>> >            row.names, col.names, as.is = !stringsAsFactors,
>>> >            na.strings = "NA", colClasses = NA, nrows = -1,
>>> >            skip = 0, check.names = TRUE, fill = !blank.lines.skip,
>>> >            strip.white = FALSE, blank.lines.skip = TRUE,
>>> >            comment.char = "#",
>>> >            allowEscapes = FALSE, flush = FALSE,
>>> >            stringsAsFactors = default.stringsAsFactors(),
>>> >            fileEncoding = "", encoding = "unknown", text, skipNul =
>>> FALSE)
>>> >
>>> >
>>> > Saludos,
>>> > Pedro
>>> >
>>> > =============
>>> > En respuesta a:
>>> >
>>> > ------------------------------
>>> >
>>> > Message: 2
>>> > Date: Tue, 29 Sep 2015 16:55:05 +0200
>>> > From: MªLuz Morales <mlzmrls en gmail.com><mailto:mlzmrls en gmail.com>
>>> > To: r-help-es <r-help-es en r-project.org><mailto:r-help-es en r-project.org
>>> >
>>> > Subject: [R-es] sobre fread {data.table}
>>> > Message-ID:
>>> >         <
>>> > CANmAToM+sRRTfOBRYsrgoUdxdXVtrk21_E7LE0rrb8ENmMiBqQ en mail.gmail.com
>>> > ><mailto:
>>> > CANmAToM+sRRTfOBRYsrgoUdxdXVtrk21_E7LE0rrb8ENmMiBqQ en mail.gmail.com>
>>> > Content-Type: text/plain; charset="UTF-8"
>>> >
>>> > Buenas tardes,
>>> >
>>> > intento almacenar el contenido de un archivo .docx en un data.table,
>>> pero
>>> > solo me devuelve 1855 filas cuando deberñian ser 6821.
>>> >
>>> > Sin embargo, el mismo archivo se me descarga completo usando read_docx
>>> > {qdapTools}, pero este devuelve un vector carácter y no es lo que
>>> quiero.
>>> >
>>> > ¿Alguien sabe donde puede estar el problema?
>>> >
>>> > Nota: El docx procede de un archivo .rel que descargué de internet, al
>>> cual
>>> > cambié la extensión por .doc y una vez abierto guardé como docx.
>>> >
>>> > Gracias!!
>>> > Un saludo
>>> > MªLuz
>>> >
>>> >
>>> > --
>>> > Pedro Concejero
>>> > E-mail: pedro.concejerocerezo en telefonica.com<mailto:
>>> > pedro.concejerocerezo en telefonica.com>
>>> > skype: pedro.concejero
>>> > twitter @ConcejeroPedro<https://twitter.com/ConcejeroPedro>
>>> > linkedin pedroconcejero<http://www.linkedin.com/in/pedroconcejero/es>
>>> > Entusiasta R, me encontraréis aquí gRupo R madRid <
>>> http://madrid.r-es.org/
>>> > >
>>> >
>>> > ________________________________
>>> >
>>> > Este mensaje y sus adjuntos se dirigen exclusivamente a su
>>> destinatario,
>>> > puede contener información privilegiada o confidencial y es para uso
>>> > exclusivo de la persona o entidad de destino. Si no es usted. el
>>> > destinatario indicado, queda notificado de que la lectura, utilización,
>>> > divulgación y/o copia sin autorización puede estar prohibida en virtud
>>> de
>>> > la legislación vigente. Si ha recibido este mensaje por error, le
>>> rogamos
>>> > que nos lo comunique inmediatamente por esta misma vía y proceda a su
>>> > destrucción.
>>> >
>>> > The information contained in this transmission is privileged and
>>> > confidential information intended only for the use of the individual or
>>> > entity named above. If the reader of this message is not the intended
>>> > recipient, you are hereby notified that any dissemination,
>>> distribution or
>>> > copying of this communication is strictly prohibited. If you have
>>> received
>>> > this transmission in error, do not read it. Please immediately reply
>>> to the
>>> > sender that you have received this communication in error and then
>>> delete
>>> > it.
>>> >
>>> > Esta mensagem e seus anexos se dirigem exclusivamente ao seu
>>> destinatário,
>>> > pode conter informação privilegiada ou confidencial e é para uso
>>> exclusivo
>>> > da pessoa ou entidade de destino. Se não é vossa senhoria o
>>> destinatário
>>> > indicado, fica notificado de que a leitura, utilização, divulgação e/ou
>>> > cópia sem autorização pode estar proibida em virtude da legislação
>>> vigente.
>>> > Se recebeu esta mensagem por erro, rogamos-lhe que nos o comunique
>>> > imediatamente por esta mesma via e proceda a sua destruição
>>> >
>>> >         [[alternative HTML version deleted]]
>>> >
>>> > _______________________________________________
>>> > R-help-es mailing list
>>> > R-help-es en r-project.org
>>> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>> >
>>>
>>>         [[alternative HTML version deleted]]
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>
>


-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es