<div dir="ltr">Creo que no me deja adjuntar un archivo grande. Lo envío comprimido</div><div class="gmail_extra"><br><div class="gmail_quote">El 1 de octubre de 2015, 16:42, MªLuz Morales <span dir="ltr"><<a href="mailto:mlzmrls@gmail.com" target="_blank">mlzmrls@gmail.com</a>></span> escribió:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>Hola, </div><div>este es el archivo que estoy usando, pero en ese creo que no he modificado nada.</div><div>Me instalé las actualizaciones de todos los paquetes, quizá el problema venga por ahí, que no sea de data.table sino de otro...</div><div><br></div><div>Gracias</div><div>Un saludo</div><span class="HOEnZb"><font color="#888888"><div>MªLuz</div></font></span></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><div class="gmail_quote">El 1 de octubre de 2015, 14:34, Carlos Ortega <span dir="ltr"><<a href="mailto:cof@qualityexcellence.es" target="_blank">cof@qualityexcellence.es</a>></span> escribió:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;padding-left:1ex;border-left-color:rgb(204,204,204);border-left-width:1px;border-left-style:solid"><div dir="ltr"><div class="gmail_default" style="font-family:verdana,sans-serif">Hola,<br><br></div><div class="gmail_default" style="font-family:verdana,sans-serif">Ayer probé sobre Windows la 1.9.6 y me cargóel conjunto sin problemas.<br>Comentaste que habías manipulado el fichero y algo habías quitado, puede que hayas cambiado el número de columnas en esa línea y que ahora no tenga las mismas que el resto y por eso fread da error. <br><br>Si puedes pasarnos tu fichero vemos si esto es así...<br><br></div><div class="gmail_default" style="font-family:verdana,sans-serif">Gracias,<br></div><div class="gmail_default" style="font-family:verdana,sans-serif">Carlos Ortega<br></div><div class="gmail_default" style="font-family:verdana,sans-serif"><a href="http://www.qualityexcellence.es" target="_blank">www.qualityexcellence.es</a><br></div></div><div><div><div class="gmail_extra"><br><div class="gmail_quote">El 1 de octubre de 2015, 12:41, MªLuz Morales <span dir="ltr"><<a href="mailto:mlzmrls@gmail.com" target="_blank">mlzmrls@gmail.com</a>></span> escribió:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;padding-left:1ex;border-left-color:rgb(204,204,204);border-left-width:1px;border-left-style:solid">Hola de nuevo,<br>
parece que la última versión del paquete data.table es 1.9.6<br>
La he probado y parece que no funciona bien, me da error:<br>
<br>
<br>
<br>
Error in fread("C:/Users/iphealthMariluz/Documents/Proyecto<br>
iphealt/ProcesamientoTexto/Adverse Drug<br>
Event/ADE-Corpus/DRUG-AE_eliminoLinea1856.rel") :<br>
  4 arguments passed to .Internal(nchar) which requires 3<br>
<br>
<br>
<br>
<br>
<br>
El 30 de septiembre de 2015, 13:38, MªLuz Morales <<a href="mailto:mlzmrls@gmail.com" target="_blank">mlzmrls@gmail.com</a>><br>
escribió:<br>
<div><div><br>
> Sí, me di cuenta de que el problema era |", y he hecho la sustitución.<br>
> Estoy usando la versión 1.9.4, sí. Voy a ver si consigo la versión 1.9.5.<br>
><br>
> Muchísimas gracias a todos<br>
> Saludos<br>
> MªLuz<br>
><br>
><br>
><br>
> El 30 de septiembre de 2015, 12:51, Carlos J. Gil Bellosta <<br>
> <a href="mailto:cgb@datanalytics.com" target="_blank">cgb@datanalytics.com</a>> escribió:<br>
><br>
>> Si en la línea 1856 de tus datos reemplazas<br>
>><br>
>> |"cotton-wool" spots|<br>
>><br>
>> por<br>
>><br>
>> |cotton-wool spots|<br>
>><br>
>> funciona (y fread lee todas las línas).<br>
>><br>
>> Suena a bug en el paquete (porque las comillas que no son vecinas de<br>
>> separador las gestiona correctamente).<br>
>><br>
>> Igual quieres comentarle al autor del paquete el problema para que le<br>
>> eche un ojo. De todos modos, te recomendaría que comprobases el<br>
>> problema también en la versión de desarrollo, la 1.9.5, por si ya se<br>
>> ha arreglado. La actual (¿es la que usas?) es la 1.9.4.<br>
>><br>
>> Salud,<br>
>><br>
>> Carlos J. Gil Bellosta<br>
>> <a href="http://www.datanalytics.com" target="_blank" rel="noreferrer">http://www.datanalytics.com</a><br>
>><br>
>> El día 30 de septiembre de 2015, 12:37, Carlos Ortega<br>
>> <<a href="mailto:cof@qualityexcellence.es" target="_blank">cof@qualityexcellence.es</a>> escribió:<br>
>> > No sé... alguna explicación habrá...<br>
>> ><br>
>> > ¿Puedes pasarnos tu fichero para ver si lo importamos correctamente<br>
>> > nosotros?.<br>
>> > ¿Puedes comprobar que tienes la última versión de data.table...?<br>
>> ><br>
>> > Gracias,<br>
>> > Carlos Ortega<br>
>> > <a href="http://www.qualityexcellence.es" target="_blank" rel="noreferrer">www.qualityexcellence.es</a><br>
>> ><br>
>> > El 30 de septiembre de 2015, 10:37, MªLuz Morales <<a href="mailto:mlzmrls@gmail.com" target="_blank">mlzmrls@gmail.com</a>><br>
>> > escribió:<br>
>> ><br>
>> >> Hola de nuevo,<br>
>> >><br>
>> >> el archivo .rel esta en una carpeta comprimida .zip, yo la descomprimo<br>
>> con<br>
>> >> win rar. Como no sea ese el motivo por el que no me da el fichero<br>
>> completo?<br>
>> >><br>
>> >> El 30 de septiembre de 2015, 10:30, MªLuz Morales <<a href="mailto:mlzmrls@gmail.com" target="_blank">mlzmrls@gmail.com</a>><br>
>> >> escribió:<br>
>> >><br>
>> >>> Pues soy gafe entonces,<br>
>> >>> no lo entiendo:<br>
>> >>><br>
>> >>> > datIn <- fread("C:\\Users\\iphealthMariluz\\Documents\\Proyecto<br>
>> iphealt\\ProcesamientoTexto\\Adverse Drug Event\\ADE-Corpus\\DRUG-AE.rel")><br>
>> dim(datIn)[1] 1855    8<br>
>> >>><br>
>> >>><br>
>> >>> El 29 de septiembre de 2015, 18:54, Carlos Ortega <<br>
>> >>> <a href="mailto:cof@qualityexcellence.es" target="_blank">cof@qualityexcellence.es</a>> escribió:<br>
>> >>><br>
>> >>>> Y con fread.. directamente sobre el ".rel"...<br>
>> >>>><br>
>> >>>> > datIn <- fread("DRUG-AE.rel")<br>
>> >>>> > dim(datIn)<br>
>> >>>> [1] 6821    8<br>
>> >>>><br>
>> >>>><br>
>> >>>><br>
>> >>>> Saludos,<br>
>> >>>> Carlos Ortega<br>
>> >>>> <a href="http://www.qualityexcellence.es" target="_blank" rel="noreferrer">www.qualityexcellence.es</a><br>
>> >>>><br>
>> >>>><br>
>> >>>> El 29 de septiembre de 2015, 18:45, Pedro Concejero Cerezo <<br>
>> >>>> <a href="mailto:pedro.concejerocerezo@telefonica.com" target="_blank">pedro.concejerocerezo@telefonica.com</a>> escribió:<br>
>> >>>><br>
>> >>>>> No tiene cabecera. Tendrás que ponerle nombre a las variables<br>
>> >>>>> Prueba este código, yo leo 6821 obs. of  8 variables<br>
>> >>>>><br>
>> >>>>> library(data.table)<br>
>> >>>>> setwd("C:/Users/pedroc/Desktop/ADE-Corpus-V2") #Pon tu directorio<br>
>> >>>>> trabajo<br>
>> >>>>> dat <- read.table(file = "DRUG-AE.rel",<br>
>> >>>>>                   sep = "|",<br>
>> >>>>>                   comment.char = "",<br>
>> >>>>>                   header = F,<br>
>> >>>>>                   quote = "")<br>
>> >>>>><br>
>> >>>>> str(dat)<br>
>> >>>>><br>
>> >>>>> datt <- data.table(dat)<br>
>> >>>>><br>
>> >>>>><br>
>> >>>>> El 29/09/2015 a las 17:31, Pedro Concejero Cerezo escribió:<br>
>> >>>>> Hola, M. Luz.<br>
>> >>>>> Hay infinidad de motivos por los que se te puede cortar la lectura<br>
>> de<br>
>> >>>>> un archivo de datos, pero los más habituales son encontrar un "#" o<br>
>> unas ""<br>
>> >>>>> en los registros, o una línea toda en blanco.<br>
>> >>>>> Lo primero yo creo que es dejar el archivo en texto plano (lo que te<br>
>> >>>>> recomendaba Carlos de usar el original, no el docx), y buscar esos<br>
>> >>>>> caracteres con un editor de texto plano tipo Notepad. Los puedes<br>
>> eliminar<br>
>> >>>>> si no cumplen ninguna función.<br>
>> >>>>> Yo te recomiendo usar read.table que te permite configurar estos<br>
>> >>>>> detalles. En concreto:<br>
>> >>>>><br>
>> >>>>> comment.char = ""  no te corta la lectura de fichero como si fuera<br>
>> un<br>
>> >>>>> comentario, te lo añade a la cadena (eso si quieres usar el<br>
>> carácter, si no<br>
>> >>>>> elimínalo)<br>
>> >>>>> quote = ""  lo mismo con la comilla como comienzo de una cadena<br>
>> >>>>><br>
>> >>>>> Pero verás que hay muchísimas más opciones que te evitan que se<br>
>> corte<br>
>> >>>>> la lectura (blank lines, ...) o que te rellene con NA's si no<br>
>> encuentra<br>
>> >>>>> todas las columnas del header (flush = TRUE).<br>
>> >>>>> Luego pasas a data.table con data.table(objeto_que_has_leido) y ya<br>
>> está.<br>
>> >>>>><br>
>> >>>>> read.table(file, header = FALSE, sep = "", quote = "\"'",<br>
>> >>>>>            dec = ".", numerals = c("allow.loss", "warn.loss",<br>
>> >>>>> "no.loss"),<br>
>> >>>>>            row.names, col.names, <a href="http://as.is" target="_blank" rel="noreferrer">as.is</a> = !stringsAsFactors,<br>
>> >>>>>            na.strings = "NA", colClasses = NA, nrows = -1,<br>
>> >>>>>            skip = 0, check.names = TRUE, fill = !blank.lines.skip,<br>
>> >>>>>            strip.white = FALSE, blank.lines.skip = TRUE,<br>
>> >>>>>            comment.char = "#",<br>
>> >>>>>            allowEscapes = FALSE, flush = FALSE,<br>
>> >>>>>            stringsAsFactors = default.stringsAsFactors(),<br>
>> >>>>>            fileEncoding = "", encoding = "unknown", text, skipNul =<br>
>> >>>>> FALSE)<br>
>> >>>>><br>
>> >>>>><br>
>> >>>>> Saludos,<br>
>> >>>>> Pedro<br>
>> >>>>><br>
>> >>>>> =============<br>
>> >>>>> En respuesta a:<br>
>> >>>>><br>
>> >>>>> ------------------------------<br>
>> >>>>><br>
>> >>>>> Message: 2<br>
>> >>>>> Date: Tue, 29 Sep 2015 16:55:05 +0200<br>
>> >>>>> From: MªLuz Morales <<a href="mailto:mlzmrls@gmail.com" target="_blank">mlzmrls@gmail.com</a>><mailto:<a href="mailto:mlzmrls@gmail.com" target="_blank">mlzmrls@gmail.com</a>><br>
>> >>>>> To: r-help-es <<a href="mailto:r-help-es@r-project.org" target="_blank">r-help-es@r-project.org</a>><mailto:<br>
>> <a href="mailto:r-help-es@r-project.org" target="_blank">r-help-es@r-project.org</a>><br>
>> >>>>> Subject: [R-es] sobre fread {data.table}<br>
>> >>>>> Message-ID:<br>
>> >>>>>         <<br>
>> >>>>> <a href="mailto:CANmAToM%2BsRRTfOBRYsrgoUdxdXVtrk21_E7LE0rrb8ENmMiBqQ@mail.gmail.com" target="_blank">CANmAToM+sRRTfOBRYsrgoUdxdXVtrk21_E7LE0rrb8ENmMiBqQ@mail.gmail.com</a><br>
>> >>>>> ><mailto:<br>
>> >>>>> <a href="mailto:CANmAToM%2BsRRTfOBRYsrgoUdxdXVtrk21_E7LE0rrb8ENmMiBqQ@mail.gmail.com" target="_blank">CANmAToM+sRRTfOBRYsrgoUdxdXVtrk21_E7LE0rrb8ENmMiBqQ@mail.gmail.com</a>><br>
>> >>>>> Content-Type: text/plain; charset="UTF-8"<br>
>> >>>>><br>
>> >>>>> Buenas tardes,<br>
>> >>>>><br>
>> >>>>> intento almacenar el contenido de un archivo .docx en un data.table,<br>
>> >>>>> pero<br>
>> >>>>> solo me devuelve 1855 filas cuando deberñian ser 6821.<br>
>> >>>>><br>
>> >>>>> Sin embargo, el mismo archivo se me descarga completo usando<br>
>> read_docx<br>
>> >>>>> {qdapTools}, pero este devuelve un vector carácter y no es lo que<br>
>> >>>>> quiero.<br>
>> >>>>><br>
>> >>>>> ¿Alguien sabe donde puede estar el problema?<br>
>> >>>>><br>
>> >>>>> Nota: El docx procede de un archivo .rel que descargué de internet,<br>
>> al<br>
>> >>>>> cual<br>
>> >>>>> cambié la extensión por .doc y una vez abierto guardé como docx.<br>
>> >>>>><br>
>> >>>>> Gracias!!<br>
>> >>>>> Un saludo<br>
>> >>>>> MªLuz<br>
>> >>>>><br>
>> >>>>><br>
>> >>>>> --<br>
>> >>>>> Pedro Concejero<br>
>> >>>>> E-mail: <a href="mailto:pedro.concejerocerezo@telefonica.com" target="_blank">pedro.concejerocerezo@telefonica.com</a><mailto:<br>
>> >>>>> <a href="mailto:pedro.concejerocerezo@telefonica.com" target="_blank">pedro.concejerocerezo@telefonica.com</a>><br>
>> >>>>> skype: pedro.concejero<br>
>> >>>>> twitter @ConcejeroPedro<<a href="https://twitter.com/ConcejeroPedro" target="_blank" rel="noreferrer">https://twitter.com/ConcejeroPedro</a>><br>
>> >>>>> linkedin pedroconcejero<<br>
>> <a href="http://www.linkedin.com/in/pedroconcejero/es" target="_blank" rel="noreferrer">http://www.linkedin.com/in/pedroconcejero/es</a>><br>
>> >>>>> Entusiasta R, me encontraréis aquí gRupo R madRid <<br>
>> >>>>> <a href="http://madrid.r-es.org/" target="_blank" rel="noreferrer">http://madrid.r-es.org/</a>><br>
>> >>>>><br>
>> >>>>><br>
>> >>>>> --<br>
>> >>>>> Pedro Concejero<br>
>> >>>>> E-mail: <a href="mailto:pedro.concejerocerezo@telefonica.com" target="_blank">pedro.concejerocerezo@telefonica.com</a><mailto:<br>
>> >>>>> <a href="mailto:pedro.concejerocerezo@telefonica.com" target="_blank">pedro.concejerocerezo@telefonica.com</a>><br>
>> >>>>> skype: pedro.concejero<br>
>> >>>>> twitter @ConcejeroPedro<<a href="https://twitter.com/ConcejeroPedro" target="_blank" rel="noreferrer">https://twitter.com/ConcejeroPedro</a>><br>
>> >>>>> linkedin pedroconcejero<<br>
>> <a href="http://www.linkedin.com/in/pedroconcejero/es" target="_blank" rel="noreferrer">http://www.linkedin.com/in/pedroconcejero/es</a>><br>
>> >>>>> Entusiasta R, me encontraréis aquí gRupo R madRid <<br>
>> >>>>> <a href="http://madrid.r-es.org/" target="_blank" rel="noreferrer">http://madrid.r-es.org/</a>><br>
>> >>>>><br>
>> >>>>> ________________________________<br>
>> >>>>><br>
>> >>>>> Este mensaje y sus adjuntos se dirigen exclusivamente a su<br>
>> >>>>> destinatario, puede contener información privilegiada o<br>
>> confidencial y es<br>
>> >>>>> para uso exclusivo de la persona o entidad de destino. Si no es<br>
>> usted. el<br>
>> >>>>> destinatario indicado, queda notificado de que la lectura,<br>
>> utilización,<br>
>> >>>>> divulgación y/o copia sin autorización puede estar prohibida en<br>
>> virtud de<br>
>> >>>>> la legislación vigente. Si ha recibido este mensaje por error, le<br>
>> rogamos<br>
>> >>>>> que nos lo comunique inmediatamente por esta misma vía y proceda a<br>
>> su<br>
>> >>>>> destrucción.<br>
>> >>>>><br>
>> >>>>> The information contained in this transmission is privileged and<br>
>> >>>>> confidential information intended only for the use of the<br>
>> individual or<br>
>> >>>>> entity named above. If the reader of this message is not the<br>
>> intended<br>
>> >>>>> recipient, you are hereby notified that any dissemination,<br>
>> distribution or<br>
>> >>>>> copying of this communication is strictly prohibited. If you have<br>
>> received<br>
>> >>>>> this transmission in error, do not read it. Please immediately<br>
>> reply to the<br>
>> >>>>> sender that you have received this communication in error and then<br>
>> delete<br>
>> >>>>> it.<br>
>> >>>>><br>
>> >>>>> Esta mensagem e seus anexos se dirigem exclusivamente ao seu<br>
>> >>>>> destinatário, pode conter informação privilegiada ou confidencial e<br>
>> é para<br>
>> >>>>> uso exclusivo da pessoa ou entidade de destino. Se não é vossa<br>
>> senhoria o<br>
>> >>>>> destinatário indicado, fica notificado de que a leitura, utilização,<br>
>> >>>>> divulgação e/ou cópia sem autorização pode estar proibida em<br>
>> virtude da<br>
>> >>>>> legislação vigente. Se recebeu esta mensagem por erro, rogamos-lhe<br>
>> que nos<br>
>> >>>>> o comunique imediatamente por esta mesma via e proceda a sua<br>
>> destruição<br>
>> >>>>><br>
>> >>>>>         [[alternative HTML version deleted]]<br>
>> >>>>><br>
>> >>>>> _______________________________________________<br>
>> >>>>> R-help-es mailing list<br>
>> >>>>> <a href="mailto:R-help-es@r-project.org" target="_blank">R-help-es@r-project.org</a><br>
>> >>>>> <a href="https://stat.ethz.ch/mailman/listinfo/r-help-es" target="_blank" rel="noreferrer">https://stat.ethz.ch/mailman/listinfo/r-help-es</a><br>
>> >>>>><br>
>> >>>><br>
>> >>>><br>
>> >>>><br>
>> >>>> --<br>
>> >>>> Saludos,<br>
>> >>>> Carlos Ortega<br>
>> >>>> <a href="http://www.qualityexcellence.es" target="_blank" rel="noreferrer">www.qualityexcellence.es</a><br>
>> >>>><br>
>> >>><br>
>> >>><br>
>> >><br>
>> ><br>
>> ><br>
>> > --<br>
>> > Saludos,<br>
>> > Carlos Ortega<br>
>> > <a href="http://www.qualityexcellence.es" target="_blank" rel="noreferrer">www.qualityexcellence.es</a><br>
>> ><br>
>> >         [[alternative HTML version deleted]]<br>
>> ><br>
>> > _______________________________________________<br>
>> > R-help-es mailing list<br>
>> > <a href="mailto:R-help-es@r-project.org" target="_blank">R-help-es@r-project.org</a><br>
>> > <a href="https://stat.ethz.ch/mailman/listinfo/r-help-es" target="_blank" rel="noreferrer">https://stat.ethz.ch/mailman/listinfo/r-help-es</a><br>
>><br>
><br>
><br>
<br>
        [[alternative HTML version deleted]]<br>
<br>
_______________________________________________<br>
R-help-es mailing list<br>
<a href="mailto:R-help-es@r-project.org" target="_blank">R-help-es@r-project.org</a><br>
<a href="https://stat.ethz.ch/mailman/listinfo/r-help-es" target="_blank" rel="noreferrer">https://stat.ethz.ch/mailman/listinfo/r-help-es</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br><div><span style="font-family:verdana,sans-serif">Saludos,</span><br style="font-family:verdana,sans-serif">
<span style="font-family:verdana,sans-serif">Carlos Ortega</span><br style="font-family:verdana,sans-serif">
<span style="font-family:verdana,sans-serif"><a href="http://www.qualityexcellence.es" target="_blank">www.qualityexcellence.es</a></span></div>
</div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>