[R-es] de pdf a csv

ignacio holzinger holzingerignacio en gmail.com
Mie Sep 14 18:50:02 CEST 2016


Saludos.
Te iba a decir lo mismo que Eric. Esas tablas "mal formadas" donde se
fusionan celdas son difíciles de manejar en "piloto automático". Casi
siempre hay que hacer manualidades.
De entre las soluciones que te han aportado esta última es la que suelo
utilizar.
Suerte.

El 14 sept. 2016 18:37, "eric" <ericconchamunoz en gmail.com> escribió:

> Hola Jose, con frecuencia tengo que extraer datos de tablas en articulos
> en PDF tambien, lo que hago es lo siguiente, que no es todo lo automatico
> que uno quisiera pero al menos no tengo que copiar los datos uno a uno:
>
> 1. en linux existe la herramienta pdftotext, que cuando la usas con la
> opcion -layout mantiene, tanto como es posible, el layout original del
> texto, con las tablas me ha funcionado bastante bien
>
> 2. con lo anterior obtienes un archivo de texto plano
>
> 3. abro el archivo y borro todo excepto la tabla que necesito
>
> 4. lo importo en R con read.table() u otra funcion similar
>
>
> Ahora, tu tabla es bastante compleja, quiero decir que para poder usarla
> como un data.frame tendras que hacer algun trabajo extra como incluir
> algunos de los encabezados en columnas adicionales
>
> eso, ojala te sirva.
>
>
> Saludos, Eric.
>
>
>
>
>
> On 09/10/2016 07:30 PM, Dr. José A. Betancourt Bethencourt wrote:
>
>> Estimados
>>
>> En ocasionas hay informaciones epidemiológicas en reportes pdf semanales
>>   como el que adjunto que quisiéramos llevar a csv o txt  USANDO R para
>> poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen
>> un script, el paquete pdftable no me resultó.
>>
>> Saludos
>>
>> José
>>
>>
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>>
> --
> Forest Engineer
> Master in Environmental and Natural Resource Economics
> Ph.D. student in Sciences of Natural Resources at La Frontera University
> Member in AguaDeTemu2030, citizen movement for Temuco with green city
> standards for living
>
> Nota: Las tildes se han omitido para asegurar compatibilidad con algunos
> lectores de correo.
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es