[R-es] de pdf a csv

eric ericconchamunoz en gmail.com
Mie Sep 14 18:33:53 CEST 2016


Hola Jose, con frecuencia tengo que extraer datos de tablas en articulos 
en PDF tambien, lo que hago es lo siguiente, que no es todo lo 
automatico que uno quisiera pero al menos no tengo que copiar los datos 
uno a uno:

1. en linux existe la herramienta pdftotext, que cuando la usas con la 
opcion -layout mantiene, tanto como es posible, el layout original del 
texto, con las tablas me ha funcionado bastante bien

2. con lo anterior obtienes un archivo de texto plano

3. abro el archivo y borro todo excepto la tabla que necesito

4. lo importo en R con read.table() u otra funcion similar


Ahora, tu tabla es bastante compleja, quiero decir que para poder usarla 
como un data.frame tendras que hacer algun trabajo extra como incluir 
algunos de los encabezados en columnas adicionales

eso, ojala te sirva.


Saludos, Eric.





On 09/10/2016 07:30 PM, Dr. José A. Betancourt Bethencourt wrote:
> Estimados
>
> En ocasionas hay informaciones epidemiológicas en reportes pdf semanales
>   como el que adjunto que quisiéramos llevar a csv o txt  USANDO R para
> poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen
> un script, el paquete pdftable no me resultó.
>
> Saludos
>
> José
>
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

-- 
Forest Engineer
Master in Environmental and Natural Resource Economics
Ph.D. student in Sciences of Natural Resources at La Frontera University
Member in AguaDeTemu2030, citizen movement for Temuco with green city 
standards for living

Nota: Las tildes se han omitido para asegurar compatibilidad con algunos 
lectores de correo.



Más información sobre la lista de distribución R-help-es