[R-es] Minería de testo en R

Manuel Spínola mspinola10 en gmail.com
Lun Oct 2 13:45:25 CEST 2017


Muchas gracias Isidro.  Recién me doy cuenta del error ortográfico en el
subject, test en lugar de texto.

Manuel

El 2 de octubre de 2017, 1:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es>
escribió:

> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener
> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
> (visualmente ves todos los documentos igual), resulta que no lo es, y te
> encuentras "saltos" de página, códigos de cabeceras de tabla, etc.
> Colocados
> de forma diferente según el ejemplar de PDF.
> Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar
> margen de error (contemplando toda la casuística que puedas encontrar por
> el
> camino). En fin, perdona el rollo...
> Suerte.
>
>
> Isidro Hidalgo Arellano
> Observatorio del Mercado de Trabajo
> Consejería de Economía, Empresas y Empleo
> http://www.castillalamancha.es/
>
>
>
> -----Mensaje original-----
> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de Manuel
> Spínola
> Enviado el: viernes, 29 de septiembre de 2017 16:47
> Para: R <r-help-es en r-project.org>
> Asunto: [R-es] Minería de testo en R
>
> Estimados miembros del grupo,
>
> Estoy buscando paquetes de R que permitan hacer minería de textos de
> archivos PDF o Word que tengan una estructura tabular (cuadros) de
> resultado
> de talleres de trabajo donde se tratan diferentes ejes temáticos.
>
> Especifico esto porque he visto que algunos paquetes analizan directamente
> texto de libros, tweets u otras fuentes donde no hay una estructura como
> cuadros en el texto que se quiere analizar.
>
> Desde ya muchas gracias por la ayuda.
>
> Saludos,
>
> Manuel
>
> --
> *Manuel Spínola, Ph.D.*
> Instituto Internacional en Conservación y Manejo de Vida Silvestre
> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA mspinola en una.cr
> <mspinola en una.ac.cr> mspinola10 en gmail.com
> Teléfono: (506) 8706 - 4662
> Personal website: Lobito de río <https://sites.google.com/
> site/lobitoderio/>
> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>


-- 
*Manuel Spínola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional
Apartado 1350-3000
Heredia
COSTA RICA
mspinola en una.cr <mspinola en una.ac.cr>
mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es