[R-es] Minería de texto en R

Manuel Spínola mspinola10 en gmail.com
Lun Oct 2 14:02:36 CEST 2017


El 2 de octubre de 2017, 5:47, Manuel Spínola <mspinola10 en gmail.com>
escribió:

> Pido disculpas por el error ortográfico en el subject, no me di cuenta.
>
> Manuel
>
> El 2 de octubre de 2017, 5:46, Manuel Spínola <mspinola10 en gmail.com>
> escribió:
>
>> Muchas gracias Carlos.
>>
>> Manuel
>>
>> El 2 de octubre de 2017, 1:42, Carlos Ortega <cof en qualityexcellence.es>
>> escribió:
>>
>>> Hola,
>>>
>>> Hay una adaptación específica a R de una solución comercial, pero que se
>>> puede usar hasta cierto número de llamdas: pdftools
>>>
>>> https://cloud.r-project.org/web/packages/pdftools/index.html
>>>
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>> El 2 de octubre de 2017, 9:22, Isidro Hidalgo Arellano <ihidalgo en jccm.es
>>> > escribió:
>>>
>>>> Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener
>>>> mucho cuidado con los PDF, porque lo que aparentemente es homogéneo
>>>> (visualmente ves todos los documentos igual), resulta que no lo es, y te
>>>> encuentras "saltos" de página, códigos de cabeceras de tabla, etc.
>>>> Colocados
>>>> de forma diferente según el ejemplar de PDF.
>>>> Si quieres algo que no falle, tendrás que trabajarlo bastante para no
>>>> dejar
>>>> margen de error (contemplando toda la casuística que puedas encontrar
>>>> por el
>>>> camino). En fin, perdona el rollo...
>>>> Suerte.
>>>>
>>>>
>>>> Isidro Hidalgo Arellano
>>>> Observatorio del Mercado de Trabajo
>>>> Consejería de Economía, Empresas y Empleo
>>>> http://www.castillalamancha.es/
>>>>
>>>>
>>>>
>>>> -----Mensaje original-----
>>>> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de
>>>> Manuel
>>>> Spínola
>>>> Enviado el: viernes, 29 de septiembre de 2017 16:47
>>>> Para: R <r-help-es en r-project.org>
>>>> Asunto: [R-es] Minería de testo en R
>>>>
>>>> Estimados miembros del grupo,
>>>>
>>>> Estoy buscando paquetes de R que permitan hacer minería de textos de
>>>> archivos PDF o Word que tengan una estructura tabular (cuadros) de
>>>> resultado
>>>> de talleres de trabajo donde se tratan diferentes ejes temáticos.
>>>>
>>>> Especifico esto porque he visto que algunos paquetes analizan
>>>> directamente
>>>> texto de libros, tweets u otras fuentes donde no hay una estructura como
>>>> cuadros en el texto que se quiere analizar.
>>>>
>>>> Desde ya muchas gracias por la ayuda.
>>>>
>>>> Saludos,
>>>>
>>>> Manuel
>>>>
>>>> --
>>>> *Manuel Spínola, Ph.D.*
>>>> Instituto Internacional en Conservación y Manejo de Vida Silvestre
>>>> Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA
>>>> mspinola en una.cr
>>>> <mspinola en una.ac.cr> mspinola10 en gmail.com
>>>> Teléfono: (506) 8706 - 4662
>>>> Personal website: Lobito de río <https://sites.google.com/site
>>>> /lobitoderio/>
>>>> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
>>>>
>>>>         [[alternative HTML version deleted]]
>>>>
>>>> _______________________________________________
>>>> R-help-es mailing list
>>>> R-help-es en r-project.org
>>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>>
>>>> _______________________________________________
>>>> R-help-es mailing list
>>>> R-help-es en r-project.org
>>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>>
>>>
>>>
>>>
>>> --
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>
>>
>>
>> --
>> *Manuel Spínola, Ph.D.*
>> Instituto Internacional en Conservación y Manejo de Vida Silvestre
>> Universidad Nacional
>> Apartado 1350-3000
>> Heredia
>> COSTA RICA
>> mspinola en una.cr <mspinola en una.ac.cr>
>> mspinola10 en gmail.com
>> Teléfono: (506) 8706 - 4662
>> Personal website: Lobito de río
>> <https://sites.google.com/site/lobitoderio/>
>> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
>>
>
>
>
> --
> *Manuel Spínola, Ph.D.*
> Instituto Internacional en Conservación y Manejo de Vida Silvestre
> Universidad Nacional
> Apartado 1350-3000
> Heredia
> COSTA RICA
> mspinola en una.cr <mspinola en una.ac.cr>
> mspinola10 en gmail.com
> Teléfono: (506) 8706 - 4662
> Personal website: Lobito de río
> <https://sites.google.com/site/lobitoderio/>
> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>
>



-- 
*Manuel Spínola, Ph.D.*
Instituto Internacional en Conservación y Manejo de Vida Silvestre
Universidad Nacional
Apartado 1350-3000
Heredia
COSTA RICA
mspinola en una.cr <mspinola en una.ac.cr>
mspinola10 en gmail.com
Teléfono: (506) 8706 - 4662
Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/>
Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/>

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es