[R-es] Ayuda con el paquete de text mining (TM)
Carlos J. Gil Bellosta
cgb en datanalytics.com
Lun Jul 20 13:21:19 CEST 2009
Hola, ¿qué tal?
Pues una vez tuve que buscar recursos para hacer minería de texto en
español y no encontré demasiados. Pero igual se debe más a mi falta de
pericia que a su escasez y disponibilidad. Tómese, por tanto, cuanto
digo con cierta dosis de precaución.
En inglés existen dos tipos de algoritmos para hacer radicalización
(stemming): los programáticos y los basados en diccionarios. El método
implementado en R es programático: es un conjunto de reglas que dicen
que, por ejemplo, si una palabra acaba en "ing", la raíz se obtiene
eliminando esas letras (y tal vez algo más). Funciona en algunos casos
pero no universalmente y no, obviamente, en español.
Los métodos de diccionario son, esencialmente, eso: diccionarios. Es
decir, ficheros que contienen dos palabras por fila: la versión con
desinencias y la raíz. Una entrada típica sería "trabajé -> trabajar".
Aplicar un diccionario es trivial. Lo que no es tanto es obtenerlo.
Conseguí, y no me preguntes dónde, uno de tales diccionarios con unas
30.000 entradas en español.
El problema del español para aplicaciones de minería de texto radica
en que es mucho más flexible y variante que el inglés. La dependencia
de los resultados en un buen "procesamiento del lenguaje natural" es
crítico.
Existen además aspectos del tipo "reconocimiento de las partes del
discurso" (distinguir un "caza" verbo de un "caza" sustantivo) que se
escapan de este planteamiento simplista.
Para hacer las cosas bien en español sería recomendable colaborar con
gente que se dedique al procesamiento del lenguaje natural. Aunque si
tu corpus es lo suficientemente formal (no se esperan cosas como
faltas de ortografía, se utiliza un léxico del que aparece en los
diccionarios típicos, etc.) puede que te valga con un diccionario
estándar como el que menciono más arriba.
Un saludo,
Carlos J. Gil Bellosta
http://www.datanalytics.com
Más información sobre la lista de distribución R-help-es