[R-es] Listas de "stopwords" y raíces de palabras para

eduardo san miguel eduardosanmi en gmail.com
Jue Mar 12 10:38:37 CET 2009


>Me gustaría saber si alguien conoce listas de palabras y de raíces
>para ser usadas en un proyecto de minería de texto usando el paquete
>tm de R.

Hola Carlos,

Depende de la tarea la mejora en el rendimiento mediante la
eliminación de 'palabras vacias' y el uso de radicalización (stemming)
o lematización. Vas a reducir el volumen del diccionario y a
homogeneizar la muestra, pero puede no ser ese el objetivo buscado.

En todo caso, suelen excluirse determinantes, articulos,
preposiciones, pronombres y algunos adverbios. Para la lematización yo
he utilizado Rstem con buenos resultados.

Te copio una lista con palabras a excluir (palabras de bajo contenido
semántico).

Espero te sirva de ayuda,
Un saludo


# Lista de palabras a excluir
acá
ahí
ajena
ajenas
ajeno
ajenos
al
algo
alguna
algunas
alguno
algunos
algún
allá
allí
aquel
aquella
aquellas
aquello
aquellos
aquí
cada
cierta
ciertas
cierto
ciertos
como
cómo
con
conmigo
consigo
contigo
cualquier
cualquiera
cualquieras
cuan
cuanta
cuantas
cuánta
cuántas
cuanto
cuantos
cuán
cuánto
cuántos
de
dejar
del
demasiada
demasiadas
demasiado
demasiados
demás
el
ella
ellas
ellos
él
esa
esas
ese
esos
esta
estar
estas
este
estos
hacer
hasta
jamás
junto
juntos
la
las
lo
los
mas
más
me
menos
mía
mientras
mío
misma
mismas
mismo
mismos
mucha
muchas
muchísima
muchísimas
muchísimo
muchísimos
mucho
muchos
muy
nada
ni
ninguna
ningunas
ninguno
ningunos
no
nos
nosotras
nosotros
nuestra
nuestras
nuestro
nuestros
nunca
os
otra
otras
otro
otros
para
parecer
poca
pocas
poco
pocos
por
porque
que
querer
qué
quien
quienes
quienesquiera
quienquiera
quién
ser
siempre
sí
sín
Sr
Sra
Sres
Sta
suya
suyas
suyo
suyos
tal
tales
tan
tanta
tantas
tanto
tantos
te
tener
ti
toda
todas
todo
todos
tomar
tuya
tuyo
tú
un
una
unas
unos
usted
ustedes
varias
varios
vosotras
vosotros
vuestra
vuestras
vuestro
vuestros
yo



Más información sobre la lista de distribución R-help-es