[R-es] Borrar carácteres extraños /xax
Ruben Tobalina Ramirez
lagrimaescrita en gmail.com
Vie Sep 9 09:11:07 CEST 2016
Buenos días,
estoy realizando análisis de texto con Twitter y tengo un problema con unos
carácteres que no logro quitar. Són cadenas de letras con forma similar a
*xaexdfxdeaxoa*. Creo que surgen de la códificación de los emojis.
Yo suelo utilizar, más o menos el siguiente codigo con gsub para limpiar
texto, pero no me sirve
# remove rt
x = gsub("rt", "", x)
# remove at
x = gsub("@\\w+", "", x)
# remove punctuation
x = gsub("[[:punct:]]", "", x)
# remove numbers
x = gsub("[[:digit:]]", "", x)
# remove links http
x = gsub("http\\w+", "", x)
# remove tabs
x = gsub("[ |\t]{2,}", "", x)
# remove blank spaces at the beginning
x = gsub("^ ", "", x)
# remove blank spaces at the end
x = gsub(" $", "", x)
¿Alguna forma de eliminarlos?
Muchas gracias!!!
--
Rubén.
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es