[R-es] Borrar carácteres extraños /xax

Ruben Tobalina Ramirez lagrimaescrita en gmail.com
Vie Sep 9 09:11:07 CEST 2016


Buenos días,

estoy realizando análisis de texto con Twitter y tengo un problema con unos
carácteres que no logro quitar. Són cadenas de letras con forma similar a
*xaexdfxdeaxoa*. Creo que surgen de la códificación de los emojis.

 Yo suelo utilizar, más o menos el siguiente codigo con gsub para limpiar
texto, pero no me sirve

# remove rt
x = gsub("rt", "", x)
# remove at
x = gsub("@\\w+", "", x)
# remove punctuation
x = gsub("[[:punct:]]", "", x)
# remove numbers
x = gsub("[[:digit:]]", "", x)
# remove links http
x = gsub("http\\w+", "", x)
# remove tabs
x = gsub("[ |\t]{2,}", "", x)
# remove blank spaces at the beginning
x = gsub("^ ", "", x)
# remove blank spaces at the end
x = gsub(" $", "", x)

¿Alguna forma de eliminarlos?

Muchas gracias!!!

-- 
Rubén.

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es