[R-es] Borrar carácteres extraños /xax

Ruben Tobalina Ramirez lagrimaescrita en gmail.com
Mar Sep 13 12:19:31 CEST 2016


Buenos dias,

Muchas gracias Rubén, tocayo.

Ya me temía que la solución fuera esa. Estube mirando por los foros y vi
que todas las soluciones eran crear un diccionario de palabras que se
identificaran con los códigos de los emoji. Lo más fácil será crear un
archivo con los códigos y borrarlos con removeWords del paquete tm.

Un saludo!

El 12 de septiembre de 2016, 22:37, <javier.ruben.marcuzzi en gmail.com>
escribió:

>
>
> Estimado Rubén Tobalina Ramirez
>
>
>
> Puede ser un problema el tener como regla el buscar un parámetro, porque
> de pronto una palabra contiene justo esa secuencia de letras, por lo cuál
> yo buscaría las letras en forma que no queden dudas, me tomaría el trabajo
> de hacer o buscar un diccionario emojis a eliminar o traducir.
>
>
>
> *De: *Ruben Tobalina Ramirez <lagrimaescrita en gmail.com>
> *Enviado: *viernes, 9 de septiembre de 2016 4:16
> *Para: *r-help-es <r-help-es en r-project.org>
> *Asunto: *[R-es] Borrar carácteres extraños /xax
>
>
>
> Buenos días,
>
>
>
> estoy realizando análisis de texto con Twitter y tengo un problema con unos
>
> carácteres que no logro quitar. Són cadenas de letras con forma similar a
>
> *xaexdfxdeaxoa*. Creo que surgen de la códificación de los emojis.
>
>
>
> Yo suelo utilizar, más o menos el siguiente codigo con gsub para limpiar
>
> texto, pero no me sirve
>
>
>
> # remove rt
>
> x = gsub("rt", "", x)
>
> # remove at
>
> x = gsub("@\\w+", "", x)
>
> # remove punctuation
>
> x = gsub("[[:punct:]]", "", x)
>
> # remove numbers
>
> x = gsub("[[:digit:]]", "", x)
>
> # remove links http
>
> x = gsub("http\\w+", "", x)
>
> # remove tabs
>
> x = gsub("[ |\t]{2,}", "", x)
>
> # remove blank spaces at the beginning
>
> x = gsub("^ ", "", x)
>
> # remove blank spaces at the end
>
> x = gsub(" $", "", x)
>
>
>
> ¿Alguna forma de eliminarlos?
>
>
>
> Muchas gracias!!!
>
>
>
> --
>
> Rubén.
>
>
>
>                 [[alternative HTML version deleted]]
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-es en r-project.org
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>



-- 
Rubén.

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es