[R-es] Error mapply haciendo text mining con twitteR

Carlos J. Gil Bellosta cgb en datanalytics.com
Mie Mar 25 19:50:42 CET 2015


Hola, ¿qué tal?

Interesante problema. Había tuits que contenían caracteres raros.
Aparentemente eran UTF-8, pero tenían esta pinta:

Use #YouTube to #Rank #1 #Google #Overnite: YouTube for #Business
($499)#Get This #Course #FREE\n#udemy
#udemycoupon\n\xed\xa0\xbd\xed\xb1\x89 http://t.co/ReXXPVHkY8

Nótense los caracteres que siguen a #udemycoupon. En el tuit original
representan una "white right pointing backhand index", un emoticono:
una mano que apunta al enlace que sigue. Ni idea de por qué R insiste
que esa cadena es UTF-8.

Eso sí, puedes eliminar esos caracteres añadiendo la línea

udemylist <- sapply(udemylist, function(x) gsub("[^[:graph:]]", " ", x))

a tu código. Luego todo corre.

Salud,

Carlos J. Gil Bellosta
http://www.datanalytics.com










El día 25 de marzo de 2015, 19:26, Ruben Tobalina Ramirez
<lagrimaescrita en gmail.com> escribió:
> Hola, buenas,
>
> no me prodigo mucho por aqui pero sigo la lista a diario. Estoy
> realizando un curso de text mining en twitter en Udemy y estoy clavado
> en un error. La verdad es que ya no sé que hacer, he buscado por todos
> los lados, en foros, blogs; he probado diversos scripts pero nada. El
> tema es que haciendo un simple text mining de un hashtag con un
> wordcloud al final me sale el error
>
> In mclapply(content(x), FUN, ...) :
>   scheduled core 1 encountered error in user code, all values of the
> job will be affected
>
> o
>
> In mclapply(content(x), FUN, ...) :
>   scheduled cores 2 encountered errors in user code, all values of the
> jobs will be affected
>
> Lo raro de todo el asunto es que si ejecuto el script con 100 tweets y
> el hashtag #Udemy funciona perfectamente pero sin incremento el número
> de tweets o cambio el hashtag ya me aparecen estos errores.
>
> ¿que puede ser?
>
> Os pego aqui el enlace de pastebin a mi codigo:
>
> http://pastebin.com/rCr1X6n2
>
> Muchas gracias!!!
>
> Rubén
>
> pd: siento enviarlo 2 veces, se me olvido poner [R-es] en el asunto
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es



Más información sobre la lista de distribución R-help-es