[R-es] data - R es

Marcuzzi, Javier Rubén javier.ruben.marcuzzi en gmail.com
Mie Ene 16 18:32:09 CET 2013


Gracias Carlos

Para no usar o ahorrar con grep, find...., instale el paquete "tau",
tiene como ¿algo? que traduce esas letras incorrectas a la correctas,
como un conversor, lo realiza en un data.frame, aunque no me funciona
bien, buscaré la forma, si funciona leo el archivo de texto desde R, lo
almaceno en un data.frame, lo proceso con "tau", luego tm.plugin.mail, y
puede ser un gráfico como el que sugiere, en realidad tengo otro casi
igual pero más sencillo, o menos por descartar datos o posibilidades.

Creo que lograre algo con nuestros correos.

Javier 

El mié, 16-01-2013 a las 16:27 +0100, Carlos Ortega escribió:
> Hola Javier,
> 
> 
> Si ya has conseguido importar todos los correos a tu máquina unas
> formas de seguir avanzando:
>       * Puedes búsquedas directamente sobre los correos con comandos
>         de la shell y así ver cuánto, cuándo y por quién se repite
>         cierto término. Con estos comandos (grep, find, etc) puedes
>         encontrar todas es información, sin pasar por R. Bueno,
>         también los puedes invocar desde "R" con "system()" y
>         manipular los resultados desde R.
>       * Otra alternativa es procesar los correos desde R con el
>         paquete "tm". Si el plugin "tm.plugn.mail" te exige convertir
>         tus correos a eml, no lo hagas. Puedes procesar previamente
>         los correos para quitarle cabeceras y firmas (esto lo puedes
>         hacer igualmente en R con funciones de expresiones regulares o
>         con el paquete "stringr" y el procesar el cuerpo del mensaje
>         con "tm" directamente. 
>               * El paquete "tm" permite especificar el idioma e
>                 indicar igualmente que para los resultados y
>                 estadísticas te elimine palabras comunes o incluso
>                 palabras prohibidas que tú indiques. El resultado de
>                 "tm" es un data.frame con palabras y su frecuencia de
>                 aparición en cada correo (si es que quieres procesar
>                 cada correo).
> 
> 
> Un ejemplo sencillo de uso de "tm" y de una representación muy común
> que son las "nubes de palabras" lo puedes encontrar aquí:
> 
> 
> http://wiekvoet.blogspot.com.es/2012/12/the-eye-of-world-as-word-cloud.html
> 
> 
> 
> 
> 
> Saludos,
> 
> Carlos Ortega
> www.qualityexcellence.es
> 
> 
> El 16 de enero de 2013 04:16, Marcuzzi, Javier
> <javier.ruben.marcuzzi en gmail.com> escribió:
>         Estimados
>         
>         Mirando un poco sus comentarios, el siguiente paquete
>          ‘tm.plugin.mail’
>         puede ser útil para procesar los correos de R, realizar un
>         text -
>         mining, y conocer algunas cosas que pueden ser buenas para
>         nosotros.
>         
>         Pero antes de intentar algo sin saber, y pensar que porque se
>         abre un
>         archivo se soluciona el problema, les consulto respecto al
>         formato de
>         correos y codificación de texto. Siguiendo la sugerencia de
>         Carlos J.
>         Gil Bellosta descargue todos los correos de esa lista de
>         distribución,
>         gedit en linux suse no alcanza para leer todos los correos (si
>         nano
>         desde la terminal), pero gedit informa que en un sector hay
>         codificación
>         que no es UTF-8 (creo). Es probable que en esta lista de
>         correos por ser
>         en español, aparezcan distintas codificaciónes.
>         
>         No lo realice aún, pero intentare descargar todos los correos
>         de esta
>         lista y pasarlos a un solo archivo txt (imitando a Carlos J.
>         Gil
>         Bellosta), luego abrilo con R y como son correos utilizar el
>         paquete que
>         nombre al inicio (tm.plugin.mail)según la idea de (Carlos
>         Ortega).
>         
>         Ustedes que tienen mucha mas experiencia y conocimientos,
>         ¿tomarían
>         algún recaudo antes de importar o procesar incorrectamente un
>         montón de
>         palabras?
>         
>         Me pareció interesante la herramienta en R, su manual son solo
>         6
>         páginas, pero no tengo claro el pasar de mbox a eml. ¿Intento
>         según mi
>         intuición o hay algún cuidado especial para no procesar
>         palabras
>         inútiles (aparte de la lista necesaria)?
>         
>         Javier Marcuzzi
>         
>         
>         Javier Marcuzzi
>         
>         El lun, 14-01-2013 a las 14:28 +0100, Carlos Ortega escribió:
>         
>         > Hola Javier,
>         >
>         >
>         >
>         >
>         > Para buscar temas específicos sobre los correos del
>         R-Help-es veo
>         > varias opciones:
>         
>         >       * Está el propio Google que filtrando por las palabras
>         o
>         >         buscando sobre un site concreto (de los varios donde
>         están
>         >         alojados los correos) puedes centrar mucho las
>         búsquedas y
>         >         encontrar lo que buscas de un temas específico, algo
>         así como:
>         
>         >               * "r-help-es lme4 2012" (para buscar correos
>         en
>         >                 r-help-es del 2012 asociados a lme4
>         
>         >       * En vez de ir directamente  Google, buscar a través
>         de los
>         >         buscadores específicos que atacan las listas de
>         correo de R.
>         >         Dentro de la sección "Search" de www.r-project.org
>         encuntras
>         >         esos sitios y ahí repetirías esa misma búsqueda
>         anterior.
>         
>         >       * Y hay una tercera mucho más elaborada que es
>         directamente
>         >         bajarte de la red todos los correos del R-Help-es y
>         en local
>         >         atacar con "R" haciendo algo de "text mining", en
>         este caso la
>         >         búsqueda sin duda será más precisa y a la medida.
>         > Saludos,
>         >
>         > Carlos Ortega
>         > www.qualityexcellence.es
>         >
>         >
>         > El 11 de enero de 2013 16:33, Marcuzzi, Javier
>         > <javier.ruben.marcuzzi en gmail.com> escribió:
>         >         Hola a todos.
>         >
>         >         Creo que la idea de redactar algo de R por nosotros
>         no es nada
>         >         nueva,
>         >         pero ¿como se puede hacer para extraer de nuestra
>         lista los
>         >         problemas
>         >         que aparecieron y necesitaron la colaboración de
>         todos?
>         >         ¿como encontrar las preguntas por ejemplo de lme4
>         relacionadas
>         >         a xx?
>         >         ¿se puede hacer algo medio automatizado de acuerdo a
>         la
>         >         cantidad de
>         >         palabras que se repiten o sus relaciones en esta
>         lista?
>         >
>         >         Se podrá documentar nuestras dudas y errores para
>         aprender y
>         >         compartir
>         >         soluciones.
>         >
>         >         Javier Marcuzzi
>         >
>         >         _______________________________________________
>         >         R-help-es mailing list
>         >         R-help-es en r-project.org
>         >         https://stat.ethz.ch/mailman/listinfo/r-help-es
>         >
>         >
>         >
>         >
>         > --
>         > Saludos,
>         > Carlos Ortega
>         > www.qualityexcellence.es
>         
>         
>         
> 
> 
> 
> 
> -- 
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es



Más información sobre la lista de distribución R-help-es