[R-es] Problemas con tildes y otros caracteres en R y RStudio
amy cg
acarolinagc en gmail.com
Mie Jun 22 12:58:23 CEST 2016
Gracias pero el el html que se me genera sigue mal codificado, otra
sugerencia.Gracias.
Table of Contents
- RESUMEN <file:///C:/Users/Usuario/Documents/analyse.html#toc_0>
- Rendimiento de requests en el tiempo
<file:///C:/Users/Usuario/Documents/analyse.html#toc_1>
- All responses
<file:///C:/Users/Usuario/Documents/analyse.html#toc_2>
- Rendimiento por categorÃÂa
<file:///C:/Users/Usuario/Documents/analyse.html#toc_3>
- Análisis de respuesta
<file:///C:/Users/Usuario/Documents/analyse.html#toc_4>
- Top 10 de las URL más llamadas
<file:///C:/Users/Usuario/Documents/analyse.html#toc_5>
- Métodos <file:///C:/Users/Usuario/Documents/analyse.html#toc_6>
- Código HTTP
<file:///C:/Users/Usuario/Documents/analyse.html#toc_7>
- Errores <file:///C:/Users/Usuario/Documents/analyse.html#toc_8>
- Distribución de errores
<file:///C:/Users/Usuario/Documents/analyse.html#toc_9>
- Errores en el tiempo
<file:///C:/Users/Usuario/Documents/analyse.html#toc_10>
- IP Conectadas
<file:///C:/Users/Usuario/Documents/analyse.html#toc_11>
- Info <file:///C:/Users/Usuario/Documents/analyse.html#toc_12>
- IP con mayor número de conexiones
<file:///C:/Users/Usuario/Documents/analyse.html#toc_13>
- Análisis del tamaño de respuesta
<file:///C:/Users/Usuario/Documents/analyse.html#toc_14>
- Resumen de tamaño de respuesta por categorÃÂa
<file:///C:/Users/Usuario/Documents/analyse.html#toc_15>
- Resumen de tamaño de respuesta por IP
<file:///C:/Users/Usuario/Documents/analyse.html#toc_16>
- Ancho de banda en el tiempo
<file:///C:/Users/Usuario/Documents/analyse.html#toc_17>
- Distribución por tamaño de respuesta
<file:///C:/Users/Usuario/Documents/analyse.html#toc_18>
- Distribución por tamaño de respuesta por categorÃÂa
<file:///C:/Users/Usuario/Documents/analyse.html#toc_19>
- Distribución por tamaño de respuesta por categorÃÂa
<file:///C:/Users/Usuario/Documents/analyse.html#toc_20>
*Lic. Amalia Carolina Guaymás Canavire*
* Especialista en Data mining *
El 22 de junio de 2016, 4:53, Carlos Ortega <cof en qualityexcellence.es>
escribió:
> Hola,
>
> Por si las recomendaciones de los de RStudio te pueden ayudar:
>
> https://support.rstudio.com/hc/en-us/articles/200532197-Character-Encoding
>
> Gracias,
> Carlos Ortega
> www.qualityexcellence.es
>
> El 22 de junio de 2016, 5:27, amy cg <acarolinagc en gmail.com> escribió:
>
>> Saludo:
>> Estoy usando knit y markdownToHTML y aún tengo problemas con las tildes
>> y ñ. Estoy en windows. Tengo esto en mi código
>>
>> knit("xxxx", quiet = TRUE,encoding = "utf-8")
>> markdownToHTML("x.md","xx.html", title="x", stylesheet="xx.css",
>> options=c(markdownHTMLOptions(defaults = TRUE), "toc"))
>>
>> ----
>> Resultado ejemplo
>> Número de lÃÂneas : 1891714
>>
>> DESDE YA MUCHAS GRACIAS.
>>
>> l
>>
>>
>>
>>
>> El 21 de junio de 2016, 11:48, giltrapo <giltrapo en gmail.com> escribió:
>>
>>> Hola, Carlos.
>>>
>>> Pues, efectivamente, me ha ayudado.
>>>
>>> Sobre la utilización de la función geocode con ciudades con tilde, me dio
>>> Carlos Gil Bellosta anteriormente la idea de utilizar iconv para
>>> transformar la cadena de búsqueda a UTF-8, y yo lo utilicé para intentar
>>> transformar el output de html_table sin resultado:
>>>
>>> capitales <- read_html("
>>>
>>> https://es.wikipedia.org/wiki/Anexo:Capitales_de_provincia_de_Espa%C3%B1a_por_poblaci%C3%B3n
>>> ")
>>> capitales <- html_nodes(capitales, "table")
>>> capitales <- html_table(capitales[[1]])$Ciudad
>>> capitales <- iconv(capitales, to = "UTF-8")
>>>
>>> En la referencia que me has pasado he visto que utilizaban la función
>>> iconv
>>> de una forma curiosa
>>>
>>> capitales <- iconv(capitales, from = "UTF-8" to = "UTF-8")
>>>
>>> que, sin saber por qué, ha funcionado perfectamente.
>>>
>>> Por cierto, Carlos Gil, tu solución para la llamada a geocode basada en
>>> iconv también funciona perfectamente, aunque esta vez sin poner el
>>> argumento "from"
>>>
>>> geocode("Málaga", to = "UTF-8")
>>>
>>> ya que si lo añadimos da error.
>>>
>>> Muchas gracias a ambos!!
>>>
>>>
>>> Jose Ignacio
>>>
>>> 2016-06-21 14:09 GMT+02:00 Carlos Ortega <cof en qualityexcellence.es>:
>>>
>>> > Hola,
>>> >
>>> > Creo que esta referencia te puede ayudar:
>>> >
>>> http://stackoverflow.com/questions/29379771/utf-8-encoding-problems-with-r
>>> >
>>> > Saludos,
>>> > Carlos Ortega
>>> > www.qualityexcellence.es
>>> >
>>> > El 21 de junio de 2016, 13:15, giltrapo <giltrapo en gmail.com> escribió:
>>> >
>>> >> Hola, Carlos.
>>> >>
>>> >> A mí también me resulta raro, porque no me pasa siempre. Es un poco
>>> >> aleatorio. Imagino que habrá alguna razón, y que el código de la
>>> página
>>> >> estará relacionado, claro, pero no consigo averiguar a qué se debe.
>>> >>
>>> >> Además las pruebas que hago me dejan todavía más perplejo.
>>> >>
>>> >> Esto
>>> >>
>>> >> Encoding(capitales)
>>> >>
>>> >> me dice que el encoding es "unknow", pero luego esto
>>> >>
>>> >> validUTF8(capitales)
>>> >>
>>> >> me dice que sí, que todo es "TRUE".
>>> >>
>>> >> También probé
>>> >>
>>> >> guess_encoding("
>>> >>
>>> >>
>>> https://es.wikipedia.org/wiki/Anexo:Capitales_de_provincia_de_Espa%C3%B1a_por_poblaci%C3%B3n
>>> >> ")
>>> >>
>>> >> y el resultado es
>>> >>
>>> >> encoding language confidence
>>> >> 1 ISO-8859-1 es 0.70
>>> >> 2 ISO-8859-2 ro 0.43
>>> >> 3 ISO-8859-9 tr 0.16
>>> >> 4 UTF-8 0.15
>>> >> 5 UTF-16BE 0.10
>>> >> 6 UTF-16LE 0.10
>>> >> 7 Shift_JIS ja 0.10
>>> >> 8 GB18030 zh 0.10
>>> >> 9 EUC-JP ja 0.10
>>> >> 10 EUC-KR ko 0.10
>>> >> 11 Big5 zh 0.10
>>> >>
>>> >> He ido probando cada uno de esos encodings, al llamar a la función
>>> >> read_html, pero nada, sigue sin codificarlo bien. También probé a
>>> utilizar
>>> >> iconv, pero sin resultados positivos.
>>> >>
>>> >> En fin, seguiré investigando.
>>> >>
>>> >> Muchas gracias y saludos!
>>> >>
>>> >> Jose Ignacio
>>> >>
>>> >> 2016-06-21 12:07 GMT+02:00 Carlos J. Gil Bellosta <
>>> cgb en datanalytics.com>:
>>> >>
>>> >> > Hola, ¿qué tal?
>>> >> >
>>> >> > Son los dichosos "encodings". De todos modos, me parece raro que
>>> rvest
>>> >> > lo haga mal: promete que va a interpretar lo leído de acuerdo con el
>>> >> > "encoding" declarado en la página, por lo que no debería haber
>>> >> > problemas en ninguna plataforma. De todos modos, tienes una opción
>>> en
>>> >> > rvest para indicar el juego de caracteres. Igual indicando "latin1"
>>> >> > funciona.
>>> >> >
>>> >> > También he visto problemas llamando a ggmap::geocode desde Windows
>>> >> > cuando la cadena contiene caracteres no ascii. Hay información aquí:
>>> >> >
>>> >> > https://github.com/dkahle/ggmap/issues/89
>>> >> >
>>> >> > No sé si tratar de transformar la cadena de búsqueda a UTF8 con
>>> iconv
>>> >> > ayudará o no a resolver el problema.
>>> >> >
>>> >> > Un saludo,
>>> >> >
>>> >> > Carlos J. Gil Bellosta
>>> >> > http://www.datanalytics.com
>>> >> >
>>> >> > El día 21 de junio de 2016, 11:52, giltrapo <giltrapo en gmail.com>
>>> >> escribió:
>>> >> > > Hola.
>>> >> > >
>>> >> > > Tengo algún tipo de problema con las tildes, a la hora de
>>> trabajar en
>>> >> R o
>>> >> > > en RStudio, que no sé resolver.
>>> >> > >
>>> >> > > Intentando reproducir en dos PCs distintos, ambos con Windows 7,
>>> uno
>>> >> de
>>> >> > los
>>> >> > > últimos ejercicios que ha publicado Carlos Gil Bellosta en su
>>> blog (
>>> >> > >
>>> >> >
>>> >>
>>> https://www.datanalytics.com/2016/06/20/6602-767-km-alrededor-de-espana-para-visitar-todas-sus-capitales-de-provincia/
>>> >> > ),
>>> >> > > me ocurre que al ejecutar el código
>>> >> > >
>>> >> > > library(rvest)
>>> >> > > library(caRtociudad)
>>> >> > > library(reshape2)
>>> >> > > library(ggmap)
>>> >> > > library(plyr)
>>> >> > > library(TSP)
>>> >> > >
>>> >> > > capitales <- read_html("
>>> >> > >
>>> >> >
>>> >>
>>> https://es.wikipedia.org/wiki/Anexo:Capitales_de_provincia_de_Espa%C3%B1a_por_poblaci%C3%B3n
>>> >> > > ")
>>> >> > > capitales <- html_nodes(capitales, "table")
>>> >> > > capitales <- html_table(capitales[[1]])$Ciudad
>>> >> > >
>>> >> > > obtengo esto:
>>> >> > >
>>> >> > >> capitales
>>> >> > >
>>> >> > > [1] "Madrid" "Barcelona"
>>> >> > > [3] "Valencia" "Sevilla"
>>> >> > > [5] "Zaragoza" "Málaga"
>>> >> > > [7] "Murcia" "Palma de Mallorca"
>>> >> > > [9] "Las Palmas de Gran Canaria" "Bilbao"
>>> >> > > [11] "Alicante" "Córdoba"
>>> >> > > [13] "Valladolid" "La Coruña"
>>> >> > > [15] "Vitoria" "Granada"
>>> >> > > [17] "Oviedo" "Santa Cruz de Tenerife"
>>> >> > > [19] "Pamplona" "AlmerÃa"
>>> >> > > [21] "San Sebastián" "Burgos"
>>> >> > > [23] "Santander" "Castellón de la Plana"
>>> >> > > [25] "Albacete" "Logroño"
>>> >> > > [27] "Badajoz" "Salamanca"
>>> >> > > [29] "Huelva" "Lérida"
>>> >> > > [31] "Tarragona" "León"
>>> >> > > [33] "Cádiz" "Jaén"
>>> >> > > [35] "Orense" "Lugo"
>>> >> > > [37] "Gerona" "Cáceres"
>>> >> > > [39] "Santiago de Compostela" "Ceuta"
>>> >> > > [41] "Melilla" "Guadalajara"
>>> >> > > [43] "Toledo" "Pontevedra"
>>> >> > > [45] "Palencia" "Ciudad Real"
>>> >> > > [47] "Zamora" "Mérida"
>>> >> > > [49] "Ã vila" "Cuenca"
>>> >> > > [51] "Segovia" "Huesca"
>>> >> > > [53] "Soria" "Teruel"
>>> >> > >
>>> >> > > Es decir, no aparecen ni tildes ni eñes.
>>> >> > >
>>> >> > > Si, en cambio, ejecuto
>>> >> > >
>>> >> > > library(XML)
>>> >> > > library(RCurl)
>>> >> > >
>>> >> > > capitales <- data.frame(readHTMLTable(getURL("
>>> >> > >
>>> >> >
>>> >>
>>> https://es.wikipedia.org/wiki/Anexo:Capitales_de_provincia_de_Espa%C3%B1a_por_poblaci%C3%B3n
>>> >> > > ")))
>>> >> > >
>>> >> > > obtengo un data frame en el que las ciudades ya aparecen con sus
>>> >> tildes y
>>> >> > > sus eñes...aunque en los nombres de las variables siguen
>>> apareciendo
>>> >> esos
>>> >> > > caracteres extraños en vez de tildes.
>>> >> > >
>>> >> > > Con el resto del código de Carlos me sigue ocurriendo lo mismo, ya
>>> >> que si
>>> >> > > intento
>>> >> > >
>>> >> > > geocode("Logroño")
>>> >> > >
>>> >> > > me devuelve
>>> >> > >
>>> >> > > Information from URL :
>>> >> > >
>>> >> >
>>> >>
>>> http://maps.googleapis.com/maps/api/geocode/json?address=Logro%F1o&sensor=false
>>> >> > > lon lat
>>> >> > > 1 NA NA
>>> >> > > Warning messages:
>>> >> > > 1: In readLines(connect, warn = FALSE) :
>>> >> > > cannot open URL '
>>> >> > >
>>> >> >
>>> >>
>>> http://maps.googleapis.com/maps/api/geocode/json?address=Logro%F1o&sensor=false
>>> >> > ':
>>> >> > > HTTP status was '400 Bad Request'
>>> >> > > 2: In geocode("Logroño") : geocoding failed for "Logroño".
>>> >> > > if accompanied by 500 Internal Server Error with using dsk, try
>>> >> google.
>>> >> > >
>>> >> > > en cambio, si pruebo con
>>> >> > >
>>> >> > > geocode("Logrono")
>>> >> > >
>>> >> > > la respuesta es correcta
>>> >> > >
>>> >> > > Information from URL :
>>> >> > >
>>> >> >
>>> >>
>>> http://maps.googleapis.com/maps/api/geocode/json?address=Logrono&sensor=false
>>> >> > > lon lat
>>> >> > > 1 -2.444985 42.46272
>>> >> > >
>>> >> > > Lo mismo ocurre si intento capturar las coordenadas de Málaga,
>>> >> Castellón,
>>> >> > > etc. Si lleva tildes o eñes, no reconoce el texto.
>>> >> > >
>>> >> > > Entiendo que todo esto se debe a algún problema de codificación,
>>> pero
>>> >> no
>>> >> > sé
>>> >> > > cómo arreglarlo. Tampoco sé por qué con read_html capturo los
>>> datos
>>> >> mal,
>>> >> > > pero con readHTMLTable y RCurl los capturo bien...a medias.
>>> >> > >
>>> >> > > ¿Alguien tiene alguna idea sobre qué puede estar ocurriendo?
>>> >> > >
>>> >> > > Jose Ignacio
>>> >> > >
>>> >> > > [[alternative HTML version deleted]]
>>> >> > >
>>> >> > > _______________________________________________
>>> >> > > R-help-es mailing list
>>> >> > > R-help-es en r-project.org
>>> >> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>> >> >
>>> >>
>>> >> [[alternative HTML version deleted]]
>>> >>
>>> >> _______________________________________________
>>> >> R-help-es mailing list
>>> >> R-help-es en r-project.org
>>> >> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>> >>
>>> >
>>> >
>>> >
>>> > --
>>> > Saludos,
>>> > Carlos Ortega
>>> > www.qualityexcellence.es
>>> >
>>>
>>> [[alternative HTML version deleted]]
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es