[R-es] Ayuda para campo con numerico y texto con Problemas

Juan Abasolo ju@n@@b@@o|o @end|ng |rom ehu@eu@
Dom Mar 17 23:24:34 CET 2019


Se me ocurre, María, que si lo que tenés que hacer es diseñar hoy un
trabajo para desarrollarlo durante un período largo de tiempo (o a volver a
hacer el año  que viene y el siguiente y así), una buena manera sería,
hacer algo así:
1. Por un lado normalizar todos tus datos de alguna manera consistente

Tipo, pasar todos los nombres a minúsculas [tolower()] *las palmas*, *jerez
de la frontera* y cosas así. O todo mayúscula [toupper()], como más rabia
te de., y quitar los espacios del final y del principio que pudieran
tener., para evitar * santa cruz de tenerife * o cosas así.

stringr::str_trim(levels(tu.vector.de.nombres), 'left') # o rigth, claro

Con eso ya tenés los datos de alguna manera consistenete para trabajar. Te
falta resolver lo de presentar los datos tipo *Jerez de la Frontera*.
Como me parece que es un ĺío hacer algo que te ponga en mayúscula lo que
toca en mayúscula y en minúscula lo que toca, lo que haría es:
2. Generá otro fichero con los nombres oficiales (o como te los den) de los
pueblos. Mejor, si además los tenés divididos en comarcas / provincias /
comunidades autonomas / ...

medí las distancia de edición entre tu valor con el de la lista buena:
stringdist('jerez de la frontera', tolower('Jerez de la Frontera'), method
= 'lv')

La distancia = 0 es el pueblo que buscás. Con generar el índice de
correspondencias una sola vez, ya lo tenés, me parece.

Te comentaron lo de nombres en diferentes idiomas, también. Onda Orense /
Ourense, San Sebastián / Donostia... . Supongo que acerlo con dos columnas,
una para el nombre del sitio y otro para la denominación tradicional
castellana, se comprueba en las dos y cualquier distancia 0 es la correcta.




Hau idatzi du Javier Marcuzzi (javier.ruben.marcuzzi using gmail.com)
erabiltzaileak (2019 mar. 17, ig. (22:25)):

> Estimada María Ruiz
>
> Comprendo lo que usted dice, en realidad no son tantos datos para R, a mi
> me paso algo semejante con una consultora con informáticos, etc., pero los
> datos… UFFFF
>
> Puedes, es muy trabajoso, yo estuve un mes para resolver mi problema,
> básicamente tendrá que importar los datos de la mejor manera que pueda,
> luego ir buscando con expresiones regulares y cuánto recurso se le venga en
> mente para pasar el texto a formato de datos válido, seguramente algo
> andará bien, en un fragmento fallará, aparecerán casos con espacios en
> blanco, la misma palabra con mayúsculas o minúsculas, en otras palabras, un
> montón de posibilidades, lógicamente que a cada una debe contemplarla en R,
> y eso lleva horas, días, y mucho pero mucho ingenio con los datos, o mejor
> dicho, con el texto que debe ser pasado a datos para luego comenzar algún
> análisis. Con R se puede, pero el trabajo es tanto que yo no aceptaría el
> compromiso si lo veo muy complicado, salvo un presupuesto acorde, es un
> esfuerzo enorme que no todos comprenderán ni estarán dispuestos a
> compensar.
>
>
> Javier Rubén Marcuzzi
>
> El dom., 17 mar. 2019 a las 17:40, Francisco Rodríguez (<
> fjroar using hotmail.com>)
> escribió:
>
> > Por lo que intuyo. Vas a bajar a nivel de municipios?  Si es así hay que
> > trabajar con texto y va ser tedioso si hay varias CCAA. Hay sólo una
> > comunidad?  Si hay varias tendrás pb con los idiomas si bajas a
> municipio.
> > Si no te dan los ficheros normalizados te toca trabajar los textos. Si
> vas
> > a nivel provincia, sólo sería algunas columnas y corregir algunas cosas
> > pero algo de dificultad media - baja
> >
> >
> >
> > Enviado de Samsung Mobile
> >
> >
> > -------- Mensaje original --------
> > De: Maria Ruiz <brew5157 using gmail.com>
> > Fecha: 17/3/19 21:28 (GMT+01:00)
> > Para: r-help-es using r-project.org
> > Asunto: Re: [R-es] Ayuda para campo con numerico y texto con Problemas
> >
> > Por parte No puedo usar otra cosa que sea R, por motivos  varios, Uno de
> > ellos es  tporque quiero  hacer un script para introducir cada provincia
> > conforme llegue, y es son muchos datos para hacerlo con excel, y tambnie
> > que si lo hago mas año seria muy pesado.
> >
> >
> >
> > Primero  que esta pasando que me mandan  los difrentes ficheros con datos
> > de diferentes provincias y para su posterior anàlisis y no puedo ir
> > mirarado los todos.
> >
> > Por otra parte tampoco tengo codigos munipales como indica Javier, sino
> > esos datos tal cual, ciudades. sin mas.
> >
> >
> >
> > No son pocos datos son  los alumnos que este año  2018 realizaron la
> > selectividad en uan comunida autònoma, mas 30.000.
> >
> > Se que debe  existir algun paramentro al ahora de importar el dataframe
> >
> >
> >
> > Dataset <- read.table("C:/Users/datos.csv", header=TRUE, sep=",",
> > na.strings="NA", dec=".", strip.white=TRUE)
> >
> >
> >
> >
> >  M. JOsé
> >
> >         [[alternative HTML version deleted]]
> >
> > _______________________________________________
> > R-help-es mailing list
> > R-help-es using r-project.org
> > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >
> >         [[alternative HTML version deleted]]
> >
> > _______________________________________________
> > R-help-es mailing list
> > R-help-es using r-project.org
> > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es using r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Juan Abasolo

Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
Bilboko Hezkuntza Fakultatea
Euskal Herriko Unibertsitatea
UPV/EHU

Sarriena auzoa z/g 48940 - Leioa (Bizkaia)

T: (+34) 94 601 7567
Telegram: @JuanAbasolo
Skype: abasolo72

Tutoretza ordutegia <https://labur.eus/JAbasolo-tutoretzak>

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es