[R-es] mineo de textos
Carlos J. Gil Bellosta
cgb en datanalytics.com
Vie Feb 18 02:42:56 CET 2011
Quizás esto pueda ayudarte:
http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein
Es una implementación en R del algoritmo para calcular la distancia de
Levenshtein (http://es.wikipedia.org/wiki/Distancia_de_Levenshtein).
Un saludo,
Carlos J. Gil Bellosta
http://www.datanalytics.com
El día 17 de febrero de 2011 23:28, Patricio Fuenmayor Viteri
<cpfuenmayor en hotmail.com> escribió:
>
> Saludos con todos.Realmente soy un novato con respecto al mineo de textos, entiendo el concepto, pero no he hecho mucho sobre el tema.Tengo una tarea, que me parece compleja, pero creo que se puede hacer de una manera optima:En resumen lo que tengo que hacer, es asignar un código a unos datos: el problema es que por un lado tengo una columna de nombres, y a estos les debo asignarel código, y por el otro lado tengo 2 columnas, el código y el nombre. Como verán, tengo que hacer un match por nombre, el problema es que los nombres no necesariamente son los mismos, estos contienen abreviaciones, puntuaciones, etc. Al hacer el match, no se me cruza casi nada.Mi pregunta es, cómo hacer algo como lo que hace el help de R, que realiza una búsqueda difusa o una especie de match pero no exacto. Les pongo un ejemplo:
> dat Aautomovilbicicleta montañerapatinetabicicleta de pista
> dat B codigo Bautomovil 01bicicleta 02avion 03tren 04camion 05
> lo que tengo que hacer es un cruse de todos contra todos y sacar una estadistica de similitud y en base a los valores altos de similitud, asignar el codigo
> dat A | dat B | similitud (%)automovil | automovil 1automovil | bicicleta 0automovil | avion 0automovil | tren 0bicicleta montañera | automovil | 0bicicleta montañera | bicicleta | 0,85...bicicleta de pista | bicicleta | 0,80...etc
> no se cual función me hace esa comparación y me vota un valor de coincidencia.Gracias.Saludos
>
> [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
Más información sobre la lista de distribución R-help-es