[R-es] mineo de textos

Carlos J. Gil Bellosta cgb en datanalytics.com
Vie Feb 18 02:42:56 CET 2011


Quizás esto pueda ayudarte:

http://rwiki.sciviews.org/doku.php?id=tips:data-strings:levenshtein

Es una implementación en R del algoritmo para calcular la distancia de
Levenshtein (http://es.wikipedia.org/wiki/Distancia_de_Levenshtein).

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com

El día 17 de febrero de 2011 23:28, Patricio Fuenmayor Viteri
<cpfuenmayor en hotmail.com> escribió:
>
> Saludos con todos.Realmente soy un novato con respecto al mineo de textos, entiendo el concepto, pero no he hecho mucho sobre el tema.Tengo una tarea, que me parece compleja, pero creo que se puede hacer de una manera optima:En resumen lo que tengo que hacer, es asignar un código a unos datos: el problema es que por un lado tengo una columna de nombres, y a estos les debo asignarel código, y por el otro lado tengo 2 columnas, el código y el nombre. Como verán, tengo que hacer un match por nombre, el problema es que los nombres no necesariamente son los mismos, estos contienen abreviaciones, puntuaciones, etc. Al hacer el match, no se me cruza casi nada.Mi pregunta es, cómo hacer algo como lo que hace el help de R, que realiza una búsqueda difusa o una especie de match pero no exacto. Les pongo un ejemplo:
> dat Aautomovilbicicleta montañerapatinetabicicleta de pista
> dat B   codigo Bautomovil   01bicicleta     02avion         03tren           04camion      05
> lo que tengo que hacer es un cruse de todos contra todos y sacar una estadistica de similitud y en base a los valores altos de similitud, asignar el codigo
> dat A  |  dat B | similitud (%)automovil  |  automovil   1automovil  |  bicicleta     0automovil  |  avion         0automovil  |  tren           0bicicleta montañera  | automovil | 0bicicleta montañera  | bicicleta   | 0,85...bicicleta de pista      | bicicleta   | 0,80...etc
> no se cual función me hace esa comparación y me vota un valor de coincidencia.Gracias.Saludos
>
>        [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>



Más información sobre la lista de distribución R-help-es