[R-es] Crear Cluster
i@gr@co m@iii@g oii pm@me
i@gr@co m@iii@g oii pm@me
Mie Ene 27 19:56:49 CET 2021
clustMixType no es una función, es un paquete de R que implementa el algoritmo k-prototypes en R. Este es un algoritmo similar la k-means pero válido para tipos de datos mixtos.
El paquete incluye no solo métodos para la determinación de clústeres sino también para el cálculo de índices de validación, que a lo mejor es lo que te confunde. Puedes encontrar más información sobre el algoritmo por ejemplo aquí: https://medium.com/datadriveninvestor/k-prototype-in-clustering-mixed-attributes-e6907db91914.
Los índices de validación puedes emplearlos para intentar estimar el número óptimo de grupos en tus datos, empleando la función validation_kproto, tal y como indica el manual: https://www.rdocumentation.org/packages/clustMixType/versions/0.2-9/topics/validation_kproto
Pero si tienes escasa experiencia con R y clustering es complicado poderte ayudar.
Ánimo
‐‐‐‐‐‐‐ Original Message ‐‐‐‐‐‐‐
El miércoles, 27 de enero de 2021 a las 19:33, ricardo alva <kalo_alva using hotmail.com> escribió:
> Hola amigos.
>
> Soy algo nuevo en este tema de R, pero estoy aprendiendo a empujones porque el tiempo apremia. Necesito segmentar 165000 personas con los siguientes datos, los cuales los tengo en excel en un archivo llamado Data, el cual tiene la siguiente forma.
>
> Nombre
>
> Gnero Edad R_Edad Domilicio Actividad econmica Ingresos mensuales R_Ingresos Categoria Persona
>
> Pepito 1 24 2 1104 23 1200 2 3
>
> Juanita 0 56 4 1021 140 3450 4 16
>
> Pedro 1 35 3 1104 45 300 1 4
>
> Especificaciones:
>
> - Gnero: 1 =Masculino y 0=Femenino
> - R_Edad: La edad recodificada en 9 categoras.
> - Domilicio: Cdigos que representan distintas regiones del pas. Son 167 categoras en total.
> - Actividad econmica: Clasificado en 164 categoras.
> - R_Ingresos: Ingresos mensuales recodificados en 15 categoras.
> - Categora Persona: Clasificado en 19 categoras.
>
> Estuve intentando usar la distancia de gower(al ser variables mixtas), con las variables Gnero, R_Edad, Domicilio, Actividad Econmica, R_Ingresos y Categora Persona, para luego poder usar la funcin kmeans y PAM, para poder comparar los resultados, pero me arroja que mis variables son character y no continua con el proceso. Habia ledo tambin que la funcin clustMixType tambin es muy til cuando tienes datos nominales con bastantes categoras, pero no entiendo como armar la sintaxis; en realidad se me hace difcil entender la sintaxis de todo jajajaja.
>
> Si alguien con tiempo, podra indicarme como sera la sintaxis para realizar el anlisis con los mtodos antes indicados y as poder evaluar el mejor nmero de cluster y la consistencia de stos se los agradecera mucho.
>
> [[alternative HTML version deleted]]
>
> R-help-es mailing list
>
> R-help-es using r-project.org
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
Más información sobre la lista de distribución R-help-es