[R-es] Crear Cluster

i@gr@co m@iii@g oii pm@me i@gr@co m@iii@g oii pm@me
Mie Ene 27 19:56:49 CET 2021


clustMixType no es una función, es un paquete de R que implementa el algoritmo k-prototypes en R. Este es un algoritmo similar la k-means pero válido para tipos de datos mixtos.

El paquete incluye no solo métodos para la determinación de clústeres sino también para el cálculo de índices de validación, que a lo mejor es lo que te confunde. Puedes encontrar más información sobre el algoritmo por ejemplo aquí: https://medium.com/datadriveninvestor/k-prototype-in-clustering-mixed-attributes-e6907db91914.

Los índices de validación puedes emplearlos para intentar estimar el número óptimo de grupos en tus datos, empleando la función validation_kproto, tal y como indica el manual: https://www.rdocumentation.org/packages/clustMixType/versions/0.2-9/topics/validation_kproto

Pero si tienes escasa experiencia con R y clustering es complicado poderte ayudar.

Ánimo

‐‐‐‐‐‐‐ Original Message ‐‐‐‐‐‐‐

El miércoles, 27 de enero de 2021 a las 19:33, ricardo alva <kalo_alva using hotmail.com> escribió:

> Hola amigos.
>
> Soy algo nuevo en este tema de R, pero estoy aprendiendo a empujones porque el tiempo apremia. Necesito segmentar 165000 personas con los siguientes datos, los cuales los tengo en excel en un archivo llamado Data, el cual tiene la siguiente forma.
>
> Nombre
>
> Gnero Edad R_Edad Domilicio Actividad econmica Ingresos mensuales R_Ingresos Categoria Persona
>
> Pepito 1 24 2 1104 23 1200 2 3
>
> Juanita 0 56 4 1021 140 3450 4 16
>
> Pedro 1 35 3 1104 45 300 1 4
>
> Especificaciones:
>
> -   Gnero: 1 =Masculino y 0=Femenino
> -   R_Edad: La edad recodificada en 9 categoras.
> -   Domilicio: Cdigos que representan distintas regiones del pas. Son 167 categoras en total.
> -   Actividad econmica: Clasificado en 164 categoras.
> -   R_Ingresos: Ingresos mensuales recodificados en 15 categoras.
> -   Categora Persona: Clasificado en 19 categoras.
>
>     Estuve intentando usar la distancia de gower(al ser variables mixtas), con las variables Gnero, R_Edad, Domicilio, Actividad Econmica, R_Ingresos y Categora Persona, para luego poder usar la funcin kmeans y PAM, para poder comparar los resultados, pero me arroja que mis variables son character y no continua con el proceso. Habia ledo tambin que la funcin clustMixType tambin es muy til cuando tienes datos nominales con bastantes categoras, pero no entiendo como armar la sintaxis; en realidad se me hace difcil entender la sintaxis de todo jajajaja.
>
>     Si alguien con tiempo, podra indicarme como sera la sintaxis para realizar el anlisis con los mtodos antes indicados y as poder evaluar el mejor nmero de cluster y la consistencia de stos se los agradecera mucho.
>
>     [[alternative HTML version deleted]]
>
> R-help-es mailing list
>
> R-help-es using r-project.org
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es



Más información sobre la lista de distribución R-help-es