[R-es] help estadística!!!!! Análisis de modularidad Modularidad

Ruben Bermad ruben_bm en hotmail.com
Mie Feb 10 10:42:56 CET 2016


Buenos dias, 
Si quieres simplemente hacer un análisis que te permita agrupar tus clientes en base a determinadas variables, yo te recomiendo que hagas un análisis de modularidad. El tamaño de los datos que indicas es nada para este tipo de análisis, sea cual sea el ordenador. 
Te puedo recomendar el algoritmo mapequation desarrollado en el ejecutable Infomap (en Linux). Sus creadores han desarrollado una aplicacion online (mapequation.org) donde puedes cargar tu base de datos y poder analizarlo ahí. Todo es muy intuitivo. 
Yo he hecho 3000 iteraciones de una matriz de 53.000x5.000 en menos de 6 horas en un ordenador con 8 Gb de RAM. Por otro lado luego he analizado la misma base de datos con un cluster análisis, para comparar resultados entre metodologías,y he necesitado utilizar un servidor que tenga una capacidad de 200Gb de RAM (debido al metrico de distancias que use), tardandome varias semanas en analizar; en concreto use la funcion agnes del paquete cluster. 
Los resultados son muy parecidos, y la ventaja es que el análisis de redes (modularidad) te da información de todo el sistema y como se conectan sus miembros (nodos) dentro de él. 
Espero que te sirva de algo,
Saludos


Otro punto a su favor, es que puedes hacer análisis de significancia de los grupos resultantes.

> Date: Tue, 9 Feb 2016 00:24:08 +0100
> From: cof en qualityexcellence.es
> To: riav en cajatrujillo.com.pe
> CC: r-help-es en r-project.org
> Subject: Re: [R-es] help estadística!!!!!
> 
> Hola Ricardo,
> 
> Recuerdo que preguntaste por algo parecido allá por finales de abril del
> año pasado. Lo recuerdo porque incluso simulé tu caso en la nube de Azure
> de Microsoft:
> https://stat.ethz.ch/pipermail/r-help-es/2015-April/008882.html
> 
> En aquel momento tenías un conjunto de clientes de 280,000 y ya te
> comentamos que la matriz de distancias que se genera, ocuparían unos buenos
> cerca de 300Gb. Ahora con más datos de clientes (315,000) el problema se
> agrava....especialmente para R.
> 
> ¿Hay alguna alternativa?.
> Sí, varias...
> 
>    - primera la fuerza bruta de poner más hierro/RAM, pero tendrás que ir a
>    Amazon. Sobre su plataforma hay una solución comercial que permite trabajar
>    con R, como cuando trabajas en tu equipo, pero a gran escala. El límite de
>    RAM casi lo pones tú (en tamaño y en dinero que te quieras gastar). Si
>    echas cuentas, tampoco es tan caro como parece...Puedes hacer este análisis
>    en varias horas costándote ni un dólar la hora...:
>       -
>       http://www.teraproc.com/getting-started-with-teraproc-r-cluster-as-a-service/
> 
> 
>    - Otra alternativa que te propusimos fue el que de alguna forma
>    redujeras tu conjunto de trabajo con algún tipo de hipótesis inicial
>    (segmentación) y probar con esos subconjuntos bien en tu máquina o en este
>    tipo de solución como AWS.
> 
> En cualquiera de los casos, como norma general:
> 
>    - Utiliza un R sobre un equipo de 64bits.
>    - Cuanta más RAM mejor.
> 
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
> 
> 
> 
> El 8 de febrero de 2016, 22:35, Alva Valiente, Ricardo (RIAV) <
> riav en cajatrujillo.com.pe> escribió:
> 
> > Estimado muchas gracias por la respuesta; pero tengo otra interrogante.
> >
> > Para segmentar toda la data de clientes los cuales ya los vi bien y no son
> > 15,000 sino 315,000 necesito utilizar el análisis de segmentación de
> > K-medianas o K-modas, porque al ser datos ordinales y dicotómicos (la gran
> > mayoría de variables), la aplicación de segmentar a través de k-medias no
> > tiene mucho sentido. El R tiene capacidad para analizar dicha cantidad de
> > datos o hasta cuantos datos puede analizar? y existe algún paquete que
> > trabaje con K-medianas o K-modas?
> >
> >
> >
> > Atte.
> >
> > *Ricardo Alva Valiente*
> >
> >
> >
> > *De:* Carlos Ortega [mailto:cof en qualityexcellence.es]
> > *Enviado el:* jueves, 28 de enero de 2016 05:13 PM
> > *Para:* Alva Valiente, Ricardo (RIAV) <riav en cajatrujillo.com.pe>
> > *CC:* r-help-es en r-project.org
> > *Asunto:* Re: [R-es] help estadística!!!!!
> >
> >
> >
> > Hola,
> >
> >
> >
> > Tendrías que hacerlo con el paquete "caret" que incluye una variante de
> > "knn" con el que sí que puedes hacer predicciones.
> >
> >
> >
> > Mira el ejemplo aquí:
> >
> > http://topepo.github.io/caret/misc.html
> >
> >
> >
> > Otra referencia que te puede ayudar a llegar a la alternativa anterior es
> > esta:
> >
> >
> >
> >
> > http://stackoverflow.com/questions/21064315/how-do-i-predict-new-datas-cluster-after-clustering-training-data
> >
> >
> >
> > Saludos,
> >
> > Carlos Ortega
> >
> > www.qualityexcellence.es
> >
> >
> >
> >
> >
> > El 28 de enero de 2016, 22:30, Alva Valiente, Ricardo (RIAV) <
> > riav en cajatrujillo.com.pe> escribió:
> >
> > Buenas tengo una consulta.
> > Tengo un grupo de 15,000 clientes a los cuales debo de segmentar en base a
> > variables que por sus características pueden ser agrupadas en 4 grupos. Lo
> > primero que he realizado es segmentar las variables pero de cada grupo (xq
> > necesito realizar un análisis sobre esto) mediante el análisis clúster y
> > luego realizar una segmentación con todas las variables, también utilizando
> > el análisis clúster. La pregunta del millón es...una vez que tenga mis
> > segmentos definidos (supongamos que me salen 15 o 20 segmentos), como puedo
> > hacer para determinar en que segmento podría estar un nuevo cliente y no
> > tenga que volver a realizar el mismo análisis. Supuestamente el análisis
> > clúster se que es netamente descriptivo, pero hay alguna forma de hacer uso
> > de esta técnica para algo predictivo o inferencial algo así como en el
> > análisis de regresión múltiple.
> >
> > Dato: Mis variables son ordinales, dicotómicas y algunas numéricas.
> >
> > Atte.
> > Ricardo Alva
> >
> > "Aviso Legal: La información de este correo electrónico, así como de sus
> > archivos adjuntos, es confidencial y está dirigida exclusivamente a él o
> > los destinatarios. Si Usted ha recibido este correo por error, por favor
> > avísenos inmediatamente por este medio y elimínelo de su sistema. Se
> > encuentra prohibido cualquier uso, reproducción, divulgación o distribución
> > por otras personas distintas de él o los destinatarios. Cualquier opinión
> > emitida en este correo electrónico es propia del autor o remitente y no
> > representa necesariamente la opinión de la Caja Trujillo. A pesar de
> > esfuerzos razonables en el control de virus y programas maliciosos, la Caja
> > Trujillo no puede asegurar que éstos no se encuentren en este correo por
> > causas ajenas a su control, por lo que usted debe analizar este correo y
> > sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito
> > de Trujillo www.cajatrujillo.com.pe "
> >
> >         [[alternative HTML version deleted]]
> >
> >
> > _______________________________________________
> > R-help-es mailing list
> > R-help-es en r-project.org
> > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >
> >
> >
> >
> >
> > --
> >
> > Saludos,
> > Carlos Ortega
> > www.qualityexcellence.es
> > "Aviso Legal: La información de este correo electrónico, así como de sus
> > archivos adjuntos, es confidencial y está dirigida exclusivamente a él o
> > los destinatarios. Si Usted ha recibido este correo por error, por favor
> > avísenos inmediatamente por este medio y elimínelo de su sistema. Se
> > encuentra prohibido cualquier uso, reproducción, divulgación o distribución
> > por otras personas distintas de él o los destinatarios. Cualquier opinión
> > emitida en este correo electrónico es propia del autor o remitente y no
> > representa necesariamente la opinión de la Caja Trujillo. A pesar de
> > esfuerzos razonables en el control de virus y programas maliciosos, la Caja
> > Trujillo no puede asegurar que éstos no se encuentren en este correo por
> > causas ajenas a su control, por lo que usted debe analizar este correo y
> > sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito
> > de Trujillo www.cajatrujillo.com.pe "
> >
> 
> 
> 
> -- 
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
> 
> 	[[alternative HTML version deleted]]
> 
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
 		 	   		  
	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es