[R-es] help estadística!!!!!

Carlos J. Gil Bellosta cgb en datanalytics.com
Mar Feb 9 00:53:57 CET 2016


Hola, ¿qué tal?

Para k-medioides y pensando en conjuntos de datos grandes tienes un
algoritmo aproximado, clara, en el paquete cluster. Puedes ver la
discusión sobre los requisitos de memoria en la ayuda de la función.
La idea es que usa una aproximación para convertir un algoritmo que
exige tiempo y memoria cuadrática en otro lineal.

Si no te vale para el conjunto de datos completo, siempre puedes
buscar los clústers con una muestra razonable y asignar el resto de
las observaciones a la que le corresponda.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com

El día 9 de febrero de 2016, 0:36, Alva Valiente, Ricardo (RIAV)
<riav en cajatrujillo.com.pe> escribió:
> Claro, si recuerdo que me dijeron que ejecutar un análisis clúster jerárquico era casi imposible xq se necesitaba demasiados recursos, y que mejor utilizara el análisis de K-medias determinando el número probable de clúster por anticipado. Es por eso que hago la consulta nuevamente sobre hasta cuantos casos soporta R (con una máquina de 4 GB de RAM y procesador CORE I5) , para saber cuanto es la muestra máxima que puedo considerar para hacer mi análisis, pero utilizando el K-medianas o k-modas, bueno y si es que hay algún paquete que haga esto.
>
> Atte.
> Ricardo Alva Valiente
>
> De: Carlos Ortega [mailto:cof en qualityexcellence.es]
> Enviado el: lunes, 08 de febrero de 2016 06:24 PM
> Para: Alva Valiente, Ricardo (RIAV) <riav en cajatrujillo.com.pe>
> CC: r-help-es en r-project.org
> Asunto: Re: [R-es] help estadística!!!!!
>
> Hola Ricardo,
>
> Recuerdo que preguntaste por algo parecido allá por finales de abril del año pasado. Lo recuerdo porque incluso simulé tu caso en la nube de Azure de Microsoft:
> https://stat.ethz.ch/pipermail/r-help-es/2015-April/008882.html
>
> En aquel momento tenías un conjunto de clientes de 280,000 y ya te comentamos que la matriz de distancias que se genera, ocuparían unos buenos cerca de 300Gb. Ahora con más datos de clientes (315,000) el problema se agrava....especialmente para R.
>
> ¿Hay alguna alternativa?.
> Sí, varias...
>
>   *   primera la fuerza bruta de poner más hierro/RAM, pero tendrás que ir a Amazon. Sobre su plataforma hay una solución comercial que permite trabajar con R, como cuando trabajas en tu equipo, pero a gran escala. El límite de RAM casi lo pones tú (en tamaño y en dinero que te quieras gastar). Si echas cuentas, tampoco es tan caro como parece...Puedes hacer este análisis en varias horas costándote ni un dólar la hora...:
>
>      *   http://www.teraproc.com/getting-started-with-teraproc-r-cluster-as-a-service/
>
>   *   Otra alternativa que te propusimos fue el que de alguna forma redujeras tu conjunto de trabajo con algún tipo de hipótesis inicial (segmentación) y probar con esos subconjuntos bien en tu máquina o en este tipo de solución como AWS.
> En cualquiera de los casos, como norma general:
>
>   *   Utiliza un R sobre un equipo de 64bits.
>   *   Cuanta más RAM mejor.
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es<http://www.qualityexcellence.es>
>
>
>
> El 8 de febrero de 2016, 22:35, Alva Valiente, Ricardo (RIAV) <riav en cajatrujillo.com.pe<mailto:riav en cajatrujillo.com.pe>> escribió:
> Estimado muchas gracias por la respuesta; pero tengo otra interrogante.
> Para segmentar toda la data de clientes los cuales ya los vi bien y no son 15,000 sino 315,000 necesito utilizar el análisis de segmentación de K-medianas o K-modas, porque al ser datos ordinales y dicotómicos (la gran mayoría de variables), la aplicación de segmentar a través de k-medias no tiene mucho sentido. El R tiene capacidad para analizar dicha cantidad de datos o hasta cuantos datos puede analizar? y existe algún paquete que trabaje con K-medianas o K-modas?
>
> Atte.
> Ricardo Alva Valiente
>
> De: Carlos Ortega [mailto:cof en qualityexcellence.es<mailto:cof en qualityexcellence.es>]
> Enviado el: jueves, 28 de enero de 2016 05:13 PM
> Para: Alva Valiente, Ricardo (RIAV) <riav en cajatrujillo.com.pe<mailto:riav en cajatrujillo.com.pe>>
> CC: r-help-es en r-project.org<mailto:r-help-es en r-project.org>
> Asunto: Re: [R-es] help estadística!!!!!
>
> Hola,
>
> Tendrías que hacerlo con el paquete "caret" que incluye una variante de "knn" con el que sí que puedes hacer predicciones.
>
> Mira el ejemplo aquí:
> http://topepo.github.io/caret/misc.html
>
> Otra referencia que te puede ayudar a llegar a la alternativa anterior es esta:
>
> http://stackoverflow.com/questions/21064315/how-do-i-predict-new-datas-cluster-after-clustering-training-data
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es<http://www.qualityexcellence.es>
>
>
> El 28 de enero de 2016, 22:30, Alva Valiente, Ricardo (RIAV) <riav en cajatrujillo.com.pe<mailto:riav en cajatrujillo.com.pe>> escribió:
> Buenas tengo una consulta.
> Tengo un grupo de 15,000 clientes a los cuales debo de segmentar en base a variables que por sus características pueden ser agrupadas en 4 grupos. Lo primero que he realizado es segmentar las variables pero de cada grupo (xq necesito realizar un análisis sobre esto) mediante el análisis clúster y luego realizar una segmentación con todas las variables, también utilizando el análisis clúster. La pregunta del millón es...una vez que tenga mis segmentos definidos (supongamos que me salen 15 o 20 segmentos), como puedo hacer para determinar en que segmento podría estar un nuevo cliente y no tenga que volver a realizar el mismo análisis. Supuestamente el análisis clúster se que es netamente descriptivo, pero hay alguna forma de hacer uso de esta técnica para algo predictivo o inferencial algo así como en el análisis de regresión múltiple.
>
> Dato: Mis variables son ordinales, dicotómicas y algunas numéricas.
>
> Atte.
> Ricardo Alva
>
> "Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> "
>
>         [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org<mailto:R-help-es en r-project.org>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es<http://www.qualityexcellence.es>
> "Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> "
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es<http://www.qualityexcellence.es>
> "Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es



Más información sobre la lista de distribución R-help-es