[R-es] cantidad de datos

Carlos Ortega cof en qualityexcellence.es
Mie Abr 29 22:21:37 CEST 2015


Otra alternativa para determinar el númbero de clústers...

*NbClust: An R Package for Determining the Relevant Number of Clusters in a
Data Set*
http://www.jstatsoft.org/v61/i06

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 29 de abril de 2015, 19:56, Alva Valiente, Ricardo (RIAV) <
riav en cajatrujillo.com.pe> escribió:

> Buen aporte…excelente!!
>
> Atte.
> Ricardo Alva Valiente
>
>
> De: Jose Luis Cañadas Reche [mailto:canadasreche en gmail.com]
> Enviado el: miércoles, 29 de abril de 2015 12:51 PM
> Para: Alva Valiente, Ricardo (RIAV); 'javier.ruben.marcuzzi en gmail.com';
> R-help-es en r-project.org
> Asunto: Re: [R-es] cantidad de datos
>
> Podrías hacer varios kmedias con diferente número de clusters y comprobar
> como varía la suma de cuadrados entre cluster para "elegir" el número
> óptimo.
>
> # Determine number of clusters
> wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
> for (i in 2:15) wss[i] <- sum(kmeans(mydata,
>    centers=i)$withinss)
> plot(1:15, wss, type="b", xlab="Number of Clusters",
>   ylab="Within groups sum of squares")
> El 29/04/15 a las 19:42, Alva Valiente, Ricardo (RIAV) escribió:
>
> El inconveniente con un K-medias, es que se tiene que se tiene que pre
> definir el número de segmentos, pero eso es algo con lo q no cuento. La
> solución de Javier me parece q sería la única opción.
>
>
>
> Atte.
>
> Ricardo Alva Valiente
>
>
>
> -----Mensaje original-----
>
> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de
> javier.ruben.marcuzzi en gmail.com<mailto:javier.ruben.marcuzzi en gmail.com>
>
> Enviado el: miércoles, 29 de abril de 2015 12:16 PM
>
> Para: jose luis cañadas; R-help-es en r-project.org<mailto:
> R-help-es en r-project.org>
>
> Asunto: Re: [R-es] cantidad de datos
>
>
>
> Estimados
>
>
>
>
>
> Justo se me ocurrió una búsqueda y el resultado es parecido.
>
>
>
> http://www.r-bloggers.com/k-means-clustering-on-big-data/
>
>
>
> Javier Marcuzzi
>
>
>
> De: jose luis cañadas
>
> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎02‎:‎10‎ ‎p.m.
>
> Para: R-help-es en r-project.org<mailto:R-help-es en r-project.org>
>
>
>
>
>
> Hola.
>
> Yo en vez de utilizar análisis cluster que impliquen distancias, probaría
> con un kmedias o con un pam (partition around medoids) pero utilizando
> muestras, la función clara de la librería cluster puede ayudarte. Pego el
> details de la ayuda de 'clara'
>
>
>
> Details
>
>
>
> clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).
>
> Compared to other partitioning methods such as pam, it can deal with much
> larger datasets. Internally, this is achieved by considering sub-datasets
> of fixed size (sampsize) such that the time and storage requirements become
> linear in n rather than quadratic.
>
>
>
> Each sub-dataset is partitioned into k clusters using the same algorithm
> as in pam.
>
> Once k representative objects have been selected from the sub-dataset,
> each observation of the entire dataset is assigned to the nearest medoid.
>
>
>
> The mean (equivalent to the sum) of the dissimilarities of the
> observations to their closest medoid is used as a measure of the quality of
> the clustering. The sub-dataset for which the mean (or sum) is minimal, is
> retained. A further analysis is carried out on the final partition.
>
>
>
> Each sub-dataset is forced to contain the medoids obtained from the best
> sub-dataset until then. Randomly drawn observations are added to this set
> until sampsize has been reached.
>
>
>
> Saludos
>
>
>
> El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:
>
> Hola, ¿qué tal?
>
>
>
> 291GB viene a ser
>
>
>
> 280 * 280 * 1e6 * 8 / 2^30 / 2
>
>
>
> que es el número de GB necesarios para almacenar la matriz de
>
> distancias entre 280k sujetos.
>
>
>
> Hay que buscar una alternativa que no implique precalcular esa enormidad.
>
>
>
> Un saludo,
>
>
>
> Carlos J. Gil Bellosta
>
> http://www.datanalytics.com
>
>
>
>
>
>
>
>
>
>
>
> El día 29 de abril de 2015, 18:20,  <javier.ruben.marcuzzi en gmail.com
> ><mailto:javier.ruben.marcuzzi en gmail.com> escribió:
>
> Estimados
>
>
>
> Creo que se puede presentar un problema con el sistema operativo, al
>
> ser de
>
> 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del
>
> todo seguro.
>
>
>
> Los 292 GB que informa Carlos son una enormidad, esos requerimientos
>
> son complicados.
>
>
>
> ¿Qué posibilidad hay de trabajar con memoria virtual en windows?
>
> Aunque me parece que no sería optimo, prefiero intentar en Linux y R.
>
>
>
> Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el
>
> i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema
>
> operativo de 64 bit, como también de poder comprar más memoria
>
> (siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos.
>
>
>
> Javier Marcuzzi
>
>
>
> De: Carlos Ortega
>
> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
>
> Para: Alva Valiente, Ricardo (RIAV)
>
> CC: R-help-es en r-project.org<mailto:R-help-es en r-project.org>
>
>
>
> No sé si va a ser suficiente....
>
> Acabo de correr un ejemplo equivalente:
>
>
>
> # Example
>
> mydat <- matrix(rnorm(280000*20), ncol=20) hc <- hclust(dist(mydat),
>
> "ave")
>
> plot(hc)
>
> plot(hc, hang = -1)
>
>
>
> sobre "Azure Machine Learning" y ...
>
>
>
>
>
>
>
> Saludos,
>
> Carlos Ortega
>
> www.qualityexcellence.es<http://www.qualityexcellence.es>
>
>
>
> El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
>
> <riav en cajatrujillo.com.pe><mailto:riav en cajatrujillo.com.pe> escribió:
>
> Bueno mi máquina es:
>
>
>
> HP
>
>
>
> Windows 7
>
>
>
> Procesador Core I5 de 2.5 GHz
>
>
>
> 4 GB de Ram (2.94 GB utilizables)
>
>
>
> Sistema operativo de 32 bits
>
>
>
> Versión de R, 3.2.0
>
>
>
>
>
>
>
>
>
>
>
> Atte.
>
>
>
> Ricardo Alva Valiente
>
>
>
> Analista de Control Preventivo
>
>
>
> Unidad de Prevención
>
>
>
> Of. Recuperaciones – CC Boulevard Chiclayo
>
>
>
> '(074) 232740
>
>
>
> RPC 978194441 RPM *157793
>
>
>
> *riav en cajatrujillo.com.pe<mailto:*riav en cajatrujillo.com.pe>
>
>
>
> www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe>
>
>
>
>
>
>
>
>
>
>
>
> De: Carlos Ortega [mailto:cof en qualityexcellence.es] Enviado el:
>
> miércoles, 29 de abril de 2015 10:39 AM
>
> Para: Alva Valiente, Ricardo (RIAV)
>
> CC: r-help-es en r-project.org<mailto:r-help-es en r-project.org>
>
> Asunto: Re: [R-es] cantidad de datos
>
>
>
>
>
>
>
> Hola,
>
>
>
> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
>
> tengas problemas para cargar este conjunto de datos a tu entorno.
>
>
>
> El problema puede aparecer en generar el objeto clúster y esto
>
> dependerá de la RAM que tengas disponible.
>
>
>
> Pásanos el detalle de la máquina que utilizarías y la versión de R
>
> que usas.
>
>
>
>
>
> He simulado tu conjunto y he tenido problemas a la hora de generar
>
> el clúster. Mi máquina es un MacBook, de 8Gb.
>
>
>
>
>
>
>
> Saludos,
>
>
>
> Carlos Ortega.
>
>
>
>
>
>
>
> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
>
> <riav en cajatrujillo.com.pe><mailto:riav en cajatrujillo.com.pe> escribió:
>
>
>
> Estimados dos consultas.
>
> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera
>
> saber si el programa soporta sin ningún inconveniente análisis
>
> cluster y discriminantes, así como análisis uni variados y bi variados.
>
> -Cuando se grafica un dendograma como puedo hacer para que todas las
>
> líneas de los casos, partan desde el X, porque cuando se genera se
>
> visualiza bien desordenado (unas líneas comienzan mas arriba que
>
> otras). También como hacer para que los nombres de los casos
>
> aparezcan en vertical y no en horizontal; y si es posible el gráfico
> también.
>
>
>
> Muchas gracias de antemano.
>
>
>
> Atte.
>
> Ricardo Alva Valiente
>
>
>
> "Aviso Legal: La información de este correo electrónico, así como de
>
> sus archivos adjuntos, es confidencial y está dirigida
>
> exclusivamente a él o los destinatarios. Si Usted ha recibido este
>
> correo por error, por favor avísenos inmediatamente por este medio y
>
> elimínelo de su sistema. Se encuentra prohibido cualquier uso,
>
> reproducción, divulgación o distribución por otras personas
>
> distintas de él o los destinatarios. Cualquier opinión emitida en
>
> este correo electrónico es propia del autor o remitente y no
>
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>
> esfuerzos razonables en el control de virus y programas maliciosos,
>
> la Caja Trujillo no puede asegurar que éstos no se encuentren en
>
> este correo por causas ajenas a su control, por lo que usted debe
>
> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja
> Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<
> http://www.cajatrujillo.com.pe> "
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-es en r-project.org<mailto:R-help-es en r-project.org>
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
>
>
>
>
>
>
> --
>
>
>
> Saludos,
>
> Carlos Ortega
>
> www.qualityexcellence.es<http://www.qualityexcellence.es>
>
>
>
> "Aviso Legal: La información de este correo electrónico, así como de
>
> sus archivos adjuntos, es confidencial y está dirigida
>
> exclusivamente a él o los destinatarios. Si Usted ha recibido este
>
> correo por error, por favor avísenos inmediatamente por este medio y
>
> elimínelo de su sistema. Se encuentra prohibido cualquier uso,
>
> reproducción, divulgación o distribución por otras personas
>
> distintas de él o los destinatarios. Cualquier opinión emitida en
>
> este correo electrónico es propia del autor o remitente y no
>
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>
> esfuerzos razonables en el control de virus y programas maliciosos,
>
> la Caja Trujillo no puede asegurar que éstos no se encuentren en
>
> este correo por causas ajenas a su control, por lo que usted debe
>
> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja
> Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<
> http://www.cajatrujillo.com.pe> "
>
>
>
>
>
>
>
> --
>
> Saludos,
>
> Carlos Ortega
>
> www.qualityexcellence.es<http://www.qualityexcellence.es>
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-es en r-project.org<mailto:R-help-es en r-project.org>
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-es en r-project.org<mailto:R-help-es en r-project.org>
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-es en r-project.org<mailto:R-help-es en r-project.org>
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
> [[alternative HTML version deleted]]
>
>
>
> _______________________________________________
>
> R-help-es mailing list
>
> R-help-es en r-project.org<mailto:R-help-es en r-project.org>
>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
> "Aviso Legal: La información de este correo electrónico, así como de sus
> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o
> los destinatarios. Si Usted ha recibido este correo por error, por favor
> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
> por otras personas distintas de él o los destinatarios. Cualquier opinión
> emitida en este correo electrónico es propia del autor o remitente y no
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
> Trujillo no puede asegurar que éstos no se encuentren en este correo por
> causas ajenas a su control, por lo que usted debe analizar este correo y
> sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito
> de Trujillo www.cajatru<http://www.cajatrujillo.com.pe>
>
>  jillo.com<http://www.cajatrujillo.com.pe>
>
> .pe<http://www.cajatrujillo.com.pe> "
>
> "Aviso Legal: La información de este correo electrónico, así como de sus
> archivos adjuntos, es confidencial y está dirigida exclusivamente a él o
> los destinatarios. Si Usted ha recibido este correo por error, por favor
> avísenos inmediatamente por este medio y elimínelo de su sistema. Se
> encuentra prohibido cualquier uso, reproducción, divulgación o distribución
> por otras personas distintas de él o los destinatarios. Cualquier opinión
> emitida en este correo electrónico es propia del autor o remitente y no
> representa necesariamente la opinión de la Caja Trujillo. A pesar de
> esfuerzos razonables en el control de virus y programas maliciosos, la Caja
> Trujillo no puede asegurar que éstos no se encuentren en este correo por
> causas ajenas a su control, por lo que usted debe analizar este correo y
> sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito
> de Trujillo www.cajatrujillo.com.pe "
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es