[R-es] cantidad de datos

Jose Luis Cañadas Reche canadasreche en gmail.com
Mie Abr 29 19:50:56 CEST 2015


Podrías hacer varios kmedias con diferente número de clusters y 
comprobar como varía la suma de cuadrados entre cluster para "elegir" el 
número óptimo.

# Determine number of clusters
wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
for (i in 2:15) wss[i] <- sum(kmeans(mydata,
centers=i)$withinss)
plot(1:15, wss, type="b", xlab="Number of Clusters",
   ylab="Within groups sum of squares")

El 29/04/15 a las 19:42, Alva Valiente, Ricardo (RIAV) escribió:
> El inconveniente con un K-medias, es que se tiene que se tiene que pre definir el número de segmentos, pero eso es algo con lo q no cuento. La solución de Javier me parece q sería la única opción.
>
> Atte.
> Ricardo Alva Valiente
>
> -----Mensaje original-----
> De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de javier.ruben.marcuzzi en gmail.com
> Enviado el: miércoles, 29 de abril de 2015 12:16 PM
> Para: jose luis cañadas; R-help-es en r-project.org
> Asunto: Re: [R-es] cantidad de datos
>
> Estimados
>
>
> Justo se me ocurrió una búsqueda y el resultado es parecido.
>
> http://www.r-bloggers.com/k-means-clustering-on-big-data/
>
> Javier Marcuzzi
>
> De: jose luis cañadas
> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎02‎:‎10‎ ‎p.m.
> Para: R-help-es en r-project.org
>
>
> Hola.
> Yo en vez de utilizar análisis cluster que impliquen distancias, probaría con un kmedias o con un pam (partition around medoids) pero utilizando muestras, la función clara de la librería cluster puede ayudarte. Pego el details de la ayuda de 'clara'
>
> Details
>
> clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).
> Compared to other partitioning methods such as pam, it can deal with much larger datasets. Internally, this is achieved by considering sub-datasets of fixed size (sampsize) such that the time and storage requirements become linear in n rather than quadratic.
>
> Each sub-dataset is partitioned into k clusters using the same algorithm as in pam.
> Once k representative objects have been selected from the sub-dataset, each observation of the entire dataset is assigned to the nearest medoid.
>
> The mean (equivalent to the sum) of the dissimilarities of the observations to their closest medoid is used as a measure of the quality of the clustering. The sub-dataset for which the mean (or sum) is minimal, is retained. A further analysis is carried out on the final partition.
>
> Each sub-dataset is forced to contain the medoids obtained from the best sub-dataset until then. Randomly drawn observations are added to this set until sampsize has been reached.
>
> Saludos
>
> El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:
>> Hola, ¿qué tal?
>>
>> 291GB viene a ser
>>
>> 280 * 280 * 1e6 * 8 / 2^30 / 2
>>
>> que es el número de GB necesarios para almacenar la matriz de
>> distancias entre 280k sujetos.
>>
>> Hay que buscar una alternativa que no implique precalcular esa enormidad.
>>
>> Un saludo,
>>
>> Carlos J. Gil Bellosta
>> http://www.datanalytics.com
>>
>>
>>
>>
>>
>> El día 29 de abril de 2015, 18:20,  <javier.ruben.marcuzzi en gmail.com> escribió:
>>> Estimados
>>>
>>> Creo que se puede presentar un problema con el sistema operativo, al
>>> ser de
>>> 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del
>>> todo seguro.
>>>
>>> Los 292 GB que informa Carlos son una enormidad, esos requerimientos
>>> son complicados.
>>>
>>> ¿Qué posibilidad hay de trabajar con memoria virtual en windows?
>>> Aunque me parece que no sería optimo, prefiero intentar en Linux y R.
>>>
>>> Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el
>>> i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema
>>> operativo de 64 bit, como también de poder comprar más memoria
>>> (siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos.
>>>
>>> Javier Marcuzzi
>>>
>>> De: Carlos Ortega
>>> Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
>>> Para: Alva Valiente, Ricardo (RIAV)
>>> CC: R-help-es en r-project.org
>>>
>>> No sé si va a ser suficiente....
>>> Acabo de correr un ejemplo equivalente:
>>>
>>> # Example
>>> mydat <- matrix(rnorm(280000*20), ncol=20) hc <- hclust(dist(mydat),
>>> "ave")
>>> plot(hc)
>>> plot(hc, hang = -1)
>>>
>>> sobre "Azure Machine Learning" y ...
>>>
>>>
>>>
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>> El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
>>> <riav en cajatrujillo.com.pe> escribió:
>>>> Bueno mi máquina es:
>>>>
>>>> HP
>>>>
>>>> Windows 7
>>>>
>>>> Procesador Core I5 de 2.5 GHz
>>>>
>>>> 4 GB de Ram (2.94 GB utilizables)
>>>>
>>>> Sistema operativo de 32 bits
>>>>
>>>> Versión de R, 3.2.0
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> Atte.
>>>>
>>>> Ricardo Alva Valiente
>>>>
>>>> Analista de Control Preventivo
>>>>
>>>> Unidad de Prevención
>>>>
>>>> Of. Recuperaciones – CC Boulevard Chiclayo
>>>>
>>>> '(074) 232740
>>>>
>>>> RPC 978194441 RPM *157793
>>>>
>>>> *riav en cajatrujillo.com.pe
>>>>
>>>> www.cajatrujillo.com.pe
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> De: Carlos Ortega [mailto:cof en qualityexcellence.es] Enviado el:
>>>> miércoles, 29 de abril de 2015 10:39 AM
>>>> Para: Alva Valiente, Ricardo (RIAV)
>>>> CC: r-help-es en r-project.org
>>>> Asunto: Re: [R-es] cantidad de datos
>>>>
>>>>
>>>>
>>>> Hola,
>>>>
>>>> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
>>>> tengas problemas para cargar este conjunto de datos a tu entorno.
>>>>
>>>> El problema puede aparecer en generar el objeto clúster y esto
>>>> dependerá de la RAM que tengas disponible.
>>>>
>>>> Pásanos el detalle de la máquina que utilizarías y la versión de R
>>>> que usas.
>>>>
>>>>
>>>> He simulado tu conjunto y he tenido problemas a la hora de generar
>>>> el clúster. Mi máquina es un MacBook, de 8Gb.
>>>>
>>>>
>>>>
>>>> Saludos,
>>>>
>>>> Carlos Ortega.
>>>>
>>>>
>>>>
>>>> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
>>>> <riav en cajatrujillo.com.pe> escribió:
>>>>
>>>> Estimados dos consultas.
>>>> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera
>>>> saber si el programa soporta sin ningún inconveniente análisis
>>>> cluster y discriminantes, así como análisis uni variados y bi variados.
>>>> -Cuando se grafica un dendograma como puedo hacer para que todas las
>>>> líneas de los casos, partan desde el X, porque cuando se genera se
>>>> visualiza bien desordenado (unas líneas comienzan mas arriba que
>>>> otras). También como hacer para que los nombres de los casos
>>>> aparezcan en vertical y no en horizontal; y si es posible el gráfico también.
>>>>
>>>> Muchas gracias de antemano.
>>>>
>>>> Atte.
>>>> Ricardo Alva Valiente
>>>>
>>>> "Aviso Legal: La información de este correo electrónico, así como de
>>>> sus archivos adjuntos, es confidencial y está dirigida
>>>> exclusivamente a él o los destinatarios. Si Usted ha recibido este
>>>> correo por error, por favor avísenos inmediatamente por este medio y
>>>> elimínelo de su sistema. Se encuentra prohibido cualquier uso,
>>>> reproducción, divulgación o distribución por otras personas
>>>> distintas de él o los destinatarios. Cualquier opinión emitida en
>>>> este correo electrónico es propia del autor o remitente y no
>>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>>>> esfuerzos razonables en el control de virus y programas maliciosos,
>>>> la Caja Trujillo no puede asegurar que éstos no se encuentren en
>>>> este correo por causas ajenas a su control, por lo que usted debe
>>>> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
>>>>
>>>> _______________________________________________
>>>> R-help-es mailing list
>>>> R-help-es en r-project.org
>>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>>
>>>>
>>>>
>>>>
>>>> --
>>>>
>>>> Saludos,
>>>> Carlos Ortega
>>>> www.qualityexcellence.es
>>>>
>>>> "Aviso Legal: La información de este correo electrónico, así como de
>>>> sus archivos adjuntos, es confidencial y está dirigida
>>>> exclusivamente a él o los destinatarios. Si Usted ha recibido este
>>>> correo por error, por favor avísenos inmediatamente por este medio y
>>>> elimínelo de su sistema. Se encuentra prohibido cualquier uso,
>>>> reproducción, divulgación o distribución por otras personas
>>>> distintas de él o los destinatarios. Cualquier opinión emitida en
>>>> este correo electrónico es propia del autor o remitente y no
>>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de
>>>> esfuerzos razonables en el control de virus y programas maliciosos,
>>>> la Caja Trujillo no puede asegurar que éstos no se encuentren en
>>>> este correo por causas ajenas a su control, por lo que usted debe
>>>> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
>>>
>>>
>>> --
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
> [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
> "Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe"


	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es