[R-es] cantidad de datos
Alva Valiente, Ricardo (RIAV)
riav en cajatrujillo.com.pe
Mie Abr 29 19:56:08 CEST 2015
Buen aporte…excelente!!
Atte.
Ricardo Alva Valiente
De: Jose Luis Cañadas Reche [mailto:canadasreche en gmail.com]
Enviado el: miércoles, 29 de abril de 2015 12:51 PM
Para: Alva Valiente, Ricardo (RIAV); 'javier.ruben.marcuzzi en gmail.com'; R-help-es en r-project.org
Asunto: Re: [R-es] cantidad de datos
Podrías hacer varios kmedias con diferente número de clusters y comprobar como varía la suma de cuadrados entre cluster para "elegir" el número óptimo.
# Determine number of clusters
wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var))
for (i in 2:15) wss[i] <- sum(kmeans(mydata,
centers=i)$withinss)
plot(1:15, wss, type="b", xlab="Number of Clusters",
ylab="Within groups sum of squares")
El 29/04/15 a las 19:42, Alva Valiente, Ricardo (RIAV) escribió:
El inconveniente con un K-medias, es que se tiene que se tiene que pre definir el número de segmentos, pero eso es algo con lo q no cuento. La solución de Javier me parece q sería la única opción.
Atte.
Ricardo Alva Valiente
-----Mensaje original-----
De: R-help-es [mailto:r-help-es-bounces en r-project.org] En nombre de javier.ruben.marcuzzi en gmail.com<mailto:javier.ruben.marcuzzi en gmail.com>
Enviado el: miércoles, 29 de abril de 2015 12:16 PM
Para: jose luis cañadas; R-help-es en r-project.org<mailto:R-help-es en r-project.org>
Asunto: Re: [R-es] cantidad de datos
Estimados
Justo se me ocurrió una búsqueda y el resultado es parecido.
http://www.r-bloggers.com/k-means-clustering-on-big-data/
Javier Marcuzzi
De: jose luis cañadas
Enviado el: miércoles, 29 de abril de 2015 02:10 p.m.
Para: R-help-es en r-project.org<mailto:R-help-es en r-project.org>
Hola.
Yo en vez de utilizar análisis cluster que impliquen distancias, probaría con un kmedias o con un pam (partition around medoids) pero utilizando muestras, la función clara de la librería cluster puede ayudarte. Pego el details de la ayuda de 'clara'
Details
clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).
Compared to other partitioning methods such as pam, it can deal with much larger datasets. Internally, this is achieved by considering sub-datasets of fixed size (sampsize) such that the time and storage requirements become linear in n rather than quadratic.
Each sub-dataset is partitioned into k clusters using the same algorithm as in pam.
Once k representative objects have been selected from the sub-dataset, each observation of the entire dataset is assigned to the nearest medoid.
The mean (equivalent to the sum) of the dissimilarities of the observations to their closest medoid is used as a measure of the quality of the clustering. The sub-dataset for which the mean (or sum) is minimal, is retained. A further analysis is carried out on the final partition.
Each sub-dataset is forced to contain the medoids obtained from the best sub-dataset until then. Randomly drawn observations are added to this set until sampsize has been reached.
Saludos
El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:
Hola, ¿qué tal?
291GB viene a ser
280 * 280 * 1e6 * 8 / 2^30 / 2
que es el número de GB necesarios para almacenar la matriz de
distancias entre 280k sujetos.
Hay que buscar una alternativa que no implique precalcular esa enormidad.
Un saludo,
Carlos J. Gil Bellosta
http://www.datanalytics.com
El día 29 de abril de 2015, 18:20, <javier.ruben.marcuzzi en gmail.com><mailto:javier.ruben.marcuzzi en gmail.com> escribió:
Estimados
Creo que se puede presentar un problema con el sistema operativo, al
ser de
32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del
todo seguro.
Los 292 GB que informa Carlos son una enormidad, esos requerimientos
son complicados.
¿Qué posibilidad hay de trabajar con memoria virtual en windows?
Aunque me parece que no sería optimo, prefiero intentar en Linux y R.
Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el
i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema
operativo de 64 bit, como también de poder comprar más memoria
(siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos.
Javier Marcuzzi
De: Carlos Ortega
Enviado el: miércoles, 29 de abril de 2015 12:49 p.m.
Para: Alva Valiente, Ricardo (RIAV)
CC: R-help-es en r-project.org<mailto:R-help-es en r-project.org>
No sé si va a ser suficiente....
Acabo de correr un ejemplo equivalente:
# Example
mydat <- matrix(rnorm(280000*20), ncol=20) hc <- hclust(dist(mydat),
"ave")
plot(hc)
plot(hc, hang = -1)
sobre "Azure Machine Learning" y ...
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>
El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
<riav en cajatrujillo.com.pe><mailto:riav en cajatrujillo.com.pe> escribió:
Bueno mi máquina es:
HP
Windows 7
Procesador Core I5 de 2.5 GHz
4 GB de Ram (2.94 GB utilizables)
Sistema operativo de 32 bits
Versión de R, 3.2.0
Atte.
Ricardo Alva Valiente
Analista de Control Preventivo
Unidad de Prevención
Of. Recuperaciones – CC Boulevard Chiclayo
'(074) 232740
RPC 978194441 RPM *157793
*riav en cajatrujillo.com.pe<mailto:*riav en cajatrujillo.com.pe>
www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe>
De: Carlos Ortega [mailto:cof en qualityexcellence.es] Enviado el:
miércoles, 29 de abril de 2015 10:39 AM
Para: Alva Valiente, Ricardo (RIAV)
CC: r-help-es en r-project.org<mailto:r-help-es en r-project.org>
Asunto: Re: [R-es] cantidad de datos
Hola,
La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
tengas problemas para cargar este conjunto de datos a tu entorno.
El problema puede aparecer en generar el objeto clúster y esto
dependerá de la RAM que tengas disponible.
Pásanos el detalle de la máquina que utilizarías y la versión de R
que usas.
He simulado tu conjunto y he tenido problemas a la hora de generar
el clúster. Mi máquina es un MacBook, de 8Gb.
Saludos,
Carlos Ortega.
El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
<riav en cajatrujillo.com.pe><mailto:riav en cajatrujillo.com.pe> escribió:
Estimados dos consultas.
-Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera
saber si el programa soporta sin ningún inconveniente análisis
cluster y discriminantes, así como análisis uni variados y bi variados.
-Cuando se grafica un dendograma como puedo hacer para que todas las
líneas de los casos, partan desde el X, porque cuando se genera se
visualiza bien desordenado (unas líneas comienzan mas arriba que
otras). También como hacer para que los nombres de los casos
aparezcan en vertical y no en horizontal; y si es posible el gráfico también.
Muchas gracias de antemano.
Atte.
Ricardo Alva Valiente
"Aviso Legal: La información de este correo electrónico, así como de
sus archivos adjuntos, es confidencial y está dirigida
exclusivamente a él o los destinatarios. Si Usted ha recibido este
correo por error, por favor avísenos inmediatamente por este medio y
elimínelo de su sistema. Se encuentra prohibido cualquier uso,
reproducción, divulgación o distribución por otras personas
distintas de él o los destinatarios. Cualquier opinión emitida en
este correo electrónico es propia del autor o remitente y no
representa necesariamente la opinión de la Caja Trujillo. A pesar de
esfuerzos razonables en el control de virus y programas maliciosos,
la Caja Trujillo no puede asegurar que éstos no se encuentren en
este correo por causas ajenas a su control, por lo que usted debe
analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> "
_______________________________________________
R-help-es mailing list
R-help-es en r-project.org<mailto:R-help-es en r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es
--
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>
"Aviso Legal: La información de este correo electrónico, así como de
sus archivos adjuntos, es confidencial y está dirigida
exclusivamente a él o los destinatarios. Si Usted ha recibido este
correo por error, por favor avísenos inmediatamente por este medio y
elimínelo de su sistema. Se encuentra prohibido cualquier uso,
reproducción, divulgación o distribución por otras personas
distintas de él o los destinatarios. Cualquier opinión emitida en
este correo electrónico es propia del autor o remitente y no
representa necesariamente la opinión de la Caja Trujillo. A pesar de
esfuerzos razonables en el control de virus y programas maliciosos,
la Caja Trujillo no puede asegurar que éstos no se encuentren en
este correo por causas ajenas a su control, por lo que usted debe
analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> "
--
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>
_______________________________________________
R-help-es mailing list
R-help-es en r-project.org<mailto:R-help-es en r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es
_______________________________________________
R-help-es mailing list
R-help-es en r-project.org<mailto:R-help-es en r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es
_______________________________________________
R-help-es mailing list
R-help-es en r-project.org<mailto:R-help-es en r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
R-help-es en r-project.org<mailto:R-help-es en r-project.org>
https://stat.ethz.ch/mailman/listinfo/r-help-es
"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatru<http://www.cajatrujillo.com.pe>
jillo.com<http://www.cajatrujillo.com.pe>
.pe<http://www.cajatrujillo.com.pe> "
"Aviso Legal: La información de este correo electrónico, así como de sus archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los destinatarios. Si Usted ha recibido este correo por error, por favor avísenos inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido cualquier uso, reproducción, divulgación o distribución por otras personas distintas de él o los destinatarios. Cualquier opinión emitida en este correo electrónico es propia del autor o remitente y no representa necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no se encuentren en este correo por causas ajenas a su control, por lo que usted debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es