[R-es] Clasificacion de individuos

Isidro Hidalgo ihidalgo en jccm.es
Mar Sep 30 12:40:33 CEST 2014


¿Has probado a hacer directamente una clasificación de los individuos con 3 
clusters? Es muy sencillo y quizá te funcione. En un espacio tridimensional un 
cluster se hace más rápido que un disparo.

Un saludo.
Isidro

> -----Mensaje original-----
> De: r-help-es-bounces en r-project.org [mailto:r-help-es-bounces en r-
> project.org] En nombre de jluis.gilsanz en tasacionesh.com
> Enviado el: martes, 30 de septiembre de 2014 12:24
> Para: r-help-es en r-project.org
> Asunto: [R-es] Clasificacion de individuos
>
> Estimados apa eRos:
>
> La duda o propuesta que os voy a plantear es a la vez metodol gica y
> relacionada con R.
>
> Me encuentro trabajando con tres variables que son el resultado de un
> computo de porcentajes.
> Me explico, se toma una muestra de n casos (unos 6.500 aprox)
> pertenecientes a i individuos  (unos 230 aprox) en la que se comprueba
> si un determinado evento ha ocurrido o no, anot ndose 1 en caso de
> dicha ocurrencia y 0 en caso de no ocurrencia.
> Algo as  como:
>  indiv  ocurrencia
> --------        -----------------
> 1       0
> 1       0
> 1       1
> 2       0
> 2       1
> 3       0
> 3       0
> 3       0
> 4       1
> 4       1
> .       .
> .       .
> .       .
> n
>
> Tras ello se computa el porcentaje de ocurrencias para cada individuo
> obteniendo las variables que ser n estudiadas, obteniendo algo as :
>
> indiv   %
> -----   ------
> 1       0.333
> 2       0.5
> 3       0
> 4       1
> .       .
> .       .
> i
>
> Este mismo proceso se repite en cada una de las tres variables objeto
> de estudio.
>
> Lo que se pretende es clasificar los i individuos en tres grupos seg n
> sus resultados en  cuanto a los porcentajes calculados (%):
> -Por debajo de la media: Individuos que forman parte de la cola con
> peores porcentajes. Aprox 10% -Por encima de la media:  Individuos que
> forman parte  de la cola con peores porcentajes. Aprox 10% -Acordes a
> la media: El 80% de individuos resultantes.
>
> Se trata b sicamente de "rega ar" a los del primer grupo y "felicitar"
> los del segundo grupo ;-)
>
> La cuesti n es que de las tres variables en estudio, las dos ultimas no
> son normales:
>
> >stem(v1)
>
> The decimal point is 1 digit(s) to the left of the |
>
>    0 | 0000000000466899
>    1 | 0133347777778999
>    2 | 0000011233344555667778889999
>    3 | 0001233333333334444567778888889999999999
>    4 | 000001122233333344444566788889999
>    5 | 000000000000011234444566667777889
>    6 | 00122233345555777777788899
>    7 | 00011222334455567779
>    8 | 1333336668
>    9 |
>   10 | 0000000000000
>
> >quantile(v1,c(0.1,0.9))
>    10%    90%
> 0.1670 0.7834
>
>
>
> >stem(v2)
>
> The decimal point is 1 digit(s) to the left of the |
>
>    0 |
> 00000000000000000000000000000000000000000000000000000000000000000000+75
>    1 | 00000000111122233333444445677788888999
>    2 | 0000122444557899
>    3 | 0001123378999
>    4 | 266
>    5 | 0000
>    6 | 57
>    7 |
>    8 | 3
>    9 |
>   10 | 000
>
> >quantile(v2,c(0.1,0.9))
> 10%   90%
> 0.000 0.304
>
>
>
> stem(V3)
>
>  The decimal point is 1 digit(s) to the left of the |
>
>    0 |
> 00000000000000000000000000000000011111111122222222222222222222222222+12
> 8
>    1 | 000001133333477
>    2 | 000
>    3 | 3
>    4 |
>    5 | 000
>    6 |
>    7 |
>    8 |
>    9 |
>   10 | 00000
>
> >quantile(V3,c(0.1,0.9))
> 10%   90%
> 0.0 0.1
>
>
>
> La primera variable V1 aparece como Normal segun los test de Kolmogorv-
> Smirnov, Jarque-Bera (simetria), Agostino (simetria) y Anscombe
> (curtosis) pero como No Normal segun el test de Shapiro-Wilks.
> Las otras dos no aparecen como Normales en ninguno de los test,
> logicamente al tener una asimetria tan fuerte.
> He probado transformando mediante Box-Cox pero la ni la raiz
> cuadadrada, ni 1/Variable me solucionan el problema y al haber muchos
> casos con 0 la logaritmica tampoco me vale.
>
>
>
> Asumiendo Normalidad puedo emplear los intervalos de confianza para
> "rega ar" o "felicitar" a los individuos y Puedo utilizar los
> percentiles
> 0.1 y 0,9 para obtener las clasificaciones en cualquier caso (normal o
> no normal).
>
> Pero me surgen varias dudas:
> -La principal de todas es la metodologia (y paquetes/funciones de R
> asociados) para llevar a cabo tarea de clasificacion.Actualmente estoy
> valorando hacer la clasificacion mediante intervalos de confianza (en
> caso de poder transformar a "normales" las dos ultimas variables),
> percentiles o directamente aplicando la desigualdad Chebychev.
>
> - Que paquetes me ofrece R para obtener la distribucion de probabilidad
> subyacente en una determinada muestra?.
>
>
> - Que test, de los que se ofrecen en R, considerais como los mas
> potentes
> para comprobar si una muestra de estas caracteristicassigue una
> determinada distribucion?.Yo utilizo ks.test y shapiro.test pero igual
> hay
> otros mejores en algun paquete que conozcais.Por la construccion de las
> variables habia supuesto que las variables debian de seguir una
> distribucion U(0,1) pero el test ks solo concluye uniformidad en la
> primera variable.
>
>
> Muchas gracias a tod en s por leer hasta el final del ladrillo
>
>
> Saludos
>
>
>
>
>
>
>
>
>
>
> -- AVISO LEGAL --
>
> Los datos personales que en esta comunicaci n aparecen, as  como los
> que nuestra
> empresa mantiene de Vd. y de su empresa, son tratados con la finalidad
> de mantener
> el contacto as  como realizar las gestiones que en esta aparecen (Ley
> Org nica
> 15/1999, de 13 de diciembre, de Protecci n de Datos de Car cter
> Personal).
> Puede ejercer sus derechos de acceso, rectificaci n, cancelaci n y
> oposici n
> dirigi ndose a atencion.clientes en tasacionesh.com
> La utilizaci n de su direcci n de correo electr nico por parte de
> nuestra empresa
> queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la
> Sociedad de
> la Informaci n y el Comercio Electr nico. Si Vd. recibe comunicaci n
> comercial por
> nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por
> v a electr nica
> a trav s de la direcci n atencion.clientes en tasacionesh.com
>
> 	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es