[R-es] Clasificacion de individuos

jluis.gilsanz en tasacionesh.com jluis.gilsanz en tasacionesh.com
Mar Sep 30 16:53:55 CEST 2014


Muchas gracias Jorge.

Carlos me ha orientado también hacia el uso de la función Beta de la cual 
no recuerdo absolutamente nada de lo que en su día aprendí.
Voy a "beberme" toda la información que me habéis proporcionado a ver que 
saco en claro.

El tema de los cluster  lo había desechado por complicado pero viendo la 
panoplia de métodos que hay parece otra opción muy valida


Mil gracias de nuevo













{In Archive}  Re: [R-es] Clasificacion de individuos

(Internet)
jorgeivanvelez 


To:
ihidalgo
Cc:
Jluis GILSANZ, r-help-es

30/09/2014 15:41



Archive: 
This message is being viewed in an archive.



Me parece muy buena la idea de Isidro.  En 
http://cran.r-project.org/web/views/Cluster.html hay infinidad de metodos 
para realizar la clasificacion que quieres.  Otra posibilidad es utilizar 
un modelo de clases latentes o un cluster jerarquico usando el paquete 
pvclust.  En ninguno de los casos la normalidad es "necesaria".

Por otro lado, si tus variables son porcentajes, por que no trabajas con 
la distribucion Beta?  En R estan implementados por supuesto la densidad, 
los percentiles y los numeros aleatorios (ver ?rbeta).  Si quieres hacer 
regresion, el paquete betareg es excelente y vale la pena darle una mirada 
al articulo en JSS.

Si estamos todos perdidos, quizas un poco de contexto nos ayude a 
ayudarte.

Saludos cordiales,
Jorge.-



2014-09-30 20:40 GMT+10:00 Isidro Hidalgo <ihidalgo en jccm.es>:
¿Has probado a hacer directamente una clasificación de los individuos con 
3
clusters? Es muy sencillo y quizá te funcione. En un espacio 
tridimensional un
cluster se hace más rápido que un disparo.

Un saludo.
Isidro

> -----Mensaje original-----
> De: r-help-es-bounces en r-project.org [mailto:r-help-es-bounces en r-
> project.org] En nombre de jluis.gilsanz en tasacionesh.com
> Enviado el: martes, 30 de septiembre de 2014 12:24
> Para: r-help-es en r-project.org
> Asunto: [R-es] Clasificacion de individuos
>
> Estimados apa eRos:
>
> La duda o propuesta que os voy a plantear es a la vez metodol gica y
> relacionada con R.
>
> Me encuentro trabajando con tres variables que son el resultado de un
> computo de porcentajes.
> Me explico, se toma una muestra de n casos (unos 6.500 aprox)
> pertenecientes a i individuos  (unos 230 aprox) en la que se comprueba
> si un determinado evento ha ocurrido o no, anot ndose 1 en caso de
> dicha ocurrencia y 0 en caso de no ocurrencia.
> Algo as  como:
>  indiv  ocurrencia
> --------        -----------------
> 1       0
> 1       0
> 1       1
> 2       0
> 2       1
> 3       0
> 3       0
> 3       0
> 4       1
> 4       1
> .       .
> .       .
> .       .
> n
>
> Tras ello se computa el porcentaje de ocurrencias para cada individuo
> obteniendo las variables que ser n estudiadas, obteniendo algo as :
>
> indiv   %
> -----   ------
> 1       0.333
> 2       0.5
> 3       0
> 4       1
> .       .
> .       .
> i
>
> Este mismo proceso se repite en cada una de las tres variables objeto
> de estudio.
>
> Lo que se pretende es clasificar los i individuos en tres grupos seg n
> sus resultados en  cuanto a los porcentajes calculados (%):
> -Por debajo de la media: Individuos que forman parte de la cola con
> peores porcentajes. Aprox 10% -Por encima de la media:  Individuos que
> forman parte  de la cola con peores porcentajes. Aprox 10% -Acordes a
> la media: El 80% de individuos resultantes.
>
> Se trata b sicamente de "rega ar" a los del primer grupo y "felicitar"
> los del segundo grupo ;-)
>
> La cuesti n es que de las tres variables en estudio, las dos ultimas no
> son normales:
>
> >stem(v1)
>
> The decimal point is 1 digit(s) to the left of the |
>
>    0 | 0000000000466899
>    1 | 0133347777778999
>    2 | 0000011233344555667778889999
>    3 | 0001233333333334444567778888889999999999
>    4 | 000001122233333344444566788889999
>    5 | 000000000000011234444566667777889
>    6 | 00122233345555777777788899
>    7 | 00011222334455567779
>    8 | 1333336668
>    9 |
>   10 | 0000000000000
>
> >quantile(v1,c(0.1,0.9))
>    10%    90%
> 0.1670 0.7834
>
>
>
> >stem(v2)
>
> The decimal point is 1 digit(s) to the left of the |
>
>    0 |
> 00000000000000000000000000000000000000000000000000000000000000000000+75
>    1 | 00000000111122233333444445677788888999
>    2 | 0000122444557899
>    3 | 0001123378999
>    4 | 266
>    5 | 0000
>    6 | 57
>    7 |
>    8 | 3
>    9 |
>   10 | 000
>
> >quantile(v2,c(0.1,0.9))
> 10%   90%
> 0.000 0.304
>
>
>
> stem(V3)
>
>  The decimal point is 1 digit(s) to the left of the |
>
>    0 |
> 00000000000000000000000000000000011111111122222222222222222222222222+12
> 8
>    1 | 000001133333477
>    2 | 000
>    3 | 3
>    4 |
>    5 | 000
>    6 |
>    7 |
>    8 |
>    9 |
>   10 | 00000
>
> >quantile(V3,c(0.1,0.9))
> 10%   90%
> 0.0 0.1
>
>
>
> La primera variable V1 aparece como Normal segun los test de Kolmogorv-
> Smirnov, Jarque-Bera (simetria), Agostino (simetria) y Anscombe
> (curtosis) pero como No Normal segun el test de Shapiro-Wilks.
> Las otras dos no aparecen como Normales en ninguno de los test,
> logicamente al tener una asimetria tan fuerte.
> He probado transformando mediante Box-Cox pero la ni la raiz
> cuadadrada, ni 1/Variable me solucionan el problema y al haber muchos
> casos con 0 la logaritmica tampoco me vale.
>
>
>
> Asumiendo Normalidad puedo emplear los intervalos de confianza para
> "rega ar" o "felicitar" a los individuos y Puedo utilizar los
> percentiles
> 0.1 y 0,9 para obtener las clasificaciones en cualquier caso (normal o
> no normal).
>
> Pero me surgen varias dudas:
> -La principal de todas es la metodologia (y paquetes/funciones de R
> asociados) para llevar a cabo tarea de clasificacion.Actualmente estoy
> valorando hacer la clasificacion mediante intervalos de confianza (en
> caso de poder transformar a "normales" las dos ultimas variables),
> percentiles o directamente aplicando la desigualdad Chebychev.
>
> - Que paquetes me ofrece R para obtener la distribucion de probabilidad
> subyacente en una determinada muestra?.
>
>
> - Que test, de los que se ofrecen en R, considerais como los mas
> potentes
> para comprobar si una muestra de estas caracteristicassigue una
> determinada distribucion?.Yo utilizo ks.test y shapiro.test pero igual
> hay
> otros mejores en algun paquete que conozcais.Por la construccion de las
> variables habia supuesto que las variables debian de seguir una
> distribucion U(0,1) pero el test ks solo concluye uniformidad en la
> primera variable.
>
>
> Muchas gracias a tod en s por leer hasta el final del ladrillo
>
>
> Saludos
>
>
>
>
>
>
>
>
>
>
> -- AVISO LEGAL --
>
> Los datos personales que en esta comunicaci n aparecen, as  como los
> que nuestra
> empresa mantiene de Vd. y de su empresa, son tratados con la finalidad
> de mantener
> el contacto as  como realizar las gestiones que en esta aparecen (Ley
> Org nica
> 15/1999, de 13 de diciembre, de Protecci n de Datos de Car cter
> Personal).
> Puede ejercer sus derechos de acceso, rectificaci n, cancelaci n y
> oposici n
> dirigi ndose a atencion.clientes en tasacionesh.com
> La utilizaci n de su direcci n de correo electr nico por parte de
> nuestra empresa
> queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la
> Sociedad de
> la Informaci n y el Comercio Electr nico. Si Vd. recibe comunicaci n
> comercial por
> nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por
> v a electr nica
> a trav s de la direcci n atencion.clientes en tasacionesh.com
>
>       [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


-- AVISO LEGAL -- 

Los datos personales que en esta comunicación aparecen, así como los que nuestra 
empresa mantiene de Vd. y de su empresa, son tratados con la finalidad de mantener 
el contacto así como realizar las gestiones que en esta aparecen (Ley Orgánica 
15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal).   
Puede ejercer sus derechos de acceso, rectificación, cancelación y oposición 
dirigiéndose a atencion.clientes en tasacionesh.com 
La utilización de su dirección de correo electrónico por parte de nuestra empresa 
queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la Sociedad de 
la Información y el Comercio Electrónico. Si Vd. recibe comunicación comercial por 
nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por vía electrónica 
a través de la dirección atencion.clientes en tasacionesh.com
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20140930/f0fab526/attachment.html>


Más información sobre la lista de distribución R-help-es