<font size=2 face="sans-serif">Hola Isidro:</font>
<br>
<br><font size=2 face="sans-serif">También había sopesado esa posibilidad
pero por una parte me parecía "complicar" el proceso y por otra
tengo mis dudas acerca de que en que el análisis cluster pueda prescindir
de la hipótesis de Normalidad en las dos variables "raras" que
tengo.</font>
<br>
<br><font size=2 face="sans-serif">De cualquier forma muchas gracias por
tu idea.</font>
<br>
<br><font size=2 face="sans-serif">Un saludo</font>
<br>
<br>
<br>
<br>
<table width=100%>
<tr>
<td><img src=cid:_1_0B5B84EC0B5B80EC003B33EEC1257D63 width=80 height=1>
<td width=100%>
<table width=100%>
<tr valign=top>
<td width=100%><font size=2 face="sans-serif"><b>{In Archive} RE:
[R-es] Clasificacion de individuos</b></font></table>
<br>
<table width=100%>
<tr>
<td><font size=2 color=#e26200 face="sans-serif"><b>(Internet)</b></font>
<br><font size=2 color=#e26200 face="sans-serif"><b>ihidalgo </b></font>
<td>
<td valign=top>
<table width=100%>
<tr valign=top>
<td><font size=2 color=#8f8f8f face="sans-serif">To:</font>
<td><font size=2 face="sans-serif">Jluis GILSANZ, r-help-es</font></table>
<br>
<td>
<div align=right><font size=1 face="sans-serif">30/09/2014 12:40</font></div></table>
<br></table>
<br>
<br>
<table width=100%>
<tr valign=top>
<td><font size=1 color=#8f8f8f face="sans-serif">Archive: </font>
<td><font size=1 face="sans-serif">This message is being viewed in an archive.</font></table>
<br>
<hr>
<br>
<br>
<br><tt><font size=2>¿Has probado a hacer directamente una clasificación
de los individuos con 3 <br>
clusters? Es muy sencillo y quizá te funcione. En un espacio tridimensional
un <br>
cluster se hace más rápido que un disparo.<br>
<br>
Un saludo.<br>
Isidro<br>
<br>
> -----Mensaje original-----<br>
> De: r-help-es-bounces@r-project.org [</font></tt><a href="mailto:r-help-es-bounces@r-"><tt><font size=2>mailto:r-help-es-bounces@r-</font></tt></a><tt><font size=2><br>
> project.org] En nombre de jluis.gilsanz@tasacionesh.com<br>
> Enviado el: martes, 30 de septiembre de 2014 12:24<br>
> Para: r-help-es@r-project.org<br>
> Asunto: [R-es] Clasificacion de individuos<br>
><br>
> Estimados apa eRos:<br>
><br>
> La duda o propuesta que os voy a plantear es a la vez metodol gica
y<br>
> relacionada con R.<br>
><br>
> Me encuentro trabajando con tres variables que son el resultado de
un<br>
> computo de porcentajes.<br>
> Me explico, se toma una muestra de n casos (unos 6.500 aprox)<br>
> pertenecientes a i individuos (unos 230 aprox) en la que se
comprueba<br>
> si un determinado evento ha ocurrido o no, anot ndose 1 en caso de<br>
> dicha ocurrencia y 0 en caso de no ocurrencia.<br>
> Algo as como:<br>
> indiv ocurrencia<br>
> -------- -----------------<br>
> 1 0<br>
> 1 0<br>
> 1 1<br>
> 2 0<br>
> 2 1<br>
> 3 0<br>
> 3 0<br>
> 3 0<br>
> 4 1<br>
> 4 1<br>
> . .<br>
> . .<br>
> . .<br>
> n<br>
><br>
> Tras ello se computa el porcentaje de ocurrencias para cada individuo<br>
> obteniendo las variables que ser n estudiadas, obteniendo algo as
:<br>
><br>
> indiv %<br>
> ----- ------<br>
> 1 0.333<br>
> 2 0.5<br>
> 3 0<br>
> 4 1<br>
> . .<br>
> . .<br>
> i<br>
><br>
> Este mismo proceso se repite en cada una de las tres variables objeto<br>
> de estudio.<br>
><br>
> Lo que se pretende es clasificar los i individuos en tres grupos seg
n<br>
> sus resultados en cuanto a los porcentajes calculados (%):<br>
> -Por debajo de la media: Individuos que forman parte de la cola con<br>
> peores porcentajes. Aprox 10% -Por encima de la media: Individuos
que<br>
> forman parte de la cola con peores porcentajes. Aprox 10% -Acordes
a<br>
> la media: El 80% de individuos resultantes.<br>
><br>
> Se trata b sicamente de "rega ar" a los del primer grupo
y "felicitar"<br>
> los del segundo grupo ;-)<br>
><br>
> La cuesti n es que de las tres variables en estudio, las dos ultimas
no<br>
> son normales:<br>
><br>
> >stem(v1)<br>
><br>
> The decimal point is 1 digit(s) to the left of the |<br>
><br>
> 0 | 0000000000466899<br>
> 1 | 0133347777778999<br>
> 2 | 0000011233344555667778889999<br>
> 3 | 0001233333333334444567778888889999999999<br>
> 4 | 000001122233333344444566788889999<br>
> 5 | 000000000000011234444566667777889<br>
> 6 | 00122233345555777777788899<br>
> 7 | 00011222334455567779<br>
> 8 | 1333336668<br>
> 9 |<br>
> 10 | 0000000000000<br>
><br>
> >quantile(v1,c(0.1,0.9))<br>
> 10% 90%<br>
> 0.1670 0.7834<br>
><br>
><br>
><br>
> >stem(v2)<br>
><br>
> The decimal point is 1 digit(s) to the left of the |<br>
><br>
> 0 |<br>
> 00000000000000000000000000000000000000000000000000000000000000000000+75<br>
> 1 | 00000000111122233333444445677788888999<br>
> 2 | 0000122444557899<br>
> 3 | 0001123378999<br>
> 4 | 266<br>
> 5 | 0000<br>
> 6 | 57<br>
> 7 |<br>
> 8 | 3<br>
> 9 |<br>
> 10 | 000<br>
><br>
> >quantile(v2,c(0.1,0.9))<br>
> 10% 90%<br>
> 0.000 0.304<br>
><br>
><br>
><br>
> stem(V3)<br>
><br>
> The decimal point is 1 digit(s) to the left of the |<br>
><br>
> 0 |<br>
> 00000000000000000000000000000000011111111122222222222222222222222222+12<br>
> 8<br>
> 1 | 000001133333477<br>
> 2 | 000<br>
> 3 | 3<br>
> 4 |<br>
> 5 | 000<br>
> 6 |<br>
> 7 |<br>
> 8 |<br>
> 9 |<br>
> 10 | 00000<br>
><br>
> >quantile(V3,c(0.1,0.9))<br>
> 10% 90%<br>
> 0.0 0.1<br>
><br>
><br>
><br>
> La primera variable V1 aparece como Normal segun los test de Kolmogorv-<br>
> Smirnov, Jarque-Bera (simetria), Agostino (simetria) y Anscombe<br>
> (curtosis) pero como No Normal segun el test de Shapiro-Wilks.<br>
> Las otras dos no aparecen como Normales en ninguno de los test,<br>
> logicamente al tener una asimetria tan fuerte.<br>
> He probado transformando mediante Box-Cox pero la ni la raiz<br>
> cuadadrada, ni 1/Variable me solucionan el problema y al haber muchos<br>
> casos con 0 la logaritmica tampoco me vale.<br>
><br>
><br>
><br>
> Asumiendo Normalidad puedo emplear los intervalos de confianza para<br>
> "rega ar" o "felicitar" a los individuos y Puedo
utilizar los<br>
> percentiles<br>
> 0.1 y 0,9 para obtener las clasificaciones en cualquier caso (normal
o<br>
> no normal).<br>
><br>
> Pero me surgen varias dudas:<br>
> -La principal de todas es la metodologia (y paquetes/funciones de
R<br>
> asociados) para llevar a cabo tarea de clasificacion.Actualmente estoy<br>
> valorando hacer la clasificacion mediante intervalos de confianza
(en<br>
> caso de poder transformar a "normales" las dos ultimas variables),<br>
> percentiles o directamente aplicando la desigualdad Chebychev.<br>
><br>
> - Que paquetes me ofrece R para obtener la distribucion de probabilidad<br>
> subyacente en una determinada muestra?.<br>
><br>
><br>
> - Que test, de los que se ofrecen en R, considerais como los mas<br>
> potentes<br>
> para comprobar si una muestra de estas caracteristicassigue una<br>
> determinada distribucion?.Yo utilizo ks.test y shapiro.test pero igual<br>
> hay<br>
> otros mejores en algun paquete que conozcais.Por la construccion de
las<br>
> variables habia supuesto que las variables debian de seguir una<br>
> distribucion U(0,1) pero el test ks solo concluye uniformidad en la<br>
> primera variable.<br>
><br>
><br>
> Muchas gracias a tod@s por leer hasta el final del ladrillo<br>
><br>
><br>
> Saludos<br>
><br>
><br>
><br>
><br>
><br>
><br>
><br>
><br>
><br>
><br>
> -- AVISO LEGAL --<br>
><br>
> Los datos personales que en esta comunicaci n aparecen, as como
los<br>
> que nuestra<br>
> empresa mantiene de Vd. y de su empresa, son tratados con la finalidad<br>
> de mantener<br>
> el contacto as como realizar las gestiones que en esta aparecen
(Ley<br>
> Org nica<br>
> 15/1999, de 13 de diciembre, de Protecci n de Datos de Car cter<br>
> Personal).<br>
> Puede ejercer sus derechos de acceso, rectificaci n, cancelaci n y<br>
> oposici n<br>
> dirigi ndose a atencion.clientes@tasacionesh.com<br>
> La utilizaci n de su direcci n de correo electr nico por parte de<br>
> nuestra empresa<br>
> queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de
la<br>
> Sociedad de<br>
> la Informaci n y el Comercio Electr nico. Si Vd. recibe comunicaci
n<br>
> comercial por<br>
> nuestra parte y desea dejar de recibirla, rogamos nos lo comunique
por<br>
> v a electr nica<br>
> a trav s de la direcci n atencion.clientes@tasacionesh.com<br>
><br>
> [[alternative
HTML version deleted]]<br>
<br>
<br>
<br>
</font></tt>
<br><p><br>
-- AVISO LEGAL -- </p>
<p>Los datos personales que en esta comunicación aparecen, así como los que nuestra <br>
empresa mantiene de Vd. y de su empresa, son tratados con la finalidad de mantener <br>
el contacto así como realizar las gestiones que en esta aparecen (Ley Orgánica <br>
15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal). <br>
Puede ejercer sus derechos de acceso, rectificación, cancelación y oposición <br>
dirigiéndose a atencion.clientes@tasacionesh.com <br>
La utilización de su dirección de correo electrónico por parte de nuestra empresa <br>
queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la Sociedad de <br>
la Información y el Comercio Electrónico. Si Vd. recibe comunicación comercial por <br>
nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por vía electrónica <br>
a través de la dirección atencion.clientes@tasacionesh.com</p>