<font size=2 face="sans-serif">Hola:</font>
<br>
<br><font size=2 face="sans-serif">Lo que hace el no mirar en detalle la
ayuda¡¡¡ La cantidad de pruebas Box-Cox que he hecho a pelo para encontrar
un lambda bueno.</font>
<br>
<br>
<br><font size=2 face="sans-serif">Tengo que mirar a fondo esos paquetes
 de ajuste de distribuciones que sugieres no vaya a ser que me pase
como con las transformaciones Box-Cox ;-)</font>
<br>
<br><font size=2 face="sans-serif">Muchas gracias Carlos</font>
<br>
<br><font size=1 face="Arial"><br>
</font>
<p>
<br><font size=3><br>
</font>
<br>
<br>
<br>
<table width=100%>
<tr>
<td><img src=cid:_1_060592BC06058EBC004C0650C1257D63 width=80 height=1>
<td width=100%>
<table width=100%>
<tr valign=top>
<td width=100%><font size=2 face="sans-serif"><b>{In Archive}  Re:
[R-es] Clasificacion de individuos</b></font></table>
<br>
<table width=100%>
<tr>
<td><font size=2 color=#e26200 face="sans-serif"><b>(Internet)</b></font>
<br><font size=2 color=#e26200 face="sans-serif"><b>cof </b></font>
<td>
<td valign=top>
<table width=100%>
<tr valign=top>
<td><font size=2 color=#8f8f8f face="sans-serif">To:</font>
<td><font size=2 face="sans-serif">Jluis GILSANZ</font>
<tr valign=top>
<td><font size=1 color=#8f8f8f face="sans-serif">Cc:</font>
<td><font size=1 face="sans-serif">r-help-es</font></table>
<br>
<td>
<div align=right><font size=1 face="sans-serif">30/09/2014 15:12</font></div></table>
<br></table>
<br>
<br>
<table width=100%>
<tr valign=top>
<td><font size=1 color=#8f8f8f face="sans-serif">Archive: </font>
<td><font size=1 face="sans-serif">This message is being viewed in an archive.</font></table>
<br>
<hr>
<br>
<br>
<br><font size=3 face="Verdana">Hola,<br>
</font>
<br><font size=3 face="Verdana">1. Para la transformación Box-Cox, en vez
de probar con diferentes valores, puedes utilizar la función boxcox() del
paquete MASS que te optimizará el lambda de la transformación de forma
automática.<br>
</font>
<br><font size=3 face="Verdana">2. Sobre paquetes para ajustar distribuciones,
lo hemos hablado en la lista hace un tiempo, pero por ver lo que hay ahora...:<br>
</font><font size=3 color=blue face="Verdana"><u><br>
</u></font><a href=http://cran.rstudio.com/web/packages/DistributionUtils/index.html><font size=3 color=blue face="Verdana"><u>http://cran.rstudio.com/web/packages/DistributionUtils/index.html</u></font></a><font size=3 color=blue face="Verdana"><u><br>
</u></font><a href=http://cran.rstudio.com/web/packages/goft/index.html><font size=3 color=blue face="Verdana"><u>http://cran.rstudio.com/web/packages/goft/index.html</u></font></a><font size=3 color=blue face="Verdana"><u><br>
</u></font><a href=http://cran.rstudio.com/web/packages/reliaR/index.html><font size=3 color=blue face="Verdana"><u>http://cran.rstudio.com/web/packages/reliaR/index.html</u></font></a><font size=3 color=blue face="Verdana"><u><br>
</u></font><a href=http://cran.rstudio.com/web/packages/rriskDistributions/index.html><font size=3 color=blue face="Verdana"><u>http://cran.rstudio.com/web/packages/rriskDistributions/index.html</u></font></a><font size=3 face="Verdana"><br>
</font>
<br><font size=3 face="Verdana">Saludos,<br>
Carlos Ortega</font><font size=3 color=blue face="Verdana"><u><br>
</u></font><a href=http://www.qualityexcellence.es/><font size=3 color=blue face="Verdana"><u>www.qualityexcellence.es</u></font></a>
<br><font size=3 face="Verdana"><br>
</font>
<br>
<br><font size=3>El 30 de septiembre de 2014, 12:23, <</font><a href=mailto:jluis.gilsanz@tasacionesh.com target=_blank><font size=3 color=blue><u>jluis.gilsanz@tasacionesh.com</u></font></a><font size=3>>
escribió:</font>
<br><font size=3>Estimados apañeRos:<br>
<br>
La duda o propuesta que os voy a plantear es a la vez metodológica y<br>
relacionada con R.<br>
<br>
Me encuentro trabajando con tres variables que son el resultado de un<br>
computo de porcentajes.<br>
Me explico, se toma una muestra de n casos (unos 6.500 aprox)<br>
pertenecientes a i individuos  (unos 230 aprox) en la que se comprueba
si<br>
un determinado evento ha ocurrido o no, anotándose 1 en caso de dicha<br>
ocurrencia y 0 en caso de no ocurrencia.<br>
Algo así como:<br>
 indiv  ocurrencia<br>
--------        -----------------<br>
1       0<br>
1       0<br>
1       1<br>
2       0<br>
2       1<br>
3       0<br>
3       0<br>
3       0<br>
4       1<br>
4       1<br>
.       .<br>
.       .<br>
.       .<br>
n<br>
<br>
Tras ello se computa el porcentaje de ocurrencias para cada individuo<br>
obteniendo las variables que serán estudiadas, obteniendo algo así:<br>
<br>
indiv   %<br>
-----   ------<br>
1       0.333<br>
2       0.5<br>
3       0<br>
4       1<br>
.       .<br>
.       .<br>
i<br>
<br>
Este mismo proceso se repite en cada una de las tres variables objeto de<br>
estudio.<br>
<br>
Lo que se pretende es clasificar los i individuos en tres grupos según
sus<br>
resultados en  cuanto a los porcentajes calculados (%):<br>
-Por debajo de la media: Individuos que forman parte de la cola con peores<br>
porcentajes. Aprox 10%<br>
-Por encima de la media:  Individuos que forman parte  de la
cola con<br>
peores porcentajes. Aprox 10%<br>
-Acordes a la media: El 80% de individuos resultantes.<br>
<br>
Se trata básicamente de "regañar" a los del primer grupo y "felicitar"
los<br>
del segundo grupo ;-)<br>
<br>
La cuestión es que de las tres variables en estudio, las dos ultimas no<br>
son normales:<br>
<br>
>stem(v1)<br>
<br>
The decimal point is 1 digit(s) to the left of the |<br>
<br>
   0 | 0000000000466899<br>
   1 | 0133347777778999<br>
   2 | 0000011233344555667778889999<br>
   3 | 0001233333333334444567778888889999999999<br>
   4 | 000001122233333344444566788889999<br>
   5 | 000000000000011234444566667777889<br>
   6 | 00122233345555777777788899<br>
   7 | 00011222334455567779<br>
   8 | 1333336668<br>
   9 |<br>
  10 | 0000000000000<br>
<br>
>quantile(v1,c(0.1,0.9))<br>
   10%    90%<br>
0.1670 0.7834<br>
<br>
<br>
<br>
>stem(v2)<br>
<br>
The decimal point is 1 digit(s) to the left of the |<br>
<br>
   0 |<br>
00000000000000000000000000000000000000000000000000000000000000000000+75<br>
   1 | 00000000111122233333444445677788888999<br>
   2 | 0000122444557899<br>
   3 | 0001123378999<br>
   4 | 266<br>
   5 | 0000<br>
   6 | 57<br>
   7 |<br>
   8 | 3<br>
   9 |<br>
  10 | 000<br>
<br>
>quantile(v2,c(0.1,0.9))<br>
10%   90%<br>
0.000 0.304<br>
<br>
<br>
<br>
stem(V3)<br>
<br>
 The decimal point is 1 digit(s) to the left of the |<br>
<br>
   0 |<br>
00000000000000000000000000000000011111111122222222222222222222222222+128<br>
   1 | 000001133333477<br>
   2 | 000<br>
   3 | 3<br>
   4 |<br>
   5 | 000<br>
   6 |<br>
   7 |<br>
   8 |<br>
   9 |<br>
  10 | 00000<br>
<br>
>quantile(V3,c(0.1,0.9))<br>
10%   90%<br>
0.0 0.1<br>
<br>
<br>
<br>
La primera variable V1 aparece como Normal segun los test de<br>
Kolmogorv-Smirnov, Jarque-Bera (simetria), Agostino (simetria) y Anscombe<br>
(curtosis) pero como No Normal segun el test de Shapiro-Wilks.<br>
Las otras dos no aparecen como Normales en ninguno de los test,<br>
logicamente al tener una asimetria tan fuerte.<br>
He probado transformando mediante Box-Cox pero la ni la raiz cuadadrada,<br>
ni 1/Variable me solucionan el problema y al haber muchos casos con 0 la<br>
logaritmica tampoco me vale.<br>
<br>
<br>
<br>
Asumiendo Normalidad puedo emplear los intervalos de confianza para<br>
"regañar" o "felicitar" a los individuos y Puedo utilizar
los percentiles<br>
0.1 y 0,9 para obtener las clasificaciones en cualquier caso (normal o
no<br>
normal).<br>
<br>
Pero me surgen varias dudas:<br>
-La principal de todas es la metodologia (y paquetes/funciones de R<br>
asociados) para llevar a cabo tarea de clasificacion.Actualmente estoy<br>
valorando hacer la clasificacion mediante intervalos de confianza (en caso<br>
de poder transformar a "normales" las dos ultimas variables),
percentiles<br>
o directamente aplicando la desigualdad Chebychev.<br>
<br>
-¿Que paquetes me ofrece R para obtener la distribucion de probabilidad<br>
subyacente en una determinada muestra?.<br>
<br>
<br>
-¿Que test, de los que se ofrecen en R, considerais como los mas potentes<br>
para comprobar si una muestra de estas caracteristicassigue una<br>
determinada distribucion?.Yo utilizo ks.test y shapiro.test pero igual
hay<br>
otros mejores en algun paquete que conozcais.Por la construccion de las<br>
variables habia supuesto que las variables debian de seguir una<br>
distribucion U(0,1) pero el test ks solo concluye uniformidad en la<br>
primera variable.<br>
<br>
<br>
Muchas gracias a tod@s por leer hasta el final del ladrillo<br>
<br>
<br>
Saludos<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
-- AVISO LEGAL --<br>
<br>
Los datos personales que en esta comunicación aparecen, así como los que
nuestra<br>
empresa mantiene de Vd. y de su empresa, son tratados con la finalidad
de mantener<br>
el contacto así como realizar las gestiones que en esta aparecen (Ley Orgánica<br>
15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal).<br>
Puede ejercer sus derechos de acceso, rectificación, cancelación y oposición<br>
dirigiéndose a </font><a href=mailto:atencion.clientes@tasacionesh.com><font size=3 color=blue><u>atencion.clientes@tasacionesh.com</u></font></a><font size=3><br>
La utilización de su dirección de correo electrónico por parte de nuestra
empresa<br>
queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la
Sociedad de<br>
la Información y el Comercio Electrónico. Si Vd. recibe comunicación comercial
por<br>
nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por
vía electrónica<br>
a través de la dirección </font><a href=mailto:atencion.clientes@tasacionesh.com><font size=3 color=blue><u>atencion.clientes@tasacionesh.com</u></font></a><font size=3><br>
<br>
        [[alternative HTML version deleted]]<br>
<br>
<br>
_______________________________________________<br>
R-help-es mailing list</font><font size=3 color=blue><u><br>
</u></font><a href="mailto:R-help-es@r-project.org"><font size=3 color=blue><u>R-help-es@r-project.org</u></font></a><font size=3 color=blue><u><br>
</u></font><a href="https://stat.ethz.ch/mailman/listinfo/r-help-es" target=_blank><font size=3 color=blue><u>https://stat.ethz.ch/mailman/listinfo/r-help-es</u></font></a><font size=3><br>
</font>
<br><font size=3><br>
<br>
<br>
-- </font><font size=3 face="Verdana"><br>
Saludos,<br>
Carlos Ortega</font><font size=3 color=blue face="Verdana"><u><br>
</u></font><a href=http://www.qualityexcellence.es/ target=_blank><font size=3 color=blue face="Verdana"><u>www.qualityexcellence.es</u></font></a><font size=3>
</font>
<br><p><br>
-- AVISO LEGAL -- </p>

<p>Los datos personales que en esta comunicación aparecen, así como los que nuestra <br>
empresa mantiene de Vd. y de su empresa, son tratados con la finalidad de mantener <br>
el contacto así como realizar las gestiones que en esta aparecen (Ley Orgánica <br>
15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal).   <br>
Puede ejercer sus derechos de acceso, rectificación, cancelación y oposición <br>
dirigiéndose a atencion.clientes@tasacionesh.com <br>
La utilización de su dirección de correo electrónico por parte de nuestra empresa <br>
queda sujeta a las disposiciones de la Ley 34/2002, de Servicios de la Sociedad de <br>
la Información y el Comercio Electrónico. Si Vd. recibe comunicación comercial por <br>
nuestra parte y desea dejar de recibirla, rogamos nos lo comunique por vía electrónica <br>
a través de la dirección atencion.clientes@tasacionesh.com</p>