[R-es] Valores faltantes en SVM aplicado a microarrays

Ramon Diaz-Uriarte rdiaz02 en gmail.com
Vie Oct 23 14:38:55 CEST 2009


Hola Patricia,

Me temo que has descrito las dos posibles opciones.

2009/10/22 Usuario R <r.user.spain en gmail.com>:
> Hola,
>
> Quería preguntar si alguien conoce alguna referencia que pueda ayudarme a
> entender cuál es la mejor forma de lidiar con valores faltantes para aplicar
> svm en datos de microarrays. Estoy pensando que una buena solución es
> eliminar la variable en la que exista un valor faltante de la matriz de
> datos. En el paquete e1070 de R se elimina la muestra que contiene valores
> faltantes, pero eso para datos de microarrays implica eliminar miles de
> observaciones por un solo valor faltante. No tiene sentido en mi opinión.
>
> La imputación tampoco me parece lo mas adecuado, porque aunque es poco
> probable, puede haber muchos valores faltantes en una de las clases y
> entonces estaríamos imputando con valores de las otras, eliminando
> variabilidad en el modelo.
>

Si fuera a hacer imputación, y tuviera tiempo, usaría imputación múltiple.

En cuanto a lo segundo que planteas, la existencia de un sustancial
desequilibrio en missings entre las clases, puede ser indicación de
problemas más serios. A qué se debe? Se han hecho todas las array de
alguna de las clases en algunos cristales concretos que son de baja
calidad? Y si hay sesgo en missing patterns, no habrá sesgos en los
valores que no son missing? Etc.

En cualquier caso, una idea rápida te la puedes hacer en un momento.

Software: no estoy al corriente, pero en los últimos 6 meses han
aparecido varios papers sobre análisis de SNPs con missing values en
el contexto de "genome wide association studies" (aunque no se si usan
SVMs; sospecho que no) y al menos algunos tenían software.


R.


> En fin, no sé si alguien tiene alguna idea o conocéis un paquete de R que me
> ofrezca solución.
>
> Muchas gracias, un saludo
>
>        [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>



-- 
Ramon Diaz-Uriarte
Structural Biology and Biocomputing Programme
Spanish National Cancer Centre (CNIO)
http://ligarto.org/rdiaz
Phone: +34-91-732-8000 ext. 3019



Más información sobre la lista de distribución R-help-es