[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

Julio Alejandro Di Rienzo dirienzo.julio en gmail.com
Mie Nov 26 12:34:38 CET 2014


CREO QUE ESTE TIPO DE CONSULTA, EXCEDE EL PROPÓSITO DE ESTE FORO.




El miércoles, 26 de noviembre de 2014, Daniel Carrillo Zapata <
daniel.carrillo2 en um.es> escribió:

>      Hola Isidro,
>
>      mira, te explico mejor: tengo una base de datos con información de
> 10 conductores en un recorrido de 30 minutos en coche. Para cada
> conductor, se le midió parámetros biomédicos como la temperatura
> corporal, su electrocardiograma, etc., durante todo el recorrido; en
> total 22 parámetros.
>
>      Mi objetivo principal es poder determinar, dados dichos parámetros,
> los distintos estados en los que puede estar un conductor a lo largo del
> recorrido. Sin embargo, mi conjunto de datos no está etiquedo, es decir,
> no sé a priori la variable de respuesta, el estado del conductor, para
> cada combinación; tengo que descubrirla.
>
>      Lo que quería hacer es, primero, transformar los parámetros porque
> suele ser recomendado para no tener overfitting y reducir la dimensión
> de los datos. Para ello, quiero probar dos técnicas: ICA y PCA.
>
>      Tras esto, pensaba probar distintos algoritmos de clustering para
> ver cómo agrupan los datos. Con cada uno, puedo obtener la bondad con la
> que asignan un elemento a un cluster con, por ejemplo, el silhouette
> coefficient, o algún otro índice interno/externo. Con cada algoritmo de
> clustering que pruebe, etiquetaré mis datos de entrenamiento
> asignándoles un cluster (que luego más adelante intentaré darle una
> explicación semántica del estado que representa).
>
>      Por cada conjunto resultado (ahora, etiquetado) de aplicar una
> técnica de extracción de características y otro de clustering, quiero
> probar distintos clasificadores, para ver cómo se comportan con esa
> agrupación. Por tanto, obtendré varios errores asociados a clasificación
> porqué haré cross-validation.
>
>      De esta forma, si pruebo 2 algoritmos de extracción de
> características, 3 de clustering y 4 de clasificación, tengo un
> experimento factorial 2x3x4, ¿no?
>
>      Lo que me gustaría obtener posteriormente es la mejor combinación
> de técnica de extracción de características, algoritmo de clustering y
> clasificador, teniendo en cuenta los errores de clasificación y cuán
> bien los algoritmos de clustering agrupan.
>
>      De ahí, mi duda es cómo analizar los resultados, porque había
> pensado aplicar una ANOVA de 3 vías con interacción, pero no sé si es
> correcto. Además, no sé si tendría sentido, porque también quiero tener
> en cuenta la bondad del algoritmo de clustering, no solo los errores de
> clasificación. Es decir, necesitaría analizar las parejas (muestras del
> error de clasificación, bondad del clustering) para cada combinación de
> algoritmo de extracción de características, algoritmo de clustering y
> algoritmo de clasificación.
>
>      Espero que te haya aclarado :)
>
>      Muchas gracias.
>
>      Un saludo,
>      DANI
>
>
> On 26/11/14 01:02, Isidro Hidalgo Arellano wrote:
> > Hola, Daniel:
> > Quizá deberías ser más explícito porque de la información que
> > suministras yo solo te puedo decir que no veo la relación entre los 3
> > tipos de algoritmos que nombras:
> > - un análisis de componentes principales puede ser una fase previa de
> > los otros dos
> > - hacer un cluster es un tipo de aprendizaje no supervisado, mientras
> > que un clasificador normalmente es utilizado en aprendizaje
> > supervisado, porque se modeliza conociendo la variable dependiente
> > Por ello, no veo cómo montar un ANOVA para analizar 3 procedimientos
> > que a mí me parece que se utilizan para cosas completamente diferentes...
> > Me imagino que no he sido de mucha ayuda, pero... ¿por qué no nos
> > dices exactamente que quieres hacer, a ver si te podemos ayudar algo más?
> > Un saludo,
> > Isidro Hidalgo
> >
> >
> >
> > > El 25/11/2014, a las 22:09, Daniel Carrillo Zapata escribió:
> > >
> > >
> > >
> > > Hola compañeros
> > >
> > > Soy Daniel Carrillo, y os escribo porque me ha surgido una duda
> > sobre si
> > > puedo tratar algoritmos de clustering como un factor en un experimento.
> > > Concretamente, tengo un conjunto de datos sin etiquetar, y quiero
> > probar
> > > los siguientes algoritmos sobre él:
> > >
> > > 1) Extracción de características por PCA y por ICA.
> > > 2) Una vez tenga extraídas las características, para cada uno de
> > > los dos conjuntos transformados quisiera probar 3 diferentes algoritmos
> > > de clustering: k-medoids, EM y hierachical clustering.
> > > 3) Por último, para cada conjunto etiquetado quisiera probar 4 ó 5
> > > clasificadores.
> > >
> > > Como se puede ver, estoy diseñando un experimento factorial para
> > > encontrar el mejor clasificador basándome en probar diferentes técnicas
> > > de extracción de características, clustering y clasificación.
> > >
> > > Mi objetivo final es entrenar al mejor clasificador basándome en el
> > > mejor algoritmo de clustering, de clasificación y de extracción de
> > > características para que etiquete futuros datos.
> > >
> > > Sin embargo, me han surgido dudas de cómo analizar los resultados, y es
> > > que no sé si se puede aplicar una ANOVA de 3 vías con interacción,
> > > siendo los 3 factores el algoritmo de extracción de características,
> > > algoritmo de clustering y algoritmo de clasificación. Mis preguntas por
> > > tanto son:
> > >
> > > 1) ¿Tiene sentido aplicar ANOVA de 3 vías con interacción?
> > > 2) Si no, ¿cuál sería la mejor manera de analizar los resultados
> > > del experimento?
> > > 3) ¿Hay alguna forma de seleccionar al mejor clasificador teniendo
> > > en cuenta los errores de clasificación y cuán bien el algoritmo de
> > > clustering agrupa los datos (por ejemplo, comparando los "silhouette
> > > coefficients")?, porque pienso que esto lo debería tener en cuenta
> > también.
> > >
> > > Mis dudas vienen suscitadas por el hecho de que pienso que los
> > > algoritmos de clasificación son totalmente dependientes del los de
> > > clustering (que les etiqueta los datos).
> > >
> > > Confío en vuestra experiencia para que me aportéis un rayo de luz en
> > esto
> > >
> > > ¡Muchísimas gracias!
> > >
> > > Un saludo,
> > > DANI
> > >
> > > _______________________________________________
> > > R-help-es mailing list
> > > R-help-es en r-project.org <javascript:;>
> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org <javascript:;>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Sent from my IPAD

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es