[R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores
Daniel Carrillo Zapata
daniel.carrillo2 en um.es
Mar Nov 25 22:09:57 CET 2014
Hola compañeros
Soy Daniel Carrillo, y os escribo porque me ha surgido una duda sobre si
puedo tratar algoritmos de clustering como un factor en un experimento.
Concretamente, tengo un conjunto de datos sin etiquetar, y quiero probar
los siguientes algoritmos sobre él:
1) Extracción de características por PCA y por ICA.
2) Una vez tenga extraídas las características, para cada uno de
los dos conjuntos transformados quisiera probar 3 diferentes algoritmos
de clustering: k-medoids, EM y hierachical clustering.
3) Por último, para cada conjunto etiquetado quisiera probar 4 ó 5
clasificadores.
Como se puede ver, estoy diseñando un experimento factorial para
encontrar el mejor clasificador basándome en probar diferentes técnicas
de extracción de características, clustering y clasificación.
Mi objetivo final es entrenar al mejor clasificador basándome en el
mejor algoritmo de clustering, de clasificación y de extracción de
características para que etiquete futuros datos.
Sin embargo, me han surgido dudas de cómo analizar los resultados, y es
que no sé si se puede aplicar una ANOVA de 3 vías con interacción,
siendo los 3 factores el algoritmo de extracción de características,
algoritmo de clustering y algoritmo de clasificación. Mis preguntas por
tanto son:
1) ¿Tiene sentido aplicar ANOVA de 3 vías con interacción?
2) Si no, ¿cuál sería la mejor manera de analizar los resultados
del experimento?
3) ¿Hay alguna forma de seleccionar al mejor clasificador teniendo
en cuenta los errores de clasificación y cuán bien el algoritmo de
clustering agrupa los datos (por ejemplo, comparando los "silhouette
coefficients")?, porque pienso que esto lo debería tener en cuenta también.
Mis dudas vienen suscitadas por el hecho de que pienso que los
algoritmos de clasificación son totalmente dependientes del los de
clustering (que les etiqueta los datos).
Confío en vuestra experiencia para que me aportéis un rayo de luz en esto
¡Muchísimas gracias!
Un saludo,
DANI
Más información sobre la lista de distribución R-help-es