[R-es] Random Forest con poca "n" y muchos predictores
rubenfcasal
rubenfc@@@l @ending from gm@il@com
Lun Dic 17 13:12:24 CET 2018
Hola de nuevo,
Se me olvidó comentar que adicionalmente RF selecciona al azar las
variables explicativas en cada ajuste. Para más detalles recomendaría el
libro:
An Introduction to Statistical Learning
(http://www-bcf.usc.edu/~gareth/ISL; disponible de forma gratuita en
pdf), e incluso hacer el correspondiente curso gratuito
https://lagunita.stanford.edu/courses/HumanitiesSciences/StatLearning/Winter2016/about.
Un saludo, Rubén.
El 17/12/2018 a las 12:50, Rubén Fernández Casal escribió:
> Hola Gemma,
>
> En principio con el random forest no tendrías mucho problema. En
> general con pocos datos los métodos de aprendizaje estadístico /
> automático que requieren de una muestra de aprendizaje y otra de
> validación podrían tener problemas. En estos casos sería recomendable
> hacer bagging, remuestreo del conjunto de datos de entrenamiento, y
> eso ya es lo que hacen los algoritmos estándar de RF como el
> implementado en randomForest...
>
> Un saludo, Rubén.
>
>
> El jue., 13 de diciembre de 2018 10:01, Gemma Ruiz-Olalla
> <gemma.ruizolalla using gmail.com <mailto:gemma.ruizolalla using gmail.com>> escribió:
>
> Hola,
>
> Me he iniciado hace poco en Machine Learning, y tengo una duda
> sobre mis
> conjuntos de datos: el primero tiene 37 variables explicativas y 116
> instancias, y el segundo, 140 variables explicativas y 195
> instancias. El
> primero lo veo bien, ya que hay 3 veces más casos que variables
> explicativas, pero creo que el segundo caso puede suponer un
> problema al
> haber casi el mismo número de predictores que de casos, verdad?
>
> Para "arreglar" esto (en un Random Forest), tendría sentido hacer
> iterar el
> train() unas 50-100 veces? Ir guardando estos modelos
> resultantes (entrenados) en una lista, para luego hacer una especie de
> promedio con ellos, y éste resultante (sus parámetros ntree y
> mtry) usarlo
> para generar el modelo randomForest() definitivo.
>
> Tiene sentido, o qué podría hacer si no?
>
> Muchas gracias!
>
> --
> Gemma Ruiz-Olalla
> gemma.ruizolalla using gmail.com <mailto:gemma.ruizolalla using gmail.com>
>
> [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es using r-project.org <mailto:R-help-es using r-project.org>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
--
Ruben Fernandez Casal
https://rubenfcasal.github.io
Department of Mathematics
Faculty of Computer Science
Universidade da Coruña
Corporate email: ruben.fcasal <at> udc <dot> es
--
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es