[R-es] Random Forest con poca "n" y muchos predictores

Jue Dic 13 10:00:48 CET 2018

Hola,

Me he iniciado hace poco en Machine Learning, y tengo una duda sobre mis
conjuntos de datos: el primero tiene 37 variables explicativas y 116
instancias, y el segundo, 140 variables explicativas y 195 instancias. El
primero lo veo bien, ya que hay 3 veces más casos que variables
explicativas, pero creo que el segundo caso puede suponer un problema al
haber casi el mismo número de predictores que de casos, verdad?

Para "arreglar" esto (en un Random Forest), tendría sentido hacer iterar el
train() unas 50-100 veces? Ir guardando estos modelos
resultantes (entrenados) en una lista, para luego hacer una especie de
promedio con ellos, y éste resultante (sus parámetros ntree y mtry) usarlo
para generar el modelo randomForest() definitivo.

Tiene sentido, o qué podría hacer si no?

Muchas gracias!

-- 
Gemma Ruiz-Olalla
gemma.ruizolalla using gmail.com

	[[alternative HTML version deleted]]