<div dir="ltr"><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><div id="gmail_51oyfzllthmp" style="display:inline-block"></div>Lo defines con el parámetro "maxnodes"... si no lo delimitas, el árbol crece hasta el máximo posible.</div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small">Y si lo estás usando para un caso de clasificación, el árbol se extiende hasta el límite en el que en el nodo hay un (1) caso.</div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><img src="cid:ii_161151ac3c781158" alt="Imágenes integradas 2" width="562" height="34"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small">Por eso, dependiendo de tu problema, y esto es un caso de optimización. Juega también con el parámetro "nodesize".</div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><img src="cid:ii_161151d978a9eb23" alt="Imágenes integradas 3" width="562" height="51"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small">Explora combinaciones de los dos parámetros para ver qué caso es el que mejor respuesta te ofrece sin penalizarte en complejidad.</div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small">Gracias,</div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small">Carlos.</div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:verdana,sans-serif;font-size:small"><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">El 20 de enero de 2018, 18:17, Manuel Mendoza <span dir="ltr"><<a href="mailto:mmendoza@mncn.csic.es" target="_blank">mmendoza@mncn.csic.es</a>></span> escribió:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Si, Carlos. Yo hago lo mismo, pero esos mismos numeritos salen enormes.<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
treesize(RFfit)<br>
</blockquote>
<br>
  [1] 4304 4302 4311 4319 4343 4298 4298 4311 4349 4327 4331 4317 4294 4321 4283 4362<br>
  [17] 4300 4330 4266 4331 4308 4352 4294 4315 4372 4349 4331 4347 4329 4348 4298 4335<br>
  [33] 4346 4396 4345 4313 4293 4276 4353 4272 4304 4325 4317 4336 4308 4351 4374 4324<br>
  [49] 4386 4359 4311 4346 4300 4332 4336 4376 4319 4322 4344 4324 4324 4359 4342 4378<br>
  [65] 4344 4324 4314 4318 4344 4311 4359 4304 4288 .... hasta 1000<br>
<br>
Con mtry le indicas el nº de variables que los árboles utilizarán (recomendado m=√p para árboles de clasificación, y m = p/3 para los de regresión), y con ntree el nº de árboles. Pero no encuentro cómo indicarle, aunque sea, un tamaño máximo para los árboles, y en cualquier caso, me parece extraño que se generen árboles con tantísimos nodos. Mi df tiene unas 13.000 entradas y 19 variables, pero eso no es nada especial para que me hiciese árboles tan grandes.<br>
<br>
No entiendo<div class="HOEnZb"><div class="h5"><br>
<br>
<br>
<br>
Quoting Carlos Ortega <<a href="mailto:cof@qualityexcellence.es" target="_blank">cof@qualityexcellence.es</a>>:<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hola,<br>
<br>
No. Mira el ejemplo:<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
data(iris)<br>
iris.rf <- randomForest(Species ~ ., iris)<br>
hist(treesize(iris.rf))<br>
treesize(iris.rf)<br>
</blockquote>
  [1]  7 10 13  7 10  6  9  8  7  9  8  8  6  8  7  9  7 10  6 16  4 13 11<br>
10  8 11 10  8  7  9  9  6 11  7  5 10 12 10  7 12 12  8 11 10<br>
 [45] 10 10  9 11  8  6  7 12  9  9  7  6 10  9 10  7  8  8  8  7  8 12  7<br>
11 12  8  7  7  6  9  9  6  6 11  3  9 12 11 13  9  9  7  7 12<br>
 [89] 11  6  6  8  6 11  9 10 10  6  7 14  7 10  8  7  9 11  7 14  7  7  8<br>
9  7  6  9  8  9  8 13  9 10 10  9 11  6  7  9 10  8  9  9  6<br>
[133]  9  8 10  9 11  8  6  7 13  6  6  9  5 14  8 10 13 10 12 13 11 12 10<br>
9 12  9 13 10  9 11  7 10 10  9  9  8  6  5  9  9 11 10  8 10<br>
[177]  4 10 12 10 10  8 10 11  9  5  7  8  8 15  8  7  7  9 12  9 10  9 12<br>
8 10  8 11  9  6  7  9 12  7  8 10 12  6 14 11  4  6  6  7  9<br>
[221] 10 11 13  5  8 10  7 10 10 12 10 11 11  8  9 11  9  9  9 10  6 10  7<br>
10 10 14  9 10  6 10  6  8  6  9  9 10 10 10 10  9 10 10  8 14<br>
[265]  8 11  6 11  9  9  9  8 11  7  8 11  8  4  9 11  6  8 10  8  9 10  8<br>
9  8 11 11  9 12 14  7  9  8  9 10 10 11  8 12 12 12  4 10 11<br>
[309]  8  8 11  9  9  8 10  9  4 10 10  6 13 10 12  9 10  9  5  9  7  4  7<br>
15  7  8  7 11  7 11 12  5 12  7  9  8 13 14  9  9  9  9  6 13<br>
[353] 13  7 10  6  5  6 10  6  8  8  9 11  9 11  7  7 11  8  6 10 13  7 12<br>
11 14  7 10 11  9  8  6  8 10  8  9  6 10 10  6  7  7  7 11 13<br>
[397]  8  5  7 14 10 14  8  9  6 11  9 11 10  9  8  7 11 10 10 11  8 10 12<br>
9  8  8  9  9  9  9  9  5  9  7 13 10 11  8 10  9 10 12  8 12<br>
[441]  9 10  4  7 11  7 10  4  6 13  8  7 10  9  7  6  8  9  7 11  8  8  9<br>
10  5  8 11 12  6  5 10 10  6 10 10  5 10 13  9 13 10 10  6 12<br>
[485]  8  7  9 12 10  9  7  7 14  6  9  6  6  8 10  6<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
vtmp <- treesize(iris.rf)<br>
sum(vtmp)<br>
</blockquote>
<br>
Por defecto al no especificar nada, el "ntrees" de randomForest() es 500.<br>
Efectivamente generas 500 árboles como ves en el número de elementos que<br>
devuelve "treesize(iris.rf)".<br>
<br>
Y cada árbol, tiene el número de nodos que ves en el valor de cada uno de<br>
los elementos que igualmente devuelve "treesize(iris.rf)": 7, 10, 13...<br>
<br>
Gracias,<br>
Carlos<br>
<br>
El 20 de enero de 2018, 10:36, Manuel Mendoza <<a href="mailto:mmendoza@mncn.csic.es" target="_blank">mmendoza@mncn.csic.es</a>><br>
escribió:<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
Gracias Carlos y Javier, ntrees es el nº de árboles y treesize sus<br>
respectivos tamaños (nº de nodos)<br>
<br>
ntree: Number of trees to grow. This should not be set to too small ......<br>
<br>
treesize: Size of trees (number of nodes) in and ensemble.<br>
<br>
<br>
Puse 1000 árboles (ntree=1000), si, pero la función treesize te da el nº<br>
de nodos:<br>
<br>
treesize(RFfit, terminal=TRUE) me da un vector de 1000 elementos (uno por<br>
cada árbol), todos ellos mayores que 4000 ????<br>
<br>
¿tienen los 1000 árboles más de 4000 nodos cada uno? Parece extraño ¿no?<br>
<br>
Esa es mi pregunta<br>
<br>
Gracias nuevamente,<br>
Manuel<br>
<br>
<br>
<br>
<br>
<br>
<br>
Quoting Carlos Ortega <<a href="mailto:cof@qualityexcellence.es" target="_blank">cof@qualityexcellence.es</a>>:<br>
<br>
Hola,<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
A "treesize()" le tienes que pasar como parámetro el objeto randomForest<br>
de<br>
tu modelo.<br>
Y obtiene el número de nodos de cada uno de los árboles que hayas indicado<br>
en el valor del parámetros "ntrees" de "randomForest". Por defecto<br>
"ntrees"<br>
tiene un valor de 500.<br>
Mira qué valor tiene "ntrees" en tu modelo "randomForest", que seguramente<br>
le hayas indicado un valor de 1000...<br>
<br>
Saludos,<br>
Carlos Ortega<br>
<a href="http://www.qualityexcellence.es" rel="noreferrer" target="_blank">www.qualityexcellence.es</a><br>
<br>
El 17 de enero de 2018, 14:29, Manuel Mendoza <<a href="mailto:mmendoza@mncn.csic.es" target="_blank">mmendoza@mncn.csic.es</a>><br>
escribió:<br>
<br>
Buenas tardes a todos. El paquete randomForest tiene la función treesize,<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
que es el nº de nodos. Me dan valores realmente elevados (en torno a<br>
1000),<br>
y eso me parece extraño. ¿sabéis si es así?<br>
Gracias,<br>
Manuel<br>
--<br>
Dr Manuel Mendoza<br>
Department of Biogeography and Global Change<br>
National Museum of Natural History (MNCN)<br>
Spanish Scientific Council (CSIC)<br>
C/ Serrano 115bis, 28006 MADRID<br>
Spain<br>
<br>
______________________________<wbr>_________________<br>
R-help-es mailing list<br>
<a href="mailto:R-help-es@r-project.org" target="_blank">R-help-es@r-project.org</a><br>
<a href="https://stat.ethz.ch/mailman/listinfo/r-help-es" rel="noreferrer" target="_blank">https://stat.ethz.ch/mailman/l<wbr>istinfo/r-help-es</a><br>
<br>
<br>
</blockquote>
<br>
<br>
--<br>
Saludos,<br>
Carlos Ortega<br>
<a href="http://www.qualityexcellence.es" rel="noreferrer" target="_blank">www.qualityexcellence.es</a><br>
<br>
</blockquote>
<br>
<br>
--<br>
Dr Manuel Mendoza<br>
Department of Biogeography and Global Change<br>
National Museum of Natural History (MNCN)<br>
Spanish Scientific Council (CSIC)<br>
C/ Serrano 115bis, 28006 MADRID<br>
Spain<br>
<br>
<br>
</blockquote>
<br>
<br>
--<br>
Saludos,<br>
Carlos Ortega<br>
<a href="http://www.qualityexcellence.es" rel="noreferrer" target="_blank">www.qualityexcellence.es</a><br>
</blockquote>
<br>
<br>
-- <br>
Dr Manuel Mendoza<br>
Department of Biogeography and Global Change<br>
National Museum of Natural History (MNCN)<br>
Spanish Scientific Council (CSIC)<br>
C/ Serrano 115bis, 28006 MADRID<br>
Spain<br>
<br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><span style="font-family:verdana,sans-serif">Saludos,</span><br style="font-family:verdana,sans-serif">
<span style="font-family:verdana,sans-serif">Carlos Ortega</span><br style="font-family:verdana,sans-serif">
<span style="font-family:verdana,sans-serif"><a href="http://www.qualityexcellence.es" target="_blank">www.qualityexcellence.es</a></span></div>
</div>