[R-es] Error: protect(): protection stack overflow

Javier Marcuzzi j@v|er@ruben@m@rcuzz| @end|ng |rom gm@||@com
Mie Mayo 31 01:34:11 CEST 2023


Estimado Manuel Mendoza

Puede ser que a usted no le sea de utilidad, pero cuándo nombran genes y evalúan, yo siempre de acuerdo del libro Introducción a la Genética Cuantitativa, de Falconer. Digo esto porque la expresión que usted nombra puede ser por deriva genética y no por un efecto real del gen.

Un abrazo
Javier Rubén Marcuzzi



> El 29 may. 2023, a las 06:18, Manuel Mendoza <mmendoza using fulbrightmail.org> escribió:
> 
> Gracias Carlos e Isidro, finalmente utilicé el propio XgBoost para
> seleccionar las variables con las que hacer el RF. Había 47, de las casi
> 55.000, que mostraban una ganancia superior que el resto, así que hice el
> RF con esas sin problema. La idea original era aplicar RF para seleccionar
> las variables más importantes por su contribución a la predicción,
> utilizando meandecraseaccuracy, y es lo que hice, aunque partiendo de esas
> 47. Resultó que con tan solo 5 genes puedo predecir la malignidad de
> tumores (neurofibromas) con una sensibilidad del 98%. Un hallazgo
> interesante.
> Gracias de nuevo,
> Manuel
> 
> El dom, 28 may 2023 a las 21:58, Carlos Ortega (<cof using qualityexcellence.es>)
> escribió:
> 
>> Hola Manuel,
>> 
>> "ranger" paraleliza de forma automática, usando todos los cores que
>> tienes. Está bastante optimizado...
>> 
>> El que se quede sin memoria, puede tener que ver, tanto por el número de
>> columnas que comentas, como que alguna de tus variables (o varias) si es
>> categórica y tiene múltiples niveles esas 54973 columnas pueden aumentar
>> mucho ("ranger" hace un one-hot interno).
>> 
>> Y si el problema son las columnas. ¿Tienes que usar todas las columnas?.
>> Puedes plantearte alguna alternativa para seleccionar las variables
>> importantes. El paquete "Boruta" es uno de ellos, pero también puedes hacer
>> diferentes modelos en modo "boostrap" seleccionado diferentes columnas para
>> ver con cuáles quedarte al final.
>> 
>> Y otra alternativa cuando tienes problemas de memoria, es usar H2O....
>> Gestiona muy bien la memoria.
>> 
>> Gracias,
>> Carlos.
>> 
>> El dom, 28 may 2023 a las 13:29, Manuel Mendoza (<
>> mmendoza using fulbrightmail.org>) escribió:
>> 
>>> Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973
>>> columnas y me quedo sin memoria. He probado con randomForest y con ranger,
>>> y con los dos pasa. ¿Tenéis alguna solución para esto (que no sea
>>> comprarse
>>> un ordenador más potente:-) ?. Pude aplicar XgBoost, incluso cerca de 2000
>>> veces  (unas 16 horas), para optimizar los hiperparámetros con una rejilla
>>> de búsqueda, pero XgBoost utiliza varios núcleos a la vez. No sé si hay
>>> forma de hacer que randomForest o ranger utilicen más núcleos. Cualquier
>>> otra solución sería buena, claro.
>>> Gracias,
>>> Manuel
>>> 
>>>        [[alternative HTML version deleted]]
>>> 
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es using r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>> 
>> 
>> 
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>> 
> 
> 	[[alternative HTML version deleted]]
> 
> _______________________________________________
> R-help-es mailing list
> R-help-es using r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es



Más información sobre la lista de distribución R-help-es