[R-es] gbm y unbalanced data

Manuel Mendoza mmendoz@ @end|ng |rom |u|br|ghtm@||@org
Lun Oct 11 20:42:16 CEST 2021


Muy buenas, tengo una base de datos descompensada, en la que las ausencias
(0) de ptyrup (una especie) son unas 3.5 veces más frecuentes que las
presencias (1). De acuerdo a la documentación de gbm, weights es un vector
opcional de pesos a utilizar en el proceso de ajuste. Utilizo:

data$weights <- ifelse(data$ptyrup == 0, 1, 3.5)

fitgbm <- gbm(ptyrup ~. -weights, data=data,
distribution="bernoulli", weights = weights,
              cv.folds=5, n.trees=5000, verbose=F)

kappa sale distinto, pero  weights  no tiene el efecto esperado.

Supongo que mi interpretación de lo que dice la documentación es
incorrecta. ¿Sabe alguien si existe una forma directa de ponderar alguna de
las categorías? Algo como weights con rpart, sampsize con RF o
scale_pos_weight con
XgBoost. Remuestreo y cosas así no me sirven en este caso.

Gracias, como siempre,
Manuel

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es