[R-es] tamaño de rolling window (series temporales)

Lun Feb 8 14:00:19 CET 2016

Hola!!

Estoy intentando evaluar mi modelo de series temporales (uso auto.arima).
Para ello he implemetado el método "rolling window" que se basa en ir
añadiendo progresivamente datos al conjunto de train para testar el
modelo. Por ejemplo:

- Train: 1 año, test: día 1 (24 observaciones, una por hora) --> evalúo
ese día (RMSE por ejemplo)
- Train: 1 año + 1 día, test: día 2 --> evalúo ese día (RMSE)
- Train: 1 año +  2 días, test: día 3 --> evalúo ese día (RMSE)
...

así hasta el final. Después, saco la media y la desviación estándard de
la RMSE y considero que esa es la evaluación de mi modelo.

La duda es, ¿dónde empiezo? Es decir, ¿hago este proceso 10 veces (con
10 días), 50 veces (con 50 días)...? ¿Lo hago con un porcentaje
específico del total de observaciones?

No es lo mismo pero para los métodos de machine learning se coge 75 %
train y 25 % test. ¿Hay algo análogo? Esto sería más bien como los
resamplings (leave one out)... que tú decides cuántos hacer pero querría
saber si hay algún consenso. He leído por ahí que el 50% de la muestra
estaría bien
http://www.early-warning-signals.org/time-series-methods/metric-based-indicators/general-steps-for-rolling-window-metrics/
pero tengo datos desde 2014, o sea, más de 17520 obsrvaciones ¿opiniones?

Si alguien puede responder por aquí bien, y si hay algún experto por
Murcia o alrededores estaré encantada de invitarle a un café.

Saludos y muchas gracias.

------
Aurora González Vidal
Phd student in Data Analytics for Energy Efficiency

Faculty of Computer Sciences
University of Murcia

@. aurora.gonzalez2 en um.es
T. 868 88 7866
www.um.es/ae

	[[alternative HTML version deleted]]