PL EN


2018 | 375 | 121-140
Article title

Prognozowanie dziennych obrotów przedsiębiorstwa za pomocą algorytmu XGBoost – studium przypadku

Authors
Content
Title variants
EN
Forecasting daily turnover using XGBoost algorithm – a case study
Languages of publication
PL
Abstracts
Celem niniejszego artykułu było zbadanie możliwości wykorzystania algorytmu Extreme Gradient Boosting (XGBoost) jako narzędzia prognozowania obrotów przedsiębiorstwa. Na studium przypadku wybrano udostępnione przez firmę Rossmann (wraz z prośbą o opracowanie innowacyjnej metody prognozowania) dane, obejmujące informacje z mikro- i makrootoczenia oraz obrotów 1115 oddziałów. Działanie algorytmu porównano z klasycznymi modelami SARIMAX i Holta–Wintersa, wykorzystując walidację krzyżową oraz testy statystycznej istotności różnic trafności predykcji. Badano metryki średniego błędu procentowego, współczynnik Theila oraz skorygowany współczynnik determinacji. Wyniki przekazano do weryfikacji firmie Rossmann. Potwierdzono, iż XGBoost po zastosowaniu odpowiedniej obróbki danych i sposobu uczenia osiąga lepsze rezultaty niż modele klasyczne.
EN
The goal of this paper was to investigate use of the Extreme Gradient Boosting XGBoost algorithm as a forecasting tool. The data provided by the Rossman Company, with a request to design an innovative prediction method, has been used as a base for this case study. The data contains details about micro- and macro-environment, as well as turnover of 1115 stores. Performance of the algorithm was compared to classical forecasting models SARIMAX and Holt–Winters, using time-series cross validation and tests for statistical importance in prediction quality differences. Metrics of root mean squared percentage error (RMSPE), Theil’s coefficient and adjusted correlation coefficient were analyzed. Results where then passed to Rossman for verification on a separate validation set, via Kaggle.com platform. Study results confirmed, that XGBoost, after using proper data preparation and training method, achieves better results than classical models.
Year
Volume
375
Pages
121-140
Physical description
Contributors
author
  • Uniwersytet Ekonomiczny we Wrocławiu. Wydział Zarządzania, Informatyki i Finansów. Katedra Inteligencji Biznesowej w Zarządzaniu
References
  • Boneau C.A. (1960), The Effects of Violations of Assumptions Underlying the T Test, “Psychological Bulletin”, Vol. 57(1), s. 49-64.
  • Breiman L. (2001), Random Forests, “Machine Learning”, Vol. 45(1), s. 5-32.
  • Breiman L., Friedman J., Stone Ch.J., Olshen R.A. (2017), Classification and Regression Trees, CRC Press, Boca Raton, FL.
  • Chen T., Guestrin C. (2016), XGBoost: A Scalable Tree Boosting System [w:] Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’16, ACM Press, New York, s. 785-794.
  • Cichosz P. (2007), Systemy uczące się, Wyd. 2. Wydawnictwa Naukowo-Techniczne, Warszawa.
  • Cieślak M. (2005), Prognozowanie gospodarcze: metody i zastosowania, Wyd. 4, Wydawnictwo Naukowe PWN, Warszawa.
  • De Livera A.M., Hyndman R.J., Snyder R.D. (2011), Forecasting Time Series with Complex Seasonal Patterns Using Exponential Smoothing, “Journal of the American Statistical Association”, Vol. 106, s. 1513-1527.
  • Flach P.A. (2012), Machine Learning: The Art and Science of Algorithms that Make Sense of Data, Cambridge University Press, Cambridge.
  • Ghosh R., Purkayastha P. (2017), Forecasting Profitability in Equity Trades Using Random Forest, Support Vector Machine and XgBoost [w:] 10th International Conference on Recent Trades in Engineering Science and Management, s. 473-486.
  • Gumus M., Kiran M.S. (2017), Crude Oil Price Forecasting Using XGBoost [w:] 2017 International Conference on Computer Science and Engineering (UBMK), IEEE, Piscataway Township, NJ, s. 1100-1103.
  • Gurnani M., Korke Y., Shah P., Udmale S., Sambhe V., Bhirud S. (2017), Forecasting of Sales by Using Fusion of Machine Learning Techniques [w:] 2017 International Conference on Data Management, Analytics and Innovation (ICDMAI), IEEE, Piscataway Township, NJ, s. 93-101.
  • Hyndman R., Athanasopoulos G. (2018), Forecasting: Principles and Practice, Otexts, Melbourne, http://otexts.org/fpp2/ (dostęp: 13.05.2019).
  • Hyndman R., Yeasmin K. (2007), Automatic Time Series Forecasting: The Forecast Package for R, “Journal of Statistical Software”, Vol. 27(9), s. 1-23.
  • Kutner M.H., Neter J., Nachtsheim C.J., Li W. (2013), Applied Linear Statistical Models, McGraw-Hill, Boston.
  • Lumley T., Diehr P., Emerson S., Chen L. (2002), The Importance of the Normality Assumption in Large Public Health Data Sets, “Annual Review of Public Health”, Vol. 23(1), s. 151-169.
  • Mitchell T. (1997), Machine Learning, McGraw-Hill, New York.
  • Morzy T. (2013), Eksploracja danych: metody i algorytmy, Wydawnictwo Naukowe PWN, Warszawa.
  • Pavlyshenko B.M. (2016), Linear, Machine Learning and Probabilistic Approaches for Time Series Analysis [w:] 2016 IEEE First International Conference on Data Stream Mining & Processing (DSMP), IEEE, s. 377-381.
  • Shearer C. (2000), The CRISP-DM Model: The New Blueprint for Data Mining, “Journal of Data Warehousing”, Vol. 5, No. 4, s. 13-22.
  • Welch B.L. (1947), The Generalisation of ‘Student’s’ Problem when Several Different Population Variances are Involved, “Biometrika”, Vol. 34, No. 1/2, s. 28-35.
  • Zagdański A., Suchwałko A. (2016), Analiza i prognozowanie szeregów czasowych: praktyczne wprowadzenie na podstawie środowiska R, Wydawnictwo Naukowe PWN, Warszawa.
  • Zaki M.J., Meira W. (2014), Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, Cambridge.
  • Zeliaś A., Pawełek B., Wanat S. (2013), Prognozowanie ekonomiczne: teoria, przykłady, zadania, Wyd. 3, Wydawnictwo Naukowe PWN, Warszawa.
  • [www 1] https://www.kaggle.com/c/rossmann-store-sales#description (dostęp: 9.01.2018).
  • [www 2] https://www.kaggle.com/c/rossmann-store-sales#evaluation (dostęp: 9.01.2018).
  • [www 3] https://www.kaggle.com/c/rossmann-store-sales/data (dostęp: 11.01.2018).
Document Type
Publication order reference
Identifiers
ISSN
2083-8611
YADDA identifier
bwmeta1.element.cejsh-d048a048-b1e3-4e9c-8d10-7b2510049f8d
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.