Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

PL EN


2018 | 4 | 337 | 99-109

Article title

Outliers vs Robustness in Nonparametric Methods of Regression

Content

Title variants

Obserwacje odstające a problem odporności

Languages of publication

EN

Abstracts

EN
The article addresses the question of how robust methods of regression are against outliers in a given data set. In the first part, we presented the selected methods used to detect outliers. Then, we tested the robustness of three nonparametric methods of regression: PPR, POLYMARS, and RANDOM FORESTS. The analysis was conducted applying simulation procedures to the data sets where outliers were detected. Contrary to a relatively common conviction about the robustness of nonparametric regression, the study revealed that the models built on the basis of complete data sets represent a significantly lower predictive capability than models based on the sets from which outliers were discarded.
PL
Artykuł poświęcony jest zagadnieniu odporności metod regresji na obserwacje odstające występujące w zbiorze danych. W pierwszej części przedstawiono wybrane metody identyfikacji obserwacji nietypowych. Następnie badano odporność trzech nieparametrycznych metod regresji: PPR, POLYMARS i RANDOM FORESTS. Analiz dokonano za pomocą procedur symulacyjnych na zbiorach danych, w których wykryto obserwacje odstające. Mimo dosyć powszechnych przekonań o odporności regresji nieparametrycznej okazało się, że modele zbudowane na całych zbiorach danych mają istotnie mniejsze zdolności predykcyjne niż modele uzyskane na zbiorach, z których usunięto obserwacje nietypowe.

Year

Volume

4

Issue

337

Pages

99-109

Physical description

Dates

published
2018-09-20

Contributors

  • University of Economics in Katowice, Faculty of Finance and Insurance, Department of Economic and Financial Analysis

References

  • Agresti A., Finlay B. (2009), Statistical Methods for the Social Sciences, 4th ed., Pearson, New Jersey.
  • Batóg J. (2016), Identyfikacja obserwacji odstających w analizie skupień, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 26. Klasyfikacja i analiza danych, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 426, pp. 13–21.
  • Breiman L. (2001), Random Forests, “Machine Learning”, no. 45, pp. 5–32.
  • Breunig M.M., Kriegel H.‑P., Ng R.T., Sander J. (2000), LOF: Identifying Density‑Based Outliers, Proceedings of the 29th ACM SIDMOD International Conference on Management of Data (SIGMOD 2000), Dallas.
  • Cook R.D. (1977), Detection of Influential Observations in Linear Regression, “Technometrics”, no. 19(1), pp. 15–18.
  • Filzmoser P., Maronna R.A., Werner M. (2008), Outlier Identification in High Dimensions, “Computational Statistics & Data Analysis”, no. 52, pp. 1694–1711.
  • Friedman J., Stuetzle W. (1981), Projection Pursuit Regression, “Journal of the American Statistical Association”, no. 76, pp. 817–823.
  • Ganczarek‑Gamrot A. (2016), Obserwacje odstające na rynku energii elektrycznej, “Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach”, no. 288, pp. 7–20.
  • Hawkins D. (1980), Identification of Outliers, Chapman and Hall, London.
  • Healy M.J.R. (1968), Multivariate Normal Plotting, “Applied Statistics”, no. 17, pp. 157–161.
  • Kooperberg C., Bose S., Stone C. (1997), Polychotomous Regression, “Journal of the American Statistical Association”, no. 92, pp. 117–127.
  • Kosiorowski D. (2007), O odpornej analizie regresji w ekonomii na przykładzie koncepcji głębi regresyjnej, “Przegląd Statystyczny”, vol. 54, pp. 109–121.
  • Kosiorowski D. (2012), Statystyczne funkcje głębi w odpornej analizie ekonomicznej, Wydawnictwo UEK w Krakowie, Kraków.
  • Majewska J. (2015), Identification of Multivariate Outliers – Problems and Challenges of Visualization Methods, “Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach”, no. 247, pp. 69–83.
  • Meyer D., Leisch F., Hornik K. (2003), The Support Vector Machine under Test, “Neurocomputing”, vol. 1–2, no. 55, pp. 169–186.
  • Rousseeuw P., Leroy A. (2003), Robust Regression and Outlier Detection, John Wiley & Sons Inc., New York.
  • Trzęsiok J. (2011), Przegląd metod regularyzacji w zagadnieniach regresji nieparametrycznej, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 18. Klasyfikacja i analiza danych, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 176, pp. 330–339.
  • Trzęsiok M. (2014), Wybrane metody identyfikacji obserwacji oddalonych, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 22. Klasyfikacja i analiza danych – teoria i zastosowania, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 327, pp. 157–166.
  • Trzpiot G. (ed.) (2013), Wybrane elementy statystyki odpornej, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice.
  • Tukey J.W. (1977), Exploratory Data Analysis, Addison‑Wesley, Boston.
  • Walesiak M., Gatnar E. (2009), Statystyczna analiza danych z wykorzystaniem programu R, Wydawnictwo Naukowe PWN, Warszawa.

Document Type

Publication order reference

Identifiers

YADDA identifier

bwmeta1.element.ojs-doi-10_18778_0208-6018_337_07
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.