Search results

1

The Problem of Redundant Variables in Random Forests

100%

Kubus M.

Acta Universitatis Lodziensis. Folia Oeconomica

|

2018

|

vol. 6

|

issue 339

7-16

PL

Lasy losowe są obecnie jedną z najchętniej stosowanych przez praktyków metod klasyfikacji wzorcowej. Na jej popularność wpływ ma możliwość jej stosowania bez czasochłonnego, wstępnego przygotowywania danych do analizy. Las losowy można stosować dla różnego typu zmiennych, niezależnie od ich rozkładów. Metoda ta jest odporna na obserwacje nietypowe oraz ma wbudowany mechanizm doboru zmiennych. Można jednak zauważyć spadek dokładności klasyfikacji w przypadku występowania zmiennych redundantnych. W artykule omawiane są dwa podejścia do problemu zmiennych redundantnych. Rozważane są dwa sposoby przeszukiwania w podejściu polegającym na doborze zmiennych oraz dwa sposoby konstruowania zmiennych syntetycznych w podejściu wykorzystującym grupowanie zmiennych. W eksperymencie generowane są liniowo zależne predyktory i włączane do zbiorów danych rzeczywistych. Metody redukcji wymiarowości zwykle poprawiają dokładność lasów losowych, ale żadna z nich nie wykazuje wyraźnej przewagi.

EN

Random forests are currently one of the most preferable methods of supervised learning among practitioners. Their popularity is influenced by the possibility of applying this method without a time consuming pre‑processing step. Random forests can be used for mixed types of features, irrespectively of their distributions. The method is robust to outliers, and feature selection is built into the learning algorithm. However, a decrease of classification accuracy can be observed in the presence of redundant variables. In this paper, we discuss two approaches to the problem of redundant variables. We consider two strategies of searching for best feature subset as well as two formulas of aggregating the features in the clusters. In the empirical experiment, we generate collinear predictors and include them in the real datasets. Dimensionality reduction methods usually improve the accuracy of random forests, but none of them clearly outperforms the others.

2

FEATURE SELECTION AND THE CHESSBOARD PROBLEM

100%

Kubus M.

Acta Universitatis Lodziensis. Folia Oeconomica

|

2015

|

vol. 1

|

issue 311

PL

W artykule podjęto dyskusję nad aspektem przeszukiwania w metodach selekcji zmiennych. Posłużono się znanym z literatury przykładem szachownicy, gdzie zmienne, które indywidualnie nie mają mocy dyskryminacyjnej (mają jednakowe rozkłady w klasach) mogą rozpinać przestrzeń, w której klasy są dobrze separowalne. Uogólniając ten przykład wygenerowano zbiór z trójwymiarową strukturą szachownicy i zmiennymi zakłócającymi, a następnie zweryfikowano metody selekcji zmiennych. Rozważono też możliwość zastosowania analizy skupień jako narzędzia wspomagającego etap dyskryminacji.

EN

Feature selection methods are usually classified into three groups: filters, wrappers and embedded methods. The second important criterion of their classification is an individual or multivariate approach to evaluation of the feature relevance. The chessboard problem is an illustrative example, where two variables which have no individual influence on the dependent variable can be essential to separate the classes. The classifiers which deal well with such data structure are sensitive to irrelevant variables. The generalization error increases with the number of noisy variables. We discuss the feature selection methods in the context of chessboard-like structure in the data with numerous irrelevant variables.

3

Problem zmiennych zakłócających w agregowanych klasyfikatorach kNN

100%

Kubus M.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

|

2017

|

issue 468

116-126

PL

Podejście wielomodelowe w dyskryminacji i regresji zyskało duże uznanie ze względu na poprawę stabilności modeli oraz ich dokładności przewidywań. Agregowanie klasyfikatorów k najbliższych sąsiadów (kNN) napotyka jednak poważne problemy. Metoda kNN, wykorzystująca w klasyfikacji wyłącznie odległości między obiektami, jest względnie stabilna, przez co zróżnicowanie klasyfikatorów bazowych można osiągnąć, jedynie wybierając różne podprzestrzenie. Tu z kolei napotykamy problem zmiennych zakłócających (noisy variables), to jest takich, które nie mają wpływu na zmienną objaśnianą, a które w metodzie kNN znacznie obniżają dokładność klasyfikacji. W artykule dokonano przeglądu zaproponowanych w literaturze metod agregowania klasyfikatorów kNN oraz zweryfikowano je z własną propozycją algorytmu. W badaniach wykorzystano zbiory danych rzeczywistych z dołączonymi zmiennymi zakłócającymi.

4

DISCRIMINANT STEPWISE PROCEDURE

100%

Kubus M.

Acta Universitatis Lodziensis. Folia Oeconomica

|

2014

|

vol. 3

|

issue 302

EN

Stepwise procedure is now probably the most popular tool for automatic feature selection. In the most cases it represents model selection approach which evaluates various feature subsets (so called wrapper). In fact it is heuristic search technique which examines the space of all possible feature subsets. This method is known in the literature under different names and variants. We organize the concepts and terminology, and show several variants of stepwise feature selection from a search strategy point of view. Short review of implementations in R will be given.

Refine search results

3 Acta Universitatis Lodziensis. Folia Oeconomica

1 Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

4 Kubus M.

1 2018

1 2017

1 2015

1 2014

The Problem of Redundant Variables in Random Forests

FEATURE SELECTION AND THE CHESSBOARD PROBLEM

Problem zmiennych zakłócających w agregowanych klasyfikatorach kNN

DISCRIMINANT STEPWISE PROCEDURE