EN
There are three main approaches to feature selection problem considered in statistical and machine learning literature: filters, wrappers and embedded methods. Filters evaluate and exclude some variables before learning a model. Wrappers use learning algorithm for evaluation of the feature subsets and involve search techniques in the feature subset space. Embedded methods use feature selection as an integral part of learning algorithm. When features outnumber examples, filters or embedded methods are recommended. The goal of this paper is to compare popular filters and embedded methods in high dimensional problem. In the simulation study, redundant variables will be included in the artificially generated data.
PL
Metody selekcji zmiennych dyskutowane obecnie w literaturze dzielone są na trzy główne podejścia: dobór zmiennych dokonywany przed etapem budowy modelu, przeszukiwanie przestrzeni cech i selekcja zmiennych na podstawie oceny jakości modelu oraz metody z wbudowanym mechanizmem selekcji zmiennych. W przypadku, gdy liczba zmiennych jest większa od liczby obserwacji rekomendowane są głównie podejścia pierwsze lub trzecie. Celem artykułu jest porównanie wybranych metod reprezentujących te podejścia w przypadku dużego wymiaru przestrzeni cech. W przeprowadzonych symulacjach, do sztucznie generowanych danych włączano zmienne skorelowane.