Search results

1

Selekcja zmiennych w analizie skupień marketingowych zbiorów danych binarnych

100%

Korzeniewski J.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

|

2018

|

issue 508

89-95

PL

W roku 2001 Desai zaproponował ciekawą miarę podobieństwa dwóch różnych wartości/wariantów tej samej cechy. Miarę tę można w dość prosty sposób wykorzystać do wyznaczenia siły dyskryminacyjnej cechy binarnej lub nominalnej wielostanowej w problemie analizy skupień. Idea oparta jest na tym, że im mniejsze podobieństwo, na przykład 1 do 0 (jako wartości zmiennej binarnej), tym większa zdolność dyskryminacyjna cechy. Ten pomysł zastosowano do skonstruowania nowej metody selekcji zmiennych binarnych w zagadnieniu analizy skupień i w zastosowaniu do dość obszernej klasy zbiorów danych binarnych, jaką są dane marketingowe. Podstawową zaletą nowej metody jest jej niezależność od konieczności grupowania danych, co wiąże się zawsze z przyjęciem jakiejś konkretnej metody grupowania oraz konkretnej wartości liczby skupień. Eksperyment przeprowadzony na 162 zbiorach danych pokazuje wysoką efektywność metody

2

Problem zmiennych zakłócających w agregowanych klasyfikatorach kNN

100%

Kubus M.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

|

2017

|

issue 468

116-126

PL

Podejście wielomodelowe w dyskryminacji i regresji zyskało duże uznanie ze względu na poprawę stabilności modeli oraz ich dokładności przewidywań. Agregowanie klasyfikatorów k najbliższych sąsiadów (kNN) napotyka jednak poważne problemy. Metoda kNN, wykorzystująca w klasyfikacji wyłącznie odległości między obiektami, jest względnie stabilna, przez co zróżnicowanie klasyfikatorów bazowych można osiągnąć, jedynie wybierając różne podprzestrzenie. Tu z kolei napotykamy problem zmiennych zakłócających (noisy variables), to jest takich, które nie mają wpływu na zmienną objaśnianą, a które w metodzie kNN znacznie obniżają dokładność klasyfikacji. W artykule dokonano przeglądu zaproponowanych w literaturze metod agregowania klasyfikatorów kNN oraz zweryfikowano je z własną propozycją algorytmu. W badaniach wykorzystano zbiory danych rzeczywistych z dołączonymi zmiennymi zakłócającymi.

3

FEATURE SELECTION AND THE CHESSBOARD PROBLEM

89%

Kubus M.

Acta Universitatis Lodziensis. Folia Oeconomica

|

2015

|

vol. 1

|

issue 311

PL

W artykule podjęto dyskusję nad aspektem przeszukiwania w metodach selekcji zmiennych. Posłużono się znanym z literatury przykładem szachownicy, gdzie zmienne, które indywidualnie nie mają mocy dyskryminacyjnej (mają jednakowe rozkłady w klasach) mogą rozpinać przestrzeń, w której klasy są dobrze separowalne. Uogólniając ten przykład wygenerowano zbiór z trójwymiarową strukturą szachownicy i zmiennymi zakłócającymi, a następnie zweryfikowano metody selekcji zmiennych. Rozważono też możliwość zastosowania analizy skupień jako narzędzia wspomagającego etap dyskryminacji.

EN

Feature selection methods are usually classified into three groups: filters, wrappers and embedded methods. The second important criterion of their classification is an individual or multivariate approach to evaluation of the feature relevance. The chessboard problem is an illustrative example, where two variables which have no individual influence on the dependent variable can be essential to separate the classes. The classifiers which deal well with such data structure are sensitive to irrelevant variables. The generalization error increases with the number of noisy variables. We discuss the feature selection methods in the context of chessboard-like structure in the data with numerous irrelevant variables.

Refine search results

2 Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

1 Acta Universitatis Lodziensis. Folia Oeconomica

2 Kubus M.

1 Korzeniewski J.

1 2018

1 2017

1 2015

Selekcja zmiennych w analizie skupień marketingowych zbiorów danych binarnych

Problem zmiennych zakłócających w agregowanych klasyfikatorach kNN

FEATURE SELECTION AND THE CHESSBOARD PROBLEM