Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

Results found: 13

first rewind previous Page / 1 next fast forward last

Search results

Search:
in the keywords:  feature selection
help Sort By:

help Limit search:
first rewind previous Page / 1 next fast forward last
EN
One of the approaches to feature selection in discrimination or regression is learning models using various feature subsets and evaluating these subsets, basing on model quality criterion (so called wrappers). Heuristic or stochastic search techniques are applied for the choice of feature subsets. The most popular example is stepwise regression which applies hillclimbing. Alternative approach is that features are ranked according to some criterion and then nested models are learned and evaluated. The sophisticated tools of obtaining a feature rankings are tree based ensembles. In this paper we propose the competitive ranking which results in slightly lower classification error. In the empirical study metric and binary noisy variables will be considered. The comparison with a popular stepwise regression also will be given.
PL
Jednym z podejść do problemu selekcji zmiennych w dyskryminacji lub regresji jest wykorzystanie kryterium oceny jakości modeli budowanych na różnych podzbiorach zmiennych (tzw. wrappers). Do wyboru podzbiorów zmiennych stosowane są techniki przeszukiwania (heurystyczne lub stochastyczne). Najpopularniejszym przykładem jest regresja krokowa wykorzystująca strategię wspinaczki. Alternatywne podejście polega na uporządkowaniu zmiennych wg wybranego kryterium, a następnie budowaniu modeli zagnieżdżonych i ich ocenie. Zaawansowanymi narzędziami budowy rankingów są agregowane drzewa klasyfikacyjne. W artykule został zaproponowany konkurujący ranking, który prowadzi do nieco mniejszych błędów klasyfikacji. W studium empirycznym rozważane są zmienne nieistotne metryczne oraz binarne. Przedstawiono też porównanie z popularną regresją krokową.
EN
There are three main approaches to feature selection problem considered in statistical and machine learning literature: filters, wrappers and embedded methods. Filters evaluate and exclude some variables before learning a model. Wrappers use learning algorithm for evaluation of the feature subsets and involve search techniques in the feature subset space. Embedded methods use feature selection as an integral part of learning algorithm. When features outnumber examples, filters or embedded methods are recommended. The goal of this paper is to compare popular filters and embedded methods in high dimensional problem. In the simulation study, redundant variables will be included in the artificially generated data.
PL
Metody selekcji zmiennych dyskutowane obecnie w literaturze dzielone są na trzy główne podejścia: dobór zmiennych dokonywany przed etapem budowy modelu, przeszukiwanie przestrzeni cech i selekcja zmiennych na podstawie oceny jakości modelu oraz metody z wbudowanym mechanizmem selekcji zmiennych. W przypadku, gdy liczba zmiennych jest większa od liczby obserwacji rekomendowane są głównie podejścia pierwsze lub trzecie. Celem artykułu jest porównanie wybranych metod reprezentujących te podejścia w przypadku dużego wymiaru przestrzeni cech. W przeprowadzonych symulacjach, do sztucznie generowanych danych włączano zmienne skorelowane.
EN
Having given the data set with executed transactions and customer demographic features one can use marketing scoring to support sales campaign. The discrimination methods used in the scoring often face the problem of imbalance classes and irrelevant variables. In this paper, we analyze the insurance market, where the scoring is performed with a use of the weighted k nearest neighbors and multivariate filters. The feature selection significantly contributed to increasing the number of correctly identified potential purchasers of the insurance policy.
EN
Aggregated classification trees have gained recognition due to improved stability, and frequently reduced bias. However, the adaptation of this approach to the k nearest neighbors method (kNN), faces some difficulties: the relatively high stability of these classifiers, and an increase of misclassifications when the variables without discrimination power are present in the training set. In this paper we propose aggregated kNN classifier with feature selection. Its classification accuracy has been verified on the real data with added irrelevant variables.
5
Publication available in full text mode
Content available

DISCRIMINANT STEPWISE PROCEDURE

100%
EN
Stepwise procedure is now probably the most popular tool for automatic feature selection. In the most cases it represents model selection approach which evaluates various feature subsets (so called wrapper). In fact it is heuristic search technique which examines the space of all possible feature subsets. This method is known in the literature under different names and variants. We organize the concepts and terminology, and show several variants of stepwise feature selection from a search strategy point of view. Short review of implementations in R will be given.
EN
Significant improvement of model stability and prediction accuracy in classification and regression can be obtained by using the multiple model approach. In classification multiple models are built on the basis of training subsets (selected from the training set) and combined into an ensemble or a committee. Then the component models (classification trees) determine the predicted class by voting. In this paper some problems of feature selection for ensembles will be discussed. We propose a new correlation-based feature selection method combined with the wrapper approach.
EN
A dynamic development of various regularization formulas in linear models has been observed recently. Penalizing the values of coefficients affects decreasing of the variance (shrinking coefficients to zero) and feature selection (setting zero for some coefficients). Feature selection via regularized linear models is preferred over popular wrapper methods in high dimension due to less computational burden as well as due to the fact that it is less prone to overfitting. However, estimated coefficients (and as a result quality of the model) depend on tuning parameters. Using model selection criteria available in R implementation does not guarantee that optimal model will be chosen. Having done simulation study we propose to use EDC criterion as an alternative.
PL
W ostatnich latach można zaobserwować dynamiczny rozwój różnych postaci regularyzacji w modelach liniowych. Wprowadzenie kary za duże wartości współczynników skutkuje zmniejszeniem wariancji (wartości współczynników są ,,przyciągane” do zera) oraz eliminacją niektórych zmiennych (niektóre współczynniki się zerują). Selekcja zmiennych za pomocą regularyzowanych modeli liniowych jest w problemach wielowymiarowych preferowana wobec popularnego podejścia polegającego na przeszukiwaniu przestrzeni cech i ocenie podzbiorów zmiennych za pomocą kryterium jakości modelu (wrappers). Przyczyną są mniejsze koszty obliczeń i mniejsza podatność na nadmierne dopasowanie. Jednakże wartości estymowanych współczynników (a więc także jakość modelu) zależą od parametrów regularyzacji. Zaimplementowane w tym celu w programie R kryteria jakości modelu nie gwarantują wyboru modelu optymalnego. Na podstawie przeprowadzonych symulacji w artykule proponuje się zastosowanie kryterium EDC.
EN
Regression methods are used for the valuation of real estate in the comparative approach. The basis for the valuation is a data set of similar properties, for which sales transactions were concluded within a short period of time. Large and standardized databases, which meet the requirements of the Polish Financial Supervision Authority, are created in Poland and used by the banks involved in mortgage lending, for example. We assume that in the case of large data sets of transactions, it is more advantageous to build local regression models than a global model. Additionally, we propose a local feature selection via regularization. The empirical research carried out on three data sets from real estate market confirmed the effectiveness of this approach. We paid special attention to the model quality assessment using cross-validation for estimation of the residual standard error.
EN
In this paper, results of dimension reduction in feature space for thyroid ultrasound images using the heuristic identification of noisy variables, testing the significance of correlation coefficients and the method of Hellwig index of information capacity, have been compared. The best results were achieved using the Hellwig method. It enabled us to choose only 3 features from a large set of 283 discriminant ones. Classifiers built on the basis of this reduced set of features have the highest classification sensitivity (0,82) and the highest classification specificity (0,83 ) in comparison to other reduced datasets that we used in our research. Results showed that the Hellwig method can be used as an effective process for dimension reduction in feature space in classification of thyroid ultrasound images.
PL
W pracy porównano wyniki redukcji wymiaru przestrzeni cech dla obrazów USG tarczycy, uzyskane za pomocą heurystycznej identyfikacji zmiennych zakłócających (HINoV), testowania istotności współczynników korelacji oraz metody wskaźników pojemności informacyjnej Hellwiga. Najlepsze efekty uzyskano za pomocą metody Hellwiga, która pozwoliła wybrać tylko 3 cechy z pełnego zbioru liczącego 283 cech dyskryminacyjnych. W porównaniu z innymi, zredukowanym zbiorami danych, które wykorzystywane były w badaniach, klasyfikatory zbudowane na podstawie tych trzech cech mają największą wrażliwość (0,82) oraz specyficzność (0,83) klasyfikacji. Badania wykazały, że metoda Hellwiga może być stosowana jako skuteczny sposób zmniejszania wymiaru danych w klasyfikacji obrazów USG tarczycy, mającej na celu rozpoznawanie choroby Hashimoto.
PL
W artykule podjęto dyskusję nad aspektem przeszukiwania w metodach selekcji zmiennych. Posłużono się znanym z literatury przykładem szachownicy, gdzie zmienne, które indywidualnie nie mają mocy dyskryminacyjnej (mają jednakowe rozkłady w klasach) mogą rozpinać przestrzeń, w której klasy są dobrze separowalne. Uogólniając ten przykład wygenerowano zbiór z trójwymiarową strukturą szachownicy i zmiennymi zakłócającymi, a następnie zweryfikowano metody selekcji zmiennych. Rozważono też możliwość zastosowania analizy skupień jako narzędzia wspomagającego etap dyskryminacji.
EN
Feature selection methods are usually classified into three groups: filters, wrappers and embedded methods. The second important criterion of their classification is an individual or multivariate approach to evaluation of the feature relevance. The chessboard problem is an illustrative example, where two variables which have no individual influence on the dependent variable can be essential to separate the classes. The classifiers which deal well with such data structure are sensitive to irrelevant variables. The generalization error increases with the number of noisy variables. We discuss the feature selection methods in the context of chessboard-like structure in the data with numerous irrelevant variables.
11
Content available remote

The Problem of Redundant Variables in Random Forests

51%
PL
Lasy losowe są obecnie jedną z najchętniej stosowanych przez praktyków metod klasyfikacji wzorcowej. Na jej popularność wpływ ma możliwość jej stosowania bez czasochłonnego, wstępnego przygotowywania danych do analizy. Las losowy można stosować dla różnego typu zmiennych, niezależnie od ich rozkładów. Metoda ta jest odporna na obserwacje nietypowe oraz ma wbudowany mechanizm doboru zmiennych. Można jednak zauważyć spadek dokładności klasyfikacji w przypadku występowania zmiennych redundantnych. W artykule omawiane są dwa podejścia do problemu zmiennych redundantnych. Rozważane są dwa sposoby przeszukiwania w podejściu polegającym na doborze zmiennych oraz dwa sposoby konstruowania zmiennych syntetycznych w podejściu wykorzystującym grupowanie zmiennych. W eksperymencie generowane są liniowo zależne predyktory i włączane do zbiorów danych rzeczywistych. Metody redukcji wymiarowości zwykle poprawiają dokładność lasów losowych, ale żadna z nich nie wykazuje wyraźnej przewagi.
EN
Random forests are currently one of the most preferable methods of supervised learning among practitioners. Their popularity is influenced by the possibility of applying this method without a time consuming pre‑processing step. Random forests can be used for mixed types of features, irrespectively of their distributions. The method is robust to outliers, and feature selection is built into the learning algorithm. However, a decrease of classification accuracy can be observed in the presence of redundant variables. In this paper, we discuss two approaches to the problem of redundant variables. We consider two strategies of searching for best feature subset as well as two formulas of aggregating the features in the clusters. In the empirical experiment, we generate collinear predictors and include them in the real datasets. Dimensionality reduction methods usually improve the accuracy of random forests, but none of them clearly outperforms the others.
PL
Analiza dyskryminacyjna to jedna z metod umożliwiających klasyfikację obserwacji do jednej z predefiniowanych klas na podstawie wartości pomierzonych cech. Celem krokowej analizy dyskryminacyjnej (KAD) jest wybór podzbioru cech wejściowych przy zachowaniu możliwie dużej mocy dyskryminacyjnej. Zmniejszenie wymiarowości wejściowej przestrzeni cech jest konieczne z wielu powodów. W istniejących na rynku, komercyjnych pakietach do obliczeń statystycznych, KAD bazuje na klasycznych metodach selekcji cech. Metody te generują wiele problemów. W prezentowanej pracy zostanie przedstawiona alternatywna metoda wykorzystująca metaheurystykę przeszukiwania z tabu. Wyniki eksperymentalne na wzorcowych zbiorach danych są obiecujące.
EN
Discriminant Analysis can best be defined as a technique which allows the classification of an individual into several dictinctive populations on the basis of a set of measurements. Stepwise discriminant analysis (SDA) is concerned with selecting the most important variables whilst retaining the highest discrimination power possible. The process of selecting a smaller number of variables is often necessary for a variety number of reasons. In the existing statistical software packages SDA is based on the classic feature selection methods. Many problems with such stepwise procedures have been identified. In this work the new method based on the metaheuristic strategy tabu search will be presented together with the experimental results conducted on the selected benchmark datasets. The results are promising.
PL
Analiza sentymentu, czyli wydźwięku emocjonalnego, dokumentów tekstowych stanowi bardzo ważną część współczesnej eksploracji tekstu (ang. text mining). Celem artykułu jest przedstawienie nowej techniki analizy sentymentu tekstu, która może znaleźć zastosowanie w dowolnej metodzie klasyfikacji dokumentów ze względu na ich wydźwięk emocjonalny. Proponowana technika polega na niezależnym od klasyfikatora doborze cech, co skutkuje zmniejszeniem rozmiaru ich przestrzeni. Zaletami tej propozycji są intuicyjność i prostota obliczeniowa. Zasadniczym elementem omawianej techniki jest nowatorski algorytm ustalania liczby terminów wystarczających do efektywnej klasyfikacji, który opiera się na analizie korelacji pomiędzy pojedynczymi cechami dokumentów a ich wydźwiękiem. W celu weryfikacji przydatności proponowanej techniki zastosowano podejście statystyczne. Wykorzystano dwie metody: naiwny klasyfikator Bayesa i regresję logistyczną. Za ich pomocą zbadano trzy zbiory dokumentów składające się z 1169 opinii klientów jednego z banków działających na terenie Polski uzyskanych w 2020 r. Dokumenty zostały napisane w języku polskim. Badanie pokazało, że kilkunastokrotne zmniejszenie liczby terminów przy zastosowaniu proponowanej techniki na ogół poprawia jakość klasyfikacji.
EN
Sentiment analysis of text documents is a very important part of contemporary text mining. The purpose of this article is to present a new technique of text sentiment analysis which can be used with any type of a document-sentiment-classification method. The proposed technique involves feature selection independently of a classifier, which reduces the size of the feature space. Its advantages include intuitiveness and computational noncomplexity. The most important element of the proposed technique is a novel algorithm for the determination of the number of features to be selected sufficient for the effective classification. The algorithm is based on the analysis of the correlation between single features and document labels. A statistical approach, featuring a naive Bayes classifier and logistic regression, was employed to verify the usefulness of the proposed technique. They were applied to three document sets composed of 1,169 opinions of bank clients, obtained in 2020 from a Poland-based bank. The documents were written in Polish. The research demonstrated that reducing the number of terms over 10-fold by means of the proposed algorithm in most cases improves the effectiveness of classification.
first rewind previous Page / 1 next fast forward last
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.