Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

Results found: 4

first rewind previous Page / 1 next fast forward last

Search results

Search:
in the keywords:  dobór zmiennych
help Sort By:

help Limit search:
first rewind previous Page / 1 next fast forward last
PL
Wybór metody jest elementem decydującym o pomyślności procesu modelowania, choć jakość i dobór informacji wykorzystanych przy budowie modelu automatycznego uczenia się wydają się co najmniej tak samo ważne. Mimo zautomatyzowanego mechanizmu uczenia nie wystarczy do zbioru uczącego wrzucenie wszystkich danych, jakimi dysponujemy. Konieczne jest dostarczenie informacji istotnych. Jedną z możliwości jest dobór zmiennych do modelu. Inną jest ich przekształcanie. W artykule przedstawiono procedurę łączącą te dwa podejścia – wyodrębnianie zmiennych z wielowarstwowych sieci neuronowych jako metodę doboru zmiennych do modeli budowanych innymi metodami wielowymiarowej analizy statystycznej. Celem artykułu jest zbadanie, jak takie podejście wpływa na zdolności predykcyjne modeli. Pokazano, że technikę tę należy traktować jako jedną z metod wstępnego przetwarzania danych, którą warto wypróbować, bo może prowadzić do polepszenia zdolności predykcyjnych modelu końcowego, choć tego nie gwarantuje
PL
Ważnym etapem budowy klasyfikatora jest dobór zmiennych. W metodzie k najbliższych sąsiadów, wrażliwej na zmienne nieistotne, etap ten jest niezbędny do uzyskania większej dokładności klasyfikacji. Metody doboru zmiennych, które także wykorzystują najbliższe sąsiedztwo, dokonują lokalnej oceny mocy dyskryminacyjnej zmiennych i zarazem reprezentują podejście wielowymiarowe. Część z nich wykorzystuje pojęcie marginesu (margin), definiując za jego pomocą funkcję celu i formułując zadanie ważenia zmiennych jako zadanie optymalizacji. W artykule porównano trzy algorytmy z tej grupy metod ze względu na zdolność identyfikacji zmiennych nieistotnych, dokładność klasyfikacji oraz czas pracy. Zweryfikowano też dwie własne propozycje modyfikacji. W badaniach wykorzystano zbiory danych rzeczywistych z dołączonymi zmiennymi nieistotnymi, które reprezentowały różne rozkłady, niezależne od klas.
PL
Inwestycje w struktury informatyczne firm zaowocowały niespotykanym wzrostem posiadanych danych. Ten olbrzymi przyrost danych gromadzony praktycznie w każdym aspekcie dziedziny życia doprowadził do wzrostu zainteresowania metodami wydobywania informacji, wiedzy czy zależności. Przeprowadzając rozmyślania w kategorii analityki danych prawie zawsze należy dokonać wyboru zmiennych tak, aby każdy model w swojej końcowej postaci jak najprecyzyjniej odzwierciedlał rozważany proces. W artykule tym przedstawione zostaną najczęściej stosowane metody doboru zmiennych do modelu. Proces ten jest jednym z etapów budowy modelu i od jego przebiegu zależy w dużym stopniu końcowy efekt działania modelu.
EN
Investments in IT structures of companies resulted in an unprecedented increase in the collected data. This enormous increase in data collected in practically every aspect of the sphere of life has led to an increased interest in the methods of extracting information, knowledge and dependencies. When thinking about data analytics, you should almost always select the data so that each model in its final form reflects the process under study as accurately as possible. In this article, the most common methods of selecting variables for the model will be presented. This process is one of the stages of model building and the final effect of the model to a large extent depends on its course.
4
Content available remote

The Problem of Redundant Variables in Random Forests

71%
PL
Lasy losowe są obecnie jedną z najchętniej stosowanych przez praktyków metod klasyfikacji wzorcowej. Na jej popularność wpływ ma możliwość jej stosowania bez czasochłonnego, wstępnego przygotowywania danych do analizy. Las losowy można stosować dla różnego typu zmiennych, niezależnie od ich rozkładów. Metoda ta jest odporna na obserwacje nietypowe oraz ma wbudowany mechanizm doboru zmiennych. Można jednak zauważyć spadek dokładności klasyfikacji w przypadku występowania zmiennych redundantnych. W artykule omawiane są dwa podejścia do problemu zmiennych redundantnych. Rozważane są dwa sposoby przeszukiwania w podejściu polegającym na doborze zmiennych oraz dwa sposoby konstruowania zmiennych syntetycznych w podejściu wykorzystującym grupowanie zmiennych. W eksperymencie generowane są liniowo zależne predyktory i włączane do zbiorów danych rzeczywistych. Metody redukcji wymiarowości zwykle poprawiają dokładność lasów losowych, ale żadna z nich nie wykazuje wyraźnej przewagi.
EN
Random forests are currently one of the most preferable methods of supervised learning among practitioners. Their popularity is influenced by the possibility of applying this method without a time consuming pre‑processing step. Random forests can be used for mixed types of features, irrespectively of their distributions. The method is robust to outliers, and feature selection is built into the learning algorithm. However, a decrease of classification accuracy can be observed in the presence of redundant variables. In this paper, we discuss two approaches to the problem of redundant variables. We consider two strategies of searching for best feature subset as well as two formulas of aggregating the features in the clusters. In the empirical experiment, we generate collinear predictors and include them in the real datasets. Dimensionality reduction methods usually improve the accuracy of random forests, but none of them clearly outperforms the others.
first rewind previous Page / 1 next fast forward last
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.