Search results

1

An Influence of Classification Method on Efficiency of Modified Synthetic Estimator

100%

Jurkiewicz T., Najman K., University of Gdańsk D. o. S.

Acta Universitatis Lodziensis. Folia Oeconomica

|

2006

|

vol. 196

EN

The problem of insufficient number of sample observations representing a given population domain of interest (small area) can be solved by applying such estimators, which will be able to combine sample information from the given domain with information about sample units representing other domains. One small area estimation method, called synthetic estimation technique, assumes that the distribution of the variable of interest is identical in the given domain and in the entire population. This assumption, however, is rarely met, and as a result one obtains large estimation errors. In this paper a two-stage estimation procedure is suggested. The first stage consist in applying various classification methods to identify the degree of similarity between the sample units from the investigated domain and sample units representing other domains. In the second stage, those domains, which turned out to be similar to the domain of interest or sample units similar to units from domain of interest, are used to provide sample information with specially constructed weights. Authors present the results of the suggested procedure in an analysis of the continuing vocational training in construction industry based on a sample survey of enterprises. A bootstrap attempt has been made to assess errors of the suggested estimation procedure.

PL

Problem zbyt małej liczby obserwacji w próbie, reprezentującej określoną domenę populacji, może być rozwiązany m. in. poprzez estymatory wykorzystujące informacje o innych jednostkach w próbie. Jedna z metod estymacji dla małych domen, zwana estymacją syntetyczną, zakłada, że rozkład w badanej małej domenie jest identyczny z rozkładem całej populacji. Założenie to pozostaje zazwyczaj niespełnione, zwłaszcza w przypadku specyficznych domen, co skutkuje dużymi błędami estymacji. Problem niespełnienia założeń estymacji syntetycznej może być rozwiązany poprzez zastosowanie dwuetapowego procesu estymacji. W pierwszym etapie za pomocą metod analizy wielowymiarowej, np. za pomocą metody klasyfikacji k-średnich, badania odległości czy też wykorzystując sieci neuronowe typu SOM, określa się podobieństwa domen lub jednostek należących do małej domeny do jednostek z pozostałej części próby. Drugim krokiem jest wykorzystanie w estymacji, za pomocą odpowiednio skonstruowanych wag, informacji tylko o tych jednostkach lub z tych domen, które są podobne do badanej małej domeny. W artykule autorzy przedstawiają rezultaty zastosowanej metody na przykładzie badania reprezentacyjnego kształcenia ustawicznego w branży budowlanej. Za pomocą metod bootsrtrapowych dokonano oceny wpływu stosowania różnych metod badania podobieństw między jednostkami na własności modyfikowanego estymatora syntetycznego.

2

Proposition of Applying k-Means Classification Method and the SOM Type Neural Network to Improve the Efficiency of Small Domains Estimation in a Representative Study of Small and Medium-Sized Enterprises

100%

Jurkiewicz T., Najman K., University of Gdańsk C. o. S.

Acta Universitatis Lodziensis. Folia Oeconomica

|

2005

|

vol. 194

PL

Problem zbyt małej liczby obserwacji w próbie, reprezentującej określoną domenę populacji, może być rozwiązany między innymi poprzez zastosowanie takich estymatorów, które do szacowania parametrów w określonej supopulacji (małym obszarze, domenie) mogłyby wykorzystać informacje o innych jednostkach w próbie, które pochodzą spoza określonej części populacji. Jedna z metod estymacji dla małych domen zwana estymacją syntetyczną zakłada, że rozkład w badanej małej domenie jest identyczny z rozkładem całej populacji. Założenie to pozostaje zazwyczaj niespełnione, zwłaszcza w przypadku specyficznych domen, co skutkuje dużymi błędami estymacji. Autorzy przedstawiają propozycję dwuetapowego procesu estymacji. W pierwszym etapie za pomocą sieci neuronowych typu SOM oraz za pomocą metody klasyfikacji k-średnich określa się podobieństwa jednostek należących do małej domeny do jednostek z pozostałej części próby. Drugim krokiem jest wykorzystanie w estymacji, za pomocą odpowiednio skonstruowanych wag, informacji tylko z tych domen, które są podobne do badanej małej domeny. Autorzy przedstawiają rezultaty zastosowania podanej procedury w analizie branży budowlanej na podstawie wyników reprezentacyjnego badania małych i średnich przedsiębiorstw. Podjęli także próbę oszacowania błędów tak zmodyfikowanej metody estymacji syntetycznej.

EN

The problem of a too small number of observations of a sample, representing a defined domain of a population may be solved inter alia thanks to the application of estimators which would use information about other components of the sample (derived from outside the defined part of the population) to estimate parameters in a given subpopulation (small area, domain). One of estimation methods for small domains - the synthetic estimation - assumes, that the distribution of the studied small domain is identical with the distribution of the whole population. This assumption remains usually unfulfilled, in particular in case of specific domains, what results in large estimation errors. The authors present a proposition of two-stage estimation process. In the first stage, using the SOM-type neural networks and using the k-means classification method the similarity of components belonging to the small domain with the components belonging to the remaining part of the sample is determined. The second step consists in using the information only from those domains, which are similar to the studied small domain with the help of appropriately construed weights. Authors present the results of the above procedure in the analysis of the building industry on the basis of a representative study of small and medium-sized enterprises. They have also undertaken an attempt to estimate the errors of the synthetic estimation method modified in such a way.

3

Profilowanie, oczyszczanie i zapobieganie powstawaniu dirty data

100%

Migdał-Najman K., Najman K.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

|

2018

|

issue 508

146-156

PL

Zbiory Big Data oferują dostęp do niemal nieograniczonej liczby danych, dając nadzieję na szybszy, tańszy, bardziej precyzyjny i wszechstronny opis świata. Jednocześnie w takich zbiorach poza danymi o odpowiedniej jakości (clear data) znaczny udział mają dane nieprawdziwe, nieaktualne, zaszumione, często zwielokrotnione, niepełne lub błędne (dirty data), a także dane o nieznanej jakości czy użyteczności (dark data). Znaczący udział dirty i dark data ma szereg negatywnych konsekwencji w analizie zbioru Big Data. Celem prezentowanych badań jest przegląd i systemowe ujęcie procedur minimalizowania negatywnych efektów dirty data w analizie Big Data. W konstrukcji systemu oczyszczania zbioru danych uwzględniono najważniejsze procedury profilowania (profiling data), oczyszczania (cleansing data) i zapobiegania (defect prevention) powstawaniu dirty data w procesie budowy i analizy zbioru Big Data

Refine search results

2 Acta Universitatis Lodziensis. Folia Oeconomica

1 Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu

3 Najman K.

2 Jurkiewicz T.

1 Migdał-Najman K.

1 University of Gdańsk C. o. S.

1 University of Gdańsk D. o. S.

1 2018

1 2006

1 2005

An Influence of Classification Method on Efficiency of Modified Synthetic Estimator

Proposition of Applying k-Means Classification Method and the SOM Type Neural Network to Improve the Efficiency of Small Domains Estimation in a Representative Study of Small and Medium-Sized Enterprises

Profilowanie, oczyszczanie i zapobieganie powstawaniu dirty data