Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

Results found: 6

first rewind previous Page / 1 next fast forward last

Search results

help Sort By:

help Limit search:
first rewind previous Page / 1 next fast forward last
1
Content available remote

Ułomności edukacji statystycznej - uwagi i refleksje

100%
EN
The proper understanding of commonly used statistic information and the ability to present the data describing the occurring phenomena belong currently to the most wanted competences of the citizens who are aware of their role in the society. The article presents the most significant problems of statistics education in secondary schools and in higher education and reveals the results of the negligence in this area, which become evident in one's adult life. The article was motivated by the authors experiences and observations gathered during evaluating the papers for the competition about statistics and diploma works.
EN
The most important methods of assessing information loss caused by statistical disclosure control (SDC) are presented in the paper. The aim of SDC is to protect an individual against identification or obtaining any sensitive information relating to them by anyone unauthorised. The application of methods based either on the concealment of specific data or on their perturbation results in information loss, which affects the quality of output data, including the distributions of variables, the forms of relationships between them, or any estimations. The aim of this paper is to perform a critical analysis of the strengths and weaknesses of the particular types of methods of assessing information loss resulting from SDC. Moreover, some novel ideas on how to obtain effective and well-interpretable measures are proposed, including an innovative way of using a cyclometric function (arcus tangent) to determine the deviation of values from the original ones, as a result of SDC. Additionally, the inverse correlation matrix was applied in order to assess the influence of SDC on the strength of relationships between variables. The first presented method allows obtaining effective and well- -interpretable measures, while the other makes it possible to fully use the potential of the mutual relationships between variables (including the ones difficult to detect by means of classical statistical methods) for a better analysis of the consequences of SDC. Among other findings, the empirical verification of the utility of the suggested methods confirmed the superiority of the cyclometric function in measuring the distance between the curved deviations and the original data, and also heighlighted the need for a skilful correction of its flattening when large value arguments occur.
PL
W pracy omówiono najważniejsze metody, za pomocą których można ocenić stratę informacji spowodowaną przeprowadzaniem kontroli ujawniania danych (ang. statistical disclosure control, SDC). Kontrola ta ma na celu ochronę przed identyfikacją jednostki i dotarciem do dotyczących jej wrażliwych informacji przez osoby nieupoważnione. Zastosowanie metod zarówno opartych na ukrywaniu określonych danych, jak i prowadzących do ich zniekształcania powoduje stratę informacji, która ma wpływ na jakość danych wynikowych, w tym rozkładów zmiennych, kształt ich związków oraz estymacji. Celem artykułu jest krytyczna analiza mocnych i słabych stron metod oceny straty informacji na skutek zastosowania SDC. Przedstawiono również nowatorskie propozycje prowadzące do uzyskania efektywnych i dobrze interpretowalnych mierników, m.in. nową możliwość wykorzystania funkcji cyklometrycznej (arcus tangens) do wyznaczenia odchylenia wartości od tych oryginalnych po przeprowadzeniu SDC. Ponadto zastosowano odwróconą macierz korelacji do oceny wpływu SDC na siłę związków między zmiennymi. Pierwsza z przedstawionych metod umożliwia uzyskanie efektywnych i dobrze interpretowalnych mierników, druga – maksymalne wykorzystanie wzajemnych powiązań między zmiennymi (także tych trudno uchwytnych za pomocą klasycznych metod statystycznych) w celu lepszej analizy skutków kontroli w tym zakresie. Empiryczna weryfikacja użyteczności sugerowanych metod potwierdziła m.in. przewagę funkcji cyklometrycznej w pomiarze odległości w zakresie uwypuklania odchyleń od danych oryginalnych, a także potrzebę umiejętnej korekcji jej spłaszczenia przy dużej wartości argumentów.
EN
When faced with missing data in a statistical survey or administrative sources, imputation is frequently used in order to fill the gaps and reduce the major part of bias that can affect aggregated estimates as a consequence of these gaps. This paper presents research on the efficiency of model-based imputation in business statistics, where the explanatory variable is a complex measure constructed by taxonomic methods. The proposed approach involves selecting explanatory variables that fit best in terms of variation and correlation from a set of possible explanatory variables for imputed information, and then replacing them with a single complex measure (meta-feature) exploiting their whole informational potential. This meta-feature is constructed as a function of a median distance of given objects from the benchmark of development. A simulation study and empirical study were used to verify the efficiency of the proposed approach. The paper also presents five types of similar techniques: ratio imputation, regression imputation, regression imputation with iteration, predictive mean matching and the propensity score method. The second study presented in the paper involved a simulation of missing data using IT business data from the California State University in Los Angeles, USA. The results show that models with a strong dependence on functional form assumptions can be improved by using a complex measure to summarize the predictor variables rather than the variables themselves (raw or normalized).
PL
Artykuł prezentuje rezultaty eksperymentu symulacyjnego zastosowanego do oszacowania jakości estymacji danych o dojazdach do pracy na podstawie informacji z badania reprezentacyjnego przeprowadzonego podczas Narodowego Spisu Powszechnego Ludności i Mieszkań w 2011 r. (NSP 2011). Do analizy wykorzystano metodę bootstrapową polegającą na wielokrotnych losowaniach z powtórzeniami próbek z wyjściowej próby reprezentacyjnej i badaniu rozkładu uzyskiwanych dla nich wartości szacowanych parametrów. Szacunki wykonano stosując estymator bezpośredni Horvitza-Thompsona z wagami kalibracyjnymi oraz warstwami zdefiniowanymi w tymże spisie. Na podstawie zawartych w literaturze przedmiotu sugestii ustalono optymalne rozmiary i liczebności prób oraz dokonano obliczeń względnego średniego kwadratu błędu, obciążenia względnego oraz empirycznego obciążenia względnego dla estymacji różnych wartości wyrażonych w liczbach bezwzględnych według kategorii i województw w ujęciu ogółem i według płci. Na tej podstawie sformułowano wnioski praktyczne.
EN
This paper is devoted to a presentation of results of simulation experiment aimed at assessment of estimation quality of data on commuting to work on the basis of information collected during sample survey conducted within the National Population and Housing Census 2011. The analysis uses the bootstrap method consisting in multiple sampling with replacement of samples from a given ’starting’ sample and studying distribution of values of parameter of interest estimated for them. The generalization was conducted using Horvitz-Thompson direct estimator with calibration weights computed by working subgroup for statistical and mathematical methods for censuses within the 2011 Census project and strata defined for such census. On the basis of suggestions contained in subject matter literature sizes and number of bootstrap samples were established and computation of relative mean squared error, relative bias and empirical relative bias for estimation of various values expressed in absolute numbers and percentage by categories and voivodships for each analyzed sample as total and by sex. Using the results relevant practical conclusions were formulated.
RU
Статья представляет результаты моделированного эксперимента использованного для оценки качества данных (предварительного рассчета данных) о проездах на работу на основе информаций полученных в выборочном обследовании проводимым во время Всеобщей переписи населения и квартир в 2011 г. Для анализа был использован метод Бутстрап заключающийся в многократых случайных выборках с повторением выборок из исходной выборки и в анализе распределения полученных для них значений оцененых параметров. Оценки были провeдены с использованием прямой оценки Horvitza-Thompsona c калибровочными весами и определенными слоями в этой же переписи. На основе предложений в литературе были проведены и установлены оптимальные размеры и объем выборок, а также были сделаны расчеты относительного среднего квадрата ошибки, относительной нагрузки и эмпирической относительной нагрузки для оценки различных значений выраженных в абсолютных числах по категориям и воеводствам в общем подходе и по полу. На этой основе были сформулированы практические выводы.
first rewind previous Page / 1 next fast forward last
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.