Przedstawiono początki statystyki polskiej z okresu Oświecenia, pierwsze instytucje statystyczne oraz sylwetki twórców pierwszych prac z rachunku prawdopodobieństwa.
Przedstawiono dokonania najwybitniejszych statystyków polskich z okresu międzywojnia oraz lat 1945-2000. Dokonania twórców okresu pierwszego przedstawiono w podziale według trzech następujących kierunków badań: badania w zakresie zjawisk społeczno-demograficznych, zjawisk społeczno-ekonomicznych jak również badania z zakresu teorii prawdopodobieństwa oraz statystyki matematycznej. Okres po II wojnie światowej przedstawia dokonania twórców podejmujących na gruncie statystyki nowe, z czasem wyodrębnione jako oddzielne dyscypliny, do których autor zalicza: ekonometrię, programowanie matematyczne, teorię podejmowania decyzji, teorię prognozy i demografię. Przedstawiono także czasopisma statystyczne.
In the paper the problem of prediction of a time series is considered. Time series observations can be measured on order scale. On the basis of observed ranks of values of the variables observed in the past periods a forecast of the rank of the observation in the future period is determined. The proposed method results from the derivation of the distribution of the well known Kendall's rank coefficient. The paper was inspired by a lecture of Jean H.P. Paelinck who gave it at the University of Economics in Katowice when he received the title of doctor honoris causa of the University in 1987.
W części pierwszej, wykorzystując metodę "słupkową", zaproponowano modyfikację testu niezależności dwóch cech polegającą na zastosowaniu statystyki nazwanej "modułową" jako miary rozbieżności pomiędzy rozkładem zaobserwowanym a hipotetycznym. W rozdziale drugim tego opracowania dla proponowanej statystyki modułowej podano wartości krytyczne |X|α według różnej liczebności próby na poziomie istotności α∈{0,01; 0,05; 0,1} (...). W części trzeciej zbadano zdolność tablicy dwudzielczej do wykrywania związku między cechami, określaną jako moc testu oraz porównano uzyskane wyniki z mocą testu niezależności wykorzystującego statystykę X2 z (k-1)(w-1) stopniami swobody. W części ostatniej dokonano sprawdzenia, czy rozkład omawianych w pracy miar rozbieżności tablic dwudzielczych jest zgodny z rozkładem teoretycznym, jakim jest rozkład chi-kwadrat o (w - 1)(k -1) stopniach swobody. (fragment tekstu)
This paper proposes a modification of the classic test of independence chi-square involving the use of modular statistics, as a measure of discrepancy between the observed and hypothetical distribution. Module statistics differs from Pearson chi-square statistics that deviation square of the theoretical and expected empirical probability is replaced by absolute value. For the proposed statistics is given the critical value |X|α by different size samples of significance α∈{0,01; 0,05; 0,1}. The ability of two-part tables was examined to detect a relationship between characteristics, defmed as the power of the test as well as the results were compared with the power of the test of independence, using statistics by X2 z (k -1)(w -1) degrees of freedom. The Author examined whether the distribution of discrepancy measurements of two-part tables is con-sistent with the theoretical distribution of chi-square by X2 z (k-1)(w-1) degrees of freedom. Their usefulness in statistical practice was indicated too. (original abstract)
Celem artykułu jest sprawdzenie właściwości statystycznych testu Jarque-Bera, szczególnie w sytuacji występowania obserwacji nietypowych.
The article analyses statistical properties of Jarque-Bera normality test. The analysis is accomplished with the use of simulation technique. It is shown that under normal distribution assumption of random variable, the Jarque-Bera test has good statistical properties. However, in the presence of outliers, the power of the test is low.
Artykuł poświęcony jest tablicom dwudzielczym, które są zaliczane do narzędzi statystycznych. Zaproponowano w nim metodę generowania tablic dwudzielczych o rozmiarach iarach (w× k) zwaną metodą „słupkową”. Wykorzystując implementację komputerową testu niezależności dwóch cech, zbadano zdolność tablicy dwudzielczej do wykrywania związku między badanymi cechami oraz obliczono jego siłę wykorzystując współczynnik Cramera. Porównano rzeczywisty rozkład miary rozbieżności dla tablic dwudzielczych z rozkładem teoretycznym, jakim jest rozkład chi-kwadrat o (w −1)(k −1) stopniach swobody. Podjęto próbę odpowiedzi na pytanie, jaki wpływ mają rozmiary tablicy dwudzielczej na zgodność z rozkładem teoretycznym. (abstrakt oryginalny)
This article focuses on bipartite tables, which belong to the statistical tools. The author proposed the method of bipartite tables' generation of(w x k) size named "column " method. By using computer implementation of two independent features' test, the bipartite table capacity to detect relationship between variables was tested and its capacity by use of Cramer coefficient was calculated. The real distribution of discrepancy measure for the bipartite tables was compared with the theoretical distribution, which is chi-square of (w-l)(k-l) degrees of freedom. The author of this article tried to answer on question: what is the influence of bipartite table sizes on its consistency with theoretical distribution. (original abstract)
W artykule przedstawiono niektóre praktyczne zagadnienia wykorzystania efektu schematu w złożonych badaniach gospodarstw domowych w kilku krajach będących w okresie transformacji oraz zilustrowano sposób określenia potrzebnej liczebności próby w badaniu dwustopniowym, przy żądanej precyzji uzyskanych ocen.
W artykule podjęto próbę empirycznej weryfikacji hipotezy mówiącej o tym, że dominującym typem rozkładu zmiennych o charakterze ekonomicznym nie jest rozkład normalny, lecz rozkład charakteryzujący się silną asymetrią, w przeważających przypadkach asymetrią prawostronną. Przedmiotem analizy są zmienne i wskaźniki ekonomiczno-finansowe dotyczące przedsiębiorstw objętych sprawozdawczością GUS i występujących w 375 klasach EKD w latach 1996-1998. Poszczególne obserwacje zostały wyznaczone jako iloraz wartości zmiennej dla całej klasy EKD i liczby podmiotów sklasyfikowanych w danym rodzaju działalności.
W artykule przedstawiono tablicę trójdzielczą jako test niezależności chi-kwadrat wraz z jego implementacją komputerową w języku VBA. Zbadano też zdolność tablicy trójdzielczej do wykrywania związku między badanymi cechami, określaną jako moc testu. (fragment tekstu)
This paper discusses the theory of contingency tables with particular empha-sis on three-dimension-tables. Their use in statistical surveys is stressed in the article. The three-dimension-table is presented as a chi-square test of indepen-dence and its implementation in VBA (Visual Basic for Applications) language. In this way, users are provided ready-made procedures and functions for carry-ing out surveys in Microsoft Excel. It has been examined also the ability of the three-dimension-table to detect the relationship between the measured traits, referred to as the power of the test. (original abstract)
The paper focuses on latent class models and it's application for quantitative data. Latent class modeling is one of a multivariate analysis techniques of the contingency table and can be viewed as a special case of model-based clustering, for multivariate discrete data. It is assumed that each observation comes from one of a number of subpopulations, with its own probability distribution. We used latent class analysis for grouping and detecting inhomogeneities of Polish opinions on role of women in polish society. We analyzed data collected as part of the Polish General Social Survey (GSS) using poLCA package of R.
The literature proposes two basic statistical techniques: imputation and weighting. They mitigate the negative impact of non-response test results. One of the weighing methods, used by some foreign statistical offices, is calibration, which consists of correcting the output weights resulting from the sampling scheme using a variety of auxiliary variables. Calibration can also be used in the complete surveys, and the starting point in its practical application is to establish an appropriate baseline - artificial weights. This article presents an example of how to use the calibration approach. With it one can create contingency tables based on the data from complete surveys (censuses, administrative records). (original abstract)
The paper presents different definitions of outliers. We also collate selected outlier detection techniques, which represent very different approaches to outliers identification: classical univariate method embodied in boxplots, Andrews' curves, methods based on Cook's distance and Mahalonobis' distance, local outlier factor method, support vector machines. Moreover we empirically examine the agreement between the results of outlier detection methods on the benchmarking, real world dataset.
В обследовании независимости признаков в многоразделительных таб-лицах самым популярным является статистика χ2 Пирсона. Для много-разделительных таблиц существуют определенные ограничения в области возможностей использования статистики χ2 Пирсона, но во время бы-стро развивающегося компьютерного оборудования можно их отменить определяя критические значения с помощью компьютерного моделирова-ния генерируя содержание многоразделительных таблиц. Целью статьи является предоставление готовой компьютерной имплементации напи-санной в программе VBA (Visual Basic for Applications). Представленная теория касающаяся многоразделительных таблиц и анализ примеров позволят провести тесты независимости с использованием статистики χ2 Пирсона для любого числа объектов в отдельных местах многоразде-лительной таблицы
W badaniu niezależności cech w tablicach wielodzielczych najbardziej popularną jest statystyka χ2 Pearsona. Dla tablic wielodzielczych istnieją pewne ograniczenia, co do możliwości stosowania statystyki χ2 Pearsona, jednak w dobie szybko rozwijających się komputerów można je znieść wyznaczając wartości krytyczne przy pomocy symulacji komputerowej generując zawartość tablic wielodzielczych. Celem pracy jest dostarczenie czytelnikowi gotowej implementacji komputerowej napisanej w edytorze VBA (Visual Basic for Applications). Lektura przedstawionej teorii dotyczącej tablic wielodzielczych oraz analiza zamieszczonych przykładów pozwoli czytelnikowi na przeprowadzenie testów niezależności z wykorzystaniem statystyki χ2 Pearsona przy dowolnej liczebności obiektów w poszczególnych komórkach tablicy wielodzielczej.
In the study of the independence of characteristics in the multi-feature tables χ2 Pearson's statistics are the most popular. For multi-feature arrays, there are certain limitations as to the applicability of the χ2 Pearson's statistics, but in an era of rapidly developing computer setting can be abolished with the critical value of computer simulation to generate the contents of multi-feature tables. The aim of the study is to provide the reader with a ready computer implementation, written in VBA editor (Visual Basic for Applications). Reading the presented theory for multi-feature tables and analysis of the examples allow the reader to carry out independent tests using χ2 Pearson's statistics at any number of objects in each multi-feature table cells.
Estimation of the total value of fixed characteristic of interest in a finite population is considered for a complex sampling scheme featuring unknown inclusion probabilities. The general empirical Horvitz-Thompson statistic is adopted as an estimator for the unknown total. In the presence of additional knowledge on inclusion probabilities taking form of inequality constraints it is proposed to use the well-known kernel estimator for individual inclusion probabilities. For a fixed-cost sequential sampling scheme this leads to a new nonparametric empirical Horvitz-Thompson estimator of a total. Its properties are compared to known alternatives in a simulation study.
W artykule postawiono pytanie o zależności strukturalne pomiędzy gopodarką członków kartelu, jakim jest Organizacja Krajów Eksportujących Ropę Naftową (OPEC). Przedmiotem zainteresowania są zależności głębsze aniżeli wynikające wyłącznie z umów dotyczących handlu ropą naftową, gdyż obejmujące relacje pomiędzy zbiorami wielu zmiennych opisujących gospodarkę członków kartelu. Przeanalizowano 11 cech gospodarki państw OPEC w latach 1960-2002.
The article describes dependencies between economy of cartel on the base of 11-dimension time series representing countries associated in the OPEC organisation. To select dominant components for functioning an economy of mentioned-above countries a method of main components was applied. On the basis of results of the first components for particular countries these countries were grouped having regard to the Ward's method. Then surveyed dependencies between economy of representatives of selected groups of countries with using a canonical analyse. The article considers a dependency of generalised variance of correlation matrix of series representing economy of the state from the highest value of the matrix. This dependency interpreted in energetic categories. (original abstract)
Przedstawiono nowy sposób wyznaczania położenia punktów doświadczalnych na siatce rozkładu normalnego. Zbadano również właściwości estymatorów parametru skali i kształtu. Nowy sposób wyznaczania położenia punktów doświadczalnych jest lepszy od tradycyjnego. Różnica ta jest szczególnie widoczna dla małych liczności próbek.
W analizie skupień istnieje wiele różnych metod grupowania obiektów. Należy tu wymienić wskaźniki zaproponowane np. przez P. Jaccarda, W. M. Randa, P. Arabie i S. A. Boormana, E. B. Fowlkesa i C. L. Mallowsa, E. Nowaka, A. Sokołowskiego i Cz. Szmigla. Celem artykułu jest zaproponowanie wskaźnika S, kolejnego wskaźnika podobieństwa wyników grupowania obiektów. Omówiono jego własności oraz przedstawiono zastosowanie na kilku przykładach.
There are many similarity measures used in cluster analysis, like Rand, Jaccard, Szmigiel or Sokołowski coefficients. In this paper the Author presented another measure of classification partition. The value of the proposed S-indicator belongs to [0,1] interval. This depends on number of identical objects in comparative clusters as well as on number of clusters. This indicator can be used for comparison of different partitions, for example by different clustering methods, or by the same classification method if observations are from different periods S-indicator can be used to calculate similarity partition in two different sets. (original abstract)
In latent class analysis it is assumed that each observation comes from one of a number of classes (groups) and models each with its own probability distribution. When longitudinal data are to be analyzed, the research questions concern some form of change over time. Latent transition analysis (LTA) also known as latent Markov model, is a variation of the latent class model that is designed to model not only the prevalence of latent class membership, but the incidence of transitions over time in latent class membership. We used latent class analysis for grouping and detecting inhomogeneities of Polish attitude to saving money. We analyzed data collected as part of the Social Diagnosis, based on panel research using depmixS4 package of R.
The paper presents a short description of ridge regression and comparing the performance of this regression with some nonparametric methods of regression. The analysis was conducted with the use of simulation procedures on benchmarking data sets.
