Problem dotyczy oceny wartości średnie (globalnej) zmiennej w populacji ustalonej I skończonej. Zakład się, że z góry są znane w populacji wartości dodatniej zmiennej pomocniczej. Do estymacji użyto strategia kwantylowej zależnej m.in. od planu losowania proporcjonalnego do nieujemnej funkcji kwantyla z próby zmiennej pomocniczej. Ponadto, brano pod uwagę estymator Horvitza- Thompsona oraz estymator ilorazowy. Porównanie dokładności przeprowadzono na podstawie symulacji komputerowej.
Klasyczne metody pozwalające na monitorowanie poziomu przeciętnego procesów produkcyjnych odwołują się zwykle do założenia normalności rozkładu badanej zmiennej. Wynika to z faktu, że w konstrukcji kart kontrolnych Shewharta wykorzystuje się sekwencje testów parametrycznych, które wymagają spełnienia wspomnianego założenia. Stosowanie testów permutacyjnych nie wymaga spełnienia tak ostrych założeń. W artykule zaproponowano zastosowanie zamiast sekwencji testów parametrycznych sekwencji testów permutacyjnych. Zaproponowano konstrukcję karty kontrolnej wykorzystującej sekwencje testów permutacyjnych. Rozważania teoretyczne zostały uzupełnieniowe analizami symulacyjnymi. Analizy symulacyjne wykazały, że stosowanie proponowanej karty kontrolnej może być szczególnie przydatne dla prób o małych liczebnościach pochodzących z rozkładów o silnej asymetrii.
Podejście wielomodelowe dotychczas z dużym powodzeniem stosowane było w dyskryminacji w celu podniesienia dokładności klasyfikacji. W ostatnich latach analogiczne propozycje pojawiły się w taksonomii, aby zapewnić większą poprawność i stabilność wyników grupowania Liczne badania wykazały, że agregacja różniących się między sobą wyników wielokrotnego grupowania, pozwala na poprawę dokładności klasyfikacji. Stabilność algorytmu taksonomicznego w odniesieniu do niewielkich zmian w zbiorze danych, czy też parametrów algorytmu jest pożądaną cechą algorytmu. Z drugiej jednak strony, podejście wielomodelowe czerpie korzyści ze zróżnicowanych klasyfikacji składowych, których połączenie przynosi bardziej dokładne i stabilne rozwiązanie niż pojedynczy algorytm. Głównym punktem zainteresowania tego badania była stabilność w podejściu zagregowanym w taksonomii. Przeprowadzone badania empiryczne pokazały, że podejście zagregowane daje bardziej stabilne rezultaty niż pojedyncze algorytmy taksonomiczne oraz, że często wyższa stabilność idzie w parze z wyższą dokładnością klasyfikacji w podejściu zagregowanym.
Podejście wielomodelowe dotychczas z dużym powodzeniem stosowane było w klasyfika- cji i regresji w celu podniesienia dokładności predykcji. W ostatnich latach analogiczne propozy- cje pojawiły się także w taksonomii, a liczne badania wykazały, że agregacja różniących się między sobą wyników wielokrotnego grupowania, pozwala na poprawę dokładności klasyfikacji. W badaniu uwaga została skupiona na pozyskaniu dodatkowej informacji dostarczanej przez zbiór wyników wielokrotnie dokonanej klasyfikacji w celu konstrukcji tzw. macierzy współwystąpień. Biorąc pod uwagę jednoczesne wystąpienie pary obiektów w tej samej klasie jako wskazówkę istnienia związku między nimi, pierwotny zbiór obserwacji przekształcany jest w n × n – wymiarową macierz, która opisuje podobieństwo między obiektami. Ostateczne grupowanie dokonywane jest na podstawie uzyskanej macierzy współwystąpień. Celem referatu jest porównanie dokładności rozpoznawania poprawnej struktury klas za- proponowanego podejścia wielomodelowego z zastosowaniem różnych algorytmów taksonomicz- nych do konstrukcji macierzy współwystąpień oraz jej późniejszego podziału na klas
Jedną z popularnych metod wykorzystywania dostępnych informacji o wartościach cech pomocniczych do poprawy dokładności oszacowań wartości globalnej lub średniej w populacji jest losowanie prób z prawdopodobieństwami inkluzji pierwszego rzędu proporcjonalnymi do wartości cechy pomocniczej. Podejście takie prowadzi do konstrukcji rozmaitych schematów losowania, taich jak schemat Lahiriego-Midzuno, Hartleya-Rao, Rao-Harleya-Cochrana, Suntera, czy też Pareto. W niniejszym artykule zbadano empirycznie, jak zastosowanie ostatniego z wymienionych schematów losowania próby wpłynie na własności stochastyczne uzyskiwanych oszacowań innego parametru, a mianowicie kwantyla.
E-learning tools are an attractive and powerful new way in teaching statistics. There is a huge variety of web-based statistics resources available. The web-based systems contents combine text information, multimedia presentations, interactive demonstrations, on-line computer simulation and tests or quizzes systems. In the paper there are described tools for produce on-line teaching material. This web material represents a new approach to teach statistics in high schools. The web based multimedia presenta- tions, on-line activities, tests and quizzes could be used as a supplementary aid in learning statistics.
Ogólnie znany test zgodności chi-kwadrat jest wykorzystany do weryfikacji hipotezy o normalności rozkładu prawdopodobieństwa zmiennej losowej wielowymiarowej. Najczęściej cele testu konstruuje się w kształcie prostokątów. W artykule rozważono elipsoidy, których wspólny środek ma współrzędne wyznaczone przez oceny z próby wartości średnich zmiennych losowych. Analizę mocy testu przeprowadzono z wykorzystaniem symulacji komputerowej. Porównywano moc testu dla różnych liczebności próby oraz dla różnych od normalnego alterna- tywnych rozkładów prawdopodobieństwa. Przeprowadzono również porównanie z wielowymia- rowym testem Shapiro-Wilka.
Najczęściej w różnych analizach statystycznych wykorzystywane są klasyczne metody analizy skupień, opierające się na podejściu heurystycznym. W referacie zaprezentowane zostanie podejście modelowe w analizie skupień (model-based clustering), bazujące na modelach probabilistycznych. W części empirycznej referatu podejście to zostanie porównane z klasycznymi metodami taksonomicznymi (metodami hierarchicznymi oraz metodami iteracyjno- aglomeracyjnymi).
W pracy rozważa się predyktory wartości globalnej wykorzystujące do predykcji warto- ści globalnej w pewnym (obecnym, przeszłym a nawet przyszłym) okresie dane z innych okresów. Model nadpopulacji jest szczególnym przypadkiem ogólnego liniowego modelu mieszanego – jest to model z specyficznymi dla elementów populacji składnikami losowymi możliwy do zastoso- wania dla danych wielookresowych. Postać predyktora typu BLU wyprowadzono w oparciu o twierdzenie Royalla (1976) – szeroko stosowane w literaturze podejście Hendersona (1950) nie jest możliwe do zastosowania dla rozważanego modelu nadpopulacji. W rozważanym przypadku wyprowadzono postać MSE w oparciu o twierdzenie Royalla i zaproponowano jego estymatory wykorzystując rezultaty uzyskane przez Żądło (2007). W przypadku estymacji MSE rozważano dwie metody estymacji wariancji składników losowych – metodę największej wiarygodności oraz metodę największej wiarygodności z ograniczeniami. W analizie symulacyjnej uwzględniono problem dokładności predyktora oraz obciążeń estymatorów MSE dla różnych rozkładów składników losowych.
W opracowaniu jest analizowany problem predykcji frakcji i średniej w domenie z wykorzystaniem modeli nadpopulacji bez zmiennych dodatkowych uwzględniających podział populacji na warstwach. W rozważaniach symulacyjnych uwzględniono problem wpływu złej specyfikacji modelu nadpopulacji i szacowania liczebności populacji na dokładność predykcji.
Modele mieszanek, których składowe charakteryzowane są przez rozkłady prawdo- podobieństw (tzw. rozkłady składowe mieszanki) już od dawna znajdują swoje zastosowanie w taksonomii. Wedel i Kamakura (1995) przedstawili pojęcie modelu mieszanek w szerszym ujęciu – rozkłady składowe określone są za pomocą funkcji regresji lub uogólnionych modeli liniowych (GLM). Modele te znajdują zastosowanie przede wszystkim w badaniach marketingo- wych. W artykule przedstawiono charakterystykę modeli mieszanek, sposobów estymacji jej parametrów, wyboru stosownej liczby składników mieszanki, a także przykład wykorzystania modeli mieszanek do klasyfikacji krajów Unii Europejskiej.
Ensemble approach has been successfully applied in the context of supervised learning to increase the accuracy and stability of classification. Recently, analogous techniques for cluster analysis have been suggested in order to increase classification accuracy, robustness and stability of the clustering solutions. Research has proved that, by combining a collection of different clusterings, an improved solution can be obtained. The stability of a clustering algorithm with respect to small perturbations of data (e.g., data subsampling or small variations in the feature values) or the parameters of the algorithm (e.g., random initialization) is a desirable quality of the algorithm. On the other hand, ensembles benefit from diverse clusterers. Although built upon unstable components, the ensemble is expected to be more accurate and robust than the individual clustering method. Here, we look at the stability of the ensemble methods based on bagging idea and co-occurrence matrix. This paper carries out an experimental study to compare stability of bagging method used to the classical data set with bagging based on co-occurrence matrix.
The problem of modeling longitudinal profiles is considered assuming that the population and elements affiliation to subpopulations may change in time. The considerations are based on a model with auxiliary variables for longitudinal data with element and subpopulation specific random components (compare Verbeke, Molenberghs, 2000; Hedeker, Gibbons, 2006) which is a special case of the General Linear Model (GLM) the General Linear Mixed Model (GLMM). In the paper the pseudo-empirical best linear unbiased predictor (Pseudo-EBLUP) based on model-assisted approach will be presented along with its mean squared error (MSE) and its estimators. In the simulation study its accuracy will be compared with some calibration estimators which are based on model-assisted approach too.
The paper is devoted to the problem of generating sequences of binary vectors having joint distribution allowing for correlation between individual elements. A procedure for generating such a distribution from uncorrelated binary and multinomial pseudo-random data is proposed. Certain properties of the proposed procedure are examined in the simulation study.
An indication of correlation between dependent variable and predictors is a crucial point in building statistical regression model. The test of Pearson correlation coefficient – with relatively good power – needs to fulfill the assumption about normal distribution. In other cases only non-parametric tests can be used. This article presents a possibility and advantages of permutation tests with the discussion about proposed test statistics. The power of proposed tests was estimated on the basis of Monte Carlo experiments. The investigations were carried out for real data – a sample of refinery process parameters, where the indication of changes in correlation, even for sample with small size is very important. It creates an opportunity to react to changes and update statistical models quickly and keep acceptable quality of prediction
In the paper BLUPs and EBLUPs, their MSEs and estimators of MSEs under Fay-Herrior model (Fay, Herrior (1979)) are presented. This model belongs to the class of general linear mixed model type A, what means that is assumed for direct estimates of domain characteristics. What is more, it is assumed that variances of direct estimates are known. In the paper the influence of replacing the variances by their unbiased estimates and by genereal variance function’s estimates on biases of predictors, MSEs and biases of estimators of MSEs is studied in the simulation based on the real data. The problem of nonormality of area specific random components is also included
The weighting adjustment method associates some weight compensating for sample nonrespondents with each responding unit. These weights are usually constructed as reciprocals of individual response probabilities, estimated on the basis of available auxiliary information. In this paper an attempt is made to apply the weighting adjustment method to estimate the complex population parameter, namely the covariance between two population characteristics. A weighting adjustment estimator is proposed. Its properties are examined in a simulation study.
The multiple regression analysis is a statistical tool for the investigation relationships between the dependent and independent variables. There are some procedures for selecting a subset of given predictors. These procedures are widely available in statistical computer packages. The most often used are forward selection, backward selection and stepwise selection. In these procedures testing the significance of parameters is used. If some assumptions such as normality errors are not fulfilled, the results of testing significance of the parameters may not be trustworthy. The main goal of this paper is to present a permutation test for testing the significance of the coefficients in the regression analysis. Permutation tests can be used even if the normality assumption is not fulfilled. The properties of this test were analyzed in the Monte Carlo study.
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.