Indeks wyboru liczby skupień w zbiorze danych

Korzeniewski, Jerzy

Article details

Journal

Przegląd Statystyczny

2014 | 61 | 2 | 169-180

Article title

Indeks wyboru liczby skupień w zbiorze danych

Authors

Korzeniewski Jerzy

Content

Full texts:

Download

Title variants

EN

Index of the Choice of the Number of Clusters

Languages of publication

PL

Abstracts

PL

W artykule zaproponowany jest nowy indeks wyznaczający liczbę skupień w zbiorze danych opisanych przez zmienne ciągłe. Indeks oparty jest na wielostopniowym dzieleniu zbioru danych (lub jego części) na dwa skupienia i sprawdzaniu czy podział taki należy zachować czy pominąć. Kryterium sprawdzającym jest indeks Randa przy pomocy którego oceniana jest zgodność podziału pierwotnego na dwa skupienia z podziałem na dwa skupienia zbioru węższego, składającego się ze skupienia mniejszego z podziału pierwotnego i 1/3 skupienia większego z podziału pierwotnego. Podziały dokonywane są przy pomocy metody k-średnich (dla k=2) z wielokrotnym losowym wyborem punktów startowych. Efektywność nowego indeksu została zbadana w obszernym eksperymencie na kilku tysiącach zbiorów danych wygenerowanych w postaci struktur skupień o różnej liczbie zmiennych, skupień, względnej liczebności skupień i różnych wariantach skorelowania zmiennych wewnątrz skupień. Ponadto, zmienny był również stopień separowalności skupień – kontrolowany według algorytmu OCLUS. Podstawą oceny efektywności było porównanie z dwoma innymi indeksami liczby skupień, mającymi w literaturze przedmiotu opinię jednych z najlepszych spośród dotychczas opracowanych tj. indeksem Calińskiego-Harabasza oraz indeksem Gap. Efektywność zaproponowanego indeksu jest znacznie wyższa od obu konkurencyjnych indeksów w przypadkach niezbyt wyraźnej struktury skupień.

EN

In the article a new index for determining the number of clusters in a data set is proposed. The index is based on multiple division of the data set (or a part of it) into two clusters and checking if this division should be retained or neglected. The checking criterion is the Rand index by means of which the extent to which the primary division and the secondo division of the narrower subset consisting of the smaller cluster from the primary division and 1/3 of the bigger cluster coincide. The divisions are made by means of the classical k-means (for k=2) with multiple random choice of starting points. The efficiency of the new index was examined in a broad experiment on a couple of thousands of data sets generated to possess cluster structures with different number of variables, clusters, cluster densities and different variants of within cluster correlation. Moreover, the cluster overlap controlled according to the OCLUS algorithm was also varied. A basis for efficiency assessment was the comparison with two other leading indices i.e. Caliński-Harabasz index and the Gap index. The efficiency of the new index proposed is higher than that of the competition when the cluster structure is not very distinct.

Keywords

PL

analiza skupień liczba skupień w zbiorze danych indeks Calińskiego-Harabasza indeks Gap

EN

cluster analysis number of clusters In a data set Caliński-Harabasz index Gap index

Publisher

Główny Urząd Statystyczny

Journal

Przegląd Statystyczny

Year

2014

Volume

61

Issue

2

Pages

169-180

Physical description

Contributors

author

Korzeniewski Jerzy

Katedra Metod Statystycznych, Wydział Ekonomiczno-Socjologiczny, Uniwersytet Łódzki, ul. P. O. W. 3/5, 90-255 Łódź

References

Caliński R. B., Harabasz J., (1974), A Dendrite Method for Cluster Analysis, Communications in Statistics, 3, 1-27.
Gatnar E., Walesiak M., (red.), (2004), Metody Statystycznej Analizy Wielowymiarowej w Badaniach Marketingowych, Wydawnictwo AE we Wrocławiu.
Korzeniewski J., (2005), Propozycja nowego algorytmu wyznaczającego liczbę skupień, Prace Naukowe AE we Wrocławiu nr 1076, Taksonomia 12, 257-265.
Korzeniewski J., (2012), Metody selekcji zmiennych w analizie skupień. Nowe procedury, Wydawnictwo Uniwersytetu Łódzkiego.
Migdał-Najman K., Najman K. (2005), Analityczne metody ustalania liczby skupień, Prace Naukowe AE we Wrocławiu nr 1076, Taksonomia 12, 265-273.
Milligan G. W., Cooper M., (1985), An Examination of Procedures for Determining the Number of Clusters in a Data Set, Psychometrika, 2, 159-179.
Mojena R. (1977), Hierarchical Grouping Methods and Stopping Rules: an Evaluation, Computer Journal, 20 (4), 359-363.
Najman K., Migdał-Najman K., (2006), Wykorzystanie indeksu Silhouette do ustalania optymalnej liczby skupień, Wiadomości Statystyczne, 6, 1-10.
Sokołowski A., (1992), Empiryczne testy istotności w taksonomii, Zeszyty Naukowe AE w Krakowie, Seria specjalna: Monografie nr 108.
Steinley D., Henson R., (2005), OCLUS: An Analytic Method for Generating Clusters with Known Overlap, Journal of Classification, 22, 221-250.
Tibshrani R., Walther G., Hastie T., (2001), Estimating the Number of Clusters in a Dataset via the Gap Statistic, Journal of the Royal Statistical Society, 32, 411-423.
Wieczorkowski R., Zieliński R., (1997), Komputerowe generatory liczb losowych, Wydawnictwa Naukowo Techniczne, Warszawa.

Article details

Journal

Przegląd Statystyczny

Article title

Indeks wyboru liczby skupień w zbiorze danych

Authors

Content

Title variants

Languages of publication

Abstracts

Keywords

Publisher

Journal

Year

Volume

Issue

Pages

Physical description

Contributors

References

Document Type

Publication order reference

Identifiers

YADDA identifier