Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

Results found: 2

first rewind previous Page / 1 next fast forward last

Search results

Search:
in the keywords:  number of clusters
help Sort By:

help Limit search:
first rewind previous Page / 1 next fast forward last
EN
This paper is an attempt to compare the performance of an algorithm for determining the number of clusters in a data set proposed by the author with other methods of determining the number of clusters. The idea of the new algorithm is based on the comparison of pseudo cumulative distribution functions of a certain random variable. For a fixed window size we draw К different points and for every point we find the corresponding limiting point in the mean shift procedure. Then we check if the distance (e.g. Euclidean) between every pair of the limiting points is greater than the window size. Analogously we determine the pseudo cumulative distribution functions for different numbers К of clusters. Out of all pseudo cumulative distribution functions we pick the proper one i.e. the last one” (with respect to K) which has a horizontal phase. Other methods of determining the number of clusters in a data set are compared with the proposed algorithm in a number of examples of two dimensional data sets for different clustering methods (k-means clustering and minimum distance agglomeration).
PL
Artykuł niniejszy jest próbą oceny porównawczej algorytmu wyznaczającego ilość skupień w zbiorze danych, zaproponowanego przez autora, z innymi metodami wyznaczania ilości skupień. Algorytm autora oparty jest na porównaniu pseudodystrybuant pewnej zmiennej losowej dla różnych ilości skupień. Ta zmienna losowa jest zdefiniowana w następujący sposób. Dla ustalonego rozmiaru okna losujemy ze zbioru danych К różnych punktów i dla każdego z tych punktów znajdujemy odpowiadający mu punkt graniczny w procedurze średniego przesunięcia próby. Następnie sprawdzamy, czy odległość (np. euklidesowa) pomiędzy każdą parą punktów granicznych jest większa od rozmiaru okna. Analogicznie wyznaczamy pseudodystrybuanty dla różnych ilości К skupień. Ze wszystkich dystrybuant za prawidłowo określającą ilość skupień uznajemy tę, która odpowiada ostatniej (względem K) krzywej, posiadającej fazę poziomą. Inne metody określania liczby skupień w zbiorze danych są porównane z zaproponowanym algorytmem na przykładach kilku dwuwymiarowych zbiorów danych dla dwóch, diametralnie różnych w naturze, metod konstruowania skupień.
2
51%
PL
Stosując metody statystyczne do optymalizacji swoich decyzji inwestycyjnych, inwestorzy stają przed bardzo istotnym problemem skonstruowania dobrze zdywersyfikowanego portfela inwestycyjnego składającego się z niewielkiej liczby pozycji. Wśród wielu metod stosowanych do konstrukcji takiego portfela są metody wykorzystujące grupowanie wszystkich spółek w homogeniczne grupy spółek, po którym to etapie następuje wybieranie reprezentanta każdej grupy w celu utworzenia ostatecznej postaci portfela. Etap grupowania nie musi pokrywać się z przynależnością sektorową spółek. Grupowanie może być wykonywane za pomocą metod analizy skupień i w tym procesie bardzo istotne jest ustalanie właściwej liczby skupień. Celem niniejszego artykułu jest zaproponowanie nowej techniki konstrukcji portfela inwestycyjnego, odnoszącej się zarówno do ustalenia liczby pozycji w portfelu, jak również do wyboru reprezentantów skupień. Stosowane metody grupowania spółek to klasyczna metoda k‑średnich oraz algorytm PAM (Partitioning Around Medoids). Technika jest testowana na danych 85 największych spółek giełdowych z parkietu warszawskiego z lat 2011–2016. Wyniki są bardzo obiecujące w sensie możliwości opracowania algorytmu opartego na analizie skupień, który prawie nie wymagałby interwencji inwestora.
EN
When investors start to use statistical methods to optimise their stock market investment decisions, one of fundamental problems is constructing a well‑diversified portfolio consisting of a moderate number of positions. Among a multitude of methods applied to the task, there is a group based on dividing all companies into a couple of homogeneous groups followed by picking out a representative from each group to create the final portfolio. The division stage does not have to coincide with the sector affiliation of companies. When the division is performed by means of clustering of companies, a vital part of the process is to establish a good number of clusters. The aim of this article is to present a novel technique of portfolio construction based on establishing a numer of portfolio positions as well as choosing cluster representatives. The grouping methods used in the clustering process are the classical k‑means and the PAM (Partitioning Around Medoids) algorithm. The technique is tested on data concerning the 85 biggest companies from the Warsaw Stock Exchange for the years 2011–2016. The results are satisfactory with respect to the overall possibility of creating a clustering‑based algorithm requiring almost no intervention on the part of the investor.
first rewind previous Page / 1 next fast forward last
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.