When one groups set elements with the help of k-means it is crucial to choose starting points properly. If they are chosen incorrectly one may arrive at badly grouped elements. In the paper a new method of choosing starting points is proposed. It is based on the distance matrix only. Starting points are chosen so as to improve the classical method of choosing points which are as far from one another as possible. The quality of grouping is assessed by means of silhouette indices — it is compared with the quality of grouping done with randomly chosen starting points and with maximum distance interval method. Sets from Euclidean spaces are generated with the help of CLUSTGEN software written by J. Milligana.
Gdy grupujemy punkty zbioru metodą k-średnich to zasadniczym problemem jest właściwy wybór punktów startowych. Jeśli są one źle wybrane to grupowanie może być złe. W artykule zaproponowana jest nowa metoda wyboru punktów startowych. Metoda ta jest oparta wyłącznie na znajomości macierzy odległości. Punkty startowe są wybierane tak, by poprawić wybór, który otrzymamy przy pomocy metody klasycznej polegającej na wyborze punktów możliwie jak najbardziej od siebie oddalonych. Jakość grupowania jest oceniana przy pomocy indeksów sylwetkowych - porównywana jest z jakością grupowania otrzymanego przy losowym wyborze punktów startowych oraz przy wyborze metodą klasyczną. Zbiory z przestrzeni euklidesowych są generowane przy pomocy programu CLUSTGEN autorstwa J. Milligana.
The diversity and multiplicity of information associated with investment in the stock market can cause problems with the proper understanding of the analyzed phenomena. In particular it refers to small investors who invest directly in stocks. Therefore, evaluating the financial condition of listed companies is very important, hence the need to use methods that will simplify and thus make stock market analysis easier. This paper presents an attempt to apply the selected financial ratios for the classification of 17 real estate companies listed on the Warsaw Stock Exchange into groups characterized by a similar economic condition. In the study multidimensional comparative analysis was used, i.e. Ward’s method and the method of k-means. The analysis was carried out in the period 2010-2012. In the experiment it was proved that using Ward’s method could identify companies with the weakest condition.
Research background: In the era of demographic changes and the need for rationalization of public expenditure, the European Union social policy promotes the activation approach. In addition, a growing importance of increasing the effectiveness and efficiency of public entities can be noticed. These phenomena are visible in the implementation of the labour market policy. However, the EU countries represent a different approach to spending public funds on issues related to the implementation of  labour market policy. Purpose of the article: The authors are presenting the main theoretical assumptions concerning effectiveness and efficiency of labour market policy. Moreover, in the paper the EU countries are classified in clusters according to their level of expenditure on different categories of LMP. A comparison of the situation over ten years - in 2004 and 2014 - has also been conducted. In 2004, ten new members entered the EU, and the year 2014 presents the most current data in the analyzed area. Methods: As a research method cluster analysis was applied. Cross-country labour market situation throughout the EU is presented by the analysis of the Eurostat data. The countries are grouped in clusters following Ward's and k-means methods. Findings & Value added: There is a need to work out a complex evaluation of labour market policies in the EU to provide comparative analysis of the EU countries (or groups of countries). It would allow to determine the level of development of the country in terms of the efficiency of labour market policies. The EU countries with the best labour market indicators represent diverse levels of LMP expenditure.
Research background: Because the active labour market policy requires high resources, it is important to analyse the effectiveness of its instruments. For the unemployment, it is essential to identify the groups of persons threatened by the long-term unemployment, to assess the impact of programmes on exit from unemployment and monitoring the disbursement of funds. Purpose of the article: The goal of the article was identification of clusters of poviats in Poland with respect to cost and employment effectiveness of basic forms of professional activisation in the years 2008-2014. Methods: The poviats were clustered by means of the k-means method. Variables were standardised and the number of clusters was determined by means of the v-fold cross-validation. Findings & Value added: The analysis did not allow to unambiguously specify areas in Poland with better use of funds allocated in the activisation programmes. The poviats in the middle-east Poland were generally characterized by worse values of effectiveness. However, the unemployment rate in these areas was relatively small. On the contrary, the poviats in the north-east Poland had high unemployment rate and the funds were used effectively. Assessment of effectiveness of forms of professional activisation is very important because the activities of poviat labour offices influence the counteraction to unemployment.
The article analyzes employment in the financial sector and entities conducting financial, insurance or other activities. The aim of this study is to examine employment in the financial sector at the level of provinces and registered entities of this sector using multidimensional methods of statistical analysis. The results of the classification indicate the geographical division of the country in terms of the number of financial and insurance companies. However, the high slope of the directional coefficient means a very strong, growing tendency for the Mazowieckie voivodship, characterized by a much slower trend for the Dolnośląskie, Pomorskie and Śląskie voivodships. In fact, for most of the provinces, trends indicate a statistically significant, negative development trend for the analyzed phenomenon from 2005-2016.
The purpose of this study is the statistical analysis of results of the online survey in order to make market segmentation of Facebook users. Non-random sampling methods were used: convenience sampling and snowball sampling method. Because the sample was not representative, it did not give rise to statistical inferences about the population of Facebook users. The survey results were only part of the initial diagnosis, a description of the existing state of affairs. On the basis of selected market segmentation criteria and using the generalized k-means clustering algorithm and the Ward agglomeration method three clusters were formed: “Informed over-cautious persons” (56,31% of the sample), “Committed risktakers” (20,39% of the sample) and “Persistent assertive people” (23,30% of the sample). Segments were profiled on the basis of psychographic and behavioral criteria. The statistical significance of the relationship between clusters of Internet users and individual variables was confirmed by the chi-square test.
Research background: The idea of sustainable development, in the face of the challenges encountered by contemporary society, is gaining increasing popularity. Currently, it recognizes the substantial role that companies play in its successful implementation. Initiatives in the field of sustainable development may be undertaken by companies independently as part of their own activities, or together with entities forming the supply chain as an element of sustainable supply chain management. Purpose of the article: Identification of groups of companies that are characterised by a different approach to cooperation in the field of sustainable development in the supply chain. Methods: The quantitative research was conducted in September 2020 with the use of the CATI (Computer-Assisted Telephone Interview) technique and a standardised survey questionnaire. A total of 500 randomly selected companies located in Poland participated in this study. The respondents were representatives of top management of the companies. In order to identify various groups of companies, a cluster analysis was performed using the k-means method in SPSS. Findings & value added: Based on the literature analysis, 3 areas of sustainable development have been identified, in which companies can become involved ? green design, sustainable operations, and reverse logistics & waste management. For each of the 3 areas, 3 clusters of companies were identified: companies that are not involved in sustainable development at all (1), companies that carry out most of the sustainable development initiatives independently (2), companies that carry out most of the sustainable development initiatives jointly with supply chain partners (3). The article also shows that the companies in different cluster differ in terms of perceived economic benefits achieved thanks to the implementation of sustainable development initiatives. This may suggest the need to develop separate sustainability solutions for such groups of companies in the future.
The aim of the article is to analyse the similarities between the selected European countries in terms of time allocation. Time allocation has been defined as the daily distribution of time to various activities. Professional work time, domestic work time and leisure time are the most important for the economic approach. It has been proved that there are coherent groups of countries with similar structure of time allocation. The taxonomic methods used in order to verify the thesis included: cluster analysis, k-means method, generalised distance measure GDM and interval taxonomic method TMI. The analysis was performed on the basis of HETUS data.
Celem artykułu jest analiza przestrzennego zróżnicowania poziomu atrakcyjności podregionów w Polsce z punktu widzenia możliwości rozwoju w nich turystyki przyjaznej środowisku przyrodniczemu, tzw. ekoturystyki. Do analizy wykorzystano wskaźniki charakteryzujące atrakcyjność środowiska naturalnego podregionów (stymulanty) oraz wskaźniki mierzące poziom jego zanieczyszczenia (destymulanty). Klasyfikacji podregionów dokonano za pomocą analizy dyskryminacyjnej. Wstępnej klasyfikacji obiektów na grupy, a tym samym wyboru zmiennej grupującej, dokonano stosując metodę k-średnich.
The main goal of this paper is the analysis of the spatial differentiation of Poland
Otoczenie i warunki rynkowe, w jakich działają przedsiębiorstwa budowlane, mają klu-czowy wpływ na podejmowane przez te podmioty decyzje, znajdujące odzwierciedlenie w ich sprawozdaniach finansowych. Ocena kondycji finansowej przedsiębiorstwa budowlanego z za-miarem zdiagnozowania kryzysu nie powinna odbywać się w oderwaniu od sytuacji rynkowej.W artykule dokonano klasyfikacji przedsiębiorstw budowlanych notowanych na Warszawskiej Giełdzie Papierów Wartościowych według ich pozycji konkurencyjnych z wykorzystaniem metody k-średnich. Algorytm ten umożliwiła podział badanych podmiotów na pięć klas obiektów: o najlepszej, dobrej, przeciętnej, słabej i najsłabszej kondycji finansowej. Przeprowadzone postępowanie przyczyniło się również do ustalenia wielkości wskaźników charakteryzujących każdą grupę przedsiębiorstw.Tego typu analiza jest przydatnym narzędziem przede wszystkim dla inwestorów, gdyż infor-muje o tym, jak badane przedsiębiorstwo prezentuje się na tle podmiotów o podobnym profilu działalności.
The aim of the article is to identify the similarities and differences in the tax systems in the European Union (EU) countries by specifying the basic tax system models. For its implementation we carry out a cluster analysis using the k-means method based on 12 parameters characterising tax systems. We distinguish five models of tax systems in the EU countries: Western European, Eastern European, Nordic, British and mixed model. We use such a nomenclature as the basic parameters of the tax system are strongly correlated with the geographical location of the country. Probably factors such as history, tradition, and culture have a significant impact on the shapes of the tax systems in the EU. Clear differences exist especially between the EU-15 countries and Central and Eastern European countries.
Celem artykułu jest zidentyfikowanie podobieństw i różnic w systemach podatkowych państw Unii Europejskiej (UE) przez wyszczególnienie podstawowych modeli tych systemów. Dla jego osiągnięcia przeprowadzono analizę skupień metodą k-średnich, której podstawą było 12 parametrów charakteryzujących systemy podatkowe. W ten sposób wyodrębniono pięć modeli systemów podatkowych w państwach UE: zachodnioeuropejski, wschodnioeuropejski, nordycki, brytyjski i mieszany. Ich nazewnictwo wynika z tego, że podstawowe parametry systemu podatkowego są silnie skorelowane z położeniem geograficznym kraju. Prawdopodobnie zatem znaczący wpływ na ukształtowanie systemów podatkowych w państwach UE mają czynniki, takie jak historia, tradycja i kultura. Wyraźne różnice w konstrukcji systemów podatkowych są widoczne zwłaszcza między państwami tzw. starej piętnastki UE a państwami Europy Środkowo-Wschodniej.
Market situation and business environment of construction companies influence signifi-cantly decisions made by this group of entities. These decisions are reflected in financial state-ments later on. The evaluation of financial condition which aims at diagnosing corporate crisis must not disregard the market situation. Based on this assumption, a classification of publicly quoted construction companies using k-means method was conducted. This procedure made it possible to divide the examined sample into five groups of companies characterized by the best, good, acceptable, weak and the poorest financial condition. The application of the aforemen-tioned algorithm was also helpful in determining the levels of financial ratios typical of each group. This kind of analytical approach is useful especially for investors since it informs them how particular companies perform in comparison to other competitors.
The aim of the research discussed in the article is to assess the diversity among European Union countries in terms of the use of information and communication technologies (ICT). Fifteen indicators describing the use of ICT by natural persons and households were selected for the analysis. The data were obtained from Statistics Poland reports and from the Eurostat database for the year 2017. The method of principal components analysis was applied in the process of analysing the diversity. Moreover, a cluster analysis based on the k-means method was performed. The analysis demonstrates that Scandinavian and Benelux countries are the leaders in using ICT, while countries of southern and south-eastern Europe as well as Poland are the lowest rated.
Celem badania omawianego w artykule jest ocena zróżnicowania krajów Unii Europejskiej pod względem stopnia wykorzystania technologii informacyjno-komunikacyjnych (ICT). Do analizy wybrano 15 wskaźników opisujących wykorzystanie ICT przez osoby fizyczne i gospodarstwa domowe. Dane pochodziły ze sprawozdań Głównego Urzędu Statystycznego oraz bazy Eurostatu i dotyczyły 2017 r. W analizie zróżnicowania zastosowano metodę analizy składowych głównych. Wykonano także analizę skupień za pomocą metody k-średnich. Z badania wynika, że liderami w dziedzinie wykorzystania ICT są kraje skandynawskie i kraje Beneluksu. Wśród najniżej ocenionych znajdują się kraje południowej i południowo-wschodniej Europy oraz Polska.
Artykuł prezentuje wyniki grupowania województw, przeprowadzonego na podstawie wskaźników charakteryzujących ubóstwo. W analizie wykorzystano dane dostępne w Banku Danych Lokalnych GUS. Wyboru cech diagnostycznych dokonano kierując się współczynnikami zmienności i korelacji r Pearsona. Do grupowania województw wykorzystano metodę k-średnich. Wyodrębniono cztery kategorie województw różniące się ze względu na strukturę symptomów ubóstwa. W celu odpowiedzi na pytanie, czy w Polsce zachodzą zmiany w tym zakresie dokonano stosownego porównania dla lat 2008 i 2013.
The article presents the results of the clustering voivodships based on variables characterizing the phenomenon of poverty. The analysis is based on data available in the CSO’s Local Data Bank. The selection of diagnostic features was made on the basis of the coefficients of variation and Pearson’s r correlation coefficient. The grouping of voivodships was made using the k-means method. There were created four categories of voivodships differing in the symptoms of poverty. In order to answer the question whether the changes in the symptoms of poverty are taking place on the map of Poland, an analysis was conducted in two periods: for 2013 and 2008.
В статье были представлены результаты группировки воеводств, проведенной на основе показателей характеризующих бедность. В анализе были использованы данные из Банка локальных данных ЦСУ. Выбор диагностических признаков осуществлялся с учетом коэффициентов изменяемости и корреляции r Пирсона. Для группировки воеводств был использован метод k-средних. Были выделены четыре категории воеводств отличающихся друг от друга в отношении к структуре симптомов бедности. Для того, чтобы ответить на вопрос, происходят ли в Польше изменения в этой области, было сделано сравнение для 2008 и 2013 гг.
W artykule porównano wyniki segmentacji emerytów metodą k-średnich na podstawie zestawu zmiennych behawioralnych oraz zestawu zmiennych behawioralnych i demograficzno-ekonomicznych. Posługując się zestawem cech behawioralnych, otrzymano segmenty emerytów wykazujące znaczne różnice w zakresie priorytetów życiowych oraz stosunkowo niewielkie różnice w zakresie profili demograficzno-ekonomicznych. Z kolei w przypadku segmentacji opartej na połączonym zestawie zmiennych behawioralnych oraz demograficzno-ekonomicznych większy wpływ na ostateczny wynik grupowania wywierały cechy demograficzno-ekonomiczne. Segmenty emerytów stały się łatwiej identyfikowalne, jednak różnice w zakresie cech behawioralnych uległy zmniejszeniu.
The article compares the results of the segmentation of retirees done using the k-means method on the basis of a set of behavioural variables and a combined set of behavioural, demographic and economic variables. On the basis of the behavioural set, segments of retirees which showed significant differences in the area of life priorities were obtained. Between these groups there were relatively small differences in their demographic and economic profile. In the case of the segmentation done on the basis of the combined set of variables, the results of segmentation were influenced to a greater extent by the demographic and economic variables. The segments of retirees became more easily identifiable, but the differences in the area of behavioural features decreased.
Celem artykułu jest ocena zróżnicowania województw ze względu na wartości efektywności kosztowej i zatrudnieniowej podstawowych form aktywizacji zawodowej realizowanej przez powiatowe urzędy pracy w latach 2008—2016. W badaniu wykorzystano dane zawarte w publikacjach Ministerstwa Rodziny, Pracy i Polityki Społecznej. Grupowania dokonano metodą k-średnich. W badanym okresie współczynniki efektywności kosztowej (poza dużym spadkiem w roku 2011) oraz zatrudnieniowej miały tendencję wzrostową. Otrzymano trzy jednorodne grupy. Pierwszą utworzyły województwa o najkorzystniejszych wielkościach efektywności, drugą — województwa o średnich wielkościach efektywności, a trzecią — o wartościach najmniej korzystnych.
The objective of the article is the assessment of the diversity of voivodships with respect to values of cost and employment effectiveness of basic forms of professional activation, implemented by the powiat labour offices in the years 2008—2016. The data source were the publications of The Ministry of Family, Labour and Social Policy. The k-means method was used for clustering. In the analysed period it can be observed that the coefficients of cost (except for substantial decline in 2011) and employment effectiveness had an increasing trend. The three homogeneous groups of voivodships were obtained. The first group consisted of voivodships with the most advantageous values of effectiveness, the second one — with the average values of effectiveness and the third one — the most disadvantageous.
Badania postaw konsumentów wobec zakupów, w tym zakupów on-line, prowadzone są od wielu lat pozwalając monitorować zmiany tych postaw pod wpływem rozwoju nowych form handlu. W niniejszym artykule badawczym zaproponowano koncepcję wykorzystania metody k-średnich, a następnie weryfikację uzyskanych wyników na podstawie post-hoc test Scheffego. Przyjętą strategię badawczą oparto na wywiadach indywidualnych zrealizowanych na przełomie kwietnia i maja 2014 roku na ogólnopolskiej próbie 820 respondentów. Wyniki tych badań posłużyły jako podstawa do stworzenia typologii konsumentów ze względu na ocenę sposobu realizacji zakupów on-line oraz wyrażaną opinię o zakupach on-line w ogóle. Prezentowane podejście badawcze oraz podjęta w artykule próba typologii powinna stanowić inspirację do dalszych pogłębionych badań i jest głosem w dyskusji dotyczącej zmian w postawach zakupowych konsumentów.
For many years, research into consumers’ attitudes to shopping, including online shopping, has allowed for monitoring changes in the attitudes in question resulting from the development of new forms of commerce. This research article suggests the use of the k-means method that is subsequently followed with verification of the results obtained by means of the Scheffe post-hoc test. The research strategy adopted was based on individual interviews performed at the turn of May 2014 in the sample group of 820 respondents who came from different parts of Poland. The research results were used to formulate some typology of consumers that would involve assessment of the way they did their online shopping and their opinions concerning online shopping in general. The research approach presented along with some attempt undertaken in the article to formulate a typology should serve as inspiration for further in-depth research, thus being some participation in the discussion about changes in consumers’ attitudes toward online shopping in Poland.
Изучение отношения потребителей к покупкам, в том числе к покупкам онлайн, проводятся в течение многих лет, позволяя наблюдать за изменениями этого отношения под влиянием новых форм торговли. В исследовательской статье предложили концепцию использования метода k-средних, а затем верификацию полученных результатов на основе критерия post-hoc Шеффе. Принятую исследовательскую стратегию основали на индивидуальных интервью, осуществленных в конце апреля и в начале мая 2014 г. на национальной выборке 820 респондентов. Результаты изучения послужили за основу для создания типологии потребителей по оценке способа осуществления покупок on-line и выраженному мнению о покупках on-line в целом. Представляемый исследовательский подход и предпринятая в статье попытка типологии должны стать инспирацией для дальнейших углубленных исследований и они – голос в дискуссии об изменениях в закупочном поведе- нии потребителей.
Zrównoważony rozwój powinien zapewnić sprawiedliwe i zrównoważone środowisko naturalne, społeczne i gospodarcze. Godna praca i wzrost gospodarczy, czyli Cel Zrównoważonego Rozwoju (Sustainable Development Goal – SDG) 8, ma największe znaczenie gospodarcze. Celem badania omawianego w artykule jest ocena realizacji SDG 8 w krajach członkowskich UE. Badanie obejmowało lata 2002–2021, ze szczególnym uwzględnieniem okresów kryzysowych: kryzysu finansowego z lat 2007–2009 i pandemii COVID-19 panującej w latach 2020–2021. W badaniu wykorzystano dane z bazy Eurostatu. Zastosowano metody wielowymiarowej analizy statystycznej: analizę skupień metodą k-średnich i porządkowanie liniowe metodą TOPSIS. Krajami o najwyższym stopniu realizacji SDG 8 okazały się: Dania, Finlandia, Holandia i Szwecja, natomiast najniższy stopień realizacji obserwowano w Grecji, we Włoszech, w Rumunii, na Słowacji i w Hiszpanii. Również nowe kraje członkowskie, przyjęte do UE po 2004 r., ogólnie charakteryzują się znacznie niższym stopniem realizacji SDG 8 niż wysoko rozwinięte kraje Europy Zachodniej. Wpływ okresów kryzysowych był bardziej zauważalny w wynikach analizy skupień niż w rankingach. Wartością dodaną badania jest wykorzystanie metod wielowymiarowej analizy statystycznej do oceny ogólnej sytuacji analizowanych krajów w zakresie realizacji SDG 8 przy uwzględnieniu obu okresów kryzysowych.
Sustainable development should ensure a fair and balanced natural, social and economic environment. Sustainable Development Goal 8 (SDG 8) - decent work and economic growth - is of the greatest economic importance. The purpose of the study is to assess the implementation of SDG 8 in EU member states. The analysis covered the years 2002-2021 with a particular focus on two crises periods: the financial crisis of 2007-2009 and the COVID-19 pandemic in the years 2020-2021. The study uses Eurostat data and multivariate statistical analysis methods, i.e. cluster analysis - the k-means method and linear ordering - the TOPSIS method. Denmark, Finland, the Netherlands and Sweden are the countries where the fulfilment of SDG 8 was the greatest, while the lowest was observed in Greece, Italy, Romania, Slovakia and Spain. The study also shows that the countries which joined the EU in 2004 generally demonstrated a much lower degree of SDG 8 implementation compared to the well-developed Western Europe. The influence of the crisis periods was more visible in the results of the cluster analysis than in the rankings. The novelty of the research involves the application of multivariate statistical analysis methods to assess the overall situation of the studied countries in terms of their implementation of SDG 8 while taking into account both crisis periods.
The aim of the work is to present the application possibilities of clustering methods to identify groups of objects similar in terms of the structure of the analyzed phenomenon. The hierarchical clustering method was proposed, in which the structure dissimilarity indicator was used to determine the distance between the clusters. Then a proposal of the non-hierarchical clu-stering method was presented. Considerations were conducted on the example of the similarity of the age structure of the registered unemployed in poviats.
Celem pracy jest prezentacja możliwości aplikacyjnych metod grupowania danych do identyfikacji grup obszarów podobnych pod względem struktury analizowanego zjawiska. Zaprezentowana zostanie metoda grupowania hierarchicznego, w której do wyzna-czania odległości między skupieniami wykorzystano wskaźnik niepodobieństwa struktur oraz przedstawiona zostanie propozycja metody grupowania niehierarchicznego, stanowiąca pewną analogię do metody k- średnich. Rozważania będą prowadzone na przykładzie oceny podobieństwa struktury wieku zarejestrowanych bezrobotnych w powiatach.
