Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

Results found: 2

first rewind previous Page / 1 next fast forward last

Search results

help Sort By:

help Limit search:
first rewind previous Page / 1 next fast forward last
Język Polski
|
2019
|
vol. 99
|
issue 3
5-17
PL
Artykuł stara się odpowiedzieć na pytanie, czy możliwe jest ustalenie typologii polskich tekstów wyłącznie na podstawie ich cech gramatycznych. Dodatkowym celem było ustalenie, czy typologia przyjęta w Narodowym Korpusie Języka Polskiego, oparta na kryteriach pozajęzykowych, rzeczywiście grupuje teksty, które są do siebie gramatycznie podobne. Badanie przeprowadzono na korpusie 1190 tekstów wybranych losowo z Narodowego Korpusu Polskiego. W każdym z tekstów zbadano frekwencję ok. 60 cech gramatycznych, takich jak liczba słów należących do poszczególnych części mowy bądź występujących w konkretnym przypadku, osobie lub czasie gramatycznym itp. Na podstawie tych danych przeprowadzono analizę Bootstrap Consensus Network, a także skalowanie wielowymiarowe. Rezultaty potwierdzają, że większość tekstów przynależnych w NKJP do danego typu rzeczywiście wykazuje wzajemne podobieństwo pod względem frekwencji poszczególnych kategorii gramatycznych.
EN
The article seeks to answer the question whether it is possible to establish a typology of Polish texts based exclusively on their grammatical features. An additional aim was to find whether the typology adopted in the National Corpus of Polish (NCP), based on purely extra-linguistic criteria, groups together texts that are grammatically similar. The study was conducted on a corpus of 1190 texts randomly chosen from the NCP. For each text the frequency of some 60 grammatical features was counted, such as the number words belonging to a part of speech, occurring in a particular case, person or tense etc. With these data Bootstrap Consensus Network analysis as well as multidimensional scaling was conducted. The results show that most members of a text type cluster together showing similarity one to another. Moreover, the typology of texts adopted in the NCP gains additional support.
PL
Artykuł przedstawia projekt Narodowego Korpusu Diachronicznego Polszczyzny (NKDP), który w założeniu ma być uspójnioną i rozszerzoną kolekcją mniejszych korpusów, powstających w różnych ośrodkach naukowych i obejmujących różne zakresy czasowe. W skład owego uspójnionego korpusu wejdą teksty obejmujące lata 1380–1939, co będzie stanowiło uzupełnienie Narodowego Korpusu Języka Polskiego. Celem projektu jest stworzenie zbalansowanego korpusu ukazującego historię rozwoju języka polskiego i stanowiącego bazę materiałów dla badaczy języka oraz punkt porównania dla korpusów historycznych języków europejskich i światowych. Poszczególne części składowe korpusu składają się z 24 mln słów, natomiast docelowo NKDP będzie stanowił repozytorium 40 mln słów.
EN
The paper presents the project of the Diachronic Corpus of Polish (DCP), which is intended as a cohesive collection of smaller corpora, arising in various scientific centers and covering various time ranges. This corpus will include texts covering the years 1380-1939 and will complement the National Corpus of Polish. The aim of the project is creating a balanced corpus presenting the history of the development of the Polish language and constituting a data basis for language researchers and a point of comparison for the historical corpora of European and world languages. The different parts of the corpus consist of 24 million words in total, while the target NPDC will constitute a repository of 40 million words.
first rewind previous Page / 1 next fast forward last
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.