Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

PL EN


Journal

2021 | 101 | 2 | 59-70

Article title

Nowe wielowarstwowe znakowanie lingwistyczne zrównoważonego Narodowego Korpusu Języka Polskiego

Title variants

EN
New multilayer linguistic annotation of the balanced National Corpus of Polish

Languages of publication

PL

Abstracts

Artykuł opisuje znany i powszechnie wykorzystywany Narodowy Korpus Języka Polskiego w nowym opracowaniu. Aktualizacja polega zarówno na modyfikacjach schematu znakowania w warstwie morfosyntaktycznej (zwłaszcza w jego części związanej z rodzajem gramatycznym), jak również na dodaniu nowych warstw znakowania: warstwy składniowej oraz warstwy jednostek nazewniczych. Wszystkie trzy warstwy zostały zindeksowane w wyszukiwarce korpusowej MTAS i umożliwiają odwoływanie się do nich w zapytaniach korpusowych w języku CQL.
The article describes the well-known and widely used National Corpus of Polish in a new setup. The update consists of the annotation scheme modification in the morphosyntactic layer (especially in its parts related to the grammatical gender), as well as adding new layers of annotation: the syntactic layer and the named entities layer. All three layers are indexed in the MTAS corpus search engine and can be referenced in CQL corpus queries.

Journal

Year

Volume

101

Issue

2

Pages

59-70

Physical description

Contributors

  • Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa
  • Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa
  • Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa

References

  • Brouwer M., Brugman H., Kemps-Snijders M. 2017: MTAS: A Solr/Lucene based Multi Tier Annotation Search solution, [w:] Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resources and Technology Infrastructure, Linköping University Electronic Press, Linköpings Universitet, s. 19–37.
  • Górski R.L. 2012: Zastosowanie korpusów w badaniu gramatyki, [w:] Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa, s. 291–301.
  • Gruszczyński W., Adamiec D., Bronikowska R., Wieczorek A. 2020: Elektroniczny korpus tekstów polskich z XVII i XVIII w. – Problemy teoretyczne i warsztatowe, „Poradnik Językowy”, z. 8, s. 32–51.
  • Kieraś W., Kobyliński Ł., Ogrodniczuk M. 2018: Korpusomat – a tool for creating searchable morphosyntactically tagged corpora, „Computational Methods in Science and Technology”, vol. 24, s. 21–27.
  • Kieraś W., Woliński M. 2017: Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego, „Język Polski” XCVII, s. 75–83.
  • Klyueva N., Straňák P. 2016: Improving corpus search via parsing, [w:] N. Calzolari i in. (red.), Proceedings of the Tenth International Conference on Language Resources and Evaluation, LREC 2016, European Language Resources Association, Portorož, s. 2862–2866.
  • Mańczak W. 1956: Ile rodzajów jest w polskim?, „Język Polski” XXXVI, s. 116–121.
  • Marcińczuk M., Kocoń J., Gawor M. 2018: Recognition of Named Entities for Polish-Comparison of Deep Learning and Conditional Random Fields Approaches, [w:] M. Ogrodniczuk, Ł. Kobyliński (red.), Proceedings of the PolEval 2018 Workshop, Institute of Computer Science, Polish Academy of Science, Warszawa, s. 63–73.
  • NKJP: Narodowy Korpus Języka Polskiego (online: http://nkjp.pl).
  • Przepiórkowski A., Bańko M., Górski R.L., Lewandowska-Tomaszczyk B. (red.) 2012: Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.
  • Przepiórkowski A., Hajnicz E., Andrzejczuk A., Patejuk A., Woliński M. 2017: Walenty: gruntowny składniowo-semantyczny słownik walencyjny języka polskiego, „Język Polski” XCVII, s. 30–47.
  • Rybak P., Wróblewska A. 2018: Semi-supervised neural system for tagging, parsing and lemmatization, [w:] Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics, Brussels, s. 45–54.
  • Saloni Z. 1974: Kategoria rodzaju we współczesnym języku polskim, [w:] Urbańczyk S. i in. (red.), Kategorie gramatyczne grup imiennych we współczesnym języku polskim, Ossolineum, Wrocław, s. 41–75.
  • Savary A., Chojnacka-Kuraś M., Wesołek A., Skowrońska D., Śliwiński P. 2012: Anotacja jednostek nazewniczych, [w:] A. Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.
  • SGJP: Z. Saloni, M. Woliński, R. Wołosz, W. Gruszczyński, D. Skowrońska, Słownik gramatyczny języka polskiego, wydanie 3 online, Warszawa 2015 (online: http://sgjp.pl).
  • Waszczuk J., Kieraś W., Woliński M. 2018: Morphosyntactic Disambiguation and Segmentation for Historical Polish with Graph-Based Conditional Random Fields, [w:] P. Sojka i in. (red.), Text, Speech, and Dialogue. TSD 2018, Lecture Notes in Computer Science 11107, Springer, s. 188–196.
  • Woliński M. 2014: Morfeusz reloaded, [w:] N. Calzolari i in. (red.), Proceedings of the Ninth International Conference on
  • Language Resources and Evaluation. LREC 2014, European Language Resources Association, Reykjavík, s. 1106–1111.
  • Woliński M. 2019: Automatyczna analiza składnikowa języka polskiego, Wydawnictwa Uniwersytetu Warszawskiego, Warszawa.
  • Wróblewska A. 2014: Polish Dependency Parser Trained on an Automatically Induced Dependency Bank, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.
  • WSJP PAN: Wielki słownik języka polskiego PAN, red. P. Żmigrodzki (online: https://wsjp.pl).

Document Type

Publication order reference

YADDA identifier

bwmeta1.element.desklight-31180664-dcb2-480a-9928-8c7c0d658de2
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.