Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

PL EN


2020 | 777 | 8 | 32-51

Article title

Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe

Content

Title variants

Languages of publication

Abstracts

EN
This paper presents the Electronic Corpus of 17th- and 18th-century Polish Texts (KorBa) – a large (13.5-million), annotated historical corpus available online. Its creation was modelled on the assumptions of the National Corpus of Polish (NKJP), yet the specifi c nature of the historical material enforced certain modifi cations of the solutions applied in NKJP, e.g. two forms of text representation (transliteration and transcription) were introduced, the principle of designating foreign-language fragments was adopted, and the tagset was adapted to the description of the grammatical structure of the Middle Polish language. The texts collected in KorBa are diversified in chronological, geographical, stylistic, and thematic terms although, due to e.g. limited access to the material, the postulate of representativeness and sustainability of the corpus was not fully implemented. The work on the corpus was to a large extent automated as a result of using natural language processing tools.

Year

Volume

777

Issue

8

Pages

32-51

Physical description

Dates

published
2020

Contributors

  • Instytut Języka Polskiego Polskiej Akademii Nauk w Warszawie
  • Instytut Języka Polskiego Polskiej Akademii Nauk w Warszawie
  • Instytut Języka Polskiego Polskiej Akademii Nauk w Warszawie
  • Instytut Języka Polskiego Polskiej Akademii Nauk w Warszawie

References

  • J.S. Bień, 1991, Koncepcja słownikowej informacji morfologicznej i jej komputerowej weryfikacji, Warszawa [http://bc.klf.uw.edu.pl/12/; dostęp:21.05.2020].
  • J.S. Bień, 2014, The IMPACT project Polish Ground-Truth texts as a DjVu corpus, “Cognitive Studies | Études Cognitives” 14, s. 75–84 [https://ispan.waw.pl/journals/index.php/cs-ec/article/view/cs.2014.008/174; dostęp: 21.05.2020].
  • M. Brouwer, H. Brugman, M. Kemps-Snijders, 2017, MTAS: A Solr/Lucene based multi tier annotation search solution [w:] L. Borin (red.), Selected papers from the CLARIN Annual Conference 2016 (Aix-en-Provence, 26–28 October 2016), Linköping Electronic Conference Proceedings 136, s. 19–37 [http://www.ep.liu.se/ecp/136/002/ecp17136002.pdf; dostęp: 21.05.2020].
  • T. Erjavec, 2015, The IMP Historical Slovene Language Resources, “Language Resources and Evaluation” 49, s. 753–775 [https://doi.org/10.1007/s10579-015-9294-7; dostęp: 21.05.2020].
  • K. Górski, W. Kuraszkiewicz, F. Pepłowski, S. Saski, W. Taszycki, S. Urbańczyk, S. Wierczyński, J. Woronczak, 1955, Zasady wydawania tekstów staropolskich. Projekt, Wrocław.
  • W. Gruszczyński, R. Bronikowska, 2018, Instrukcja korzystania z wyszukiwarki do Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII wieku (do 1772 r.) [https://www.korba.edu.pl/manual; dostęp: 21.05.2020].
  • C. Hernas, 2002, Barok, Warszawa.
  • W. Kieraś, D. Komosińska, E. Modrzejewski, M. Woliński, 2017, Morphosyntactic annotation of historical texts. The making of the baroque corpus of Polish [w:] K. Ekštein, V. Matoušek (red.), Text, Speech, and Dialogue 20th International Conference, TSD 2017, Prague, Czech Republic, August 27–31, Lecture Notes in Computer Science 10415, s. 308–316.
  • K. Krasnowska-Kieraś, 2017, Morphosyntactic disambiguation for Polish with bi-LSTM neural networks [w:] Z. Vetulani, P. Paroubek (red.), Proceedings of the 8th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, s. 367–371.
  • M. Król, M. Derwojedowa, R.L. Górski, W. Gruszczyński, K.W. Opaliński, P. Potoniec, M. Woliński, W. Kieraś, M. Eder, 2019, Narodowy Korpus Diachroniczny Polszczyzny. Projekt, „Język Polski” XCIX, z. 1, s. 92–101.
  • M.B. Majewska, 2014, Zasady transliteracji źródeł w Korpusie polszczyzny barokowej, niepublikowana instrukcja wewnętrzna.
  • M. Ogrodniczuk, W. Gruszczyński, 2019, Connecting Data for Digital Libraries: The Library, the Dictionary and the Corpus [w:] Digital Libraries at the Crossroads of Digital Information for the Future: 21st International Conference on Asia-Pacifi c Digital Libraries, ICADL 2019, Kuala Lumpur, Malaysia, proceedings, editors: A. Jatowt, A. Maeda, Sue Yeon Syn, LNISA volume 11853, s. 125–138.
  • A. Przepiórkowski, M. Bańko, R.L. Górski, B. Lewandowska-Tomaszczyk (red.), 2012, Narodowy Korpus Języka Polskiego, Warszawa [http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf; dostęp: 21.05.2020].
  • J. Waszczuk, W. Kieraś, M. Woliński, 2018, Morphosyntactic disambiguation and segmentation for historical Polish with graph-based conditional random fields [w:] P. Sojka, A. Horák, I. Kopeček, K. Pala, (red.), Text, Speech, and Dialogue: 21st International Conference, TSD 2018, Brno, Czech Republic, Lecture Notes in Artificial Intelligence 11107, s. 188–196.
  • M. Woliński, 2014, Morfeusz reloaded [w:] N. Calzolari i in. (red.), Proceedings of the Ninth International Conference on Language Resources and Evaluation, LREC 2014, Reykjavík, s. 1106–1111.
  • M. Woliński, W. Kieraś, D. Komosińska, 2017, Anotatornia 2 – An Annotation Tool Geared towards Historical Corpora [w:] Z. Vetulani, P. Paroubek (red.), Proceedings of the 8th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, s. 158–162.
  • M. Woliński, W. Kieraś, 2020, Analiza fleksyjna tekstów historycznych i zmienność fleksji polskiej z perspektywy danych korpusowych, „Poradnik Językowy” z. 8, s. 66–80.

Document Type

Publication order reference

Identifiers

Biblioteka Nauki
1630441

YADDA identifier

bwmeta1.element.ojs-doi-10_33896_PorJ_2020_8_3
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.