Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

PL EN


Journal

2021 | 101 | 2 | 49-58

Article title

Korpusomat – stan obecny i przyszłość projektu

Title variants

EN
Korpusomat – present state and the future of the project

Languages of publication

PL

Abstracts

PL
W artykule zaprezentowano aplikację webową Korpusomat przeznaczoną do tworzenia własnych anotowanych korpusów językowych. Aplikacja oferuje możliwość automatycznego znakowania tekstu i przeszukiwania go na podstawie cech fleksyjnych i składniowych słów oraz jednostek nazewniczych. Wszystkie warstwy anotacji opisane są wraz z przykładami ich zastosowania w analizie lingwistycznej. Korpusomat oferuje również podsumowania statystyczne zebranych tekstów, a także możliwość współdzielenia stworzonych korpusów z innymi użytkownikami.
EN
The article presents the Korpusomat web application for creating user’s own annotated linguistic corpora. The application offers an automatic annotation of texts and the ability to search it based on the annotation of inflectional and syntactic features of words and named entities. All annotation layers are presented along with examples of their application in linguistic analysis. The Korpusomat also offers statistical summaries of the collected data, as well as the possibility of sharing the created corpora with other users.

Journal

Year

Volume

101

Issue

2

Pages

49-58

Physical description

Contributors

  • Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa
  • Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa

References

  • Brouwer M., Brugman H., Kemps-Snijders M. 2017: MTAS: A Solr/Lucene based Multi Tier An-notation Search solution, [w:] Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resources and Technology Infrastructure, Linköping University Electronic Press, Linköpings Universitet, s. 19–37.
  • Eder M., Rybicki J., Kestemont M. 2016: Stylometry with R: a package for computational text analysis, „The R Journal”, vol. 8, s. 107–121.
  • Gruszczyński W., Adamiec D., Bronikowska R., Wieczorek A. 2020: Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe, „Poradnik Językowy”, z. 8, s. 32–51.
  • Janus D., Przepiórkowski A. 2007: Poliqarp: An open source corpus indexer and search engine with syntactic extensions, [w:] Proceedings of the ACL 2007 Demo and Poster Sessions, Prague, s. 85–88.
  • Kieraś W., Kobyliński Ł., Ogrodniczuk M. 2018: Korpusomat – a tool for creating searchable morphosyntactically tagged corpora, „Computational Methods in Science and Technology”, vol. 24, s. 21–27.
  • Kieraś W., Woliński M. 2017: Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego, „Język Polski” XCVII, s. 75–83.
  • Marciniak M., Mykowiecka A., Rychlik P. 2017: Automatyczne wydobywanie terminologii dziedzinowej z korpusów tekstowych, „Język Polski” XCVII, s. 64–74.
  • Marcińczuk M., Kocoń J., Gawor M. 2018: Recognition of Named Entities for Polish-Comparison of Deep Learning and Conditional Random Fields Approaches, [w:] M. Ogrodniczuk, Ł. Kobyliński (red.), Proceedings of the PolEval 2018 Workshop, Institute of Computer Science, Polish Academy of Science, Warszawa, s. 63–73.
  • Nivre J., de Marneffe M., Ginter F., Goldberg Y., Hajič J., Manning Ch., McDonald R., Petrov S., Pyysalo S., Silveira N., Tsarfaty R., Zeman D. 2016: Universal Dependencies v1: A Multilingual Treebank Collection, [w:] N. Calzorali i in. (red.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), European Language Resources Association, Portorož, s. 1659–1666.
  • NKJP: Narodowy Korpus Języka Polskiego (online: http://nkjp.pl/).
  • Ogrodniczuk M. 2018: Polish Parliamentary Corpus, [w:] D. Fišer, M. Eskevich, F. de Jong (red.), Proceedings of the LREC 2018 Workshop ParlaCLARIN: Creating and Using Parliamentary Corpora, European Language Resources Association (ELRA), Paris, s. 15–19.
  • Przepiórkowski A., Bańko M., Górski R.L., Lewandowska-Tomaszczyk B. (red.) 2012: Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.
  • Rybak P., Wróblewska A. 2018: Semi-supervised neural system for tagging, parsing and lemmatization, [w:] D. Zeman, J. Hajič (red.), Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics, Brussels, s. 45–54.
  • Saloni Z., Woliński M., Wołosz R., Gruszczyński W., Skowrońska D. 2015: Słownik gramatyczny języka polskiego, Warszawa, wyd. 3.
  • Savary A., Chojnacka-Kuraś M., Wesołek A., Skowrońska D., Śliwiński P. 2012: Anotacja jednostek nazewniczych, [w:] A. Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa, s. 129–167.
  • Waszczuk J., Kieraś W., Woliński M. 2018: Morphosyntactic Disambiguation and Segmentation for Historical Polish with Graph-Based Conditional Random Fields, [w:] P. Sojka i in. (red.), Text, Speech, and Dialogue. TSD 2018, Lecture Notes in Computer Science 11107, Springer, s. 188–196.
  • Woliński M. 2003: System znaczników morfosyntaktycznych w korpusie IPI PAN, „Polonica” XXII–XXIII, s. 39–55.
  • Woliński M. 2014: Morfeusz reloaded, [w:] Calzolari N. i in. (red.), Proceedings of the Ninth International Conference on Language Resources and Evaluation, LREC 2014, European Language Resources Association, Reykjavík, s. 1106–1111.
  • Wróblewska A. 2014: Polish Dependency Parser Trained on an Automatically Induced Dependency Bank, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.

Document Type

Publication order reference

YADDA identifier

bwmeta1.element.desklight-6928666e-7d25-4f32-9359-586e041bf6c8
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.