Korpusomat – stan obecny i przyszłość projektu

Kieraś, Witold; Kobyliński, Łukasz

doi:https://doi.org/10.31286/JP.101.2.4

Article details

Journal

Język Polski

2021 | 101 | 2 | 49-58

Article title

Korpusomat – stan obecny i przyszłość projektu

Authors

Kieraś Witold , Kobyliński Łukasz

Title variants

EN

Korpusomat – present state and the future of the project

Languages of publication

PL

Abstracts

PL

W artykule zaprezentowano aplikację webową Korpusomat przeznaczoną do tworzenia własnych anotowanych korpusów językowych. Aplikacja oferuje możliwość automatycznego znakowania tekstu i przeszukiwania go na podstawie cech fleksyjnych i składniowych słów oraz jednostek nazewniczych. Wszystkie warstwy anotacji opisane są wraz z przykładami ich zastosowania w analizie lingwistycznej. Korpusomat oferuje również podsumowania statystyczne zebranych tekstów, a także możliwość współdzielenia stworzonych korpusów z innymi użytkownikami.

EN

The article presents the Korpusomat web application for creating user’s own annotated linguistic corpora. The application offers an automatic annotation of texts and the ability to search it based on the annotation of inflectional and syntactic features of words and named entities. All annotation layers are presented along with examples of their application in linguistic analysis. The Korpusomat also offers statistical summaries of the collected data, as well as the possibility of sharing the created corpora with other users.

Keywords

PL

przetwarzanie języka naturalnego lingwistyka korpusowa analiza fleksyjna analiza składniowa anotacja tekstu

EN

natural language processing corpus linguistics inflectional analysis syntactic analysis text annotation

Publisher

Towarzystwo Miłośników Języka Polskiego

Journal

Język Polski

Year

2021

Volume

101

Issue

2

Pages

49-58

Physical description

Contributors

author

Kieraś Witold

wkieras@ipipan.waw.pl

Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa

author

Kobyliński Łukasz

lkobylinski@ipipan.waw.pl

Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa

References

Brouwer M., Brugman H., Kemps-Snijders M. 2017: MTAS: A Solr/Lucene based Multi Tier An-notation Search solution, [w:] Selected papers from the CLARIN Annual Conference 2016, Aix-en-Provence, 26–28 October 2016, CLARIN Common Language Resources and Technology Infrastructure, Linköping University Electronic Press, Linköpings Universitet, s. 19–37.
Eder M., Rybicki J., Kestemont M. 2016: Stylometry with R: a package for computational text analysis, „The R Journal”, vol. 8, s. 107–121.
Gruszczyński W., Adamiec D., Bronikowska R., Wieczorek A. 2020: Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe, „Poradnik Językowy”, z. 8, s. 32–51.
Janus D., Przepiórkowski A. 2007: Poliqarp: An open source corpus indexer and search engine with syntactic extensions, [w:] Proceedings of the ACL 2007 Demo and Poster Sessions, Prague, s. 85–88.
Kieraś W., Kobyliński Ł., Ogrodniczuk M. 2018: Korpusomat – a tool for creating searchable morphosyntactically tagged corpora, „Computational Methods in Science and Technology”, vol. 24, s. 21–27.
Kieraś W., Woliński M. 2017: Morfeusz 2 – analizator i generator fleksyjny dla języka polskiego, „Język Polski” XCVII, s. 75–83.
Marciniak M., Mykowiecka A., Rychlik P. 2017: Automatyczne wydobywanie terminologii dziedzinowej z korpusów tekstowych, „Język Polski” XCVII, s. 64–74.
Marcińczuk M., Kocoń J., Gawor M. 2018: Recognition of Named Entities for Polish-Comparison of Deep Learning and Conditional Random Fields Approaches, [w:] M. Ogrodniczuk, Ł. Kobyliński (red.), Proceedings of the PolEval 2018 Workshop, Institute of Computer Science, Polish Academy of Science, Warszawa, s. 63–73.
Nivre J., de Marneffe M., Ginter F., Goldberg Y., Hajič J., Manning Ch., McDonald R., Petrov S., Pyysalo S., Silveira N., Tsarfaty R., Zeman D. 2016: Universal Dependencies v1: A Multilingual Treebank Collection, [w:] N. Calzorali i in. (red.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), European Language Resources Association, Portorož, s. 1659–1666.
NKJP: Narodowy Korpus Języka Polskiego (online: http://nkjp.pl/).
Ogrodniczuk M. 2018: Polish Parliamentary Corpus, [w:] D. Fišer, M. Eskevich, F. de Jong (red.), Proceedings of the LREC 2018 Workshop ParlaCLARIN: Creating and Using Parliamentary Corpora, European Language Resources Association (ELRA), Paris, s. 15–19.
Przepiórkowski A., Bańko M., Górski R.L., Lewandowska-Tomaszczyk B. (red.) 2012: Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa.
Rybak P., Wróblewska A. 2018: Semi-supervised neural system for tagging, parsing and lemmatization, [w:] D. Zeman, J. Hajič (red.), Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Association for Computational Linguistics, Brussels, s. 45–54.
Saloni Z., Woliński M., Wołosz R., Gruszczyński W., Skowrońska D. 2015: Słownik gramatyczny języka polskiego, Warszawa, wyd. 3.
Savary A., Chojnacka-Kuraś M., Wesołek A., Skowrońska D., Śliwiński P. 2012: Anotacja jednostek nazewniczych, [w:] A. Przepiórkowski i in. (red.), Narodowy Korpus Języka Polskiego, Wydawnictwo Naukowe PWN, Warszawa, s. 129–167.
Waszczuk J., Kieraś W., Woliński M. 2018: Morphosyntactic Disambiguation and Segmentation for Historical Polish with Graph-Based Conditional Random Fields, [w:] P. Sojka i in. (red.), Text, Speech, and Dialogue. TSD 2018, Lecture Notes in Computer Science 11107, Springer, s. 188–196.
Woliński M. 2003: System znaczników morfosyntaktycznych w korpusie IPI PAN, „Polonica” XXII–XXIII, s. 39–55.
Woliński M. 2014: Morfeusz reloaded, [w:] Calzolari N. i in. (red.), Proceedings of the Ninth International Conference on Language Resources and Evaluation, LREC 2014, European Language Resources Association, Reykjavík, s. 1106–1111.
Wróblewska A. 2014: Polish Dependency Parser Trained on an Automatically Induced Dependency Bank, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Warszawa.

Document Type

Publication order reference

Identifiers

DOI

https://doi.org/10.31286/JP.101.2.4

YADDA identifier

bwmeta1.element.desklight-6928666e-7d25-4f32-9359-586e041bf6c8

Article details

Journal

Język Polski

Article title

Korpusomat – stan obecny i przyszłość projektu

Authors

Title variants

Languages of publication

Abstracts

Keywords

Publisher

Journal

Year

Volume

Issue

Pages

Physical description

Contributors

References

Document Type

Publication order reference

Identifiers

YADDA identifier