Analytical grammar forms extraction as a new challenge for corpora (Case of conditional mood in Polish and Ukrainian)

Fokin, Serhii

doi:10.17651/POLON.42.9

Article details

Journal

Polonica

2022 | 42 | 153-170

Article title

Analytical grammar forms extraction as a new challenge for corpora (Case of conditional mood in Polish and Ukrainian)

Authors

Serhii Fokin

Content

Full texts:

Download

Title variants

PL

Wydobywanie form gramatycznych analitycznych jako nowe wyzwania korpusowe (na materiale form trybu przypuszczającego w języku polskim i ukraińskim)

Languages of publication

Abstracts

PL

Szczególnym wyzwaniem dla współczesnych korpusów tekstowych jest tagowanie kategorii gramatycznych analitycznych. Składniki tych kategorii mogą być w pewnych kontekstach oddzielone innymi słowami lub nawet odwrócone. Szczególne zainteresowanie wyborem form gramatycznych analitycznych budzi tryb przypuszczający niektórych języków słowiańskich, wyrażany za pomocą dwóch słów: formy czasownika przeszłego i cząstki by/б/би/бы, dlatego w większości współczesnych korpusów kategoria ta nie ma specyficznego tagu dla tych form złożonych. Przypadek języka polskiego jest wysoce skomplikowany, ponieważ cząstka -by może być albo połączona z imiesłowem, albo użyta oddzielnie, ponadto jej oddzielna forma może zawierać końcówkę osobową czasownika. Specyficzne zapytania korpusowe, testowane na korpusach polskim i ukraińskim, pozwalają na wyselekcjonowanie omawianych form analitycznych.

EN

A particular challenge for modern textual corpora is the tagging of analytical grammar categories. The components of these categories may be separated in certain contexts by other words or may even be inverted. A particular interest regarding the selection of analytical grammatical forms is centred around the conditional mood in some Slavic languages, as expressed by means of two words: a past verb form and the particle by/б/би/бы, which is why in most modern corpora, this category lacks a specific tag for these compound forms. The case of Polish is particularly complicated because the particle by may either be merged with the participle or used separately; furthermore, its separated form may contain a personal verb ending. Specific queries subject to experiment on Polish and Ukrainian corpora allow selecting the analytical forms in question.

Keywords

EN

conditional mood Slavic languages analytical grammar category corpus query language

PL

tryb przypuszczający języki słowiańskie kategoria gramatyczna analityczna język zapytań korpusowych

Publisher

Instytut Języka Polskiego Polskiej Akademii Nauk

Journal

Polonica

Year

2022

Volume

42

Pages

153-170

Physical description

Dates

published

2022

Contributors

author

Serhii Fokin

Taras Shevchenko National University of Kyiv

https://orcid.org/0000000339201785

References

Alexandrov, M., Blanco, X., Mitrofanova O.M., & Zakharov, V. (2007). Nooj Applications for Document Clustering and Corpus Linguistics. In X. Blanco, & M.Silberztein (Eds.), Proceedings of the 2007 International NooJ Conference (pp. 6–19). Newcastle: Cambridge Scholars Publishing. https://www.cambridgescholars.com/download/sample/60082
Conditional Marker Auxiliaries, https://universaldependencies.org/pl/dep/aux-cnd.html (accessed: 28.10.2022).
Conditional Mood Tagset, https://universaldependencies.org/u/feat/Mood.html (accessed: 28.10.2022).
Corpus Query Language (n.d.). Sketch Engine. https://www.sketchengine.eu/documentation/corpus-querying/ (accessed: 28.10.2022).
Fokin, S.B. (2020). Estructura de consultas para la selección automática de formas gramaticales analíticas del tiempo futuro en lenguas eslavas. Mundo Eslavo, 19, 25–38.
Gaszyńska-Magiera, M. (1998). Tryb przypuszczający w nauczaniu języka polskiego jako obcego. Acta Universitatis Lodziensis. Kształcenie Polonistyczne Cudzoziemców, 10, 51–60.
GRAK, General Regionally Annotated Corpus of Ukrainian. (2017–2022). Генеральний Регіонально Анотований Корпус Української Мови, http://www.parasolcorpus.org/bonito/run.cgi/first_form (accessed: 28.10.2022).
Grzegorczykowa, R., Laskowski, R., & Wróbel, H. (1999). Gramatyka współczesnego języka polskiego (t. 1). Warszawa: PWN.
HANCO. Helsinki Annotated Russian Corpus (1999–2018). ХАНКО – Хельсинкский аннотированный корпус русского языка. http://h248.it.helsinki.fi/hanco/ (accessed: 2.02.2022).
Institute of Formal and Applied Linguistics Charles University, Czech Republic Faculty of Mathematics and Physics. (2022). UDPipe 1 Models. https://ufal.mff.cuni.cz/udpipe/1/models (accessed: 2.02.2022).
Jelínek, T., Stindlová, B., Rosen, A., & Hana, J. (2012). Combining manual and automatic annotation of a Learner Corpus. In P. Sojka, A. Horák, I. Kopeček, K. Pala (Eds.), Text, Speech and Dialogue – Proceedings of the 15th International Conference. TSD 2012 (pp 127–134). Brno: Springer Verlag.
Korpus barokowy (2013–2018). Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.). https://korba.edu.pl/query_corpus/ (accessed: 2.02.2022).
Haitao, L., Chunshan, X., Junying, L. (2017). Dependency distance: A new perspective on syntactic patterns in natural languages. Physics of Life Reviews, 21, 171–193.
McDonald, J. (2007). Characterizing the Errors of Data-Driven Dependency Parsing Models. In Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL) (pp. 122–131). Prague: Association for Computational Linguistics.
Miller, G.A. (1956). The Magical Number Seven, Plus or Minus Two. The Psychological Review, 63, 81–97.
NKJP. Narodowy Korpus Języka Polskiego (2008–2010). Poliqarp search engine for NKJP data.
Polish Newscrawl (Leipzig Corpora Collection), http://cql.corpora.uni-leipzig.de/bonito/run.cgi/first?corpname=pol_newscrawl_2011 (accessed: 2.02.2022).
Przepiórkowski, A., & Woliński, M. (2003). A flexemic tagset for Polish. ACL anthology. https://aclanthology.org/W03-2905.pdf (accessed: 28.10.2022).
Przepiórkowski, A., & Wil, J. (2011). Poliqarp Query Language. http://nkjp.pl/poliqarp/help/ense3.html#x4-50003 (accessed: 2.02.2022).
Rosen, A., Hana, J., Štindlová, B. et al. (2014). Evaluating and automating the annotation of a learner corpus. Lang Resources & Evaluation, 48, 65–92.
Szober, S. (2022). Nauka o języku. Dla klasy trzeciej gimnazialnej. Warszawa: Wydawnictwo M. Arcta w Warszawie.
Zaleska, M. (1999). The Irrealis in the Polish Language: A question of verbal moods, conjunctions or the modal particle by? In L. Mereu (Ed.), Boundaries of Morphology and Syntax (pp.137–156). Roma: John Benjamins Publishing Company.
Zeman, D. (2016). Universal Annotation of Slavic Verb Forms. The Prague Bulletin of Mathematical Linguistics, 105, 143–193.

Document Type

Publication order reference

Identifiers

DOI

10.17651/POLON.42.9

Biblioteka Nauki

2167436

YADDA identifier

bwmeta1.element.ojs-doi-10_17651_POLON_42_9

Article details

Journal

Polonica

Article title

Analytical grammar forms extraction as a new challenge for corpora (Case of conditional mood in Polish and Ukrainian)

Authors

Content

Title variants

Languages of publication

Abstracts

Keywords

Publisher

Journal

Year

Volume

Pages

Physical description

Dates

Contributors

References

Document Type

Publication order reference

Identifiers

YADDA identifier