O nowych ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusach równoległych oraz ich zastosowaniach

Roszko, Roman

doi:10.11649/abs.2576

Article details

Journal

Acta Baltico-Slavica

2021 | 45 |

Article title

O nowych ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusach równoległych oraz ich zastosowaniach

Authors

Roman Roszko

Content

Full texts:

Download

Title variants

EN

On New Manually Aligned and Tagged Bilingual Parallel Corpora and Their Applications

Languages of publication

Abstracts

PL

W artykule autor opisuje obecnie powstające ręcznie zrównoleglone i znakowane dwujęzyczne korpusy równoległe CLARIN-PL-BIZ języków bałtyckich i słowiańskich. Omawia wyróżniające cechy tych korpusów, które sprawią, że zastosowania tych korpusów znacznie wykroczą poza typowe analizy korpusowe. Wśród zastosowań tych korpusów autor wymienia definiowanie modeli międzyjęzykowych na rzecz rozwoju przekładu maszynowego i rozwoju sztucznej inteligencji. Zwraca również uwagę na wysoki potencjał tych zasobów jako wzorcowej bazy treningowej do testowania narzędzi przetwarzania języka naturalnego.

EN

This article is devoted to the manually aligned and tagged bilingual parallel CLARIN-PL-BIZ corpora of the Baltic and Slavic languages which are currently being developed. The study discusses the essential features of these corpora that make their applications go far beyond typical corpus analysis. Applications of these corpora include the design of cross-language models for the development of machine translation and artificial intelligence. The article also draws attention to the high potential of these resources as a model training base for testing natural language processing tools.

Keywords

PL

ręcznie zrównoleglone i znakowane dwujęzyczne korpusy równoległe język litewski języki słowiańskie narzędzia językowe CLARIN-PL

EN

manually aligned and tagged bilingual parallel corpora Lithuanian language Slavic languages language tools CLARIN-PL

Publisher

Polska Akademia Nauk. Instytut Slawistyki PAN

Journal

Acta Baltico-Slavica

Year

2021

Volume

45

Physical description

Dates

published

2021

Contributors

author

Roman Roszko

Instytut Slawistyki Polskiej Akademii Nauk [Institute of Slavic Studies, Polish Academy of Sciences], Warsaw

https://orcid.org/0000000222916939

References

Blagoeva, D., Jaskot, M. P., & Sosnowski, W. (2019). A lexicographical approach to the contrastive analysis of Bulgarian and Polish phraseology. Cognitive Studies | Etudes cognitives, 2019(19), Article 1923. https://doi.org/10.11649/cs.1923
Čermák, F., & Rosen, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 17(3), 411–427. https://doi.org/10.1075/ijcl.17.3.05cer
Charciarek, A. (2018). Možnosti využiti korpusu InterCorp v česko-polske překladové lexikografii. Časopis pro moderni filologii, 100(2), 206–222.
Charciarek, A. (2019a). Korpus równoległy InterCorp w leksykografii przekładowej – możliwości i ograniczenia. Roczniki Humanistyczne, 67(7), 79–92. https://doi.org/10.18290/rh.2019.67.7-5
Charciarek, A. (2019b). Využití paralelního korpusu v translatologii (na základě česko-polského InterCorpu). Bohemistyka, 2019(2), 194–216. https://doi.org/10.14746/bo.2019.2.5
CLARIN-PL. (n.d.). Polska infrastruktura CLARIN. http://clarin-pl.eu/
Dobrovol′skiĭ, D., Kretov, A., & Sharov, S. (2005). Korpus parallel′nykh tekstov: Arkhitektura i vozmozhnosti ispol′zovaniia. In D. Dobrovol′skiĭ, A. Kretov, & S. Sharov, Natsional′nyĭ korpus russkogo iazyka: 2003–2005 (pp. 263–296). Indrik.
Duszkin, M., Roszko, D., & Roszko, R. (2021). New parallel corpora of Baltic and Slavic languages – Assumptions of corpus construction. In K. Ekštein, F. Pártl, & M. Konopík (Eds.), Lecture Notes in Artificial Intelligence LNAI 12848: TSD 2021 (pp. 173–183). Springer Nature Switzerland. https://doi.org/10.1007/978-3-030-83527-9_15
Dziob, A., & Piasecki, M. (2018). Dynamic verbs in the Wordnet of Polish. Cognitive Studies | Etudes cognitives, 2018(18), Article 1718. https://doi.org/10.11649/cs.1718
Fellerer, J. (2020). Urban multilingualism in East-Central Europe: The Polish dialect of late-Habsburg Lviv. Rowman & Littlefield.
Garncarek, Ł., Powalski, R., Stanisławek, T., Topolski, B., Halama, P., Turski, M., & Graliński, F. (2021). LAMBERT: Layout-aware language modeling for information extraction. In J. Lladós, D. Lopresti, & S. Uchida (Eds.), Document Analysis and Recognition – ICDAR 2021 (pp. 532–547). Springer International Publishing. https://doi.org/10.1007/978-3-030-86549-8_34
Grabowski, Ł. (2012). A corpus-driven study of translational and non-translational texts: The case of Nabokov’s Lolita. Wydawnictwo Uniwersytetu Opolskiego.
Grabowski, Ł. (2015). O frazeologii z perspektywy językoznawstwa korpusowego: Przegląd głównych nurtów badawczych ostatniego dwudziestolecia w Wielkiej Brytanii i USA. Problemy Frazeologii Europejskiej, 10, 23–48.
Gruszczyńska, E., & Leńko-Szymańska, A. (Eds.). (2016). Polskojęzyczne korpusy równoległe. Instytut Lingwistyki Stosowanej Uniwersytetu Warszawskiego.
Hebal-Jezierska, M. (2013). Podstawowe zasady korzystania z korpusów przy badaniu języka. In W. Chlebda (Ed.), Tropem korpusów: W poszukiwaniu optymalnych zbiorów tekstów (pp. 17–30). Uniwersytet Opolski.
Hebal-Jezierska, M. (Ed.). (2014). Praktyczny przewodnik po korpusach języków słowiańskich. Wydział Polonistyki Uniwersytetu Warszawskiego.
Kaczmarska, E. (2019). Metody ustalania ekwiwalentów czasowników wyrażających stany emocjonalne w przekładzie czesko-polskim na materiale z korpusu równoległego InterCorp. Wydział Polonistyki Uniwersytetu Warszawskiego.
Kaźmierczak, I., Sarzyńska-Wawer, J., Wawer, A., & Chądzyńska, M. (2020). Describing a critical life event and its psychological consequences: The type of language used by patients suffering from depression and its relationship with personality development. Current Psychology: A Journal for Diverse Perspectives on Diverse Psychological Issues. https://doi.org/10.1007/s12144-020-00944-5
KonText – Corpus Query Interface. (b.d.). https://kontext.clarin-pl.eu/run.cgi/first_form
Koseska-Toszewa, V., Korytkowska, M., & Roszko, R. (2007). Polsko-bułgarska gramatyka konfrontatywna. Wydawnictwo Akademickie “Dialog”.
Koseska-Toszewa, V., Korytkowska, M., & Roszko, R. (2009). Contrastive studies and semantic interlanguage. Cognitive Studies | Etudes cognitives, 2009(9), 15–34.
Koseska, V., & Roszko, R. (2015). On semantic annotation in CLARIN-PL parallel corpora. Cognitive Studies | Etudes cognitives, 2015(15), 211–236. https://doi.org/10.11649/cs.2015.016
Łaziński, M., & Kuratczyk, M. (2016). Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego. In E. Gruszczyńska & A. Leńko-Szymańska (Eds.), Polskojęzyczne korpusy równoległe (pp. 83–95). Instytut Lingwistyki Stosowanej Uniwersytetu Warszawskiego.
Leech, G. (2002). The importance of reference corpora. In Corpus linguisticos: Presente y futuro (pp. 1–11). Unibertsitate Zerbitzuetarako Euskal Ikastetxea.
Machálek, T. (2020). KonText: Advanced and flexible corpus query interface. In Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020) (pp. 7003–7008). European Language Resources Association.
Marcińczuk, M., Oleksy, M., Kocoń, J., Bernaś, T., & Wolski, M. (2015). Towards an event annotated corpus of Polish. Cognitive Studies | Etudes cognitives, 2015(15), 253–267. https://doi.org/10.11649/cs.2015.018
Maziarz, M., & Rudnicka, E. (2020). Expanding WordNet with gloss and polysemy links for evocation strength recognition. Cognitive Studies | Etudes cognitives, 2020(20), Article 2325. https://doi.org/10.11649/cs.2325
PELCRA Polish-Russian parallel corpus. (n.d.). http://pelcra.pl/new/polrus
Pęzik, P. (2020). Budowa i zastosowania korpusu monitorującego MoncoPL. Forum Lingwistyczne, 7, 133–150. http://doi.org/10.31261/FL.2020.07.11
Piasecki, M., Walkowiak, T., Rudnicka, E., & Bond, F. (2018). Lexical platform – the first step towards user-centred integration of lexical resources. Cognitive Studies | Etudes cognitives, 2018(18), Article 1811. https://doi.org/10.11649/cs.1811
Piotrowski, T., & Grabowski, Ł. (2013). Interpretacja danych frekwencyjnych z korpusów językowych: Opis pewnych problemów (na kilku przykładach z życia wziętych). In W. Chlebda (Ed.), Na tropach korpusów: W poszukiwaniu optymalnych zbiorów tekstów (pp. 59–71). Wydawnictwo Uniwersytetu Opolskiego.
Przepiórkowski, A., Bańko, M., Górski, R., & Lewandowska-Tomaszczyk, B. (2012). Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN.
Reynaert, M. (2006). Corpus-induced corpus clean-up. In N. Calzolari, K. Choukri, A. Gangemi, B. Maegaard, J. Mariani, J. Odijk, & D. Tapias (Eds.), Proceedings of the Fifth International Conference on Language Resources and Evaluation, LREC–2006, Trento (pp. 87–92). European Language Resources Association (ELRA). https://aclanthology.org/L06-1000
Roszko, D. (2015). Zagadnienia kwantyfikacyjne i modalne w litewskiej gwarze puńskiej (na tle literackich języków polskiego i litewskiego). Instytut Slawistyki Polskiej Akademii Nauk. https://hdl.handle.net/20.500.12528/31
Sosnowski, W. P., & Satoła-Staśkowiak, J. (2019). A contrastive analysis of feminitives in Bulgarian, Polish and Russian. Cognitive Studies | Etudes cognitives, 2019(19), Article 1922. https://doi.org/10.11649/cs.1922
Tiedemann, J. (2016). OPUS – parallel corpora for everyone. In Proceedings of the 19tb Annual Conference of the European Association for Machine Translation (EAMT) (p. 384). Baltic Journal of Modern Computing.
von Waldenfels, R. (2011). Recent developments in ParaSol: Breadth for depth and XSLT based web concordancing with CWB. In D. Majchráková & R. Garabík (Eds.), Natural language processing, multilinguality. Sixth international conference Modra, Slovakia, 20–21 October 2011: Proceedings (pp. 156–162). Tribun EU.
Wawer, A. (2019). Sentiment analysis for Polish. Poznań Studies in Contemporary Linguistics, 55(2), 445–468. http://doi.org/10.1515/psicl-2019-0016

Document Type

Publication order reference

Identifiers

DOI

10.11649/abs.2576

Biblioteka Nauki

38439906

YADDA identifier

bwmeta1.element.ojs-doi-10_11649_abs_2576

Article details

Journal

Acta Baltico-Slavica

Article title

O nowych ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusach równoległych oraz ich zastosowaniach

Authors

Content

Title variants

Languages of publication

Abstracts

Keywords

Publisher

Journal

Year

Volume

Physical description

Dates

Contributors

References

Document Type

Publication order reference

Identifiers

YADDA identifier