Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

PL EN


2021 | 45 |

Article title

O nowych ręcznie zrównoleglonych i znakowanych dwujęzycznych korpusach równoległych oraz ich zastosowaniach

Authors

Content

Title variants

EN
On New Manually Aligned and Tagged Bilingual Parallel Corpora and Their Applications

Languages of publication

Abstracts

PL
W artykule autor opisuje obecnie powstające ręcznie zrównoleglone i znakowane dwujęzyczne korpusy równoległe CLARIN-PL-BIZ języków bałtyckich i słowiańskich. Omawia wyróżniające cechy tych korpusów, które sprawią, że zastosowania tych korpusów znacznie wykroczą poza typowe analizy korpusowe. Wśród zastosowań tych korpusów autor wymienia definiowanie modeli międzyjęzykowych na rzecz rozwoju przekładu maszynowego i rozwoju sztucznej inteligencji. Zwraca również uwagę na wysoki potencjał tych zasobów jako wzorcowej bazy treningowej do testowania narzędzi przetwarzania języka naturalnego.
EN
This article is devoted to the manually aligned and tagged bilingual parallel CLARIN-PL-BIZ corpora of the Baltic and Slavic languages which are currently being developed. The study discusses the essential features of these corpora that make their applications go far beyond typical corpus analysis. Applications of these corpora include the design of cross-language models for the development of machine translation and artificial intelligence. The article also draws attention to the high potential of these resources as a model training base for testing natural language processing tools.

Year

Volume

45

Physical description

Dates

published
2021

Contributors

author
  • Instytut Slawistyki Polskiej Akademii Nauk [Institute of Slavic Studies, Polish Academy of Sciences], Warsaw

References

  • Blagoeva, D., Jaskot, M. P., & Sosnowski, W. (2019). A lexicographical approach to the contrastive analysis of Bulgarian and Polish phraseology. Cognitive Studies | Etudes cognitives, 2019(19), Article 1923. https://doi.org/10.11649/cs.1923
  • Čermák, F., & Rosen, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 17(3), 411–427. https://doi.org/10.1075/ijcl.17.3.05cer
  • Charciarek, A. (2018). Možnosti využiti korpusu InterCorp v česko-polske překladové lexikografii. Časopis pro moderni filologii, 100(2), 206–222.
  • Charciarek, A. (2019a). Korpus równoległy InterCorp w leksykografii przekładowej – możliwości i ograniczenia. Roczniki Humanistyczne, 67(7), 79–92. https://doi.org/10.18290/rh.2019.67.7-5
  • Charciarek, A. (2019b). Využití paralelního korpusu v translatologii (na základě česko-polského InterCorpu). Bohemistyka, 2019(2), 194–216. https://doi.org/10.14746/bo.2019.2.5
  • CLARIN-PL. (n.d.). Polska infrastruktura CLARIN. http://clarin-pl.eu/
  • Dobrovol′skiĭ, D., Kretov, A., & Sharov, S. (2005). Korpus parallel′nykh tekstov: Arkhitektura i vozmozhnosti ispol′zovaniia. In D. Dobrovol′skiĭ, A. Kretov, & S. Sharov, Natsional′nyĭ korpus russkogo iazyka: 2003–2005 (pp. 263–296). Indrik.
  • Duszkin, M., Roszko, D., & Roszko, R. (2021). New parallel corpora of Baltic and Slavic languages – Assumptions of corpus construction. In K. Ekštein, F. Pártl, & M. Konopík (Eds.), Lecture Notes in Artificial Intelligence LNAI 12848: TSD 2021 (pp. 173–183). Springer Nature Switzerland. https://doi.org/10.1007/978-3-030-83527-9_15
  • Dziob, A., & Piasecki, M. (2018). Dynamic verbs in the Wordnet of Polish. Cognitive Studies | Etudes cognitives, 2018(18), Article 1718. https://doi.org/10.11649/cs.1718
  • Fellerer, J. (2020). Urban multilingualism in East-Central Europe: The Polish dialect of late-Habsburg Lviv. Rowman & Littlefield.
  • Garncarek, Ł., Powalski, R., Stanisławek, T., Topolski, B., Halama, P., Turski, M., & Graliński, F. (2021). LAMBERT: Layout-aware language modeling for information extraction. In J. Lladós, D. Lopresti, & S. Uchida (Eds.), Document Analysis and Recognition – ICDAR 2021 (pp. 532–547). Springer International Publishing. https://doi.org/10.1007/978-3-030-86549-8_34
  • Grabowski, Ł. (2012). A corpus-driven study of translational and non-translational texts: The case of Nabokov’s Lolita. Wydawnictwo Uniwersytetu Opolskiego.
  • Grabowski, Ł. (2015). O frazeologii z perspektywy językoznawstwa korpusowego: Przegląd głównych nurtów badawczych ostatniego dwudziestolecia w Wielkiej Brytanii i USA. Problemy Frazeologii Europejskiej, 10, 23–48.
  • Gruszczyńska, E., & Leńko-Szymańska, A. (Eds.). (2016). Polskojęzyczne korpusy równoległe. Instytut Lingwistyki Stosowanej Uniwersytetu Warszawskiego.
  • Hebal-Jezierska, M. (2013). Podstawowe zasady korzystania z korpusów przy badaniu języka. In W. Chlebda (Ed.), Tropem korpusów: W poszukiwaniu optymalnych zbiorów tekstów (pp. 17–30). Uniwersytet Opolski.
  • Hebal-Jezierska, M. (Ed.). (2014). Praktyczny przewodnik po korpusach języków słowiańskich. Wydział Polonistyki Uniwersytetu Warszawskiego.
  • Kaczmarska, E. (2019). Metody ustalania ekwiwalentów czasowników wyrażających stany emocjonalne w przekładzie czesko-polskim na materiale z korpusu równoległego InterCorp. Wydział Polonistyki Uniwersytetu Warszawskiego.
  • Kaźmierczak, I., Sarzyńska-Wawer, J., Wawer, A., & Chądzyńska, M. (2020). Describing a critical life event and its psychological consequences: The type of language used by patients suffering from depression and its relationship with personality development. Current Psychology: A Journal for Diverse Perspectives on Diverse Psychological Issues. https://doi.org/10.1007/s12144-020-00944-5
  • KonText – Corpus Query Interface. (b.d.). https://kontext.clarin-pl.eu/run.cgi/first_form
  • Koseska-Toszewa, V., Korytkowska, M., & Roszko, R. (2007). Polsko-bułgarska gramatyka konfrontatywna. Wydawnictwo Akademickie “Dialog”.
  • Koseska-Toszewa, V., Korytkowska, M., & Roszko, R. (2009). Contrastive studies and semantic interlanguage. Cognitive Studies | Etudes cognitives, 2009(9), 15–34.
  • Koseska, V., & Roszko, R. (2015). On semantic annotation in CLARIN-PL parallel corpora. Cognitive Studies | Etudes cognitives, 2015(15), 211–236. https://doi.org/10.11649/cs.2015.016
  • Łaziński, M., & Kuratczyk, M. (2016). Korpus Polsko-Rosyjski Uniwersytetu Warszawskiego. In E. Gruszczyńska & A. Leńko-Szymańska (Eds.), Polskojęzyczne korpusy równoległe (pp. 83–95). Instytut Lingwistyki Stosowanej Uniwersytetu Warszawskiego.
  • Leech, G. (2002). The importance of reference corpora. In Corpus linguisticos: Presente y futuro (pp. 1–11). Unibertsitate Zerbitzuetarako Euskal Ikastetxea.
  • Machálek, T. (2020). KonText: Advanced and flexible corpus query interface. In Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020) (pp. 7003–7008). European Language Resources Association.
  • Marcińczuk, M., Oleksy, M., Kocoń, J., Bernaś, T., & Wolski, M. (2015). Towards an event annotated corpus of Polish. Cognitive Studies | Etudes cognitives, 2015(15), 253–267. https://doi.org/10.11649/cs.2015.018
  • Maziarz, M., & Rudnicka, E. (2020). Expanding WordNet with gloss and polysemy links for evocation strength recognition. Cognitive Studies | Etudes cognitives, 2020(20), Article 2325. https://doi.org/10.11649/cs.2325
  • PELCRA Polish-Russian parallel corpus. (n.d.). http://pelcra.pl/new/polrus
  • Pęzik, P. (2020). Budowa i zastosowania korpusu monitorującego MoncoPL. Forum Lingwistyczne, 7, 133–150. http://doi.org/10.31261/FL.2020.07.11
  • Piasecki, M., Walkowiak, T., Rudnicka, E., & Bond, F. (2018). Lexical platform – the first step towards user-centred integration of lexical resources. Cognitive Studies | Etudes cognitives, 2018(18), Article 1811. https://doi.org/10.11649/cs.1811
  • Piotrowski, T., & Grabowski, Ł. (2013). Interpretacja danych frekwencyjnych z korpusów językowych: Opis pewnych problemów (na kilku przykładach z życia wziętych). In W. Chlebda (Ed.), Na tropach korpusów: W poszukiwaniu optymalnych zbiorów tekstów (pp. 59–71). Wydawnictwo Uniwersytetu Opolskiego.
  • Przepiórkowski, A., Bańko, M., Górski, R., & Lewandowska-Tomaszczyk, B. (2012). Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN.
  • Reynaert, M. (2006). Corpus-induced corpus clean-up. In N. Calzolari, K. Choukri, A. Gangemi, B. Maegaard, J. Mariani, J. Odijk, & D. Tapias (Eds.), Proceedings of the Fifth International Conference on Language Resources and Evaluation, LREC–2006, Trento (pp. 87–92). European Language Resources Association (ELRA). https://aclanthology.org/L06-1000
  • Roszko, D. (2015). Zagadnienia kwantyfikacyjne i modalne w litewskiej gwarze puńskiej (na tle literackich języków polskiego i litewskiego). Instytut Slawistyki Polskiej Akademii Nauk. https://hdl.handle.net/20.500.12528/31
  • Sosnowski, W. P., & Satoła-Staśkowiak, J. (2019). A contrastive analysis of feminitives in Bulgarian, Polish and Russian. Cognitive Studies | Etudes cognitives, 2019(19), Article 1922. https://doi.org/10.11649/cs.1922
  • Tiedemann, J. (2016). OPUS – parallel corpora for everyone. In Proceedings of the 19tb Annual Conference of the European Association for Machine Translation (EAMT) (p. 384). Baltic Journal of Modern Computing.
  • von Waldenfels, R. (2011). Recent developments in ParaSol: Breadth for depth and XSLT based web concordancing with CWB. In D. Majchráková & R. Garabík (Eds.), Natural language processing, multilinguality. Sixth international conference Modra, Slovakia, 20–21 October 2011: Proceedings (pp. 156–162). Tribun EU.
  • Wawer, A. (2019). Sentiment analysis for Polish. Poznań Studies in Contemporary Linguistics, 55(2), 445–468. http://doi.org/10.1515/psicl-2019-0016

Document Type

Publication order reference

Identifiers

Biblioteka Nauki
38439906

YADDA identifier

bwmeta1.element.ojs-doi-10_11649_abs_2576
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.