Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

PL EN


2011 | 62 | 1 | 19-39

Article title

Slovak Multext-East Morphology Tagset

Content

Title variants

SK
Slovak MULTEXT-East Morphology Tagset

Languages of publication

Abstracts

EN
The article presents in short, concise form the The MULTEXT-East morphology tagset as specified for the Slovak language, in the form of MULTEXT-East V3 tables, following the description of other languages present in the MULTEXT-East project. The reasoning behind some of the design choices is explained; the tagset has been influenced by other MULTEXT-East languages and by the morphosyntactic tagset used in the Slovak National Corpus.
SK
V rámci projektu EC MULTEXT Multilingual Tools and Corpora vznikli voľne prístupné lingvistické zdroje a nástroje pre viaceré západoeurópske jazyky: angličtinu, francúzštinu, španielčinu, taliančinu, nemčinu, holandčinu a švédčinu. EC INCO-Copernicus projekt MULTEXT-East Multilingual Text Tools and Corpora for Central and Eastern European Languages nadviazal na predchádzajúci projekt a použitím rovnakej metodológie vyvinul podobné zdroje pre šesť ďalších jazykov: bulharčinu, češtinu, estónčinu, maďarčinu, rumunčinu, slovinčinu a angličtinu. Slovenský jazyk netvoril súčasť projektu MULTEXT-East; tagset popísaný v článku vznikol nezávisle na pôde Jazykovedného ústavu Ľ. Štúra SAV v Bratislave s cieľom dosiahnuť kompatibilitu s existujúcou špecifikáciou. Článok popisuje verziu tagsetu č. 3; v súčasnosti existuje novšia verzia č. 4, ktorá sa líši iba vo formáte uložených dát, z lingvistického pohľadu nie je medzi verziou 3 a 4 podstatný rozdiel.Formát článku úmyselne dodržuje konvencie zaužívané v dokumentácii projektu MULTEXT-East, obzvlášť vo formátovaní tabuliek a poznámok. Predpokladáme, že čitateľ je oboznámený s projektom MULTEXT-East alebo s MULTEXT-East tagsetom nejakého iného jazyka. Predkladaný tagset bol pragmaticky ovplyvnený morfosyntaktickým tagsetom slovenského jazyka používanom pri značkovaní Slovenského národného korpusu - dokonca bol úspešne vypracovaný automatický konvertor tagsetu Slovenského národného korpusu do tagsetu MULTEXT-East.Navrhnutie použiteľného, vnútorne konzistentného morfosyntaktického tagsetu je pomerne náročná úloha, aj s ohľadom na rôzne možnosti analýzy gramatických javov v jazyku. Takáto úloha je oveľa ťažšia, ak berieme do úvahy aj iné jazyky s cieľom zachytiť v tagsetoch ich morfologickú podobnosť (alebo odlišnosť). Keďže pre takmer všetky slovanské jazyky existuje MULTEXT-East špecifikácia, používaný MULTEXT-East tagset má pravdepodobne najbližšie k (neexistujúcemu) univerzálnemu tagsetu slovanských jazykov.

Keywords

Publisher

Year

Volume

62

Issue

1

Pages

19-39

Physical description

Contributors

  • Ľ. Štúr Institute of Linguistics, Slovak Academy of Sciences, Bratislava

References

  • DIMITROVA, Ludmila - ERJAVEC, Tomaz - IDE, Nancy - KAALEP, Heiki Jaan - PETKEVIČ, Vladimir - TUFIŞ, Dan: Multext-East: Parallel and Comparable Corpora and Lexicons for Six Central and Eastern European Languages. In: Proceedings of COLING-ACL'98. Montréal - Québec 1998. pp. 315-319.
  • GARABÍK, Radovan - GIANITSOVÁ, Lucia - HORÁK, Alexander - ŠIMKOVÁ, Mária - ŠMOTLÁK, Martin: Slovak National Corpus. In: Proceedings of the conference TSD 2004. Brno: Springer-Verlag 2004.
  • GARABÍK, Radovan: Slovak Morphology Analyzer Based on Levenshtein Edit Operations. In: Proceedings of the WIKT'06 conference. Bratislava: 2006. pp. 2-5.
  • HAJIČ, Jan - VIDOVÁ-HLADKÁ, Barbora: Morfologické značkování korpusu českých textů stochastickou metodou. In: Slovo a slovesnost, 1997, roč. 58, č. 4, pp. 288-304.
  • IDE, Nancy - VÉRONIS, Jean: Multext (multilingual tools and corpora). In COLING'94, Kyoto 1994. pp. 90-96.
  • Morfológia slovenského jazyka. Ed. J. Ružička. Bratislava: Vydavateľstvo Slovenskej akadémie vied 1966.
  • MTE 2004: MULTEXT-East Morphosyntactic Specifications - version 3, edition 10th. May 2004.
  • SEDLÁČEK, Radek - SMRŽ, Pavel: A New Czech Morphological Analyser AJKA. In: Proceedings of TSD. Berlin: Springer Verlag 2001. pp.100-107.
  • ŠIMKOVÁ, Mária: Funkcie častíc v komunikácii. In: Jazyk v komunikácii. Medzinárodný zborník venovaný Jánovi Bosákovi. Ed. S. Mislovičová, Bratislava: Veda 2004. pp. 168-176.

Document Type

Publication order reference

Identifiers

YADDA identifier

bwmeta1.element.cejsh-article-doi-10-2478-v10113-011-0002-x
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.