EN
The article presents in short, concise form the The MULTEXT-East morphology tagset as specified for the Slovak language, in the form of MULTEXT-East V3 tables, following the description of other languages present in the MULTEXT-East project. The reasoning behind some of the design choices is explained; the tagset has been influenced by other MULTEXT-East languages and by the morphosyntactic tagset used in the Slovak National Corpus.
SK
V rámci projektu EC MULTEXT Multilingual Tools and Corpora vznikli voľne prístupné lingvistické zdroje a nástroje pre viaceré západoeurópske jazyky: angličtinu, francúzštinu, španielčinu, taliančinu, nemčinu, holandčinu a švédčinu. EC INCO-Copernicus projekt MULTEXT-East Multilingual Text Tools and Corpora for Central and Eastern European Languages nadviazal na predchádzajúci projekt a použitím rovnakej metodológie vyvinul podobné zdroje pre šesť ďalších jazykov: bulharčinu, češtinu, estónčinu, maďarčinu, rumunčinu, slovinčinu a angličtinu. Slovenský jazyk netvoril súčasť projektu MULTEXT-East; tagset popísaný v článku vznikol nezávisle na pôde Jazykovedného ústavu Ľ. Štúra SAV v Bratislave s cieľom dosiahnuť kompatibilitu s existujúcou špecifikáciou. Článok popisuje verziu tagsetu č. 3; v súčasnosti existuje novšia verzia č. 4, ktorá sa líši iba vo formáte uložených dát, z lingvistického pohľadu nie je medzi verziou 3 a 4 podstatný rozdiel.Formát článku úmyselne dodržuje konvencie zaužívané v dokumentácii projektu MULTEXT-East, obzvlášť vo formátovaní tabuliek a poznámok. Predpokladáme, že čitateľ je oboznámený s projektom MULTEXT-East alebo s MULTEXT-East tagsetom nejakého iného jazyka. Predkladaný tagset bol pragmaticky ovplyvnený morfosyntaktickým tagsetom slovenského jazyka používanom pri značkovaní Slovenského národného korpusu - dokonca bol úspešne vypracovaný automatický konvertor tagsetu Slovenského národného korpusu do tagsetu MULTEXT-East.Navrhnutie použiteľného, vnútorne konzistentného morfosyntaktického tagsetu je pomerne náročná úloha, aj s ohľadom na rôzne možnosti analýzy gramatických javov v jazyku. Takáto úloha je oveľa ťažšia, ak berieme do úvahy aj iné jazyky s cieľom zachytiť v tagsetoch ich morfologickú podobnosť (alebo odlišnosť). Keďže pre takmer všetky slovanské jazyky existuje MULTEXT-East špecifikácia, používaný MULTEXT-East tagset má pravdepodobne najbližšie k (neexistujúcemu) univerzálnemu tagsetu slovanských jazykov.