Typologie víceslovných jednotek v češtině a frekvenční zastoupení jejich hlavních vlastností v žánrově vyváženém korpusu

Petkevič, Vladimír; Kopřivová, Marie; Hnátková, Milena; Jelínek, Tomáš; Kopřiva, Pavel; Rosen, Alexandr; Skoumalová, Hana; Vondřička, Pavel

Article details

Journal

Studie z aplikované lingvistiky - Studies in Applied Linguistics

2020 | 11 | 2 | 37-62

Article title

Typologie víceslovných jednotek v češtině a frekvenční zastoupení jejich hlavních vlastností v žánrově vyváženém korpusu

Authors

Petkevič Vladimír , Kopřivová Marie , Hnátková Milena , Jelínek Tomáš , Kopřiva Pavel , Rosen Alexandr , Skoumalová Hana , Vondřička Pavel

Content

Full texts:

Vladimir_Petkevic_-_Marie_Koprivova_-_Milena Hnatkova_et_al_37-62.pdf

Download

Title variants

EN

Typology of Multiword Expressions in Czech and Frequency of Their Main Features in a Genre-Balanced Corpus

Languages of publication

CS

Abstracts

CS

Příspěvek má dvě hlavní části: (a) V první části je podrobně popsána typologie (vlastnosti) víceslovných lexikálních jednotek (dále VLJ) v češtině, přičemž tato typologie je součástí popisu databázových hesel těchto jednotek v lexikální databázi LEMUR, obsahující k červnu 2020 více než 10 500 hesel.2 Jednotlivé vlastnosti těchto 1 Příspěvek vznikl jako součást projektu Mezi slovníkem a gramatikou (Between Lexicon and Grammar), podpořeného Grantovou agenturou České republiky, reg. č. 16-07473S. 2 Databáze LEMUR je podrobně charakterizována v článku Vondřička (2019). Vznikla v Ústavu Českého národního korpusu FF UK a výhledově bude zpřístupněna uživatelům. Bude rovněž postupně propojována s korpusem, kde budou víceslovné lexikální jednotky anotovány, takže bude možné podle anotovaných vlastností vyhledávat. Na vyžádání v Ústavu Českého národního korpusu FF UK je ovšem možné zpřístupnit databázi k nahlédnutí již nyní. OPEN ACCESS 38 STUDIE Z APLIKOVANÉ LINGVISTIKY 2/2020 jednotek jsou zachyceny prostřednictvím kategorií a jejich hodnot. U každé jednotky uvádíme její identifikační lemma a tzv. superlemma, definici, typické příklady; dále popisujeme lemmata a morfologické vlastnosti jednotlivých komponent (slov) a poté takové charakteristiky jako styl/varieta VLJ, její typ užití, syntaktická struktura (včetně reprezentace v podobě závislostního a frázového stromu), aspekty ustálenosti/flexibility (včetně variant a fragmentů VLJ, vnitřní modifikovatelnosti jednotlivých komponent VLJ, možností syntaktických transformací hlavních komponent VLJ a též morfologických omezení) a konečně typy idiomatičnosti na rovině lexikální, morfologické, syntaktické, sémantické a pragmatické. (b) V druhé, hlavní části příspěvku sledujeme frekvenční zastoupení hlavních aspektů této typologie u dosud zpracovaných VLJ: typ užití v korelaci se syntaktickým typem a dále zastoupení různých druhů idiomatičnosti, a to v reálném jazykovém materiálu reprezentovaném žánrově vyváženým korpusem SYN2015 (obsahuje sto milionů slovních tvarů mimo interpunkci). Jde patrně vůbec o první pokus zaměřit se na vlastnosti víceslovných lexikálních jednotek z hlediska četnosti jejich výskytů jakožto typů, nikoli tokenů (tj. četností výskytů dané jednotky).

EN

The paper consists of two main parts: (a) In the first part, a typology of multiword expressions (MWE) in Czech is described in a detailed way. This typology is part of the description of MWE database entries in the lexical database LEMUR containing more than 10,500 MWE entries as of June 2020. MWE properties reflected in this typology are accounted for by categories and their values. Each MWE is identified by a unique lemma; a group of related MWEs is assigned a “superlemma”. A MWE is described by the following properties: a MWE definition, characteristic examples, lemmas and morphological features of MWE components (words), as well as the following key categories: MWE style/register, type of usage, syntactic structure (including its representation by a dependency and a phrase-structure tree), aspects of flexibility (variants and fragments, internal modifiability of individual MWE components, possibilities of syntactic transformations of the main MWE components and morphological constraints) and types of idiomaticity on the lexical, morphological, syntactic, semantic and pragmatic level. (b) In the second part of the paper, the authors focus on the frequency of the main features of the adopted typology in the real language material represented by the genre-balanced SYN2015 corpus, containing 100 mil. word forms (excluding punctuation): a type of usage correlated with a syntactic type and frequency of various kinds of idiomaticity. Our paper seems to be the first attempt at approaching the MWE properties from the point of view of MWE frequencies as types rather than tokens (i.e. frequencies of occurrences of a given MWE).

Keywords

CS

víceslovná lexikální jednotka v češtině typologie víceslovných lexikálních jednotek frekvence typů víceslovných lexikálních jednotek idiomaticita lexikální databáze žánrově vyvážený korpus

EN

multiword (lexical) expressions in Czech typology of multiword expressions frequency of types of multiword expressions idiomaticity lexical database genre-balanced corpus

Year

2020

Volume

11

Issue

2

Pages

37-62

Physical description

Contributors

author

Petkevič Vladimír

vladimir.petkevic@ff.cuni.cz

Ústav teoretické a komputační lingvistiky FF UK

author

Kopřivová Marie

marie.koprivova@ff.cuni.cz

Ústav teoretické a komputační lingvistiky FF UK

author

Hnátková Milena

milena.hnatkova@ff.cuni.cz

Ústav teoretické a komputační lingvistiky FF UK

author

Jelínek Tomáš

tomas.jelinek@ff.cuni.cz

Ústav teoretické a komputační lingvistiky FF UK

author

Kopřiva Pavel

P.Kopriva@seznam.cz

Ústav teoretické a komputační lingvistiky FF UK

author

Rosen Alexandr

alexandr.rosen@ff.cuni.cz

Ústav teoretické a komputační lingvistiky FF UK

author

Skoumalová Hana

hana.skoumalova@ff.cuni.cz

Ústav teoretické a komputační lingvistiky FF UK

author

Vondřička Pavel

pavel.vondricka@ff.cuni.cz

Ústav teoretické a komputační lingvistiky FF UK

References

Document Type

Publication order reference

Identifiers

YADDA identifier

bwmeta1.element.desklight-680bf3a3-1334-4e11-9a6a-3800a19a11bb

Article details

Journal

Studie z aplikované lingvistiky - Studies in Applied Linguistics

Article title

Typologie víceslovných jednotek v češtině a frekvenční zastoupení jejich hlavních vlastností v žánrově vyváženém korpusu

Authors

Content

Title variants

Languages of publication

Abstracts

Keywords

Discipline

Publisher

Journal

Year

Volume

Issue

Pages

Physical description

Contributors

References

Document Type

Publication order reference

Identifiers

YADDA identifier