Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

Refine search results

Journals help
Authors help
Years help

Results found: 63

first rewind previous Page / 4 next fast forward last

Search results

Search:
in the keywords:  korpus
help Sort By:

help Limit search:
first rewind previous Page / 4 next fast forward last
PL
Celem niniejszego artykułu, o charakterze teoretyczno-przeglądowym, jest omówienie problematyki związanej z budową własnego korpusu językowego. Badacz, chcący skupić się np. na analizie neologizmów, musi oprzeć swoje badania na określonych źródłach: o ile dawniej często wykorzystywano do tego celu prasę, o tyle obecnie znacznie częściej są to korpusy językowe (np. NKJP) oraz Internet. Autor artykułu stawia tezę, że zarówno NKJP, jak i Internet jako całość, nie są jednak najlepszym wyborem w wypadku chęci badania np. najnowszego słownictwa polszczyzny, a już na pewno nie są wystarczające. Jeszcze więcej problemów stwarza wybór języka mówionego jako podstawy analiz. Najlepszym wyjściem, choć jednocześnie najtrudniejszym i najbardziej czasochłonnym, jest budowa własnego korpusu językowego. W artykule wykazano, dlaczego użycie prasy czy Internetu jako całości niekoniecznie jest najlepszym rozwiązaniem, a także omówiono różnego rodzaju aspekty teoretyczne związane z budową własnego korpusu (np. wybór rodzaju tekstów, wielkość korpusu, wykorzystanie narzędzi informatycznych ułatwiających tworzenie korpusu).
PL
Wprawdzie językoznawstwo korpusowe istnieje od lat sześćdziesiątych, to językoznawstwo sądowe jest stosunkowo młodą dyscypliną, która obejmuje dowody językoznawcze wykorzystywane w sądzie jak i szersze zastosowanie językoznawstwa do tekstów sformułowanych w języku prawa oraz analizy dyskursu prawniczego. Wprawdzie korpusy języka naturalnego mogą być w różny sposób oznaczane i analizowane, zazwyczaj są to korpusy ogólne (np. the Cobuild "Bank of English") a nie tematyczne skonstruowane na potrzeby prawa. Ponadto, lingwiści zajmujący się językoznawstwem korpusowym niekiedy umieszczają teksty prawnicze w swoich korpusach, ale czynią to by dokonywać badań socjolingwistycznych czy historycznych, a nie w celu analizowania języka i prawa. Celem tej pracy jest zachęcenie językoznawców zajmujących się językoznawstwem korpusowym oraz sądowniczym do połączenia sił i do tworzenia korpusów na potrzeby językoznawstwa sądowego. Autorka przedstawia jakie teksty powinny się znaleźć w takim korpusie i jakie narzędzia są potrzebne do jego skutecznego wykorzystania.
EN
While corpus linguistics has existed since the 1960s, Forensic Linguistics isa relatively new discipline, involving both linguistic evidence in court and wider applications of linguistics to legal texts and discourses. Computer corpora of natural language may be marked up in various ways, grammatically tagged, parsed, lemmatised and analysed with concordance, collocation and other specialist soft ware. In the relatively short history of forensic linguistics, its exponents have oft en employed corpus linguistics techniques in orderto throw light on questions like disputed authorship. However, the corpora employed have been general ones such as the Cobuild “Bank of English”, rather than purpose-built databases of language used in legal contexts, with the result that such research sometimes raises more questions than it answers. Conversely, corpus linguists have from time to time incorporateddata from legal settings into their collections; but they have tended to use these resources as the basis for sociolinguistic or historical linguistic research rather than as a means of exploring topics in language and law. This paper makes a plea for these two fi elds, which are both already cross-disciplinary, to join forces and create a purpose-built corpus for forensic linguistics. It illustrates how corpus techniques may be successfully applied to questions of disputed authorship, citing both hypothetical and actual examples. It ends with an outline of the kinds of texts which a proposed new corpus for Forensic Linguistics should contain and the tools required to exploit it eff ectively.
4
Publication available in full text mode
Content available

Etnolingwistyka daleka i bliska

75%
EN
Lublin ethnolinguistics, its value and possibilities of promotion in a broader international context, must be seen against the backdrop of comparable approaches (not necessarily functioning under the same name) proposed in Western linguistics or drawing inspiration from Western scholarship. The latter is represented in the present volume by articles authored by Gary B. Palmer, Bert Peeters, Irena Vanková, and Przemysław Łozowski and Anna Włodarczyk-Stachurska, all being discussed in this introductory survey.Next, ideas are proposed for future action aimed at popularizing Lublin ethnolinguistics in the West, as well as establishing networks of collaborators from Western countries.
PL
Autor stwierdza, że sytuację lubelskiej etnolingwistyki, jej wartość i możliwość zaistnienia w szerszym kontekście międzynarodowym, należy postrzegać na tle zbliżonych koncepcji językoznawczych (niekoniecznie funkcjonujących pod tą samą nazwą) wypracowanych w świecie zachodnim lub czerpiących z zachodnich tradycji lingwistycznych. Reprezentują je publikowane w niniejszym tomie „Etnolingwistyki” (27) artykuły autorstwa Gary’ego Palmera, Berta Peetersa, Ireny Vankovej oraz Przemysława Łozowskiego i AnnyWłodarczyk-Stachurskiej, które autor omawia. Postuluje podjęcie działań mających na celu promocję myśli lubelskiej na Zachodzie oraz pozyskanie do współpracy badaczy stamtąd.
XX
The article describes the well-known and widely used National Corpus of Polish in a new setup. The update consists of the annotation scheme modification in the morphosyntactic layer (especially in its parts related to the grammatical gender), as well as adding new layers of annotation: the syntactic layer and the named entities layer. All three layers are indexed in the MTAS corpus search engine and can be referenced in CQL corpus queries.
EN
This article deals with the use of lexical resources and corpus tools to evaluate, edit, and verify already translated texts. Additionally, it provides a description of a pilot study whose purpose was to describe students’ behaviour in a situation where machine-translated metaphorical phrases should be evaluated and corrected. The analysis focuses on identifying the lexical resources and tools that were most frequently used at every stage of the task. The exercise was conducted during a course on translating technologies for MA students of translation studies.
PL
Niniejszy artykuł stanowi przegląd zasobów leksykalnych oraz narzędzi korpusowych przydatnych do oceny, edycji oraz weryfikacji przetłumaczonych tekstów. Dodatkowo zawiera opis badania pilotażowego, którego celem było opisanie zachowania studentów w sytuacji, gdy należy ocenić oraz dokonać modyfikacji leksykalno-stylistycznej wyrażenia metaforycznego przetłumaczonego maszynowo. Analizie poddano jedynie to, jakich narzędzi oraz zasobów studenci używali i na jakim etapie zadania. Ćwiczenie zostało wykonane w ramach zajęć na studiach magisterskich, kierunek: przekładoznawstwo – technologie tłumaczeniowe.
PL
Przedmiotem niniejszego badania jest niemiecki język prawny w obszarze szkolnictwa wyższego w Austrii, Niemczech i Szwajcarii oraz wpływ języka angielskiego w tym obszarze w związku z umiędzynarodowieniem i stworzeniem europejskiej przestrzeni szkolnictwa wyższego. Można założyć, że poprzez proces boloński, inicjatywę na poziomie europejskim, której celem jest stworzenie porównywalnego i konkurencyjnego systemu kształcenia wyższego, język angielski jest szerzej stosowany w tym obszarze. Przy pomocy porównywalnych specjalistycznych korpusów zbudowanych z ustaw uniwersyteckich zbadano język prawny i administracyjny w zakresie szkolnictwa wyższego. Poza tym sporządzono korpus porównawczy z międzynarodowych objaśnień i komunikatów na temat procesu bolońskiego. Badanie ma na celu wykazanie, jak dalece w tym obszarze stosuje się terminologię angielską. 
DE
Die vorliegende Untersuchung befasst sich mit der deutschen Rechtssprache im Bereich des Hochschulwesens in Österreich, Deutschland und der Schweiz und dem Einfluss des Englischen in diesem Bereich auf Grund der Internationalisierung und der Schaffung eines europäischen Hochschulraumes. Durch den Bologna Prozess, einer Initiative auf europäischer Ebene mit dem Ziel eine vergleichbarere und wettbewerbsfähigere Hochschulausbildung zu schaffen, ist es naheliegend, einen weiter verbreiteten Gebrauch des Englischen in diesem Bereich anzunehmen. Mit Hilfe von vergleichbaren fachsprachlichen Korpora aus Universitätsgesetzen wurde die deutsche Recht- und Verwaltungssprache im Bereich des Hochschulwesens untersucht. Weiters wurde ein Vergleichskorpus mit internationalen Erklärungen und Kommuniqués zum Bologna Prozess erstellt. Die Untersuchung zielt darauf ab, zu zeigen, inwieweit englische Terminologie im Bereich des Hochschulwesens verwendet wird.
EN
This paper investigates German legal terminology in the area of higher education in Austria, Germany and Switzerland. Particular emphasis is put on the influence of English in this field arising from internationalization and the creation of the European Higher Education Area. One can assume that due to the Bologna Process – initiated on the European level with the aim of creating more comparable, compatible and coherent higher education systems – there is a wider use of English terminology than before in the field of higher education. German legal and administrative language employed in the higher education sector in the aforementioned countries has been analysed within the framework of this study with the help of comparable specialized corpora of university legislative texts. In addition, a reference corpus of international legal texts dealing with the same topic has been employed. The analysis will endeavour to establish to what extent English terminology is being used.
EN
The present study aims at showing the methodology for building a legal corpus with a special attention paid to the internal structure of legal documents and juridical texts. Built at the University of Turin, the Corpus Jus Jurium tries to cover the entire legal universe current in contemporary Italy, whose life is represented from their first conception in the parlamentary discussion, to their codification in normative rules, to their application in judgements. The Corpus Jus Jurium will be lemmatized, POS-tagged and have added a textual markup, casting some light on the still neglected textual expression of legal and juridical texts, which is decisive for every national legal system. Elaborating texts with such peculiarites implies a long amount of manual work. However, the final result can be an extremely useful resource for translators looking for idioms, collocations or terminological elements in specific parts of texts and for forensic linguists, providing them with an extensive repository of well-structured data and with fine-grained querying opportunities, whether at the morphosyntactic or lexical or textual level.
PL
Praca ma na celu pokazanie metodologii konstruowania korpusów z uwzględnieniem wewnętrznej struktury dokumentów sformułowanych w języku prawnym i prawniczym. Autorka analizuje prace nad korpusem Jus Jurium tworzonym na Uniwersytecie w Turynie, który z założenia ma zawierać wszelkie teksty prawne i prawnicze tworzone współcześnie we Włoszech. W przypadku takich korpusów pojawia się konieczność lematyzacji, wprowadzania tagów i innych znaczników tekstu. Należy tutaj podkreślić, że taki korpus będzie stanowił niezmiernie przydatne narzędzie dla tłumaczy poszukujących kolokacji, idiomów, związków frazeologicznych czy terminów.
FR
Il contributo presenta la procedura di creazione di un corpus giuridico che mira a rappresentare l’intero universo legale attualmente corrente in Italia, illustrandone in particolare la metodologia utilizzata per il markup testuale dei dati. Il Corpus Jus Jurium, in fase di realizzazione presso l’Università di Torino, vuole superare le caratteristiche di un tradizionale database giuridico grazie a finalità precipuamente linguistiche: il corpus, infatti, è in corso di lemmatizzazione, etichettatura per parti del discorso e prevede un robusto markup testuale e diplomatico. Tra le sue finalità, in particolare, è proprio quella di poter interrogare in modo "ricco" i documenti, intersecando la loro definizione diplomatica con il loro assetto linguistico e testuale. Tale strumento costituirà auspicabilmente un’utile risorsa anche per traduttori giuridici e linguisti forensi.
EN
Double post-nominal genitives in Czech have thus far been illustrated only by a single type of nominalized structure, e.g., zbavení ženy starostí ‘relieving woman-GEN worry-GEN.PL, i.e. relieving the woman of worries’. In this paper, we specify three other types of double post-nominal genitive constructions and search for their frequency in the Prague Dependency Treebank and in the Czech National Corpus. Although the constructions are rare and less acceptable, we try to show that Czech grammar system allows them. Special attention is paid to nominalizations of support verb constructions; they can be interpreted as one lexical unit which enables them to be used within double post-nominal genitive constructions.
EN
The paper is devoted to tickers concerning the strikes of transport employees in France. The analysis of the choice of words which were used to describe various aspects of the events in four TV channels proves that after familiarising oneself with a short announcement of a particular piece of reporter’s material, the same facts could be interpreted in different ways, depending on the author. This function of tickers is additionally strengthened by the use of stylistic devices, especially metaphors. Investigating the corpora has also revealed that one of the channels has consciously created a coherent message and selected particular keyewords.
PL
Artykuł poświęcony został paskom tytułującym informacje telewizyjne dotyczące strajków pracowników transportu we Francji. Analiza doboru słów, którymi opisywano różne aspekty przedstawianych wydarzeń w czterech stacjach telewizyjnych, dowodzi, że po zapoznaniu się z kilkuwyrazową zapowiedzią materiału reporterskiego te same fakty mogą zostać zinterpretowane w zależny od autora sposób. Taka funkcja pasków jest dodatkowo wzmacniana poprzez użycie środków stylistycznych, a zwłaszcza metafory. Dzięki zbadaniu korpusów dowiedziono również, że w przypadku jednej ze stacji można mówić o świadomym zabiegu tworzenia spójnego przekazu i doborze słów kluczowych.
11
Content available remote

Google Books jako korpus językowy

63%
PL
Artykuł poświęcony jest omówieniu Google Books, dostępnej przez Internet biblioteki wirtualnej, obejmującej skany 30 milionów książek. Jest to aktualnie najbogatsze na świecie źródło danych tekstowych w postaci cyfrowej. Zbiory Google Books można nazwać korpusem, ale zasadniczo różnią się one od tradycyjnych korpusów językowych. Kłopoty klasyfikacyjne wynikają z konkretnych ograniczeń, z ja kimi trzeba się zmierzyć w trakcie badań. Między innymi część źródeł to wersje pełnotekstowe, a część – wersje z ograniczonym podglądem, dane bibliograficzne są nierzadko błędne, a jakość optycznego rozpoznawania tekstu, zwłaszcza w przypadku starszych tekstów, jest daleka od doskonałości. Referat omawia krótko problemy badawcze dotyczące Google Books.
EN
This article concerns Google Books, a digital library available on the Internet, which contains scans of 30 million books. At present, it is the largest source of textual data in digital format worldwide. Google Books may be called a corpus, but it is markedly different from traditional language corpora. Classification difficulties arise from specific limitations encountered during research. Among other things, some sources are available as full texts, while others offer limited preview; bibliographic metadata are often wrong; and the quality of optical character recognition is far from perfect, especially when applied to older texts. The article briefly discusses research problems involved in using Google Books.
EN
The subject of the analysis presented in the article are the adverbs of degree showing strong syntactic connectivity with the adjective piękny (‘beautiful’), forming compounds with this adjective with the status of collocation. The purpose of the study – using corpus data – is to trace the contextual determinants of the occurrence of these adverbs and demonstrate the dependence of their selection on what type of object is aesthetically assessed in a given statement. The study has shown that some of these adverbs are stronger and others less dependent on these determinants. This relationship strength depends on the way (strategy) in which a given adverb expresses the attribute’s intensity.
PL
Przedmiotem analizy przedstawionej w artykule są przysłówki stopnia wykazujące silną łączliwość syntaktyczno-składniową z przymiotnikiem piękny, tworzące z tym przymiotnikiem związki o statusie kolokacji. Celem badania – wykorzystującego dane korpusowe – jest prześledzenie kontekstowych uwarunkowań występowania tych przysłówków, wykazanie zależności ich doboru od tego, jaki typ obiektu jest w danej wypowiedzi poddawany ocenie estetycznej. Badanie pokazało, że niektóre z tych przysłówków są silniej, a inne słabiej uzależnione od tych uwarunkowań. Siła tej zależności ma związek ze sposobem (strategią) wyrażania intensywności cechy przez dany przysłówek.
13
Content available remote

Variabilita češtiny : multidimenzionální analýza

63%
EN
The article summarizes the theoretical foundations and results of a corpus-driven study of register variability in contemporary Czech. The descriptive framework is based on the methodology of multidimensional analysis, as previously applied to various other languages (see Biber 1995). The starting point is a quantitative analysis of a custom-built genre-diversified corpus in which linguistic features have been identified that are likely to be related to functional and systematic variability on different linguistic levels. Statistical processing using factor analysis then yields a model which identifies (in the case of Czech) 8 dimensions of variation of the texts. The greatest proportion of variance is explained by the first two dimensions, which can be described as dichotomies distinguishing between dynamic vs. static and spontaneous vs. prepared.
EN
The article presents an exemplary corpus-based analysis of selected Norwegian idioms in order to gain insight into their theory and actual use. The analysis comprises nine frequent idioms with the component 'heart'. First, each idiom is analyzed using the Leksikografisk bokmålskorpus and Oslo-korpuset av taggende norske tekster in terms of: frequency, possible variants and modifications. Next, the results are compared with the lexicographic description from Norwegian dictionary Bokmålsordboka. The main purpose of this chapter is thereby to show the potential of the corpus-based approach in the studies of idiomatic expressions.
EN
The article discusses the process of codification of oikonyms in the Internet Language Reference Book. It focuses on the use of corpus data, which have not been taken into consideration yet. The example of the adjectives derived from the oikonyms ended by a consonant and the suffix -ky, -ka, or -ko is used to verify the assumption that central onomastic phenomena can be studied on the basis of corpus data well. It is shown that the the present investigation of the frequent adjectives enables more precise statements regarding the distribution of changes in the base of the adjective. The new findings can also be applied to less frequent adjectives.
EN
The paper explores trends in spelling variation as reflected in Early English correspondence (15th–17th c.) on the material of the Corpus of Early English Correspondence (CEEC). Overall change in spelling variation has so far been commented on only in relatively general terms and never on quantitative grounds. There is, of course, no doubt about the general direction of the change (towards greater standardization, though not in a straightforward manner) and its basic characteristics, such as its slower pace in private documents compared to the spelling of professional publications, but the data to support the assertions as well as precise definitions of spelling variation or regularisation have not yet been, to our knowledge, provided. This paper introduces a novel methodology for the quantification of spelling variation and regularity, which allows a more objective assessment of its change and which also makes use of the metadata provided by the CEEC: such as gender, letter authenticity or relationship/kinship between the author and the recipient. The paper explores interactions of such variables from the diachronic perspective using quantified levels of spelling regularity. The measure introduced for this purpose is based on weighted information (Shannon) entropy, as a measure of predictability of spellings of individual functionally defined types, and its calculation is partly based on the morphological tagging of the parsed version of the Corpus.
PL
W niniejszym artykule autor stawia sobie za cel zbadanie konstrukcji what-cleft z przymiot-nikami i ustalenie jej cech strukturalnych, semantycznych i dystrybucyjnych poprzez za-stosowanie semantyki ramowej i gramatyki konstrukcji, wykorzystanie danych z korpusu (COCA) i użycie ilościowej metodologii korpusowej. W tym celu autor wydobywa wystąpie-nia konstrukcji z dużego korpusu naturalnie występujących danych, określa jej strukturalne, semantyczne, dystrybucyjne i dyskursowo-funkcjonalne właściwości oraz identyfikuje przy-miotniki, które są silnie związane z omawianą konstrukcją. Artykuł wnosi znaczący wkład do rosnącej literatury na temat konstrukcji what-cleft poprzez jakościową i ilościową analizę jednego z jej wariantów, konstrukcji z przymiotnikami, który nie był do tej pory szczegółowo badany.
EN
This paper aims to investigate the what-cleft construction with adjectives and establish its structural, semantic, and distributional features by adopting frame semantics and usage-based construction grammar, exploiting the data from the Corpus of Contemporary American English (COCA), and applying quantitative corpus-based methodology. To this end, the author extracts the occurrences of the What be ADJ be-construction from a large corpus of naturally-occurring data, determines its structural, semantic, distributional, and discourse-functional properties, and identifies adjectives that are strongly associated with the construction in question. The paper makes a significant contribution to a growing body of literature on the what-cleft construction by conducting a qualitative and quantitative analysis of one of its variants, a grammatical pattern with adjectives that has not been hitherto investigated in much detail.
EN
The present paper is devoted to the specificity of adjectival neologisms on the basis of observations made while analyzing the ‘Wortwarte’ electronic corpus, whose author is doctor Lothar Lemnitzer from Berlin-Brandenburg Academy of Sciences. This lexical corpus is updated on a nearly daily basis and provides a source of valuable information concerning German lexis for people learning the language as well as for linguists. It also encourages the researchers to pay more attention to new lexemes and to describe them. The adjectival neologisms listed in ‘Wortwarte’ are certainly worth attention. The empirical material for the paper, which comprises adjectival neologisms that were listed in 2012 and in January 2013, was subjected to both quantitative and qualitative analysis. The main conclusions are as follows: adjectival neologisms constitute 6% of the neologisms listed in ‘Wortwarte’ and in terms of quantity they prevail over verbal neologisms, although they are significantly fewer in comparison with nominal neologisms. However, it should be emphasized that the number of emerging adjectival neologisms in relation to neologisms derived from different parts of speech proves that the adjective enjoys a firm, stable status both among the lexemes existing in the German language and those emerging on a day-to-day basis. As far as the structure of adjectival neologisms is concerned, of particular importance is the fact that most of them are two- or multi-word compounds (in 2012 – 95%, in January 2013– 90% of all neologisms under analysis) which demonstrate a distinct tendency to form word series, e.g.: airbagfrei, ambientefrei, couchfrei, exzellenzfrei, fracfrei, gagfrei. Another interesting issue concerns the spelling of adjectival neologisms. More specifically, these neologisms reflect the overall tendency in the contemporary German language to opt for hyphenation. What this paper underlines is that the graphic-optical breaking of individual parts of a compound, by means of a hyphen, serves variouspurposes. The results of the analysis are presented using diagrams, which helped to order the data gathered, to visualize them and facilitate their interpretation.
PL
Biblia jest wspólnym dobrem kultury europejskiej, ale w każdym języku narodowym zostawiła nieco odmienny ślad. Autor stawia tezę, że wielojęzyczny słownik frazeologii pochodzenia biblijnego mógłby pomóc w określaniu części wspólnej tego dziedzictwa i jego narodowych części odmiennych. W związku z tym autor charakteryzuje trzy pojęcia: korpus biblizmów, kanon biblizmów oraz leksykograficzny kanon biblizmów. Wykorzystując wiele przykładów z różnych języków (głównie polskiego, rosyjskiego i niemieckiego) autor analizuje trzy drogi dochodzenia do wielojęzycznego słownika biblizmów: rozszerzanie obecnych słowników dwujęzycznych, zestawianie narodowych leksykograficznych kanonów biblizmów oraz słownik ideograficzny, budowany według zasady: od wspólnych dla różnych języków postaci, miejsc, obrazów i motywów biblijnych do ich zróżnicowanych językowo pochodnych frazeologicznych.
EN
The Bible is a common good of European culture but it has left a slightly different trace in every national language. In the article it is argued that a multilingual dictionary of phraseology of biblical origin could help define the common part of this heritage and its different national parts. Thus the author characterizes three concepts: the corpus of biblical phraseolgosms, the canon of biblical phraseologisms and the lexicographical canon of biblical phraseologisms. Using a number of examples from different languages (mainly from Polish, Russian and German), the author analyses three ways of establishing a multilingual dictionary of the analysed units: expanding current bilingual dictionaries, compiling national lexicographic canons of biblical phraseologisms, and an ideographic dictionary built on the principle: from some common characters, places, images and biblical motives to their different phraseological derivates in the different languages.
EN
The exploitation of hapax legomena, i.e. word or lemma types which occur in a corpus only once, is usually overlooked in language description. These types cannot be systematically used for a vast majority of analyses as they do not provide a basis for any type of generalization. On the other hand, the overall number of hapaxes can be used as an indicator of the lexical periphery of the language system. This paper suggests that the ratio between the number of hapaxes and the number of all types in relation to the growing corpus size (hapax-type ratio, HTR) can be used for delimitation of the lexical core of a language. It has been shown by previous research (Fengxiang 2010) that HTR in English has the shape of a pipe or chibouque, which means that the rates of the emergence of new hapaxes and new types in the process of building a corpus differ before and after reaching a certain size. In a hypothetical small corpus (a few sentences) the hapax-type ratio will be equal to one (each wordtype is also a hapax). As texts are added to the corpus (up to a few million words), the hapax-type ratio decreases (the number of new words including hapaxes is continuously increasing but the majority of added tokens are new instances of words already present in the corpus) from its maximal value (=1) to a local minimum. After reaching this turning point, extending the corpus increases the ratio because the number of hapaxes grows at a faster pace than the number of non-hapaxes (i.e. types with a frequency higher than one). This empirical finding tested on corpora of Czech and English brings us closer to the exact determination of the range of the core lexicon. Subsequently, we can deduce the approximate size of a corpus sufficient for compiling a dictionary that covers the core lexicon.
first rewind previous Page / 4 next fast forward last
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.