Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

Results found: 14

first rewind previous Page / 1 next fast forward last

Search results

Search:
in the keywords:  computational linguistics
help Sort By:

help Limit search:
first rewind previous Page / 1 next fast forward last
EN
The thesis of this reply to Piotr Żmigrodzki’s pessimistic diagnosis (published in the previous issue of „LingVaria”) of Polish linguistics from the perspective of modern lexicography is that the diagnosis from the perspective of linguistic engineering must be equally pessimistic – in fact, even more so. We argue that syntax and – to some extent – semantics are developed in Poland in isolation from developments outside Poland and the resulting analyses too often do not meet the usual criteria of preciseness and formal rigour. We end with an optimistic note showing that fruitful cooperation between computational and theoretical linguists is possible – even if rare – in Poland.
EN
Research background: This study investigates central banks? (CB) intentions as reflected in their minutes and their relationship with policy decisions. Although CB communication is an inherent part of their inflation targeting (IT) strategy, their communication does not necessarily result in actions.  Purpose of the article: This study aims to extract policy intentions from central bank minutes and juxtapose these with actual policy decisions to investigate the consistency of their words and deeds in a comparative context. Additionally, we compare the applicability of three dictionaries in policy communication assessments. Methods: Computational linguistics and textual methods are applied to create proxies for tone from a large dataset of texts. A transformation of words into time series involves the application of a general economic dictionary and two monetary policy-adjusted dictionaries. We examine the association between tone and actual CB decisions with the eta squared coefficient. The research covers 15 European CBs, divided into three subgroups according to the CB experience in inflation targeting. The sample starting points differ as they relate to each country?s IT implementation year; the analysis ends in mid-2019. Findings & value added: This paper?s value added is firstly methodological, as we test three dictionaries to determine their usefulness. Statistical and qualitative analysis allows us to conclude about superiority of monetary policy specific lexicons for this kind of studies. The extra value added is about the study?s coverage: it covers a large sample and provides a broader illustration compared to most previous examinations. Our results suggest that a relationship exists between communications and actions, although the weakest for late joiners to IT. The latter group of CBs needs to strengthen communication practices. In experienced inflation targeters the short run dimension of credibility exists and opens the room for creating effective monetary policy in terms of managing the expectations of a general audience.
Język Polski
|
2017
|
vol. 97
|
issue 1
7-17
PL
W artykule zostały przedstawione główne kierunki badań językoznawstwa komputerowego w ostatnim dwudziestopięcioleciu. Przegląd obejmuje zasoby i narzędzia składniowe i morfologiczne (bez korpusów i słowników). Omawiane są gramatyki, parsery, tagery, analizatory morfologiczne, specjalistyczne zasoby leksykalne (słowniki walencyjne, wordnety, słowniki wyrażeń wielosegmentowych itp.).
EN
The paper presents research on NLP in Poland in the last 25 years. In this review tools and resources for syntactical and morphological research with the exception of corpora and dictionaries have been presented. Formal grammars, parsers, taggers, morphological analysers, valence dictionaries, wordnets, multi-word dictionaries and other lexical resources of this kind are briefly discussed.
EN
Classification of natural languages is one of the main tasks of linguistics. Of the various types of language classification, the most reliable and authoritative seems to be the typological classification, which combines languages into units of a higher order on the basis of similarity of their structural features. The typological similarity of languages may be a result of both their origin from a common ancestor, i.e. a proto-language, and interlingual borrowings concerning both lexis and syntactic structures. The paper presents a proposal for the construction of a system intended for the automatic classification of natural languages according to their degree of typological similarity. The system developed by the authors currently includes 72 languages belonging mainly to the Indo-European language family. The system also includes several languages belonging to other language families and selected artificial languages of a naturalistic type. The authors have presented a computer programme for determining a numerical measure of the degree of mutual similarity between the systems of personal pronouns occurring in different languages of the world. In the future it is planned to build analogous systems to determine the measure of similarity between languages on the basis of automatic analysis of verb conjugation patterns and declension patterns of nouns and adjectives of selected languages.
PL
Streszczenie: Klasyfikacja języków naturalnych jest jednym z głównych zadań językoznawstwa. Spośród różnych typów klasyfikacji języków najbardziej wiarygodną i miarodajną wydaje się być klasyfikacja typologiczna, która łączy języki w jednostki większego rzędu na podstawie podobieństwa ich cech strukturalnych. Podobieństwo typologiczne języków może być wynikiem zarówno ich pochodzenia od wspólnego przodka, czyli prajęzyka, jak i występujących zapożyczeń międzyjęzykowych dotyczących zarówno leksyki, jak i struktur składniowych. W artykule zamieszczono propozycję budowy systemu przeznaczonego do realizacji automatycznej klasyfikacji języków naturalnych ze względu na ich stopień podobieństwa typologicznego. Opracowany przez autorów system uwzględnia obecnie 72 języki należące głównie do indoeuropejskiej rodziny językowej. W systemie uwzględniono ponadto kilka języków należących do innych rodzin językowych oraz wybrane języki sztuczne typu naturalistycznego. Autorzy zaprezentowali program komputerowy służący do wyznaczania liczbowej miary stopnia wzajemnego podobieństwa systemów zaimków osobowych występujących w różnych językach świata. W przyszłości planowana jest budowa analogicznych systemów przeznaczonych do wyznaczania miary podobieństwa języków na podstawie automatycznej analizy wzorców koniugacyjnych czasowników oraz wzorców deklinacyjnych rzeczowników i przymiotników wybranych języków
5
71%
Polonica
|
2015
|
vol. 35
155-178
EN
The properties of experimentally built association networks were studied from many different points of view. The results of those investigations show that if one aims to treat an empirical network as a ‘natural dictionary’ suitable for text processing algorithms, one should develop a consistent and linguistically valid set of semantic relationships which may explain information borne by word associations. The aim of this paper is describe a preliminary set of relationships which are applicable to word associations, and show how those associations, if classified, define the meaning of a noun which is a node of the network.
EN
Rather than reporting on original research, this paper seeks to define the complex and rather diffuse domain of digital humanities by examining the historical and technological origins of the discipline. The distinction between the practice of the computer-mediated storage and retrieval of data relevant to human artefacts and the creative building of ‘digital culture’ draws a rough dividing line across the objectives of digital humanists. A historical outline of the distant origins of digital humanities suggests that the discipline is foundationally and intrinsically linked to computational linguistics and the development of linguistic resources. The boundaries of the discipline have been shifting concomitantly with the broadening of the scientific horizon and the evolution of dedicated technologies. Text mark-up (stemming from text annotation) and the multimodal facilities offered by ordinary browsers are the two basic techniques which have promoted the progressive development and expansion of digital humanities. These two techniques are closely interconnected as the language operated by the http protocol (HyperText Transfer Protocol) derives from the same source as that used for text mark-up. Hypertext and multimodality allow extending the uses of the computer to store and access humanities data of various kinds, including images, videos and sound recordings. Finally, the declaration of entities, as a further development of mark-up, makes it possible to apply semantic web techniques to carry out advanced research studies. The field of creative digital culture is very large, and there are abundant software applications that support such creative pursuits. Consequently, several forms of art have largely profited from technological advancement. Given this, the paper also addresses technological obsolescence as a serious problem in digital humanities.
IT
Questo articolo non presenta una ricerca originale, ma è piuttosto un tentativo di definire questo settore scientifico così complesso e piuttosto sfumato, facendo anche ricorso alle sue radici storiche e tecnologiche. Una prima linea di distinzione degli obiettivi di questa disciplina consiste nell’opposizione tra tecniche per memorizzare e recuperare mediante calcolatore dati rilevanti agli artefatti umani e la costruzione creativa di una “cultura digitale”. Un breve ricostruzione storica delle prime origini delle "digital humanities", fa supporre una connessione con la linguistica computazionale e con lo sviluppo delle risorse linguistiche come fondamenti della disciplina. I confini della disciplina sono evoluti con l’ampliarsi degli orizzonti scientifici e l’evoluzione delle tecnologie dedicate. Le tecnologie di base che rendono possibile lo sviluppo di aree più vaste di Digital Humanities sono due, l’annotazione testuale, con il conseguente "markup", e le capacità multimediali offerte dai browser ordinari. Queste due tecniche sono strettamente legate, dal momento che il linguaggio che è utilizzato dal protocollo http (HyperText Transfer Protocol) ha origine comune con quello che viene utilizzato nel markup testuale. Ipertestualità e multimodalità permettono l’estensione dell’uso del computer nella memorizzazione e recupero di materiali umanistici di tipo diverso, includendo immagini, video e suoni. Alla fine, un ulteriore sviluppo del "markup", cioè la dichiarazione delle entities, ha reso possibile l’uso di tecniche di semantic web per condurre ricerche avanzate. Il campo della cultura digitale creativa è vastissimo e la quantità di software disponibili per rendere possibile questa creatività è enorme; alcune forme di arte ne hanno largamente tratto vantaggio. Nella conclusione si discute il serio problema dell’obsolescenza tecnologica.
EN
Dialog between a Lexicographer and a TranslatorThe discussion between the authors of the paper concerns the most pressing issues encountered in natural language semantics, as well as in corpus linguistics and computational linguistics. A broad range of knowledge, allowing linguists and information scientists to work together, is required in these areas. The paper describes some primary problems of human and machine translation caused by gaps between different fields of knowledge. The authors suggest that interdisciplinary approach is required when it comes to contrastive studies in linguistics.
EN
In order to exemplify complexity and diversity of problems that language engineers are faced with we present selected works in the field of human language technologies that have been done within research projects of the Department of Computer Linguistics and Artificial Intelligence at the Adam Mickiewicz University in Poznań over the last 30 years. These are first of all contributions in creation of language resources including lexicons, grammars, Polish wordnet, as well as creation of systems with emulated language competence. Our aim is to illustrate – via our contributions – a number of challenges facing today’s linguistics of the Polish language. We also intend to bring the reader’s attention to the fact that many of these challenges is – and will continue to be – still valid. This overview does not pretend to completeness. In particular, the very important area of speech processing is passed over.
PL
W niniejszym artykule przedstawiamy wybrane prace ilustrujące złożoność i różnorodność problemów, z którymi konfrontowani są twórcy systemów z kompetencją językową. Przegląd szczegółowy obejmuje wybór informatycznych technologii języka naturalnego w ramach projektów realizowanych w Zakładzie Lingwistyki Informatycznej i Sztucznej Inteligencji UAM w ostatnim 30-leciu. Są to przede wszystkim prace z zakresu tworzenia zasobów leksykalnych, gramatycznych i semantycznych oraz systemów z kompetencją językową. Celem przeglądu jest ilustracja, konkretnymi zadaniami, wybranych wyzwań, przed którymi stanęła w drugiej połowie XX wieku lingwistyka polska. Jednocześnie staramy się zwrócić uwagę na fakt, że większość z tych wyzwań jest i nadal będzie aktualna. Przegląd ten nie pretenduje do kompletności, w szczególności nie obejmuje całego, bardzo ważnego sektora przetwarzania mowy.
Język Polski
|
2017
|
vol. 97
|
issue 1
18-28
PL
Tekst jest publicystyczną próbą nakreślenia dalszych kierunków prac nad komputerowym przetwarzaniem polszczyzny w obliczu intensywnego rozwoju cyfrowych narzędzi i zasobów dla języka polskiego oraz zacieśniającej się współpracy między polskimi ośrodkami badawczymi zajmującymi się lingwistyką komputerową. Za najważniejszy temat autor uważa wznowienie prac nad korpusem narodowym, który jako zasób podstawowy dla językoznawstwa polskiego wymaga stałego poszerzania bazy materiałowej i opisu lingwistycznego, włączenia podkorpusów diachronicznych, gwarowych i równoległych. W sferze technologii językowej autor postuluje wzbogacenie formalnego opisu polszczyzny o głęboki poziom składniowy, semantykę i dyskurs oraz zwraca uwagę na konieczność stałego poprawiania jakości dostępnych narzędzi i zasobów metodą współpracy środowiska językoznawczego z informatycznym.
EN
The article attempts at framing directions for future work on computational processing of Polish in the face of recent intensive development of electronic tools and resources and close co-operation between Polish research centres involved in computational linguistics. The author regards renewing the work on the National Corpus of Polish as the most important topic, naming it the basic resource for Polish linguistics and listing the most urgent objectives: extension of the sources and linguistic representation as well as inclusion of diachronic, dialectical and parallel corpora. With respect to language technology, the author calls for enrichment of formal description of Polish with syntactic, semantic and discourse-feature representation and constant improvement of quality of tools and resources by means of co-operation between linguists and computer scientists.
DE
Der Beitrag soll die Relevanz des Konzeptes von Qualifikationsmerkmalen der Wörter in Wörterbüchern betonen. Diese Qualifikatoren pragmatischer Art sollten objektiviert werden. Eine Möglichkeit diesbezüglich bieten die PELCRA-Suchmaschine und die PROFIL-Funktion in NKJP (dt. Nationalem Korpus der polnischen Sprache), die eine Analyse der stilistischen Distribution der Treffer ermöglicht. Die Überlegungen betreffen die Recherchemöglichkeiten der Verwendung von statistischen und Computerwerkzeugen zur Überprüfung von Wörterbuchqualifikatoren. Die Methode wird anhand einer Stichprobe von 100 eindeutigen Wörtern getestet, die im Polnischsprachigen Wörterbuch von Mieczysław Szymczak als ‚książk.’ gekennzeichnet sind, weil es eines der mysteriösesten Qualifikationsmerkmale ist.
EN
The article aims to explain the importance of qualitative methods in assigning style labels to words in dictionaries. Style labels, as elements of pragmatic information, should be as objective as possible, but in practice they often lack objectivity because they are assigned to words intuitively. A chance to give them more rigor is offered by the PELCRA search engine in the National Corpus of Polish which computes stylistic distribution of search words. The considerations concern the research possibilities that the use of statistical and computer tools in verifying dictionary qualifiers. The method is tested on a sample of 100 words marked as ‘bookish’ in the “Polish Language Dictionary” by Mieczysław Szymczak, because it is one of the most mysterious qualifiers.
Porównania
|
2020
|
vol. 26
|
issue 1
283-297
EN
The more technological development, the greater the participation of the human – in formulating tasks and problems, supervising and improving automated processes and interpreting their outcomes. The hierarchy is preserved, humans are still indispensable, but it does not mean that in certain areas of machinery the potential does not really exceed that of the human and that this advantage is not worth exploiting. Natural language processing (NLP) is not a young field, but in recent years, thanks to the thrive of deep learning methods, data and knowledge mining or new human-machine interfaces, computer text analysis is experiencing a real renaissance. As far as translation is concerned, it is mostly algorithms for machine translation that are being discussed. This article, on the other hand, presents a slightly broader spectrum of the translation process and looks at the accompanying elements (such as criticism) in which the use of NLP methods may bring new and interesting results. Results which, due to limited computing power, humans are unable to achieve. The discussion in the paper covers such aspects as the vector representation of language,stylometry and its application, or the analysis of large data sets – all for the purposes of translation and translatology.
PL
Przewrotna jest rola postępu – im więcej technologicznego rozwoju, tym większy udział człowieka – w koncepcji, formułowaniu zadań, interpretacji wyników, nadzorze i korekcie. Hierarchia jest zachowana, człowiek wciąż nieodzowny, ale to nie znaczy, że w pewnych obszarach maszynowy potencjał rzeczywiście nie przewyższa ludzkiego i że nie warto z tej przewagi skorzystać. Przetwarzanie języka naturalnego (NLP) to dziedzina niemłoda, ale w ostatnich latach dzięki rozkwitowi metod uczenia głębokiego (deep learning), mody na maszynowe wnioskowanie (data/knowledge mining) czy nowym sprzętowym interfejsom (m.in. zaawansowane rozpoznawanie obrazu) komputerowa analiza tekstu przeżywa istny renesans. W odniesieniu do translacji przyjęło się mówić i pisać głównie o coraz doskonalszych lub właśnie zupełnie niemożliwych algorytmach dla kolejnych par języków czy coraz większej precyzji samego tłumaczenia. Niniejszy artykuł przedstawia natomiast nieco szersze spektrum procesu tłumaczenia i przygląda się elementom przekładowi towarzyszącym (jak choćby krytyka), w których wykorzystanie metod NLP możeprzynieść nowe, ciekawe wyniki. Wyniki, których ze względu na ograniczoną moc obliczeniową człowiek nie jest w stanie osiągnąć. Omówione zostały takie aspekty jak wektorowa reprezentacja języka, stylometria i jej zastosowania czy analiza wielkich zbiorów danych – wszystko to na potrzeby szeroko rozumianychtranslacji i translatologii.
PL
Głównym celem niniejszego artykułu jest przyjrzenie się koncepcji metawersum obejmującej rewolucję internetową, rewolucję informacyjną i rewolucję technologii sztucznej inteligencji, która obejmuje rzeczywistość wirtualną (VR), rzeczywistość rozszerzoną (AR) i rzeczywistość mieszaną (MR). W związku z tym, że obecną, czwartą falę innowacji komputerowych można uznać za napędzaną przez immersyjne, przestrzenne technologie, metawersum postrzegane jako uniwersum postrzeczywistości i wieloużytkownikowe środowisko wirtualne ma znaczący potencjał, by stać się przyszłością dyskursu cyfrowego. Poprzez umiejscowienie przetwarzania języka naturalnego (NLP) jako poddziedziny sztucznej inteligencji i językoznawstwa, niniejszy artykuł opowiada się za włączeniem metod NLP do rozwijającego się dyskursu dotyczącego transformacyjnej metawersum. Jednocześnie komunikacja zapośredniczona przez komputer (CMC), może potencjalnie zostać rozszerzona do nowego kontekstu rozbudowanego internetowego świata metawersum.
EN
The primary objective of the following paper is to explore the concept of the Metaverse encompassing the Internet revolution, the information revolution, and the artificial intelligence technology revolution, which further incorporates virtual reality (VR), augmented reality (AR), and mixed reality (MR) technologies. Due to the fact that the current, fourth wave of computing innovation can be regarded as driven by immersive, spatial technologies, the Metaverse as the socalled post-reality universe and multi-user virtual environment has a considerable potential to become the future of the digital discourse. With Natural Language Processing (NLP) conceptualized as a subfield of artificial intelligence and linguistics, the following paper argues for the inclusion of NLP-based methods in the developing discourse revolving around the transformative idea of the Metaverse. At the same time, computer-mediated communication (CMC), can potentially be extended to the new context of the extensive online world of the Metaverse.
EN
The paper describes the construction and testing of an electronic application for semi-automatic morphological analysis of Old English. It introduces the state of the art in the field of electronic analysis of Old English, provides a brief overview of Old English morphology and discusses the reasoning behind our theoretical framework. An account of the chosen methodology is offered and a specific description of its implementation is provided: from the acquisition and preparation of the lexical input data, through the programming of the forms generator to the testing of the results by analysing Old English text. The resulting recall of 95% is a success; however, the paper also hints at how it may be improved. It also discusses further use and development of the analyser, especially the disambiguation of its results. The paper makes a future semi-automatic morphological tagging of Old English texts a real possibility.
PL
Język prawny i prawniczy cechuje się dokładnością i żargonowością a jego struktury nie są intuicyjne. Na to nakłada się określony system prawny, który sprawia, że język prawny i prawniczy jest w każdym kraju inny. Tak osoby uczące się drugiego języka (L2) jak i naukowcy mogą uznać język prawny za trudny do zrozumienia, tymczasem tłumacze mogą uważać, że jest on skomplikowany i zawiły, jak i jego przekład. Tymczasem literatura przedmiotu wskazuje, że remedium na te problemy może być sieć użytkowana jako korpus oraz korpusy on-line. Celem niniejszego artykułu jest weryfikacja tego, czy komercyjne przeglądarki internetowe, narzędzia konkordancji, korpusy specjalistyczne on-line mogą być przydatne w rozwiazywaniu problemów wynikających z natury języka prawnego i prawniczego. W szczególności badaniu poddaje się przeszukiwanie zaawansowane w przeglądarce Google i narzędzia konkordancji sieciowej Leeds i specjalistyczne korpusy on-line: COCA. W ten sposób wskazuje się sposób wykorzystania powyższych narzędzi sieciowych oraz ich działanie w sytuacji, gdy wykorzystywane są jednocześnie jako narzędzia do analizy krzyżowej.
IT
Il linguaggio giuridico è caratterizzato da un gergo pedante ed arcaico. Gli studiosi di una lingua straniera, i traduttori ed i professionisti che si approcciano al linguaggio giuridico in lingua straniera, devono tenere presente non solo le peculiarità tecnico-linguistiche, ma anche quelle legate al sistema giuridico di riferimento. Il presente articolo si pone l'obiettivo di mostrare come il Web, considerato come un corpus, può fornire risposte in ambito linguistico e giuridico. In particolare, analizzerà la sintassi di ricerca in Google, il Leeds ed il corpus online COCA. In tal modo si evidenzierà come, usati congiuntamente, questi strumenti possono fornire risposte attendibili in ambito giuridico.
EN
Legal language is hallmarked by a pedantic and user-unfriendly jargon whose constructs are all but intuitive, not to mention the legal system specificity which makes it unique in every country. Second language (L2) learners or scholars, hence, may find it difficult to understand the language of the law; whereas translators may consider legal lexical phrases and patterns rather intricate to deal with. The literature claims that a practical way to deepen language knowledge can be found in the Web considered as corpus and in online corpora. This paper is aimed at exploring whether commercial search engines, Web concordancers and online specialised corpora can tackle the issues revolving around legal language. In particular, it will investigate whether Google advanced search and the Leeds Web concordancer  can be used to meet the requirements of legal language learners, scholars and translators. Furthermore, it will address legal language queries (and results) in an online specialised corpus: the COCA. This paper will provide instances of the soundness of the above-mentioned online resources, especially when used jointly as cross-analysis tools. The shortcomings of one can, in fact, be compensated for by the other(s).
first rewind previous Page / 1 next fast forward last
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.