Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

Results found: 11

first rewind previous Page / 1 next fast forward last

Search results

Search:
in the keywords:  przetwarzanie języka naturalnego
help Sort By:

help Limit search:
first rewind previous Page / 1 next fast forward last
PL
Artykuł prezentuje wyniki prac i eksperymentów dotyczących problemu przetwarzania niestrukturyzowanych tekstów napisanych w języku polskim w celu identyfikacji w nich ofert kupna, sprzedaży lub wymiany. W badaniach wykorzystano reguły ekstrakcji przygotowane na podstawie przeprowadzonej analizy korpusu. W artykule omówione są wybrane przykłady reprezentujące trudności, jakie niesie ze sobą omawiany problem. Opracowane podejście zostało poddane eksperymentalnej ocenie, na której podstawie skuteczność identyfikacji ofert została określona na 83% (według miary F1), natomiast określanie typu oferty (czy jest to kupno, czy sprzedaż) działa poprawnie w ponad 95% przypadków.
EN
This article presents the results of research and experimentation on processing unstructured texts written in the Polish language in order to identify which of these texts contain buy, sell or exchange offers. The approach applied was based on manually prepared rules of extraction based on an analysis of a corpus of documents obtained from the Internet (within the Semantic Monitoring of Cyberspace project). In the article, selected examples of text fragments are discussed which show what challenges had to be addressed to solve the problem. The chosen approach was then experimentally evaluated; the accuracy in identifying offers reaching 83% (according to the F1-score), while determining the offer type (whether buying or selling) was correct in over 95% of cases.
PL
Morfeusz jest aplikacją znaną polskim badaczom z kręgu językoznawstwa komputerowego od ponad 10 lat. W artykule przedstawiamy jego nową wersję, skupiając się na zmianach, które pojawiły się od poprzedniej wersji programu.
EN
Morfeusz is a well known application, used in Polish computational linguistics for over a decade. In the paper we present a new version of the program, focusing on new features which have been introduced since the previous version.
Język Polski
|
2017
|
vol. 97
|
issue 1
7-17
PL
W artykule zostały przedstawione główne kierunki badań językoznawstwa komputerowego w ostatnim dwudziestopięcioleciu. Przegląd obejmuje zasoby i narzędzia składniowe i morfologiczne (bez korpusów i słowników). Omawiane są gramatyki, parsery, tagery, analizatory morfologiczne, specjalistyczne zasoby leksykalne (słowniki walencyjne, wordnety, słowniki wyrażeń wielosegmentowych itp.).
EN
The paper presents research on NLP in Poland in the last 25 years. In this review tools and resources for syntactical and morphological research with the exception of corpora and dictionaries have been presented. Formal grammars, parsers, taggers, morphological analysers, valence dictionaries, wordnets, multi-word dictionaries and other lexical resources of this kind are briefly discussed.
EN
Classification of natural languages is one of the main tasks of linguistics. Of the various types of language classification, the most reliable and authoritative seems to be the typological classification, which combines languages into units of a higher order on the basis of similarity of their structural features. The typological similarity of languages may be a result of both their origin from a common ancestor, i.e. a proto-language, and interlingual borrowings concerning both lexis and syntactic structures. The paper presents a proposal for the construction of a system intended for the automatic classification of natural languages according to their degree of typological similarity. The system developed by the authors currently includes 72 languages belonging mainly to the Indo-European language family. The system also includes several languages belonging to other language families and selected artificial languages of a naturalistic type. The authors have presented a computer programme for determining a numerical measure of the degree of mutual similarity between the systems of personal pronouns occurring in different languages of the world. In the future it is planned to build analogous systems to determine the measure of similarity between languages on the basis of automatic analysis of verb conjugation patterns and declension patterns of nouns and adjectives of selected languages.
PL
Streszczenie: Klasyfikacja języków naturalnych jest jednym z głównych zadań językoznawstwa. Spośród różnych typów klasyfikacji języków najbardziej wiarygodną i miarodajną wydaje się być klasyfikacja typologiczna, która łączy języki w jednostki większego rzędu na podstawie podobieństwa ich cech strukturalnych. Podobieństwo typologiczne języków może być wynikiem zarówno ich pochodzenia od wspólnego przodka, czyli prajęzyka, jak i występujących zapożyczeń międzyjęzykowych dotyczących zarówno leksyki, jak i struktur składniowych. W artykule zamieszczono propozycję budowy systemu przeznaczonego do realizacji automatycznej klasyfikacji języków naturalnych ze względu na ich stopień podobieństwa typologicznego. Opracowany przez autorów system uwzględnia obecnie 72 języki należące głównie do indoeuropejskiej rodziny językowej. W systemie uwzględniono ponadto kilka języków należących do innych rodzin językowych oraz wybrane języki sztuczne typu naturalistycznego. Autorzy zaprezentowali program komputerowy służący do wyznaczania liczbowej miary stopnia wzajemnego podobieństwa systemów zaimków osobowych występujących w różnych językach świata. W przyszłości planowana jest budowa analogicznych systemów przeznaczonych do wyznaczania miary podobieństwa języków na podstawie automatycznej analizy wzorców koniugacyjnych czasowników oraz wzorców deklinacyjnych rzeczowników i przymiotników wybranych języków
XX
The article describes the well-known and widely used National Corpus of Polish in a new setup. The update consists of the annotation scheme modification in the morphosyntactic layer (especially in its parts related to the grammatical gender), as well as adding new layers of annotation: the syntactic layer and the named entities layer. All three layers are indexed in the MTAS corpus search engine and can be referenced in CQL corpus queries.
Język Polski
|
2017
|
vol. 97
|
issue 1
18-28
PL
Tekst jest publicystyczną próbą nakreślenia dalszych kierunków prac nad komputerowym przetwarzaniem polszczyzny w obliczu intensywnego rozwoju cyfrowych narzędzi i zasobów dla języka polskiego oraz zacieśniającej się współpracy między polskimi ośrodkami badawczymi zajmującymi się lingwistyką komputerową. Za najważniejszy temat autor uważa wznowienie prac nad korpusem narodowym, który jako zasób podstawowy dla językoznawstwa polskiego wymaga stałego poszerzania bazy materiałowej i opisu lingwistycznego, włączenia podkorpusów diachronicznych, gwarowych i równoległych. W sferze technologii językowej autor postuluje wzbogacenie formalnego opisu polszczyzny o głęboki poziom składniowy, semantykę i dyskurs oraz zwraca uwagę na konieczność stałego poprawiania jakości dostępnych narzędzi i zasobów metodą współpracy środowiska językoznawczego z informatycznym.
EN
The article attempts at framing directions for future work on computational processing of Polish in the face of recent intensive development of electronic tools and resources and close co-operation between Polish research centres involved in computational linguistics. The author regards renewing the work on the National Corpus of Polish as the most important topic, naming it the basic resource for Polish linguistics and listing the most urgent objectives: extension of the sources and linguistic representation as well as inclusion of diachronic, dialectical and parallel corpora. With respect to language technology, the author calls for enrichment of formal description of Polish with syntactic, semantic and discourse-feature representation and constant improvement of quality of tools and resources by means of co-operation between linguists and computer scientists.
PL
W artykule zaprezentowano aplikację webową Korpusomat przeznaczoną do tworzenia własnych anotowanych korpusów językowych. Aplikacja oferuje możliwość automatycznego znakowania tekstu i przeszukiwania go na podstawie cech fleksyjnych i składniowych słów oraz jednostek nazewniczych. Wszystkie warstwy anotacji opisane są wraz z przykładami ich zastosowania w analizie lingwistycznej. Korpusomat oferuje również podsumowania statystyczne zebranych tekstów, a także możliwość współdzielenia stworzonych korpusów z innymi użytkownikami.
EN
The article presents the Korpusomat web application for creating user’s own annotated linguistic corpora. The application offers an automatic annotation of texts and the ability to search it based on the annotation of inflectional and syntactic features of words and named entities. All annotation layers are presented along with examples of their application in linguistic analysis. The Korpusomat also offers statistical summaries of the collected data, as well as the possibility of sharing the created corpora with other users.
|
2020
|
vol. II
|
issue 3 (5)
9-21
EN
The article provides a review of various technologies used in detecting fake news online. It also provides discussion of sociological and psychological factors which influence the popularity of fake news. Finally a discussion of political consequences of the use of said technologies is provided.
PL
Artykuł stanowi przybliżenie technik informatycznych wykorzystywanych w procesie rozpoznawania fałszywych wiadomości. Równocześnie wskazuje na społeczne i psychologiczne czynniki wpływające na popularność fake news, oraz wskazuje na społeczne konsekwencje stosowania różnych metod wykrywania Fake News.
PL
Istnienie problemów AI-zupełnych przyczyniło się do poszukiwań alternatywnych sposobów rozwiązywania problemów sztucznej inteligencji, nie opartych wyłącznie na pracy komputera. Pomimo że komunikacja jest dla ludzi czymś oczywistym, nadal nie istnieje sposób jej automatyzacji. Aktualnie powszechnie stosowanym podejściem w rozwiązywaniu problemów NLP jest podejście statystyczne, którego powodzenie zależy od wielkości korpusu językowego. Przygotowanie rzetelnego zbioru danych jest zatem kluczowym aspektem tworzenia statystycznego systemu sztucznej inteligencji. Z uwagi na zaangażowanie specjalistów jest to proces czasochłonny i kosztowny. Jednym z obiecujących podejść, pomagających zredukować czas i koszt tworzenia otagowanego korpusu, jest korzystanie z gier skierowanych na cel. Ambicją niniejszej pracy jest przybliżenie poszczególnych etapów tworzenia gry przeznaczonej do pozyskania zasobów językowych oraz omówienie skuteczności jej działania. Analiza ta zostanie przeprowadzona na podstawie kolekcji gier Wordrobe wspierających anotacje korpusu języka naturalnego.
EN
The existence of AI-complete problems has led to a growth in research of alternative ways of solving artificial intelligence problems, which are not based solely on the computer. Although for us communication is obvious, there is still no way automate it. The current widely-used approach to solving the problems of NLP is a statistical one, whose success depends on the size of the training corpus. The preparation of a reliable set of data is therefore a key aspect in creating an artificial intelligence statistical system. Due to the involvement of a large number of specialists this is a very time-consuming and expensive process. One promising approache in helping reduce the time and cost of creating a tagged corpus is the use of games with a purpose. The objective of this paper is to present the stages of creating games with a purpose used for obtaining annotated language resources and to discuss its effectiveness. This analysis will be done based on the Wordrobe project, a collection of games created to support the gathering of an annotated corpus of natural language.
PL
Głównym celem niniejszego artykułu jest przyjrzenie się koncepcji metawersum obejmującej rewolucję internetową, rewolucję informacyjną i rewolucję technologii sztucznej inteligencji, która obejmuje rzeczywistość wirtualną (VR), rzeczywistość rozszerzoną (AR) i rzeczywistość mieszaną (MR). W związku z tym, że obecną, czwartą falę innowacji komputerowych można uznać za napędzaną przez immersyjne, przestrzenne technologie, metawersum postrzegane jako uniwersum postrzeczywistości i wieloużytkownikowe środowisko wirtualne ma znaczący potencjał, by stać się przyszłością dyskursu cyfrowego. Poprzez umiejscowienie przetwarzania języka naturalnego (NLP) jako poddziedziny sztucznej inteligencji i językoznawstwa, niniejszy artykuł opowiada się za włączeniem metod NLP do rozwijającego się dyskursu dotyczącego transformacyjnej metawersum. Jednocześnie komunikacja zapośredniczona przez komputer (CMC), może potencjalnie zostać rozszerzona do nowego kontekstu rozbudowanego internetowego świata metawersum.
EN
The primary objective of the following paper is to explore the concept of the Metaverse encompassing the Internet revolution, the information revolution, and the artificial intelligence technology revolution, which further incorporates virtual reality (VR), augmented reality (AR), and mixed reality (MR) technologies. Due to the fact that the current, fourth wave of computing innovation can be regarded as driven by immersive, spatial technologies, the Metaverse as the socalled post-reality universe and multi-user virtual environment has a considerable potential to become the future of the digital discourse. With Natural Language Processing (NLP) conceptualized as a subfield of artificial intelligence and linguistics, the following paper argues for the inclusion of NLP-based methods in the developing discourse revolving around the transformative idea of the Metaverse. At the same time, computer-mediated communication (CMC), can potentially be extended to the new context of the extensive online world of the Metaverse.
Porównania
|
2020
|
vol. 26
|
issue 1
283-297
EN
The more technological development, the greater the participation of the human – in formulating tasks and problems, supervising and improving automated processes and interpreting their outcomes. The hierarchy is preserved, humans are still indispensable, but it does not mean that in certain areas of machinery the potential does not really exceed that of the human and that this advantage is not worth exploiting. Natural language processing (NLP) is not a young field, but in recent years, thanks to the thrive of deep learning methods, data and knowledge mining or new human-machine interfaces, computer text analysis is experiencing a real renaissance. As far as translation is concerned, it is mostly algorithms for machine translation that are being discussed. This article, on the other hand, presents a slightly broader spectrum of the translation process and looks at the accompanying elements (such as criticism) in which the use of NLP methods may bring new and interesting results. Results which, due to limited computing power, humans are unable to achieve. The discussion in the paper covers such aspects as the vector representation of language,stylometry and its application, or the analysis of large data sets – all for the purposes of translation and translatology.
PL
Przewrotna jest rola postępu – im więcej technologicznego rozwoju, tym większy udział człowieka – w koncepcji, formułowaniu zadań, interpretacji wyników, nadzorze i korekcie. Hierarchia jest zachowana, człowiek wciąż nieodzowny, ale to nie znaczy, że w pewnych obszarach maszynowy potencjał rzeczywiście nie przewyższa ludzkiego i że nie warto z tej przewagi skorzystać. Przetwarzanie języka naturalnego (NLP) to dziedzina niemłoda, ale w ostatnich latach dzięki rozkwitowi metod uczenia głębokiego (deep learning), mody na maszynowe wnioskowanie (data/knowledge mining) czy nowym sprzętowym interfejsom (m.in. zaawansowane rozpoznawanie obrazu) komputerowa analiza tekstu przeżywa istny renesans. W odniesieniu do translacji przyjęło się mówić i pisać głównie o coraz doskonalszych lub właśnie zupełnie niemożliwych algorytmach dla kolejnych par języków czy coraz większej precyzji samego tłumaczenia. Niniejszy artykuł przedstawia natomiast nieco szersze spektrum procesu tłumaczenia i przygląda się elementom przekładowi towarzyszącym (jak choćby krytyka), w których wykorzystanie metod NLP możeprzynieść nowe, ciekawe wyniki. Wyniki, których ze względu na ograniczoną moc obliczeniową człowiek nie jest w stanie osiągnąć. Omówione zostały takie aspekty jak wektorowa reprezentacja języka, stylometria i jej zastosowania czy analiza wielkich zbiorów danych – wszystko to na potrzeby szeroko rozumianychtranslacji i translatologii.
first rewind previous Page / 1 next fast forward last
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.