Search results

1

An open stylometric system based on multilevel text analysis

100%

Eder M., Piasecki M., Walkowiak T.

Cognitive Studies

|

2017

|

issue 17

EN

An open stylometric system based on multilevel text analysisStylometric techniques are usually applied to a limited number of typical tasks, such as authorship attribution, genre analysis, or gender studies. However, they could be applied to several tasks beyond this canonical set, if only stylometric tools were more accessible to users from different areas of the humanities and social sciences. This paper presents a general idea, followed by a fully functional prototype of an open stylometric system that facilitates its wide use through to two aspects: technical and research flexibility. The system relies on a server installation combined with a web-based user interface. This frees the user from the necessity of installing any additional software. At the same time, the system offers a variety of ways in which the input texts can be analysed: they include not only the usual lexical level, but also deep-level linguistic features. This enables a range of possible applications, from typical stylometric tasks to the semantic analysis of text documents. The internal architecture of the system relies on several well-known software packages: a collection of language tools (for text pre-processing), Stylo (for stylometric analysis) and Cluto (for text clustering). The paper presents: (1) The idea behind the system from the user’s perspective. (2) The architecture of the system, with a focus on data processing. (3) Features for text description. (4) The use of analytical systems such as Stylo and Cluto. The presentation is illustrated with example applications. Otwarty system stylometryczny wykorzystujący wielopoziomową analizę języka Zastosowania metod stylometrycznych na ogół ograniczają się do kilku typowych problemów badawczych, takich jak atrybucja autorska, styl gatunków literackich czy studia nad zróżnicowaniem stylistycznym kobiet i mężczyzn. Z pewnością dałoby się je z powodzeniem zastosować również do wielu innych problemów klasyfikacji tekstów, gdyby tylko owe metody oraz odpowiednie narzędzia były bardziej dostępne dla uczonych reprezentujących różne dyscypliny nauk humanistycznych i społecznych. Artykuł niniejszy omawia założenia teoretyczne oraz w pełni funkcjonalny prototyp otwartego systemu stylometrycznego, którego szerokie zastosowanie umożliwią dwie jego cechy: elastyczność techniczna oraz dostosowywalność do różnych pytań badawczych. System opiera się na instalacji serwerowej sprzęgniętej z sieciowym interfejsem użytkownika. Uwalnia to użytkownika od konieczności instalowania jakichkolwiek dodatkowych programów. Jednocześnie system oferuje wiele sposobów analizowania tekstów nie tylko na poziomie leksykalnym, lecz także poprzez cechy językowe niskiego poziomu. Daje to możliwość stosowania systemu na wiele różnych sposobów, od typowych testów stylometrycznych do analizy semantycznej dokumentów. Wewnętrzna architektura systemu składa się z wielu elementów znanych ze swej funkcjonalności, w tym z pakietu Stylo przeznaczonego do analiz stylometrycznych oraz pakietu Cluto służącego do zaawansowanej analizy skupień. Artykuł omawia: (1) Koncepcję całego systemu, postrzeganą z punktu widzenia użytkownika, (2) Architekturę systemu oraz jego elementy odpowiedzialne za przetwarzanie tekstu, (3) Cechy językowe służące do opisu dokumentów, (4) Zastosowanie modułów analizy danych, takich jak Stylo czy Cluto. W artykule zostały też przedstawione przykładowe zastosowania systemu.

2

Korpusy równoległe a język i społeczeństwo, czyli o znaczeniu, praktycznym zastosowaniu i perspektywach rozwoju lingwistyki korpusowej (na przykładzie korpusów równoległych polsko-ukraińskiego i polsko-rosyjskiego)

72%

Tymoshuk R.

Językoznawstwo

|

2019

|

vol. 13

203-212

EN

This article discusses issues regarding the role of corpus linguistics and interdisciplinary research in contemporary linguistics. The possibilities of using multilingual digital resources in linguistic research have been discussed and examples of the use of parallel corpora in research on modern vocabulary and phraseology of Slavic languages have been presented. It is concluded that nowadays, in times when the need to apply natural language mechanisms in information and computer systems and human-computer interaction is growing, it is necessary to develop resources and language processing tools to effectively overcome language barriers. This will allow for closer cooperation between researchers representing different sciences.

PL

Artykuł porusza kwestie dotyczące roli lingwistyki korpusowej oraz badań interdyscyplinarnych we współczesnym językoznawstwie. Omówione zostały możliwości zastosowania wielojęzycznych zasobów cyfrowych w badaniach lingwistycznych. Przedstawiono przykłady wykorzystania korpusów równoległych w badaniach nad współczesnym słownictwem i frazeologią języków słowiańskich. Rozważania prowadzą do wniosku, że obecnie, gdy coraz bardziej rośnie zapotrzebowanie na zastosowanie mechanizmów języka naturalnego w systemach informacyjno-komputerowych oraz interakcji człowiek–komputer, konieczny jest rozwój zasobów i narzędzi do przetwarzania języka umożliwiających skuteczne pokonywanie barier językowych. Pozwoli to na bliższą współpracę między badaczami repezentującymi różne nauki.

3

Lingwistyka komputerowa dla języka polskiego: dziś i jutro

72%

Ogrodniczuk M.

Język Polski

|

2017

|

vol. 97

|

issue 1

18-28

PL

Tekst jest publicystyczną próbą nakreślenia dalszych kierunków prac nad komputerowym przetwarzaniem polszczyzny w obliczu intensywnego rozwoju cyfrowych narzędzi i zasobów dla języka polskiego oraz zacieśniającej się współpracy między polskimi ośrodkami badawczymi zajmującymi się lingwistyką komputerową. Za najważniejszy temat autor uważa wznowienie prac nad korpusem narodowym, który jako zasób podstawowy dla językoznawstwa polskiego wymaga stałego poszerzania bazy materiałowej i opisu lingwistycznego, włączenia podkorpusów diachronicznych, gwarowych i równoległych. W sferze technologii językowej autor postuluje wzbogacenie formalnego opisu polszczyzny o głęboki poziom składniowy, semantykę i dyskurs oraz zwraca uwagę na konieczność stałego poprawiania jakości dostępnych narzędzi i zasobów metodą współpracy środowiska językoznawczego z informatycznym.

EN

The article attempts at framing directions for future work on computational processing of Polish in the face of recent intensive development of electronic tools and resources and close co-operation between Polish research centres involved in computational linguistics. The author regards renewing the work on the National Corpus of Polish as the most important topic, naming it the basic resource for Polish linguistics and listing the most urgent objectives: extension of the sources and linguistic representation as well as inclusion of diachronic, dialectical and parallel corpora. With respect to language technology, the author calls for enrichment of formal description of Polish with syntactic, semantic and discourse-feature representation and constant improvement of quality of tools and resources by means of co-operation between linguists and computer scientists.

Refine search results

1 Cognitive Studies

1 Język Polski

1 Językoznawstwo

1 Eder M.

1 Ogrodniczuk M.

1 Piasecki M.

1 Tymoshuk R.

1 Walkowiak T.

1 2019

2 2017

An open stylometric system based on multilevel text analysis

Korpusy równoległe a język i społeczeństwo, czyli o znaczeniu, praktycznym zastosowaniu i perspektywach rozwoju lingwistyki korpusowej (na przykładzie korpusów równoległych polsko-ukraińskiego i polsko-rosyjskiego)

Lingwistyka komputerowa dla języka polskiego: dziś i jutro