Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

Results found: 2

first rewind previous Page / 1 next fast forward last

Search results

Search:
in the keywords:  opinion mining
help Sort By:

help Limit search:
first rewind previous Page / 1 next fast forward last
PL
Jedna z głównych decyzji przy ręcznym kodowaniu danych tekstowych dotyczy tego, czy kodowanie ma być weryfikowane. W przypadku modeli nadzorowanych prowadzi to do istotnego dylematu: czy lepszym rozwiązaniem jest dostarczenie modelowi dużej liczby przypadków, na których będzie się uczyć kosztem weryfikacji poprawności danych, czy też zakodowanie każdego przypadku n-razy, co pozwoli porównać kody i sprawdzić ich poprawność, ale jednocześnie n-krotnie zmniejszy zbiór danych treningowych. Taka decyzja może zaważyć nie tylko na ostatecznych wynikach klasyfikatora. Z punktu widzenia badaczy jest istotna również dlatego, że – realistycznie zakładając, że badania mają ograniczone źródło finansowania – nie można jej cofnąć. Wykorzystując 100 tys. unikatowych i ręcznie zakodowanych tweetów przeprowadzono symulacje wyników klasyfikatora w zależności od kontrolowanego odsetka błędnie zakodowanych dokumentów. Na podstawie danych przedstawiono rekomendacje.
EN
One of the critical decisions when manually coding text data is whether to verify the coders’ work. In the case of supervised models, this leads to a significant dilemma: is it better to provide the model with a large number of cases on which it will learn at the expense of verifying the correctness of the data, or whether it is better to code each case n-times, which will allow to compare the codes and check their correctness but at the same time will reduce the training dataset by n-fold. Such a decision not only affect the final results of the classifier. From the researchers’ point of view, it is also crucial because, realistically assuming that research has limited funding, it cannot be undone. The study uses a simulation approach and provides conclusions and recommendations based on 100,000 unique and hand-coded tweets.
PL
Szacuje się, że około 80% wszystkich danych gromadzonych i przechowywanych w systemach informacyjnych przedsiębiorstw ma postać dokumentów tekstowych. Artykuł jest poświęcony jednemu z podstawowych problemów textminingu, tj. klasyfikacji tekstów w analizie sentymentu, która rozumiana jest jako badanie wydźwięku tekstu. Brak określonej struktury dokumentów tekstowych jest przeszkodą w realizacji tego zadania. Taki stan rzeczy wymusił rozwój wielu różnorodnych technik ustalania sentymentu dokumentów. W artykule przeprowadzono analizę porównawczą dwóch metod badania sentymentu: naiwnego klasyfikatora Bayesa oraz regresji logistycznej. Badane teksty są napisane w języku polskim, pochodzą z banków i mają charakter marketingowy. Klasyfikację przeprowadzono, stosując podejście bag‑of‑n‑grams. W ramach tego podejścia dokument tekstowy wyrażony jest za pomocą podciągów składających się z określonej liczby n wyrazów. Uzyskane wyniki pokazały, że lepiej spisała się regresja logistyczna.
EN
It is estimated that approximately 80% of all data gathered by companies are text documents. This article is devoted to one of the most common problems in text mining, i.e. text classification in sentiment analysis, which focuses on determining the sentiment of a document. A lack of defined structure of the text makes this problem more challenging. This has led to the development of various techniques used in determining the sentiment of a document. In this paper, a comparative analysis of two methods in sentiment classification, a naive Bayes classifier and logistic regression, was conducted. Analysed texts are written in the Polish language and come from banks. The classification was conducted by means of a bag‑of‑n‑grams approach, where a text document is presented as a set of terms and each term consists of n words. The results show that logistic regression performed better.
first rewind previous Page / 1 next fast forward last
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.