Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

PL EN


2021 | XXIII/3 | 87–104

Article title

Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

Title variants

EN
Web crawling for linguistic purposes. Selected aspects of collecting and analyzing text data on the example of Russian-language Internet news

Languages of publication

PL

Abstracts

PL
Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych. Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlingu w odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestii strukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawienie wybranych aspektów analizy danych strukturyzowanych w ten sposób. Autor rozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikujących i charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcji ze stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarza możliwość przeprowadzenia ich analizy z dwóch perspektyw – tekstowej oraz metainformacyjnej (dodatkowo, np. w odniesieniu do badań chronologizacyjnych, z perspektywy uwzględniającej oba te poziomy). Zarys możliwych badań lingwistycznych zgromadzonego materiału uzupełnia autor ewaluacją wybranych wielowyrazowych całostek, wydobytych z tych tekstów z wykorzystaniem delimitacyjnej funkcji cudzysłowu.
EN
The author of the article collected nearly 2.7 million excerpts of Russian-language Internet news. The main objectives of the article include: discussing the concept of web crawling in relation to the acquisition of online text data, addressing issues related to structuring such data in unannotated text corpora, as well as presenting selected aspects of analyzing data structured this way. The author considers Internet news to be a combination of the main text and metadata that identifies and characterizes it (acquired during automatic extraction from websites). The categorization of news into the main text and metadata creates an opportunity to analyze it from two perspectives – textual and meta-information (and an additional perspective that combines these two, for example for the purpose of chronological studies). An outline of possible linguistic research into the collected material is supplemented with evaluating selected multi-word tokens extracted from these texts based on the delimitation function of quotation marks.

Year

Volume

Pages

87–104

Physical description

Contributors

  • Uniwersytet Opolski

References

Document Type

Publication order reference

Identifiers

YADDA identifier

bwmeta1.element.mhp-515376a3-3e04-4d24-9bec-c48cb993414e
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.