Internet jako pramen výzkumu: přístup k archivovaným webovým zdrojům a možnosti jejich zpracování

Vozár, Zdenko; Haškovcová, Marie; Prokopová, Andrea

Article details

Journal

Teorie vědy (Theory of Science)

2022 | 44 | 1 | 59-87

Article title

Internet jako pramen výzkumu: přístup k archivovaným webovým zdrojům a možnosti jejich zpracování

Authors

Zdenko Vozár , Marie Haškovcová , Andrea Prokopová

Content

Full texts:

http://kramerius.lib.cas.cz/search/handle/uuid:48227f3a-a0de-4be9-9d09-934bce4f5c09 [remote]

Title variants

EN

Internet as a source of research: access to archived web resources and possibilities of their processing

Languages of publication

CS

Abstracts

CS

Internet se stal přirozenou komunikační platformou soudobé společnosti. Webové archivy, které začaly vznikat v 90. letech 20. století s cílem zachytit a uchovat proměnlivý webový obsah, se tak staly klíčovými prameny pro výzkum nedávné minulosti. Analyzování jejich dat komplikují například nedostatečné kompetence badatelů, nutnost vybavení výkonnými výpočetními zdroji nebo legislativa. Jednou z cest, jak vyjít vstříc potřebám uživatelů, je vývoj nástrojů a výzkumných rozhraní, které umožňují práci s daty bez nutnosti technologických znalostí pokročilé extrakce a otevírají je tak k využití badatelům. Studie řeší problematiku zpřístupnění archivních webových dat, přibližuje snahy o formulování teoretického a metodologického rámce a navrhuje design pro přístup a pro další zpracování dat, který je aplikován v unikátním výzkumném rozhraní pro vytěžování velkých dat z webových archivů s využitím pokročilých postupů strojového zpracování pro generování a kategorizaci textových výstupů.

EN

The Internet has become a natural communication platform for modern society. Web archives, which began in the 1990s to capture and preserve changing web content, have thus become key sources for research in the recent past. The analysis of their data is complicated by, for example, insuffi cient competencies of researchers, the need for computing resources or legislation. One way to meet the needs of users is to develop tools and research interfaces that allow to work with data without the need for technological knowledge of advanced extraction and thus open them to researchers. The study addresses the issue of access to archival web data, approaches eff orts to formulate a theoretical and methodological framework and proposes a design for access and further data processing. This design is applied in a unique research interface for extracting large data from web archives using advanced machine learning to generate and categorization of text outputs.

Keywords

CS

archivace webu Webarchiv vytěžování dat datová analýza výzkumná rozhraní Hadoop

EN

web archiving Webarchiv data mining data analysis research interfaces Hadoop

Discipline

PHILOSOPHY: PHILOSOPHY

Publisher

Institute of Philosophy, Czech Academy of Sciences

Journal

Teorie vědy (Theory of Science)

Year

2022

Volume

44

Issue

1

Pages

59-87

Physical description

Document type

ARTICLE

Contributors

author

Zdenko Vozár

Teorie vědy, redakce, Filosofický ústav AV ČR, v.v.i., Jilská 1, 110 00 Praha 1, Czech Republic

author

Marie Haškovcová

Teorie vědy, redakce, Filosofický ústav AV ČR, v.v.i., Jilská 1, 110 00 Praha 1, Czech Republic

author

Andrea Prokopová

Teorie vědy, redakce, Filosofický ústav AV ČR, v.v.i., Jilská 1, 110 00 Praha 1, Czech Republic

Article details

Journal

Teorie vědy (Theory of Science)

Article title

Internet jako pramen výzkumu: přístup k archivovaným webovým zdrojům a možnosti jejich zpracování

Authors

Content

Title variants

Languages of publication

Abstracts

Keywords

Discipline

Publisher

Journal

Year

Volume

Issue

Pages

Physical description

Document type

Contributors

References

Document Type

Publication order reference

Identifiers

YADDA identifier