Web archiving
For the purposes of this study, the print version of the Polish World directory by Martin Miszczak (Helion, 1997) was used to create an index of historical URLs and verify their current availability and presence in Web archives. The quantitative analysis of the index was prepared to obtain the rank data on top-level domains (TLDs) and subdomains, while the language of pages published in domains other than .PL was also examined. This study uncovered a low current availability (21.77 per cent) of Polish World URIs with a 79.6 presence in Web archives (60.35 for addresses unreachable today). Forty-six per cent of the addresses from the directory were available on domains other than .PL, of which only 15.36 per cent had content in Polish. It would seem that in 1997, Polish Internet users were able to use Polish-centric resources, mostly already available through the Polish country domain. The 180 domain names with the .PL suffix uncovered during the study constitute around 20 per cent of .PL domain names active until at least the end of 1996 on the Web.
W ramach badania wykorzystano drukowaną wersję katalogu Polish World Martina Miszczaka (wyd. Helion, 1997) w celu stworzenia indeksu historycznych adresów URL i zbadania ich współczesnej dostępności oraz obecności w archiwach Webu. Zasoby katalogu poddano analizie ilościowej pod kątem statystyki domen najwyższego rzędu i subdomen oraz zbadano języki stron publikowanych w domenie innej niż PL. Badanie ujawniło niską współczesną dostępność tych adresów (21.77 proc.) przy obecności kopii w archiwach Webu na poziomie 79.6 proc. (dla nieosiągalnych dziś adresów - 60.35 proc). 40.64 proc. adresów z katalogu dostępnych było na domenach innych niż PL, przy czym tylko 15.36 proc. z nich posiadało treść w języku polskim. Wydaje się, że w początkach 1997 roku polscy użytkownicy korzystać mogli z polskocentrycznych zasobów dostępnych już przede wszystkim w polskiej domenie krajowej. Wyodrębnione w trakcie badania 180 wspólnych nazw domenowych z domeny PL to około 20 proc. nazw domenowych PL aktywnych przynajmniej do końca 1996 roku w sieci WWW.
Poszczególne archiwa i projekty zabezpieczające zasoby WWW, aby zrealizować postawiony przed nimi cel, określają odpowiadające im rozwiązania i metody działania. Wśród nich znajduje się strategia, która wpływa na to, jak wybierane i gromadzone są witryny internetowe i inne materiały online. W artykule omówione zostało jedno z najczęściej stosowanych rozwiązań – strategia gromadzenia selektywnego. W dalszej jego części przedstawiono 11 przykładów archiwów i inicjatyw, które w wykorzystują tą metodę działania. Do przygotowania analizy wykorzystano trzy rodzaje źródeł, które dostarczały informacji na temat wykorzystywania strategii selektywnej przez poszczególne projekty: ich witryny internetowe, wytyczne oraz opracowania naukowe na ich temat. Podczas ich badania zwrócono szczególną uwagę na to jakie materiały starają się one archiwizować, w jaki sposób dokonują ich identyfikacji, wyboru i jak je gromadzą, a także jakie stosują kryteria. W trakcie gromadzenia danych dało zauważyć brak dostępu dokładnych informacji na temat funkcjonowania niektórych z wybranych przykładów. Z tego powodu, a także dużej ich różnorodności, niemożliwe było zaprezentowanie ich według jednego, konkretnego schematu. Na tej podstawie, wspartej literaturą przedmiotu, możliwe było jednak ustalenie jakiego rodzaju inicjatywy korzystają z strategii selektywnej i jak ją stosują oraz jakie są tego efekty. Przeprowadzony przegląd inicjatyw pozwolił też scharakteryzować to rozwiązanie oraz wysunąć wnioski dotyczące zalet i wad.
Particular archives and projects securing web resources define corresponding solutions and methods of operation in order to achieve the goal set for them. Among them is a strategy that influences how websites and other online material are selected and collected. The article discusses one of the most commonly used solutions – the selective collection strategy. It follows on from 11 examples of archives and initiatives that use this approach. Three types of sources were used to prepare the analysis, which provided information on the use of selective strategy by individual projects: their websites, guidelines and scientific studies on them. During their research, particular attention was paid to what materials they try to archive, how they identify and select them, and how they collect them, and what criteria they apply. In the course of data collection, it was noticed that there was no access to precise information on the functioning of some of the selected examples. For this reason, as well as their great diversity, it was impossible to present them according to one specific scheme. On this basis, supported by the literature on the subject, it was possible, however, to determine what kind of initiatives use the selective strategy and how they apply it, and what are its effects. The review of initiatives also allowed for the characterization of this solution and for drawing conclusions about its advantages and disadvantages.
vol. 121
Web archiving, that is activities aimed at collecting and preserving Web resources, has been carried out for almost 25 years. During this time, many projects have been created to fulfill that task, as well as several organisations, such as the International Internet Preservation Consortium, that support it implementation. The article presents the development of activities in this area, and then presents the conclusions of the analysis of the functioning of selected European national Web archives, based on publicly available materials concerning them. This analysis was intended to examine how the Web is currently archived in this part of the world. Three main issues were considered: gathering, describing and access to the resources of the former WWW. The first of them covers the scope of archiving, namely determining what materials are subject to it, as well as the gathering strategies used for this purpose, which shape the archival collections. The second concerns the metadata and other elements used to convey information about what was collected during that process. The last element of the analysis includes the scope of access to archival WWW resources, existing restrictions and their causes, as well as the tools used for this. During the research, the author also became interested in the software used in individual projects. The obtained results show that the model of Web archive has been developed and the activities of the analyzed initiatives in Europe are very similar.
Archiwizacja Webu, czyli działania mające na celu gromadzenie i zachowanie zasobów Sieci, prowadzona jest już od prawie 25 lat. Przez ten czas powstało wiele projektów realizujących to zadanie, a także parę organizacji, takich jak np. International Internet Preservation Consortium, które wspierają jego realizowanie. W artykule zaprezentowano rozwój działań w tym zakresie, a następnie omówiono wnioski z analizy funkcjonowania wybranych europejskich archiwów Sieci o charakterze narodowym, przeprowadzonej w oparciu o publicznie dostępne materiały ich dotyczące. Analiza ta miała na celu zbadanie, w jaki sposób obecnie archiwizowany jest Web w tej części świata. Rozpatrzone zostały trzy główne zagadnienia: gromadzenie, opisywanie i udostępnianie zasobów dawnego WWW. Pierwsze z nich obejmuje zakres archiwizacji, a więc określenie tego, jakie materiały jej podlegają, a także wykorzystywanych w tym celu strategii, z których wynika ukształtowanie zbiorów. Drugie dotyczy stosowanych metadanych i innych elementów służących przekazaniu informacji na temat tego, co zostało w jej trakcie zgromadzone. Ostatni element analizy obejmuje zakres udostępniania zasobów archiwalnego WWW, występujące ograniczenia i ich przyczyny, a także wykorzystywane do tego narzędzia. W trakcie badań zainteresowano się również używanym przez poszczególne projekty oprogramowaniem. Uzyskane wyniki pozwalają stwierdzić, że model archiwum Sieci został wypracowany, a działalność analizowanych inicjatyw w Europie jest do siebie bardzo zbliżona.
W artykule podjęte zostały rozważania nad ogólną charakterystyką zasobów znajdujących się w różnorodnych archiwach Webu. Zrozumienie problemu postawionego w tytule wydaje się być kluczowe dla refleksji nad tym nowym rodzajem źródeł oraz wykorzystaniem ich w późniejszych badaniach. Użytkownik chcący zagłębić się w dawną Sieć musi wiedzieć, co przechowują tego rodzaju cyfrowe repozytoria i jaki jest charakter tych zbiorów. Problem ten został przedstawiony na dwóch płaszczyznach, które wynikają z dwóch etapów archiwizacji Webu – selekcji i gromadzenia. Pierwszy aspekt – teoretyczny zależy przede wszystkim od gromadzenia zasobów metodą harvestingu, czyli z wykorzystaniem crawlerów. Ich możliwości oraz ograniczenia przekładają się na to, co zostanie zarchiwizowane i jaka będzie tego postać. Należy odnotować fakt, iż prowadzi to do pewnego przekształcenia zasobów Sieci, a więc po zarchiwizowaniu nie będą już one dokładnie tym, czym były wcześniej. Drugi aspekt – praktyczny jest efektem selekcji, a więc wszystkich decyzji podejmowanych przez pracowników archiwum przed rozpoczęciem gromadzenia. Zaliczyć można do nich m.in. określenie celu i zakresu archiwizacji oraz wybór strategii pozwalających je realizować. W tekście przedstawione zostały dwie podstawowe metody – archiwizacja masowa oraz selektywna. Znaczącym utrudnieniem dla użytkowników archiwów Webu jest brak informacji dotyczący stosowanych kryteriów selekcji lub logów crawlera. Zasoby dawnej Sieci mogą stanowić pewnego rodzaju zagadkę, ponieważ nie zawsze można wskazać, co się w nich znalazło, a co nie, i jaka była tego przyczyna.
The article contemplates general characteristics of holdings of various Web archives. Understanding the problem formed in the title seems to be crucial for reflections on this new type of sources and using it research. A user aiming at familiarizing with the old Web must know what is stored in this type of digital repositories and what characterizes these holdings. The problem was presented on two levels, related to two stages of archiving – selection and acquisition. The first aspect, of theoretical character, depends mostly on gathering sources using the method of harvesting (with crawlers). Their capabilities and limitations result in what will be archived and in what form. It must be noted, that this can lead to a certain deformation of Web sources, thus after archiving they will not be exactly what they were before. The second aspect, of practical character, is an effect of selection, i.e. all decisions made by archives’ employees before the process of gathering starts. These decisions comprise of, among others, specifying the aim and scope of archiving and choosing strategies to accomplish them. The text presents two basic strategies – mass archiving and selective archiving. An important obstacle for Web archives users is lack of information about selection criteria or crawlers’ logs. Holdings of the old Web can be a kind of mystery, because not always one can describe, what is in them and what is not, and what is the reason for this state.
