Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

PL EN


2017 | 55 | 2(110) | 46-72

Article title

Formaty danych strukturalnych w zasobach World Wide Web

Title variants

EN
Structured Data Formats for World Wide Web

Languages of publication

PL EN

Abstracts

PL
CEL/TEZA: Celem artykułu jest charakterystyka i porównanie formatów danych wykorzystywanych do strukturyzacji metadanych dotyczących treści zasobów World Wide Web w ramach systemu języka znacznikowego HTML. Przedmiotem badań są wybrane formaty danych strukturalnych (mikroformaty, RDFa, mikrodane i JSON-LD) oraz zakres ich wykorzystania na potrzeby reprezentacji informacji w środowisku WWW. Punktem wyjścia do rozważań są tezy, że rozdzielenie warstwy treści zasobów sieciowych od sposobu ich prezentacji jest jedną z fundamentalnych cech środowiska World Wide Web oraz że poziom strukturyzacji treści zasobów sieciowych jest czynnikiem determinującym zakres ich wyszukiwalności. KONCEPCJA/METODY BADAŃ: Scharakteryzowano koncepcję formatów danych strukturalnych (FDS), która zakłada formalną reprezentację informacji o treści zasobów sieciowych bezpośrednio wewnątrz dokumentów HTML. Analizie poddano formaty danych najszerszej wykorzystane w środowisku WWW. Przyjęto również założenie, że FDS może być interpretowany jako środek ekspresji metadanych dokumentu oraz że reprezentacja informacji ma miejsce nie na poziomie samego dokumentu, ale na poziomie faktów go konstytuujących. Analiza FDS została przeprowadzona z punktu widzenia sposobów formalnej ekspresji metadanych (poziom syntaktyczny) oraz zastosowanych do opisu struktur pojęciowych wraz z ich językowymi wykładnikami (poziom semantyczny). WYNIKI I WNIOSKI: FDS przeznaczone do reprezentacji treści stron internetowych zapewniają nowe możliwości strukturyzacji treści w ramach systemu znaczników języka HTML i tym samym rozszerzają zakres możliwych funkcjonalności mechanizmów wyszukiwawczych. Wyniki badań nad implementacją FDS w latach 2012–2016 pokazują wzrost zainteresowania tą formą strukturyzacji treści w zasobach WWW. Największą szczegółowość w reprezentacji wiedzy zapewnia RDFa, jednak to mikrodane wydają się być kompromisem między pożądaną siłą ekspresji a prostotą implementacji, na co wskazują wyniki badań szczegółowych uzyskanych w projekcie Web Data Commons. ORYGINALNOŚĆ/WARTOŚĆ POZNAWCZA: Przedstawione porównanie wybranych elementów FDS daje obraz ich możliwości w głębokiej strukturyzacji treści zasobów WWW, ze szczególnym uwzględnieniem wykorzystania istniejących schematów metadanych i ontologii. Analiza dokumentacji projektu Web Data Commons z lat 2014–2016 pozwala sądzić, że to mikrodane będą FDS, który będzie miał istotne znaczenie w kontekście zastosowania technologii semantycznych na potrzeby strukturyzacji treści zasobów WWW.
EN
PURPOSE/THESIS: The aim of this paper is the analysis and comparison of data formats for the content representation of Web pages embedded in HTML structure. The subjects of investigation are four structured data formats: microformats, RDFa, microdata and JSON-LD and their implementation on the Web. APPROACH/METHODS: The starting points for the investigation are two statements. The first one is that the separation between content and presentation layer is one of important features of the World Wide Web and the second refers to the fact that the structure level of Web content is the determining factor for the types of functionality that search engines can provide. These two approaches offer the background for the concept of structured data formats aimed at the formal representation of Web page content using HTML language system. The subjects were selected based on the scope of their implementation on the Web. The analysis was based on the assumption that structured data formats may be investigated from the metadata perspective with the premise that the annotation act is not made on the document level but is related to the facts that constitute the content. The study on structured data formats is based on semantic and syntactic analysis of their features. RESULTS AND CONCLUSIONS: Structured data formats for the content representation of Web pages provide new methods for knowledge representation by means of HTML language and thus extend the functionalities of both locally implemented and global search mechanisms. The results of the survey conducted in the years 2012–2016 indicate the growth of the interest in the semantic representation of Web pages. RDFa represents a high level of specificity but microdata seem to be the consensus between the desired expressiveness and the ease of implementation, confirmed withthe results of Web Data Commons project. ORIGINALITY/VALUE: The comparison of selected features of four structured data formats offers a clear picture of their capability for deep content annotations with metadata schemes and ontologies. The results from Web Data Commons project for the period 2014–2016 indicate that microdata and schema.org will play an important role in the domain of applying semantic technologies to Web page content representation.

Year

Volume

55

Issue

Pages

46-72

Physical description

Dates

received
2017-08-30
revised
2017-11-16
accepted
2017-12-18

Contributors

  • Katedra Informatologii, Wydział Dziennikarstwa, Informacji i Bibliologii, Uniwersytet Warszawski, ul. Nowy Świat 69, 00–046 Warszawa

References

  • Bergman, M. (2011). Structured Web Gets Massive Boost [online]. AI3[20.08. 2017], http://www.mkbergman.com/962/structured-web-gets-massive-boost/
  • Berners-Lee, T. (1994). The World-Wide Web. Communications of the ACM1, 37(8), 792–799.
  • Berners-Lee, T., Hendler, J., Lassila, O. (2001). The Semantic Web [online]. Scientific American (May 17), [20.08.2017], http://www.scientificamerican.com/article.cfm?id=the-semantic-web
  • Bizer, C., Heath, T., Berners-Lee, T. (2009). Linked Data – The Story So Far. International Journal on Semantic Web and Information Systems [online], 5(3), [20.08.2017], http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf
  • Bizer, C., Mendes, P. N., Jentzsch, A. (2012). Topology of the Web of Data. In: R. De Virgilio, F. Guerra & Y. Velegrakis (eds.), Semantic Search over the Web (3–29). Berlin, Heidelberg: Springer , http://doi.org/10.1007/978–3-642–25008
  • Guha, R. V., Brickley, D., Macbeth, S. (2015). Schema.org: Evolution of Structured Data on the Web. ACMQUEUE {online], 9(13). [20.08.2017], http://queue.acm.org/detail.cfm?id=2857276
  • Herman, I., Adida, B., Sporny, M. (2015). RDFa 1.1 Primer – Third Edition. Rich Structured Data Markup for Web Documents [online]. W3C [20.08.2017], https://www.w3.org/TR/rdfa-primer/
  • Hitzler, P., Janowicz, K., Berg-Cross, G., Sheth, A., Finin, T., Cru, I. (2012). Semantic Aspects of EarthCube [online]. EarthCube [20.08.2017], https://www.earthcube.org/document/2012/semantic-aspects-earthcube
  • McCathie Nevile, C., Brickley, D. (2017). HTML Microdata [online]. W3C Working Draft 26 June 2017 , [20.08.2017] https://www.w3.org/TR/microdata/
  • Oren, E., Möller, K. H., Scerri, S., Handschuh, S., Sintek, M. (2006). What Are Semantic Annotations? [online]. Prof. Siegfried Handschuh [20.08.2017] http://www.siegfried-handschuh.net/pub/2006/whatissemannot2006.pdf
  • Ronallo, J. (2012). HTML5 Microdata and Schema.org. The Code4Lib Journal [online], (16), [20.08.2017], http://journal.code4lib.org/articles/6400
  • Sikos, L. F. (2015). Mastering Structured Data on the Semantic Web: From HTML5 Microdata to Linked Open Data. Berkeley, CA: Apress.
  • Sporny, M. (2015). An Uber-Comparison of RDFa, Microdata and Microformats [online]. Internet Archive Wayback Machine [20.08.2017], https://web.archive.org/web/20160329022408/http://manu.sporny.org/2011/uber-comparison-rdfa-md-uf/
  • Sporny, M., Kellogg, G., Lanthaler, M. (2014). JSON-LD 1.0. A JSON-based Serialization for Linked Data [online]. W3C [20.08.2017], https://www.w3.org/TR/json-ld/
  • Tomberg, V., Laanpere, M. (2009). RDFa versus Microformats: Exploring the Potential for Semantic Interoperability of Mash-up Personal Learning Environments [online]. In: F. Wild, M. Kalz, M. Palmer & D. Muller (eds.), Mash-Up Personal Learning Environments. Proc. of the 2nd Workshop MUPPLE’09, Nice, France, September 29, 2009, CEUR (102–109). CEUR. [20.08.2017], http://ceur-ws.org/Vol-506
  • Wetherill, B. (2014). RDFa and Microdata. Library Philosophy and Practice (E-Journal) [online], 1151, 19. [20.08.2017], http://digitalcommons.unl.edu/libphilprac/1151/

Document Type

Publication order reference

Identifiers

ISSN
0324-8194
EISSN
2392-2648

YADDA identifier

bwmeta1.element.desklight-0ede0d2b-5d3f-4b17-8f3d-bea23e38efd0
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.