Full-text resources of CEJSH and other databases are now available in the new Library of Science.
Visit https://bibliotekanauki.pl

PL EN


2004 | 11 | 1-9

Article title

From SGML to XML with TEI: Automated Conversion of a Corpus of Polish from P3 to P4 Format

Content

Title variants

Languages of publication

PL

Abstracts

PL
The article presents experiences gathered in the process of migration of an SGML corpus encoded in TEI P3 format to XML-enabled TEI P4.

Keywords

Year

Volume

11

Pages

1-9

Physical description

Dates

published
2004-12-15

Contributors

  • Faculty of Modern Languages and Oriental Studies, Warsaw University Krakowskie Przedmieście 26/28, 00-927 Warszawa

References

  • Bień, J. S., Woliński, M. 2003. Wzbogacony korpus Słownika frekwencyjnego polszczyzny współczesnej. [In:] J. Linde-Usiekniewicz, R. Huszcza (Eds.) Prace językoznawcze dedykowane Profesor Jadwidze Sambor. Warszawa: Wydział Polonistyki Uniwersytetu Warszawskiego, pp. 6 –10.
  • Bień, J. S., Woliński, M. (Eds.) 2001. Wzbogacony korpus Słownika frekwencyjnego polszczyzny współczesnej. Warszawa. Compressed CD image: http://www.mimuw.edu.pl/polszczyzna/wksf/wksf.iso.bz2.
  • Clark, J. 1997. Comparison of SGML and XML. World Wide Web Consortium Note. http://www.w3.org/TR/NOTE-sgml-xml.html.
  • Dürst, M. J. 2004. Language tagging in HTML and XML. World Wide Web Consortium. http://www.w3.org/International/O-HTML-tags.html.
  • Extensible Markup Language (XML) 1.0 2004. (Third Edition). World Wide Web Consortium. W3C Recommendation. http://www.w3.org/TR/xpath.
  • Głowińska, K. Taksonomia morfologiczna dla Słownika frekwencyjnego. [In:] [2], Dokumentacjataksonomia.pdf.
  • ISO 8879 Information Processing – Text and Office Systems – Standard Generalized Markup Language (SGML). Geneva 1986. ISO (International Organization for Standardization).
  • ---
  • ISO/IEC 10744 Information Technology – Hypermedia/Time-based Structuring Language (HyTime). Geneva 1992. ISO (International Organization for Standardization).
  • Kurcz, I., Lewicki, A., Sambor, J., Woronczak, J. Szafran, K. 1990. Sownik frekwencyjny polszczyzny współczesnej. Kraków 1990. Instytut Języka Polskiego PAN.
  • Langendoen, D. Terence, Simons, Gary F. A Rationale for the TEI Recommendations for Feature-Structure Markup. [In:] N. Ide and J. Veronis (Eds.) Text Encoding Initiative – Background and Context. Kluwer Academic Publishers, pp. 191-209.
  • Ogrodniczuk, M. 2000. Wykorzystanie SGML i TEI do zapisu polskich danych lingwistycznych. Master thesis, prepared under supervision of Dr. Janusz S. Bień. Warsaw: Faculty of Mathematics, Informatics and Mechanics, Warsaw University.
  • Ogrodniczuk, M. 2003. Nowa edycja wzbogaconego korpusu słownika frekwencyjnego. [In:] Stanisław Gajda (Ed.) Językoznawstwo w Polsce. Stan i perspektywy. Polska Akademia Nauk – Komitet Językoznawstwa, Uniwersytet Opolski – Instytut Filologii Polskiej. Opole, pp. 181-190. http://www.mimuw.edu.pl/~jsbien/MO/JwP03/.
  • ---
  • Ogrodniczuk, M. 2003. Rozszerzenie opisów morfologicznych w tekstach korpusu „Słownika frekwencyjnego polszczyzny współczesnej". [In:] Jadwiga Linde-Usiekniewicz, Romuald Huszcza (Ed.) Prace językoznawcze dedykowane Profesor Jadwidze Sambor. Wydział Polonistyki Uniwersytetu Warszawskiego, pp. 164--168.
  • Sperberg-McQueen, C. M., Burnard, L. (Eds.) 2001. TEI P4. Guidelines for Electronic Text Encoding and Interchange. XML-compatible edition. Chicago, Oxford: The Association for Computers and the Humanities (ACH), The Association for Computational Linguistics (ACL), The Association for Literary and Lingustic Computing (ALLC). http://www.tei-c.org/P4X/.
  • TEI SGML to XML Migration Introduction and Workflow Recommendations. Second Draft, 2003. http://www.tei-c.org/Activities/MI/miw03d.html.
  • Wall, L., Christiansen, T., Schwartz, R. L. 1996. Programming Perl, 2nd Edition., O'Reilly and Associates, Inc., ISBN 1-6592-149-6.
  • XML Path Language (XPath), version 1.0. World Wide Web Consortium, 1999. http://www.w3.org/TR/REC-xml/.

Document Type

Publication order reference

Identifiers

YADDA identifier

bwmeta1.element.ojs-doi-10_14746_il_2004_11_7
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.