PL EN


2008 | 16 | 163-181
Article title

Comparison of selected methods for the retrieval of neologisms

Authors
Content
Title variants
EN
Comparison of selected methods for the retrieval of neologisms
Languages of publication
PL
Abstracts
PL
The paper discusses and compares several semi-automatic methods used to extract neologisms from linguistic corpora. All the methods are based on the concept of discriminants, or textual features (both lexis and punctuation), that either precede (lexical discriminants) or confine (punctuation discriminants) phrases in which the occurrence of neologisms is higher than elsewhere in the text. Excerption and comparison was conducted on a corpus of 45 million words, articles from Nature scientific magazine. The putative neologisms were extracted using morphological analysis and frequency of their occurrence in the Google search engine. The result is a list of 1000 neologisms and assessment of the efficacy of each method. 
EN
The paper discusses and compares several semi-automatic methods used to extract neologisms from linguistic corpora. All the methods are based on the concept of discriminants, or textual features (both lexis and punctuation), that either precede (lexical discriminants) or confine (punctuation discriminants) phrases in which the occurrence of neologisms is higher than elsewhere in the text. Excerption and comparison was conducted on a corpus of 45 million words, articles from Nature scientific magazine. The putative neologisms were extracted using morphological analysis and frequency of their occurrence in the Google search engine. The result is a list of 1000 neologisms and assessment of the efficacy of each method.
Keywords
Year
Volume
16
Pages
163-181
Physical description
Dates
published
2008-12-15
Contributors
author
  • Instytut Językoznawstwa, Uniwersytet im. Adama Mickiewicza al. Niepodległości 4, 61 874 Poznań
References
  • Bańko, M. 2001. Z pogranicza leksykografii i językoznawstwa. Warszawa: Wydawnictwo Wydziału Polonistyki UW.
  • Bień, J. S., Szafran, K. 2001. Analiza morfologiczna języka polskiego w praktyce. Biuletyn Polskiego Towarzystwa Językoznawczego, LVII, pp. 171-184.
  • Buczyński, A. 2004. Pozyskiwanie z Internetu tekstów do badań lingwistycznych. Warszawa: Instytut Informatyki UW.
  • Buttler, D. 1962. Neologizm i terminy pokrewne. Poradnik Językowy, 5-6. pp. 235-244.
  • Buttler, D. 1993. Neologizmy z formantem -acja w powojennej polszczyźnie. Przeglądfilologiczny, 38. pp. 7-15.
  • Chlebda, W. 1991. Elementy frazematyki. Wprowadzenie do frazeologii nadawcy. Opole: WSP.
  • Dias, G. et al. 2000. Normalization of Association Measures for Multiword Lexical Unit Extraction. International Conference on Artificial and Computational Intelligence fo r Decision Control and Automation in Engineering and Industrial Applications (ACIDCA'2000). Monastir, Tunisia. pp. 207-216.
  • Doroszewski, W. 1958-1969. Słownik języka polskiego. Warszawa: Wiedza Powszechna.
  • Golding, A.R., Schabes, Y. 1996. Combining Trigram-based and Feature-based Methods for Context-Sensitive Spelling Correction. Proceedings o f the 34th Annual Meeting o f the Association for Computational Linguistics. Santa Cruz, CA.
  • Gries, S. Th., Stefanowitsch. 2004. A. Extending collostructional analysis. A corpus-based perspective on ‘alternations’.
  • International Journal o f Corpus Linguistics, 9:1. pp. 97-129.
  • Krzemińska, W., Nowak, P. (eds). 2002. Przestrzenie informacji. Poznań: Sorus.
  • Moszczyński, R. 2006. Formal approaches to multiword lexemes. Warszawa: Instytut Anglistyki UW.
  • Puppel, S. (ed.). 2005. Scripta Neophilologica Posnaniensa. Tom VII. Poznań: Wydział Neofilologii UAM.
  • Siepmann 2005. Collocation, colligation and encoding dictionaries. Part I: Lexicological Aspects. International Journal of Lexicography, 18(4). pp. 409-443.
  • Smółkowa, T. 2001. Neologizmy we współczesnej leksyce polskiej. Kraków: IJP PAN.
  • Stoberski, Z. 1976. O centralną rejestrację neologizmów naukowych. Poradnik Językowy, 4. pp. 186-189.
  • Wawrzyńczyk, J. 1994. Tak zwane nowe słownictwo polskie w świetle dokumentacji „Polskiego Informatorium Wyrazowego”. Katowice: Śląsk.
  • Wawrzyńczyk, J. 1999. Nowe słownictwo polskie. Fikcje i fakty. Warszawa: UW.
  • Wawrzyńczyk, J. 2000. Słownik bibliograficzny języka polskiego: wersja przedelektroniczna. T. 1, A-Ć. Warszawa: Uniwersytet Warszawski. Instytut Informacji Naukowej i Studiów Bibliologicznych.
  • Wierzchoń, P. 2002. Automatyzacja ekscerpcji definiowanych połączeń wyrazowych. Filtry wyrażeń regularnych. In Krzemińska, W., Nowak, P. (eds.). 2005. Przestrzenie informacji (pp. 119-184). Poznań: Sorus.
  • Wierzchoń, P. 2003. Z cudzysłowów do poczekalni leksykograficznej. Warszawa: KLiKR UL.
  • Wierzchoń, P. 2005a. Z cudzysłowów do poczekalni leksykograficznej II. Warszawa: KLiKR UL.
  • Wierzchoń, P. 2005b. Automatyczne metody ekscerpcji neologizmów, czyli językoznawstwo faktograficzne. In Puppel, S. (ed.). 2005. Scripta Neophilologica Posnaniensa. Tom VII (pp. 221-240). Poznań: Wydział Neofilologii UAM.
Document Type
Publication order reference
Identifiers
YADDA identifier
bwmeta1.element.ojs-doi-10_14746_il_2008_16_14
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.