PL EN


2013 | 5(37) | 61-76
Article title

Ochrona własności intelektualnej z wykorzystaniem semantycznych struktur reprezentacji wiedzy

Title variants
EN
Intellectual property protection enhanced by semantic knowledge representation structures
Languages of publication
PL
Abstracts
PL
W artykule przedstawiono autorski System Ochrony Własności Intelektualnej SOWI. System ten wykorzystuje szereg algorytmów opartych na sieci semantycznej SenecaNet dla języka polskiego oraz sieci semantycznej WiSENet dla dokumentów napisanych w języku angielskim. Algorytmy te porównują dokumenty na poziomie semantycznym, znacznie przekraczającym poziom prostego przetwarzania tekstu. Dodatkowym atutem systemu SOWI jest jego zdolność do używania do porównań zarówno lokalnego repozytorium dokumentów, jak i pozyskiwania dokumentów pochodzących z Internetu. Celem artykułu jest przedstawienie architektury systemu, zastosowanych w nim mechanizmów, algorytmów oraz omówienie rezultatów przeprowadzonych ostatnio badań i eksperymentów.
EN
The article presents the architecture and functionality of Semantically Enhanced Intellectual Property Protection System SOWI developed by the author. The SOWI system uses an extensive set of semantic net algorithms for the Polish and the English language which allows to detect the similarities between the two documents compared at a level far beyond a of simple text matching. The SOWI benefits both from using a local document repository and from Web-based resources. The main focus of this work is to give the reader an overview of the system’s architecture, applied mechanisms and some recent results.
Contributors
  • Wyższa Szkoła Bankowa w Poznaniu
References
  • Andoni A., Indyk P., Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions, „Commun of ACM” 2008, t. 51, nr 1.
  • Boyd-Graber J., Blei D.M., Zhu X., A topic model for word sense disambiguation, EMNLP, Prague 2007.
  • Brachman R.J., Levesque H.J., Knowledge Representation and Reasoning, Elsevier, Oxford 2004.
  • Broder A.Z., Glassman C.S., Manasse M.S., Zweig G., Syntactic clustering of the Web, „Computer Networks and ISDN Systems” 1997, t. 29, nr 8-13.
  • Burrows S., Tahaghoghi S.M., Zobel J., Efficient plagiarism detection for large code repositories, „Software: Practice and Experience” 2007, t. 37, nr 2.
  • Ceglarek D., Applying Cluster-based Methods to Improvement Filtering of Information, w: Proceedings from Southern Conference on Computing 2000, Hattiesburg, Mississipi 2000.
  • Ceglarek D., Zastosowanie sieci semantycznej do disambiguacji pojęć w języku naturalnym, w: Systemy wspomagania organizacji SWO 2006, red. T. Porębska-Miąc, H. Sroka, Wyd. AE, Katowice 2006.
  • Ceglarek D., Koncepcja komponentowego systemu ochrony własności intelektualnej wykorzystującego semantyczne struktury informacji, w: Technologie informatyczne w zarządzaniu wiedzą – uwarunkowania i realizacja, red. P. Adamczewski, M. Zakrzewicz, Wyd. WSB w Poznaniu, Poznań 2009.
  • Ceglarek D., Haniewicz K., Rutkowski W., Semantic compression for Specialised Information Retrieval Systems, w: Studies in Computational Intelligence, t. 283: Advances in Intelligent Information and Database Systems, Springer, Berlin – Heidelberg 2010.
  • Ceglarek D., Haniewicz K., Rutkowski W., Robust Plagiary Detection Using Semantic Compression Augmented SHAPD, w: Lecture Notes in Artificial Intelligence, t. 7653: Computational Collective Intelligence – Technologies and Applications, red. N.T. Nguen, R. Katarzyniak, Springer, Berlin – Heidelberg 2012.
  • Ceglarek D., Haniewicz K., Detection of the Most Influential Documents, w: New Trends in Databases and Information Systems, red. M. Pechanizkiy, M. Wojciechowski, Springer, Berlin – Heidelberg 2013.
  • Ceglarek D., Linearithmic Corpus to Corpus Comparison by Sentence Hashing Algorithm SHAPD2, w: Proceedings of 5th International Conference on Advanced Cognitive Technologies and Applications Conference, Xpert Publishing Services, Valencia 2013.
  • Charikar M.S., Similarity estimation techniques from rounding algorithms, w: Proceedings of the 34th annual ACM symposium, STOC’02, ACM, New York 2002.
  • Clough P., Stevenson M., A Corpus of Plagiarised Short Answers, University of Sheffield, 2009, http://ir.shef.ac.uk/cloughie/resources/plagiarism\_corpus.html [7.01.2013].
  • Goddard C., Schalley A.C., Semantic Analysis, w: Handbook of Natural Language Processing, red. N. Indurkhya, F. Damerau, Chapman & Hall/CRC, Boca Raton 2010.
  • Hammerl R., Sambor J., O statystycznych prawach językowych, Biblioteka Myśli Semiotycznej, Warszawa 1993.
  • Henzinger M., Finding near-duplicate web pages: A large-scale evaluation of algorithms, w: SIGIR ‘06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, ACM, New York 2006.
  • Hoad T., Zobel J., Methods for Identifying Versioned and Plagiarised Documents, „Journal of the American Society for Information Science and Technology” 2003, t. 54, nr 3.
  • Hunt J., Szymanski T., A fast algorithm for computing longest common subsequences, „Communications of the ACM” 1977, t. 20, nr 5.
  • Irving R.W., Plagiarism and collusion detection using the Smith-Waterman algorithm. Technical report, University of Glasgow, Glasgow 2004.
  • Manber U., Finding similar files in a large file system, w: Proceedings of the USENIX Winter 1994 Technical Conference on USENIX, WTEC’94, Berkeley 1994.
  • Mykowiecka A., Inżynieria lingwistyczna – komputerowe przetwarzanie tekstów w języku naturalnym, Wyd. PJWSTK, Warszawa 2007.
  • Ota T., Masuyama S., Automatic plagiarism detection among term papers, w: Proceedings of the 3rd International Universal Communication Symposium, IUCS ’09, ACM, New York 2009.
  • Potthast M. i inni, Overview of the 4th International Competition on Plagiarism Detection, w: Working Notes Papers of the CLEF 2012, red. P. Forner, J. Karlgren, Ch. Womser-Hacker, Evaluation Labs, Rome 2012.
  • Przepiórkowski A., Korpus IPI PAN. Wersja wstępna, Wyd. IPI PAN, Warszawa 2004.
  • Stein B., Lipka N., Prettenhoferr P., Intrinsic Plagiarism Analysis, „Language Resources and Evaluation” 2010, t. 45, nr 1.
Document Type
Publication order reference
Identifiers
YADDA identifier
bwmeta1.element.desklight-cf722e95-caf7-4b1b-ab44-441f9962ee5a
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.