Miary podobieństw łańcuchów znakowych a deduplikacja rekordów w bibliograficznych bazach danych

Kamińska, Anna Małgorzata

Article details

Journal

Przegląd Biblioteczny

2017 | 85 | 4 | 477-495

Article title

Miary podobieństw łańcuchów znakowych a deduplikacja rekordów w bibliograficznych bazach danych

Authors

Kamińska Anna Małgorzata

Selected contents from this journal

http://medioteka.uw.edu.pl/dlibra

Title variants

String Similarity Metrics and Deduplication of Records in Bibliographic Databases

Languages of publication

PL

Abstracts

EN

Thesis/Objective – The article presents the method of deduplicating/linking bibliographic records in databases based on the string similarity metrics. The proposal is based on the author’s own experience acquired while building a bibliographic database and conducting bibliometric research based on data acquired from publicly available bibliographic databases. The formal description of the method is illustrated with data obtained from the CYTBIN database. Research methods – The development of the method required a review of information architecture of selected Polish bibliographic databases and an identification of problems that affect them, resulting not only from data models but also from the construction of their graphical user interfaces. Several string similarity metrics were analyzed and some of them were used as components of the finally proposed compound method. The method enables the evaluation of bibliographic record similarity based on their attributes. Results – The results presented on the example of data acquired from CYTBIN database enabled the empirical verification of the proposed method. In addition, the author performed the analysis of the similarity distribution of bibliographic records from the CYTBIN database calculated for the proposed method and for Jaro-Winkler algorithm based on the titles of bibliographic units. Conclusions – The proposed method, after adjusting its parameters to the specificity of selected bibliographic databases, can be used to improve the quality of bibliographic data. Depending on the performance of the computer system, the proactive model (the verification before adding a given record to a database) or/and reactive model (the verification of all or just recently added records, performed for instance during a minor system load at daily intervals) can be implemented.

Teza/cel artykułu – Celem artykułu jest przedstawienie metody deduplikacji/łączenia (ang. deduplication/linkage) rekordów opisujących jednostki bibliograficzne w bazach danych opartej na miarach podobieństw łańcuchów znakowych. Algorytm opracowano na podstawie własnych doświadczeń nabytych podczas tworzenia bibliograficznej bazy danych oraz podczas realizacji badań bibliometrycznych, na podstawie publicznie dostępnych bibliograficznych baz danych. Formalny opis metody zilustrowano przykładami zaczerpniętymi z krajowej bibliograficznej bazy CYTBIN. Metody badawcze – Opracowanie metody wymagało przeglądu architektur informacyjnych wybranych krajowych bibliograficznych baz danych, określenia typologii problemów ich dotykających, wynikających nie tylko z przyjętych modeli składowania danych, ale i budowy graficznych interfejsów użytkownika, którymi są zasilane, analizy i wyboru miar podobieństw łańcuchów znakowych oraz ostatecznie zaproponowania miary złożonej umożliwiającej ewaluację podobieństwa rekordów bibliograficznych w oparciu o wartości ich atrybutów składowych. Wyniki – Przedstawione na przykładzie danych pochodzących z wybranej bazy bibliograficznej wyniki pozwoliły empirycznie zweryfikować użyteczność zaproponowanej metody. Dodatkowo dokonano analizy rozkładu podobieństwa rekordów bibliograficznych bazy CYTBIN określanego na podstawie zaproponowanej metody złożonej i metody opartej na mierze Jaro-Winkler wyliczanej dla tytułów jednostek bibliograficznych. Wnioski – Zaproponowana metoda, po dostrojeniu jej parametrów do specyfiki (występujących anomalii) konkretnych baz bibliograficznych, może być wprost zastosowana do poprawy jakości opisów bibliograficznych w nich gromadzonych, zarówno w proaktywnym modelu pracy (przed zatwierdzeniem opisu przez operatora), jak i modelu reaktywnym (weryfikacja wszystkich lub nowo zgromadzonych rekordów wykonywana np. w czasie mniejszego obciążenia systemu w dobowych odstępach czasu).

Keywords

PL

Bibliograficzne bazy danych Deduplikacja rekordów Podobieństwo łańcuchów znakowych Scalanie rekordów

EN

Bibliographic databases Deduplication of records String similarity Records linkage

Publisher

Polish Librarians Association, Warsaw, http://www.sbp.pl/en

Journal

Przegląd Biblioteczny

Year

2017

Volume

85

Issue

4

Pages

477-495

Physical description

Contributors

author

Kamińska Anna Małgorzata

anna.kaminska@us.edu.pl

Uniwersytet Śląski w Katowicach Instytut Bibliotekoznawstwa i Informacji Naukowej

References

Cohen, William W.; Ravikumar, Pradeep; Fienberg, Stephen E. (2003). A comparison of string distance metrics for name-matching tasks. Proceedings of International Joint Conferenceon Artificial Intelligence (IJCAI) 18, Workshop on Information Integration on the Web [online], [dostęp: 04.06.2017]. Dostępny w WWW: <http://www.cs.utexas.edu/users/ai-lab/pubs/ravikumarIJCAI03.pdf>.
Drabik, Adrian (2016). Wyszukiwanie powielonych opisów bibliograficznych w bazie danych: przykład Repozytorium Uniwersytetu Jagiellońskiego. Przegląd Biblioteczny, z. 1, s. 65-79.
Dressler, Kevin; Ngonga Ngomo, Axel-Cyrille (2017). On the efficient execution of bounded Jaro-Winker Distances. Semantic Web, vol. 8, no. 2, pp. 185-196.
Freire, Nuno; Borbinha, José; Calado, Pável (2007). Identification of FRBR Works Within Bibliographic Databases: An Experiment with UNIMARC and Duplicate Detection Techniques. International Conference on Asian Digital Libraries (ICADL 2007) [online], [dostęp: 20.09.2017]. Dostępny w WWW: <https://ai2-s2-pdfs.s3.amazonaws.com/3d87/d4b223c86b21a709705142fd11275e7f04a4.pdf>.
Gu, Lifang; Baxter, Rohan; Vickers, Deanne; Rainsford, Chris (2003). Record Linkage: Current Practice and Future Directions [online]. CSIRO Mathematical and Information Sciences; [dostęp: 04.06.2017]. Dostępny w WWW: <http://dc-pubs.dbs.uni-leipzig.de/files/Gu-2003RecordlinkageCurrentpracticeandfuturedirections.pdf>.
Hamming, Richard W. (1950). Error detecting and error correcting codes. The Bell System Technical Journal, vol. 29, no. 2, pp. 147-160.
Jaro, Matthew A. (1989). Advances in record-linkage methodology as applied to the 1985 census of Tampa Florida. Journal of the American Statistical Association, vol. 84, no. 406, pp. 414-420.
Jiang, Yu; Lin, Can; Meng, Weiyi; Yu, Clement; Cohen, Aaron M.; Smalheiser, Neil R. (2014). Rule-based deduplication of article records from bibliographic databases. Database: The Journal of Biological Databases and Curation [online], Jan 16 [dostęp: 04.06.20 17]. Dostępny w WWW: <https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3893659/>.
Kamińska, Anna Małgorzata (2017a). O rozwoju graficznych języków komunikacji. Zagadnienia Informacji Naukowej, nr 2 (110).
Kamińska, Anna Małgorzata (2017b). Od druków źródłowych po mapy nauki. Bibliograficzna baza danych GRUBA. W: Wizualizacja informacji w humanistyce. Pod red. Małgorzaty Kowalskiej i Veslavy Osińskiej. Toruń: Wydaw. Naukowe Uniwersytetu Mikołaja Kopernika w Toruniu.
Kamińska, Anna Małgorzata (2017c). Potencjał bibliometryczny bibliograficznej bazy danych CYTBIN w świetle prostych i złożonych wskaźników analitycznych. Bibliotheca Nostra (w druku).
Kamińska, Anna Małgorzata (2017d). ProBIT – prospektywna metoda tworzenia trawersowalnych indeksów cytowań a współczesne problemy organizacji przestrzeni informacji w tradycyjnych bibliograficznych bazach danych. Zagadnienia Informacji Naukowej, nr 1 (109), s. 66-82.
Kamińska, Anna Małgorzata (2017e). Wizualizacje wybranych wskaźników bibliometrycznych na przykładzie bibliograficznej bazy danych CYTBIN. Toruńskie Studia Bibliologiczne, nr 2 (19).
Kessler, M. M. (1963). Bibliographic coupling between scientific papers. American Documentation, vol. 14, iss. 1, pp. 10-25.
Левенштейн, В. И. (1965). Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академии Наукк СССР, Т. 163, нo. 4, с. 845-848.
Marszakowa-Szajkiewicz, Irena (2009). Badania ilościowe nauki. Podejście bibliometryczne i webometryczne. Poznań: Uniwersytet im. Adama Mickiewicza.
Wit, Ernst-Jan C.; Gillette, Marie (1999). What is Linguistic Redundancy? Technical Report [online]. The University of Chicago; [dostęp: 04.06.2017]. Dostępny w WWW: <http://www.math.rug.nl/~ernst/linguistics/redundancy3.pdf>.

Article details

Journal

Przegląd Biblioteczny

Article title

Miary podobieństw łańcuchów znakowych a deduplikacja rekordów w bibliograficznych bazach danych

Authors

Selected contents from this journal

Title variants

Languages of publication

Abstracts

Keywords

Publisher

Journal

Year

Volume

Issue

Pages

Physical description

Contributors

References

Document Type

Publication order reference

Identifiers

YADDA identifier