PL
Zbiory Big Data oferują dostęp do niemal nieograniczonej liczby danych, dając nadzieję na szybszy, tańszy, bardziej precyzyjny i wszechstronny opis świata. Jednocześnie w takich zbiorach poza danymi o odpowiedniej jakości (clear data) znaczny udział mają dane nieprawdziwe, nieaktualne, zaszumione, często zwielokrotnione, niepełne lub błędne (dirty data), a także dane o nieznanej jakości czy użyteczności (dark data). Znaczący udział dirty i dark data ma szereg negatywnych konsekwencji w analizie zbioru Big Data. Celem prezentowanych badań jest przegląd i systemowe ujęcie procedur minimalizowania negatywnych efektów dirty data w analizie Big Data. W konstrukcji systemu oczyszczania zbioru danych uwzględniono najważniejsze procedury profilowania (profiling data), oczyszczania (cleansing data) i zapobiegania (defect prevention) powstawaniu dirty data w procesie budowy i analizy zbioru Big Data