PL EN


2016 | 38 | 38, 2016, nr 4 | 119-134
Article title

Metoda badania wiarygodności masowych źródeł historycznych, baz danych i opracowań badawczych

Authors
Content
Title variants
EN
Method of testing the reliability of mass historical sources, databases and research studies
Languages of publication
PL
Abstracts
PL
W artykule przedstawiono metodę zastosowania prawa Benforda w celu weryfikacji rzetelności źródeł historycznych i opracowań badawczych zawierających wiele danych liczbowych. Prawo to wykorzystuje rozkład cyfry wiodącej w dużym zbiorze danych, który nie jest – jak można by przypuszczać – rozkładem losowym. Badania przeprowadzono na czterech przykładach źródeł i publikacji historycznych. W przypadku trzech z nich potwierdzono zgodność empirycznych rozkładów cyfry wiodącej z rozkładem Benforda; na przykładzie czwartej natomiast wskazano ograniczenia tej metody weryfikacji w odniesieniu do opracowań, w których dane pierwotne podlegają kodowaniu. Nie może też być ona stosowana dla liczb losowych oraz dla zjawisk zbliżonych do rozkładu normalnego. Opracowano również syntetyczną miarę zgodności rozkładów wykorzystującą tzw. entropię względną (dywergencję Kullbacka-Leiblera) w postaci indeksu wiarygodności W. Wskaźnik ten może przyjmować wartości teoretyczne od 0 do 100, choć w szczególnych przypadkach może nawet tę górną granicę przekraczać. Zaproponowano również wartość graniczną wskaźnika W, od której można mieć uzasadnione wątpliwości co do wiarygodności danych.
EN
The paper presents the method of applying the Benford law to verify the reliability of historical sources and research papers containing many numbers. This law uses the distribution of the leading number in a large data set, which is not a random distribution as one would assume. The study was carried out using four examples of historical sources and publications. Three of them confirmed that the empirical distribution of the leading digit was in line with the Benford distribution; the example of the fourth one indicated the limitations of this verification method for studies in which primary data are encoded. It cannot be used for random numbers and for phenomena similar to normal distribution. The author of the paper has also constructed a synthetic measure of concordance of distributions, which makes use of relative entropy (the Kullback-Leibler divergence) in the form of a W – validity index. This index may take theoretical values from 0 to 100, although in some cases it may even exceed this upper limit. The study also proposes a limit value for the W index, from which reasonable doubt about the reliability of the data may arise.
Year
Volume
38
Pages
119-134
Physical description
Contributors
author
References
  • Benford, Frank. „The Law of Anomalous Numbers”. Proceedings of the American Philosophical Society 78 (1938), 4: 551–572.
  • Campbell, William Wallace. „Biographical Memoir Simon Newcomb 1835–1909”. National Academy of Sciences, 1916. Dostęp 20.03.2017. http://www.nasonline.org/publications/ biographical-memoirs/memoir-pdfs/newcomb-simon.pdf.
  • Cover, Thomas M., Joy A. Thomas. Elements of Information Theory. New York: Wiley, 1991.
  • Diaconis, Persi. „The Distribution of Leading Digits and Uniform Distribution Mod 1”. The Annals of Probability 5 (1977), 1: 72–81. Dostęp 20.30.2017. http://www.jstor. org/stable/2242803.
  • Fewster, Rachel M. „A Simple Explanation of Benford’s Law”. The American Statistician 63 (2009), 1: 26–32. Dostęp 20.30.2017. http://www.jstor.org/stable/27644089.
  • Hill, Theodore P. „Base-invariance Implies Benford’s Law”. Proceedings of the American Mathematical Society 123 (1995), 3: 887–895.
  • Judge, George, Laura Schechter. „Detecting Problems in Survey Data Using Benford’s Law”. The Journal of Human Resources 44 (2009), 1: 1–24. Dostęp 23.03.2017. http:// www.jstor.org/stable/20648886.
  • Kula, Witold. Problemy i metody historii gospodarczej. Warszawa: PWN, 1963.
  • Logan, Jonothan L., Samuel A. Goudsmit. „The First Digit Phenomenon”. Proceedings of the American Philosophical Society 122 (1978), 4: 193–197. Dostęp 20.30.2017. http://www.jstor.org/stable/986530.
  • Newcomb, Simon. „Note on the Frequency of Use of the Different Digits in Natural Numbers”. American Journal of Mathematics 4 (1881), 1: 39–40.
  • Norberg, Arthur L. „Simon Newcomb’s Early Astronomical Career”. Isis 69 (1978), 2: 209–225. Dostęp 23.03.2017. http://www.jstor.org/stable/230430.
  • Pericchi, Luis, David Torres. „Quick Anomaly Detection by the Newcomb–Benford Law, with Applications to Electoral Processes Data from the USA, Puerto Rico and Venezuela”. Statistical Science 26 (2011), 4: 502–516. Dostęp 23.03.2017. http://www. jstor.org/stable/23208738.
  • Raimi, Ralph A. „The First Digit Phenomenon Again”. Proceedings of the American Philosophical Society 129 (1985), 2: 211–219. Dostęp 23.03.2017. http://www.jstor. org/stable/986989.
  • Raimi, Ralph A. „The First Digit Problem”. The American Mathematical Monthly 83 (1976), 7: 521–538.
  • Szołtysek, Mikołaj. Rethinking East-Central Europe: family systems and co-residence in the Polish-Lithuanian Commonwealth. Vol. 1–2. Bern: Peter Lang, 2015.
  • Wnęk, Konrad. Własność nieruchomości w Krakowie w połowie XIX w. Kraków: Historia Iagellonica, 2011.
Document Type
Publication order reference
Identifiers
YADDA identifier
bwmeta1.element.desklight-5df418ff-5bd4-4850-bbc6-da31a14cfcff
JavaScript is turned off in your web browser. Turn it on to take full advantage of this site, then refresh the page.