在实际生活得出的数据中,不同数字开头的数字出现机率是有规律可循的。如果不遵从这个规律,那么就表明数据存在人为伪造。
1935 年,美国的一位叫做本福特的物理学家在图书馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这说明头几页在平时被更多的人翻阅。
本福特再进一步研究后发现,只要数据的样本足够多,数据中以 1 为开头的数字出现的频率并不是 1/9,而是 30.1%。而以 2 为首的数字出现的频率是 17.6%,往后出现频率依次减少,9 的出现频率最低,只有 4.6%。
数学原理:
在 $b$ 进位制中,以数 $n$ 起头的数出现的机率为: $$ P(n)=\log _{b}(n+1)-\log _{b}(n)=\log _{b}\left(\frac{n+1}{n}\right) $$
参考资料: