本福德定律
本福德定律是一個關(guān)于真實數(shù)據(jù)集中前位數(shù)的數(shù)學(xué)定律。當(dāng)我們考慮一些數(shù)字的第一位時,1到9出現(xiàn)的概率應(yīng)該是相等的,約為11.1%。令人驚訝的是,事實并非如此。
本福德定律指出,在許多自然出現(xiàn)的數(shù)字集合中,前導(dǎo)數(shù)字(數(shù)字的第一位)出現(xiàn)的概率不想等。前導(dǎo)1比2更常見,前導(dǎo)2比3更常見,以此類推。
本福德定律指出,如果一組數(shù)的前導(dǎo)數(shù)d(∈1,…,9)與等式同時出現(xiàn),則稱該數(shù)滿足本福德定律。
?
由這個方程,我們得到了前導(dǎo)數(shù)的以下分布。
?
根據(jù)這個分布,我們可以預(yù)測1作為前導(dǎo)位的概率比其他數(shù)高30%。該定律可以用在許多地方,例如稅務(wù)表格、選舉結(jié)果、經(jīng)濟數(shù)字和會計數(shù)字上的欺詐檢測。
大數(shù)定律
大數(shù)定律指出,隨著隨機過程試驗次數(shù)的增加,其結(jié)果的平均值會越來越接近期望值或理論值。
例如,擲骰子的時候。得到的可能結(jié)果是1到6,平均值是3。5。當(dāng)我們擲骰子時,我們得到的數(shù)字將是隨機的(1到6)。當(dāng)擲骰子的次數(shù)越多,結(jié)果越接近期望值,即3.5。這就是大數(shù)定律。
雖然它很有用,但這里的棘手之處在于你需要進行許多實驗。大數(shù)定律與平均定律不同,平均定律是用來表達一個信念,即隨機事件的結(jié)果會在一個小樣本內(nèi)“持平”。這就是我們所說的“賭徒謬誤”,我們期望期望值會出現(xiàn)在較小的樣本中。
齊普夫定律
齊普夫定律是為定量語言學(xué)而創(chuàng)立的,即給定一些自然語言數(shù)據(jù)集語料庫,任何單詞的頻率都與其頻率表的排名成反比。因此,最常見的單詞出現(xiàn)頻率大約是第二常見單詞的兩倍,是第三常見單詞的三倍。
例如,在Spotify數(shù)據(jù)集中,我將嘗試拆分所有的單詞和標(biāo)點符號來計算它們。以下是12個最常見的單詞及其使用頻率。
?
我們可以通過計算這些事件發(fā)生的概率來判斷齊普夫定律是否適用于這個數(shù)據(jù)集。第一個出現(xiàn)頻率最高的單詞或標(biāo)點是' - '和32258,它的概率是4%,然后是' The ',它的概率是2%。根據(jù)定律,某些詞的概率會一直下降。當(dāng)然,有一點偏差,但是概率會隨著頻率的增加而下降。