隨機(jī)變量在概率空間中遵循不同類型的分布,這決定了它們的特征并有助于預(yù)測。
本文內(nèi)容列表:
· 引言
· 高斯/正態(tài)分布(Gaussian/Normal Distribution)
· 二項(xiàng)分布(Binomial Distribution)
· 伯努利分布(Bernoulli Distribution)
· 對(duì)數(shù)正態(tài)分布(Log Normal Distribution)
· 冪律分布(Power Law Distribution)
· 分布函數(shù)的使用
引言
每當(dāng)我們遇到任何概率實(shí)驗(yàn),我們談?wù)摰氖请S機(jī)變量,它只不過是獲取實(shí)驗(yàn)預(yù)期結(jié)果的變量。例如,當(dāng)我們擲骰子時(shí),我們期望從集合{1,2,3,4,5,6}中得到一個(gè)值。所以我們定義了一個(gè)隨機(jī)變量X,它在每次擲骰時(shí)取這些值。
根據(jù)實(shí)驗(yàn)的不同,隨機(jī)變量可以取離散值,也可以取連續(xù)值。骰子的例子是離散隨機(jī)變量,因?yàn)樗∫粋€(gè)離散值。但是假設(shè)我們討論的是某個(gè)城鎮(zhèn)的房價(jià),那么相關(guān)的隨機(jī)變量可以取連續(xù)的值(例如550000美元,1200523.54美元等等)。
當(dāng)我們將隨機(jī)變量的期望值與實(shí)驗(yàn)中出現(xiàn)頻率的關(guān)系圖繪制出來時(shí),我們得到了一個(gè)直方圖形式的頻率分布圖。利用核密度估計(jì)對(duì)這些直方圖進(jìn)行平滑處理,得到了一條很好的曲線。這條曲線被稱為"分布函數(shù)"。

橙色平滑曲線是概率分布曲線
高斯/正態(tài)分布
高斯/正態(tài)分布是一個(gè)連續(xù)的概率分布函數(shù),隨機(jī)變量在均值(μ)和方差(σ²)周圍對(duì)稱分布。

高斯分布函數(shù)
平均值(μ):決定峰值在X軸上的位置。而且,所有數(shù)據(jù)都對(duì)稱地位于X=μ線的兩側(cè)。如圖所示,藍(lán)色、紅色和黃色曲線分布在X=0的兩側(cè),而綠色曲線的中心位于X=-2。所以通過觀察這些曲線,我們可以很容易地說,藍(lán)色,紅色和黃色的平均值是0,而綠色的平均值是-2。
方差(σ²):決定曲線的寬度和高度。方差只不過是標(biāo)準(zhǔn)差的平方。請注意,圖中給出了所有四條曲線的σ²值。現(xiàn)在不看數(shù)值,我們可以很直觀地發(fā)現(xiàn),黃色曲線的高度最低。

如果我們設(shè)置μ=0和σ=1,則稱為標(biāo)準(zhǔn)正態(tài)分布或標(biāo)準(zhǔn)正態(tài)變量,一般表達(dá)式變?yōu)椋?/p>
標(biāo)準(zhǔn)正態(tài)分布函數(shù)
現(xiàn)在我們可以思考,分母意味著什么?這是為了確保正態(tài)分布曲線下的面積總是等于1。
我們從正態(tài)分布中可以得到很多有用的數(shù)據(jù)分割信息。以下圖為例:

正態(tài)分布的值分割圖
如圖所示,如果我們從平均值右移一個(gè)標(biāo)準(zhǔn)差,這個(gè)分布存儲(chǔ)了總質(zhì)量的34.1%;如果我們從平均值右移2個(gè)標(biāo)準(zhǔn)偏差,則為49.8%。因?yàn)檫@條曲線是對(duì)稱的,所以兩邊都適用。
所以,現(xiàn)在我們知道了,如果任何數(shù)據(jù)服從正態(tài)分布,例如城鎮(zhèn)人口的權(quán)重,我們可以很容易地估計(jì)出很多值,而不需要進(jìn)行實(shí)際的廣泛分析。這就是正態(tài)分布的力量。
二項(xiàng)分布(Binomial Distribution)
正如我們在名字里看到的,有一個(gè)"Bi"。這個(gè)'Bi'代表一個(gè)實(shí)驗(yàn)的2個(gè)結(jié)果,要么是肯定的,要么是失敗的,要么是1或者0等等。最簡單的說,這個(gè)分布是多次重復(fù)實(shí)驗(yàn)的分布以及它們的概率,其中預(yù)期結(jié)果要么是"成功"要么是"失敗"。

二項(xiàng)分布
從圖像上可以看出,它是一個(gè)離散的概率分布函數(shù)。主要參數(shù)為n(試驗(yàn)次數(shù))和p(成功概率)。
現(xiàn)在假設(shè)我們有一個(gè)事件成功的概率p,那么失敗的概率是(1-p),假設(shè)你重復(fù)實(shí)驗(yàn)n次(試驗(yàn)次數(shù)=n)。那么在n個(gè)獨(dú)立的伯努利試驗(yàn)中獲得k個(gè)成功的概率是:

二項(xiàng)分布函數(shù)
其中k屬于范圍[0,n],并且:

現(xiàn)在我們思考一個(gè)簡單的問題。假設(shè)印度和澳大利亞之間正在進(jìn)行板球比賽。Rohit Sharma已經(jīng)得到了151分,根據(jù)你的經(jīng)驗(yàn),你知道150分之后,Rohit有0.3分的概率達(dá)到6分。這是最后一節(jié)了,你父親問你Rohit有多大的機(jī)會(huì)能打4個(gè)全壘打。那你怎么判斷呢?
這是一個(gè)典型的二項(xiàng)試驗(yàn)的例子。所以,解決辦法是:

注:大括號(hào)中的6和4是6C4,它是6個(gè)球中4個(gè)全壘打的可能組合。
伯努利分布
在二項(xiàng)分布中,我們有一個(gè)特殊的例子叫做伯努利分布,其中n=1,這意味著在這個(gè)二項(xiàng)實(shí)驗(yàn)中只進(jìn)行了一次試驗(yàn)。當(dāng)我們把n=1放入二項(xiàng)PMF(概率質(zhì)量函數(shù))中時(shí),nCk等于1,函數(shù)變成:

伯努利分布PMF
式中,k={0,1}。
現(xiàn)在我們來看看印度隊(duì)對(duì)澳大利亞隊(duì)的比賽。假設(shè)當(dāng)Rohit達(dá)到100分(a ton),那么印度獲勝的幾率是0.7。所以你可以簡單地告訴你父親印度有70%的機(jī)會(huì)贏了。
對(duì)數(shù)正態(tài)分布
我們已經(jīng)了解了正態(tài)分布的性質(zhì),乍一看,許多人會(huì)說,對(duì)數(shù)正態(tài)曲線在某種程度上也讓我們看到了正態(tài)分布是右偏態(tài)的。

假設(shè)有一個(gè)隨機(jī)變量X服從對(duì)數(shù)正態(tài)分布,均值=μ,方差=σ²。X有總共n個(gè)可能值(x1,x2,x3…..xn)。現(xiàn)在取所有X值的自然對(duì)數(shù),并創(chuàng)建一個(gè)新的隨機(jī)變量Y=[Log(x1),Log(x2),Log(x3)…Log(xn)]。這個(gè)隨機(jī)變量Y是正態(tài)分布的。
換句話說,如果存在正態(tài)分布Y,并且我們?nèi)∷闹笖?shù)函數(shù)X=exp(Y),那么X將遵循對(duì)數(shù)正態(tài)分布。
它還具有與高斯函數(shù)相同的參數(shù):均值(μ)和方差(σ²)。
冪律/帕累托分布
冪律是兩個(gè)量之間的關(guān)系,其中一個(gè)量的變化將成比例地改變另一個(gè)量。它遵循一個(gè)80-20法則:在前20%的值中,我們可以找到大約80%的質(zhì)量密度。如圖所示,稍暗的左側(cè)部分為質(zhì)量的80%,右側(cè)亮黃色部分為20%。

當(dāng)概率分布遵循冪律時(shí),我們稱之為帕累托分布。帕累托分布由兩個(gè)參數(shù)控制:xm和α。xμm可以看作是控制曲線尺度的均值,α可以看作是控制曲線形狀的σ。(注:xm不是平均值,α不是σ。)現(xiàn)在我們可以在圖像中看到,所有四條曲線的峰值都位于x=1。所以,我們可以說對(duì)于圖中的所有曲線,x_m=1。隨著α的增加,峰值也會(huì)上升,在α趨于無窮大的極端情況下,曲線僅轉(zhuǎn)變?yōu)橐粭l垂直線。這叫做Diracδ函數(shù)。隨著α的減小,曲線變得更加平緩。

帕累托分布PMF
分布函數(shù)的使用
如果我們知道一個(gè)特定的數(shù)據(jù)遵循一定的分布特征,那么我們可以采取部分樣本,找到所涉及的參數(shù),然后可以繪制出概率分布函數(shù)來解決許多問題。例如:在一個(gè)有10萬人口的城鎮(zhèn),我們必須做身高分析,但我們不能對(duì)這么多人口進(jìn)行調(diào)查。因此,我們選取一個(gè)隨機(jī)樣本,求出樣本均值和樣本標(biāo)準(zhǔn)差。現(xiàn)在假設(shè)一位醫(yī)生或?qū)<腋嬖V我們身高服從正態(tài)分布。這樣我們就可以輕松地回答許多問題了。
作者: Saurabh Raj
deephub翻譯組:Oliver Lee