2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

T分布:一個(gè)被啤酒廠發(fā)現(xiàn)的關(guān)鍵統(tǒng)計(jì)概念

 ZYB3l69 2019-08-03

翻譯來源

The t-distribution: a key statistical concept discovered by a beer brewery

這篇博文會(huì)介紹兩種你在數(shù)據(jù)科學(xué), 統(tǒng)計(jì)學(xué), 機(jī)器學(xué)習(xí)領(lǐng)域中幾乎每次都會(huì)遇到的概率分布。

高斯分布(正態(tài)分布/常態(tài)分布

想象我們?cè)谶M(jìn)行一項(xiàng)關(guān)于城市人口身高的研究。 我們走街串巷隨機(jī)測(cè)量了一堆人的身高(其中有一些人認(rèn)為這太奇怪了,想要叫警察, 但是這是為了科學(xué), 別鬧了)。

現(xiàn)在我們決定, 進(jìn)行一些探索性數(shù)據(jù)分析Exploratory Data Analysis ) 。 但是我們手頭恰好沒有數(shù)據(jù)分析軟件(例如 R),所以我們就簡(jiǎn)單的做一個(gè)身高分布直方圖。
這里寫圖片描述

我們看到了什么? 啊哈, 著名的鐘型曲線。 這可能是你遇到過的最為重要的概率分布。 感謝中心極限定理Central limit theorem), 高斯分布在很多現(xiàn)實(shí)世界中的很多現(xiàn)象中都存在。高斯分布過于常見, 以致于人們直接干脆稱之為常態(tài)分布/正態(tài)分布(Normal Distribution)

中心極限定理闡明了, 足夠多的隨機(jī)變量求和后的平均數(shù)是符合正態(tài)分布的。 那些隨機(jī)變量自身可以遵循任意的概率分布, 只要我們?cè)诤饬磕撤N由這些隨機(jī)變量求和結(jié)果所表示的量時(shí)(只要樣本量足夠大), 我們最終都會(huì)得到正態(tài)分布。

高斯分布的概率密度函數(shù)如下:
KaTeX parse error: No such environment: equation at position 8: \begin{?e?q?u?a?t?i?o?n?}?f(x|\mu,\sigma…

這個(gè)公式可能看上去有些嚇人, 但是它在數(shù)學(xué)運(yùn)算上非常便捷。 如果你感興趣它是如何推到出來的, 你可以閱讀這里。 正如你所看到的, 這個(gè)分布有兩個(gè)參數(shù)

  • μμ 平均數(shù)(mean)
  • σσ 標(biāo)準(zhǔn)差(standard deviation)

平均數(shù) μμ 控制著期望值(大部分值所要去的地方)。 方差 σ2σ2 控制著這個(gè)分布中, 取值的范圍分布情況或者說分散程度。

正態(tài)分布的概念在機(jī)器學(xué)習(xí)中有極大的價(jià)值。 各種各樣的機(jī)器學(xué)習(xí)算法都會(huì)用到:

  • 線性模型假設(shè)誤差是正態(tài)分布的
  • 高斯過程假設(shè)模型下一個(gè)函數(shù)值的所有值都是正態(tài)分布的
  • 高斯混合使你可以對(duì)復(fù)雜的分布進(jìn)行建模, 基于混合模型構(gòu)建分類器
  • 正態(tài)分布是變分自動(dòng)編碼器的一個(gè)重要組件

一個(gè)學(xué)生的 t 分布

這里寫圖片描述

如果我們想要用高斯分布對(duì)我們的數(shù)據(jù)進(jìn)行建模, 但是并不知道方差 σ2σ2 怎么辦 ? 這個(gè)問題在樣本量比較小, 以致于我們無法準(zhǔn)確估計(jì)標(biāo)準(zhǔn)差(σσ) 的時(shí)候會(huì)出現(xiàn)。


(譯者補(bǔ)充開始):

  • 為什么樣本量較小的時(shí)候, 標(biāo)準(zhǔn)差會(huì)無法準(zhǔn)確估計(jì)呢? 此處可以延伸閱讀一下貝塞爾糾偏(Bessel’s Correction)
  • 直觀舉例來看:
    • 假設(shè)我們有一個(gè)數(shù)據(jù)總體的平均值是 $2050 $, 但是統(tǒng)計(jì)學(xué)家并不知道這件事, 他只能根據(jù)抽樣的樣本來估計(jì)總體的均值。 現(xiàn)在假設(shè)他獲得的樣本較少, 為 : 2051,2053,2055,2050,20512051,2053,2055,2050,2051
    • 可以算得樣本的均值為: 20522052
    • 這個(gè)可以作為我們對(duì)總體均值的一個(gè)估計(jì), 現(xiàn)在我們面臨的問題是, 需要進(jìn)一步估計(jì)樣本的方差。 假如我們知道樣本真實(shí)的均值是 20502050 , 那么根據(jù)方差計(jì)算公式, 我們進(jìn)行如下計(jì)算
      • 15[(2051?2050)2+(2053?2050)2+(2055?2050)2+(2050?2050)2+(2051?2050)2]=7.215[(2051?2050)2+(2053?2050)2+(2055?2050)2+(2050?2050)2+(2051?2050)2]=7.2
    • 假如我們使用估計(jì)的均值進(jìn)行如下計(jì)算
      • 15[(2051?2052)2+(2053?2052)2+(2055?2052)2+(2050?2052)2+(2051?2052)2]=3.215[(2051?2052)2+(2053?2052)2+(2055?2052)2+(2050?2052)2+(2051?2052)2]=3.2
    • 可以看到使用估計(jì)均值計(jì)算出的方差,比使用實(shí)際均值計(jì)算出的方差明顯地小了很多, 這個(gè)偏差已經(jīng)明顯到不可忽略。 現(xiàn)在就會(huì)自然產(chǎn)生一個(gè)疑問, 是不是用樣本均值計(jì)算出來的方差始終(無論樣本均值小于或是大于總體實(shí)際均值)比用總體均值計(jì)算出來的方差要?。?答案是肯定的, 原因可以通過一個(gè)簡(jiǎn)單的數(shù)學(xué)恒等式證明:
    • $ (a + b)2=a2 + 2ab + b^2 $, 其中 aa 表示樣本值總體均值的偏差, bb 表示樣本均值總體均值的偏差, 注意: a+ba+b 所表示的即是樣本值總體均值的偏差。 通過如下的例子可以更清晰的理解:
    • 這里寫圖片描述
    • 這里寫圖片描述
    • 從上述的計(jì)算中就可以看到, 如果用總體實(shí)際均值計(jì)算方差, 其結(jié)果應(yīng)該是
      • a2+b2na2+b2n,
      • 很明顯是大于等于使用估計(jì)均值計(jì)算出來的方差
      • a2na2n,

(譯者補(bǔ)充結(jié)束)


William Gosset 在一個(gè)吉尼斯黑啤酒釀酒廠工作時(shí), 找到了解決樣本量較小時(shí), 總體方差未知導(dǎo)致無法用高斯分布建模數(shù)據(jù)問題的方法。

首先我們假設(shè)有值 x1,...,xnx1,...,xn , 這些值是從一個(gè)正態(tài)分布N(μ,σ2)N(μ,σ2) 的總體中抽樣獲得的

我們并不知道真正的方差, 但是我們可以通過樣本均值和樣本方差來估計(jì):

ˉx=1nni=1xixˉ=1nni=1xi
s2=1n?1ni=1(xi?ˉx)2

  • 譯者注: 上面的 s2 計(jì)算時(shí), 分母為 n?1 而非 n 的原因就是為了糾正使用樣本均值算出的方差總比實(shí)際方差小的問題。

現(xiàn)在我們構(gòu)建一個(gè)隨機(jī)變量:

t=ˉx?μs/n

就會(huì)呈現(xiàn)一個(gè) 自由度為 n?1的 T分布, 其中 n 是樣本的數(shù)量。

  • 譯者注:
  • 統(tǒng)計(jì)學(xué)中自由度的定義是 一次計(jì)算中, 可以自由變化的變量個(gè)數(shù)。 更多信息建議參考 Wiki 定義。 上面這個(gè)隨機(jī)變量 T 其實(shí)是由 x1,...,xn 決定的, 因?yàn)槊看纬闃樱?span>x1,...,xn 都是會(huì)隨機(jī)變動(dòng)的, 所以 t 這個(gè)值也就成了一個(gè)隨機(jī)變量, 注意到公式中$ n,\mu$ 其實(shí)都是是固定的參數(shù),$ \bar{x} $和 s 都是依賴 x1,...,xn 計(jì)算出來的。
  • 那么這里自然有一個(gè)問題是為什么自由度是 n?1 而不是 n, 因?yàn)檫@個(gè)計(jì)算中, 應(yīng)該有 n 個(gè)變量可以自由變化啊
  • 原因是T值的計(jì)算公式中使用了 s , s 的計(jì)算過程中依賴(xi?ˉx) 的值, 而這就產(chǎn)生了一個(gè)隱藏的限制, ni=1(xi?x)=0 。 所以這使得一旦前 n-1個(gè)(xi?ˉx) 確定后, 第 n 個(gè)(xi?ˉx) 立馬被鎖定。 自由度因此變成了n?1

這個(gè)公式可能和正態(tài)分布到標(biāo)準(zhǔn)正態(tài)分布的變形很類似:

ˉx?μσ/n


(譯者補(bǔ)充開始):

  • 標(biāo)準(zhǔn)正太分布是以0為均數(shù)、以1為標(biāo)準(zhǔn)差的正態(tài)分布,記為N0,1, 標(biāo)準(zhǔn)正態(tài)分布曲線下面積分布規(guī)律是:在-1.96~+1.96范圍內(nèi)曲線下的面積等于0.9500,在-2.58~+2.58范圍內(nèi)曲線下面積為0.9900。如下圖
    這里寫圖片描述

  • 給定一個(gè)遵循正態(tài)分布的隨機(jī)變量 $ X \sim N(\mu,\sigma,機(jī)Z=\frac{X-\mu}{\sigma}$ 則符合標(biāo)準(zhǔn)正態(tài)分布。 這個(gè)轉(zhuǎn)換過程也被稱為 $\mu $ 變換

  • 應(yīng)用舉例, 假設(shè)已知一個(gè)正態(tài)分布 $ X \sim N(20,5)$, 想要求得在該分布中, X 取到大于30的概率, 即可計(jì)算 Z=X?μσ=30?205=2, 得到 $P(X>30)= P(Z>2) $ , 查標(biāo)準(zhǔn)正態(tài)分布表可得結(jié)果$ P(Z>2)=2.28%$

  • 在正態(tài)分布總體中以固定的個(gè)數(shù) n 多次抽取樣本時(shí),多個(gè)樣本集的均數(shù) ˉX的分布仍服從正態(tài)分布Nμ,σ。所以,對(duì)樣本均數(shù)的分布進(jìn)行**μ變換**,也可變換為標(biāo)準(zhǔn)正態(tài)分布$N (0,1)

(譯者補(bǔ)充結(jié)束)


我們并不知道真正的總體方差,所以在嘗試對(duì)樣本均值進(jìn)行**μ變換** 時(shí), 只能用樣本估計(jì)出的方差 s 替換實(shí)際方差 μ, 導(dǎo)致最終得到的結(jié)果是 t 分布。

t 分布奠定了一個(gè)名為 t 檢驗(yàn) 的科學(xué)方法的基礎(chǔ)。 該方法曾被吉尼斯黑啤酒釀酒廠用于檢驗(yàn)啤酒質(zhì)量。

由于啤酒廠擔(dān)心競(jìng)爭(zhēng)者可能會(huì)由此發(fā)現(xiàn) T檢驗(yàn)的方法, 所以 William Gosset 只能將這個(gè)發(fā)現(xiàn)以筆名 “學(xué)生” 發(fā)布, 使得 t-分布也被廣泛稱為學(xué)生分布。

Gosset 的發(fā)現(xiàn)后來被著名的統(tǒng)計(jì)學(xué)家 Ronald Fisher (他被認(rèn)為是頻率論方法的作者)正規(guī)化描述。

這里寫圖片描述

如上圖所示, 當(dāng)自由度(v = n-1)從小變大的過程中, t-分布逐漸逼近為標(biāo)準(zhǔn)正態(tài)分布 。 這是因?yàn)楫?dāng)抽樣的數(shù)量越多, 我們計(jì)算出的樣本均值就越接近總體的實(shí)際均值。 t-分布和標(biāo)準(zhǔn)正態(tài)分布相比更為“肥大的尾巴” 補(bǔ)償了我們進(jìn)行小樣本量抽樣時(shí)的不確定性。

感興趣的讀者可能會(huì)問, “t-分布的概率密度函數(shù)是什么? 我們?nèi)绾瓮茖?dǎo)出它?”。 這個(gè)推導(dǎo)在數(shù)學(xué)角度來講并不容易, 但是推導(dǎo)的核心思想我們可以很容易掌握。

假設(shè)我們希望的得到正態(tài)分布變量 XN(0,σ) 的概率密度函數(shù), 但是不能依賴標(biāo)準(zhǔn)差 σ。 直覺上, 如果我們想避免使用 σ , 就需要作出某種假設(shè), 讓我們把 σ 當(dāng)做一個(gè)隨機(jī)變量, 假設(shè)它遵循伽馬分布(Gamma-Distribution, 這是一個(gè)在貝葉斯統(tǒng)計(jì)中廣泛使用的分布 )。 然后我們可以猜測(cè), 變量 X 是兩個(gè)連續(xù)概率分布的混合: 正態(tài)分布和伽馬分布, 我們對(duì)涉及到 σ 的部分進(jìn)行積分, 提取出來, 就可以得到 t-分布的概率密度函數(shù)。

如果想看正式的證明過程, 可以看這里這里

結(jié)論

高斯分布和學(xué)生分布是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中最為重要的連續(xù)概率分布的一部分。 t-分布可以用作總體方差未知, 或樣本集較小時(shí)高斯分布的占位符。 這兩種分布有著非常嚴(yán)格和正式的關(guān)聯(lián)關(guān)系。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多