0 引言一直想寫Adaboost來著,但遲遲未能動筆。其算法思想雖然簡單“聽取多人意見,最后綜合決策”,但一般書上對其算法的流程描述實在是過于晦澀。昨日11月1日下午,鄒博在我組織的機器學(xué)習(xí)班第8次課上講決策樹與Adaboost,其中,Adaboost講得酣暢淋漓,講完后,我知道,可以寫本篇博客了。 無心啰嗦,本文結(jié)合鄒博之決策樹與Adaboost 的PPT 跟《統(tǒng)計學(xué)習(xí)方法》等參考資料寫就,可以定義為一篇課程筆記、讀書筆記或?qū)W習(xí)心得,有何問題或意見,歡迎于本文評論下隨時不吝指出,thanks。 1 Adaboost的原理1.1 Adaboost是什么AdaBoost,是英文"Adaptive Boosting"(自適應(yīng)增強)的縮寫,由Yoav Freund和Robert Schapire在1995年提出。它的自適應(yīng)在于:前一個基本分類器分錯的樣本會得到加強,加權(quán)后的全體樣本再次被用來訓(xùn)練下一個基本分類器。同時,在每一輪中加入一個新的弱分類器,直到達到某個預(yù)定的足夠小的錯誤率或達到預(yù)先指定的最大迭代次數(shù)。 具體說來,整個Adaboost 迭代算法就3步:
1.2 Adaboost算法流程 給定一個訓(xùn)練數(shù)據(jù)集T={(x1,y1), (x2,y2)…(xN,yN)},其中實例 Adaboost的算法流程如下:
a. 使用具有權(quán)值分布Dm的訓(xùn)練數(shù)據(jù)集學(xué)習(xí),得到基本分類器: b. 計算Gm(x)在訓(xùn)練數(shù)據(jù)集上的分類誤差率 由上述式子可知,Gm(x)在訓(xùn)練數(shù)據(jù)集上的誤差率em就是被Gm(x)誤分類樣本的權(quán)值之和。 c. 計算Gm(x)的系數(shù),am表示Gm(x)在最終分類器中的重要程度(目的:得到基本分類器在最終分類器中所占的權(quán)重): d. 更新訓(xùn)練數(shù)據(jù)集的權(quán)值分布(目的:得到樣本的新的權(quán)值分布),用于下一輪迭代由上述式子可知,em <= 1/2時,am >= 0,且am隨著em的減小而增大,意味著分類誤差率越小的基本分類器在最終分類器中的作用越大。 使得被基本分類器Gm(x)誤分類樣本的權(quán)值增大,而被正確分類樣本的權(quán)值減小。就這樣,通過這樣的方式,AdaBoost方法能“聚焦于”那些較難分的樣本上。 其中,Zm是規(guī)范化因子,使得Dm+1成為一個概率分布:
從而得到最終分類器,如下: 1.3 Adaboost的一個例子下面,給定下列訓(xùn)練樣本,請用AdaBoost算法學(xué)習(xí)一個強分類器。 求解過程:初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布,令每個權(quán)值W1i = 1/N = 0.1,其中,N = 10,i = 1,2, ..., 10,然后分別對于m = 1,2,3, ...等值進行迭代。 拿到這10個數(shù)據(jù)的訓(xùn)練樣本后,根據(jù) X 和 Y 的對應(yīng)關(guān)系,要把這10個數(shù)據(jù)分為兩類,一類是“1”,一類是“-1”,根據(jù)數(shù)據(jù)的特點發(fā)現(xiàn):“0 1 2”這3個數(shù)據(jù)對應(yīng)的類是“1”,“3 4 5”這3個數(shù)據(jù)對應(yīng)的類是“-1”,“6 7 8”這3個數(shù)據(jù)對應(yīng)的類是“1”,9是比較孤獨的,對應(yīng)類“-1”。拋開孤獨的9不講,“0 1 2”、“3 4 5”、“6 7 8”這是3類不同的數(shù)據(jù),分別對應(yīng)的類是1、-1、1,直觀上推測可知,可以找到對應(yīng)的數(shù)據(jù)分界點,比如2.5、5.5、8.5 將那幾類數(shù)據(jù)分成兩類。當(dāng)然,這只是主觀臆測,下面實際計算下這個過程。 迭代過程1 對于m=1,在權(quán)值分布為D1(10個數(shù)據(jù),每個數(shù)據(jù)的權(quán)值皆初始化為0.1)的訓(xùn)練數(shù)據(jù)上,經(jīng)過計算可得:
所以無論閾值v取2.5,還是8.5,總得分錯3個樣本,故可任取其中任意一個如2.5,弄成第一個基本分類器為: 上面說閾值v取2.5時則6 7 8分錯,所以誤差率為0.3,更加詳細的解釋是:因為樣本集中
從而得到G1(x)在訓(xùn)練數(shù)據(jù)集上的誤差率(被G1(x)誤分類樣本“6 7 8”的權(quán)值之和)e1=P(G1(xi)≠yi) = 3*0.1 = 0.3。 然后根據(jù)誤差率e1計算G1的系數(shù): 這個a1代表G1(x)在最終的分類函數(shù)中所占的權(quán)重,為0.4236。 接著更新訓(xùn)練數(shù)據(jù)的權(quán)值分布,用于下一輪迭代: 值得一提的是,由權(quán)值更新的公式可知,每個樣本的新權(quán)值是變大還是變小,取決于它是被分錯還是被分正確。 即如果某個樣本被分錯了,則yi * Gm(xi)為負,負負等正,結(jié)果使得整個式子變大(樣本權(quán)值變大),否則變小。 第一輪迭代后,最后得到各個數(shù)據(jù)新的權(quán)值分布D2 = (0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.1666, 0.1666, 0.1666, 0.0715)。由此可以看出,因為樣本中是數(shù)據(jù)“6 7 8”被G1(x)分錯了,所以它們的權(quán)值由之前的0.1增大到0.1666,反之,其它數(shù)據(jù)皆被分正確,所以它們的權(quán)值皆由之前的0.1減小到0.0715。 分類函數(shù)f1(x)= a1*G1(x) = 0.4236G1(x)。 此時,得到的第一個基本分類器sign(f1(x))在訓(xùn)練數(shù)據(jù)集上有3個誤分類點(即6 7 8)。 從上述第一輪的整個迭代過程可以看出:被誤分類樣本的權(quán)值之和影響誤差率,誤差率影響基本分類器在最終分類器中所占的權(quán)重。 迭代過程2 對于m=2,在權(quán)值分布為D2 = (0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.1666, 0.1666, 0.1666, 0.0715)的訓(xùn)練數(shù)據(jù)上,經(jīng)過計算可得:
所以,閾值v取8.5時誤差率最低,故第二個基本分類器為: 面對的還是下述樣本: 很明顯,G2(x)把樣本“3 4 5”分錯了,根據(jù)D2可知它們的權(quán)值為0.0715, 0.0715, 0.0715,所以G2(x)在訓(xùn)練數(shù)據(jù)集上的誤差率e2=P(G2(xi)≠yi) = 0.0715 * 3 = 0.2143。 計算G2的系數(shù): 更新訓(xùn)練數(shù)據(jù)的權(quán)值分布: D3 = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.01667, 0.1060, 0.1060, 0.1060, 0.0455)。被分錯的樣本“3 4 5”的權(quán)值變大,其它被分對的樣本的權(quán)值變小。 f2(x)=0.4236G1(x) + 0.6496G2(x) 此時,得到的第二個基本分類器sign(f2(x))在訓(xùn)練數(shù)據(jù)集上有3個誤分類點(即3 4 5)。 迭代過程3 對于m=3,在權(quán)值分布為D3 = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.01667, 0.1060, 0.1060, 0.1060, 0.0455)的訓(xùn)練數(shù)據(jù)上,經(jīng)過計算可得:
所以閾值v取5.5時誤差率最低,故第三個基本分類器為(下圖畫反了,待后續(xù)修正): 依然還是原樣本: 此時,被誤分類的樣本是:0 1 2 9,這4個樣本所對應(yīng)的權(quán)值皆為0.0455, 所以G3(x)在訓(xùn)練數(shù)據(jù)集上的誤差率e3 = P(G3(xi)≠yi) = 0.0455*4 = 0.1820。 計算G3的系數(shù): 更新訓(xùn)練數(shù)據(jù)的權(quán)值分布: D4 = (0.125, 0.125, 0.125, 0.102, 0.102, 0.102, 0.065, 0.065, 0.065, 0.125)。被分錯的樣本“0 1 2 9”的權(quán)值變大,其它被分對的樣本的權(quán)值變小。 f3(x)=0.4236G1(x) + 0.6496G2(x)+0.7514G3(x) 此時,得到的第三個基本分類器sign(f3(x))在訓(xùn)練數(shù)據(jù)集上有0個誤分類點。至此,整個訓(xùn)練過程結(jié)束。 G(x) = sign[f3(x)] = sign[ a1 * G1(x) + a2 * G2(x) + a3 * G3(x) ],將上面計算得到的a1、a2、a3各值代入G(x)中,得到最終的分類器為:G(x) = sign[f3(x)] = sign[ 0.4236G1(x) + 0.6496G2(x)+0.7514G3(x) ]。 2 Adaboost的誤差界通過上面的例子可知,Adaboost在學(xué)習(xí)的過程中不斷減少訓(xùn)練誤差e,直到各個弱分類器組合成最終分類器,那這個最終分類器的誤差界到底是多少呢? 事實上,Adaboost 最終分類器的訓(xùn)練誤差的上界為: 下面,咱們來通過推導(dǎo)來證明下上述式子。 當(dāng)G(xi)≠yi時,yi*f(xi)<0,因而exp(-yi*f(xi))≥1,因此前半部分得證。 關(guān)于后半部分,別忘了: 整個的推導(dǎo)過程如下: 這個結(jié)果說明,可以在每一輪選取適當(dāng)?shù)腉m使得Zm最小,從而使訓(xùn)練誤差下降最快。接著,咱們來繼續(xù)求上述結(jié)果的上界。 對于二分類而言,有如下結(jié)果: 其中, 繼續(xù)證明下這個結(jié)論。 由之前Zm的定義式跟本節(jié)最開始得到的結(jié)論可知: 而這個不等式 值得一提的是,如果取γ1, γ2… 的最小值,記做γ(顯然,γ≥γi>0,i=1,2,...m),則對于所有m,有: 這個結(jié)論表明,AdaBoost的訓(xùn)練誤差是以指數(shù)速率下降的。另外,AdaBoost算法不需要事先知道下界γ,AdaBoost具有自適應(yīng)性,它能適應(yīng)弱分類器各自的訓(xùn)練誤差率 。 最后,Adaboost 還有另外一種理解,即可以認為其模型是加法模型、損失函數(shù)為指數(shù)函數(shù)、學(xué)習(xí)算法為前向分步算法的二類分類學(xué)習(xí)方法,有機會再推導(dǎo)下,然后更新此文。而在此之前,有興趣的可以參看《統(tǒng)計學(xué)習(xí)方法》第8.3節(jié)或其它相關(guān)資料。 3 參考文獻與推薦閱讀
|
|