2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

【LeCun臺大演講】AI最大缺陷是缺乏常識,無監(jiān)督學(xué)習(xí)突破困境

 timtxu 2017-07-02

新智元整理

講者:Yann LeCun

整理:熊笑

【新智元導(dǎo)讀】近日,在臺灣大學(xué),卷積神經(jīng)網(wǎng)絡(luò)之父、FacebookAI 研究院院長 Yann LeCun 以「Deep Learning and the Path to AI」為題,對深度學(xué)習(xí)目前的發(fā)展現(xiàn)狀和面臨的最大挑戰(zhàn)、以及應(yīng)對方法進行了綜述和分析。

播放GIF

6 月 29 日,臺灣大學(xué)。卷積神經(jīng)網(wǎng)絡(luò)之父、FacebookAI 研究院院長 Yann LeCun 以「Deep Learning and the Path to AI」為題,對深度學(xué)習(xí)目前的發(fā)展現(xiàn)狀和面臨的最大挑戰(zhàn)、以及應(yīng)對方法進行了綜述和分析。新智元結(jié)合臺灣大學(xué)Facebook 上公布的視頻、臺灣科技媒體 iThome 的報道,以及 Yann LeCun 今年早些時候在愛丁堡大學(xué)的演講資料,為您綜合介紹。

演講從模式識別(Pattern Recognition)的起源說起。1957年,Perceptron 誕生,成為第一個 LearningMachine。LeCun 說,目前的機器學(xué)習(xí)算法大多衍生自 Perceptron的概念。

從那時起,模式識別的標準模型就可以分為 3 步走:1.程序被輸入一張圖像,通過特征提取,將圖像特征轉(zhuǎn)換為多個向量;2. 輸入這些向量到可訓(xùn)練的分類器中;3.程序輸出識別結(jié)果。

他表示,機器學(xué)習(xí)算法其實就是誤差校正(Error correction),通過調(diào)整權(quán)重,來進行特征提取。也就是說,如果輸入一張圖,算法識別后,結(jié)果值低于預(yù)期類別的值,工程師就將輸入的圖增加 Positive 的權(quán)重,減少 Negative 的權(quán)重,來校正誤差。

深度學(xué)習(xí)是當(dāng)今最廣泛使用的模式識別方法。LeCun 認為深度學(xué)習(xí)的特點在于“整個程序都是可訓(xùn)練的”。他解釋,構(gòu)建深度學(xué)習(xí)的模型不是用手動調(diào)整特征提取的參數(shù)來訓(xùn)練分類器,而是建立一群像小型瀑布般的可訓(xùn)練的模組。

當(dāng)開發(fā)人員將原始的影像輸入系統(tǒng)后,會先經(jīng)過初步的特征提取器,產(chǎn)生代表的數(shù)值,在這一個階段可能會先識別出一些基本的紋理,接下來這些紋理的組合會再被拿來識別更具體的特征,像是物件的形體或是類別,整個訓(xùn)練的過程就是不斷地經(jīng)過一層又一層這樣的模型,每一層都是可訓(xùn)練的,所以我們稱這個算法為深度學(xué)習(xí)或是端到端訓(xùn)練(End to End Running)。

LeCun 解釋,深度學(xué)習(xí)模型之所以工作良好,是因為現(xiàn)在的影像都是自然景象加上其他物體,也就是混合型的圖像,而每個物體又由不同的特征所組成,會有不同的輪廓和紋路,圖片的像素也是一個問題,因此,可以將影像分級成像素、邊緣、輪廓、元件和物件等,初級的特征提取會先偵測出影像中最基本的輪廓,比如明顯的紋路和色塊,進一步的特征提取則是將上一層的結(jié)果組合再一起,拼成一個形體,最后再拼成一個物體。

這種分層式的組合架構(gòu)(Hierarchical Compositionality)其實不只適用于影像,LeCun說明,它對文字、語音、動作或是任何自然的信號都適用,這種方式參考了人腦的運作模式。大腦中的視覺中樞,也是用類似分層式的組合架構(gòu)來運行,當(dāng)人類看到影像后,由視網(wǎng)膜進入到視丘后方外側(cè)膝狀體,再到大腦中主要的視覺中樞,最后來到顳葉皮質(zhì),人類看圖像也是由大腦經(jīng)過多層的結(jié)構(gòu),在100毫秒內(nèi)就能識別圖片。

深度學(xué)習(xí)的問題在于如何訓(xùn)練,在1980年代中期,誤差反向傳播算法(Back Propagation Algorithm)開始流行,但其實誤差反向傳播算法很早就被提出來,只是當(dāng)時沒有受到重視。誤差反向傳播算法一開始先經(jīng)過簡單線性分類,再將這些結(jié)果帶到非線性的線性整流函數(shù)(Rectified Linear Unit,ReLU),線性整流函數(shù)就是找到要調(diào)整參數(shù)的方向,來減少錯誤判斷,不過現(xiàn)在都已經(jīng)有可用的套件或是框架,像是Torch、TensorFlow 或是 Theano等,還有一些套件是可用來計算輸出結(jié)果和預(yù)期結(jié)果之間的誤差。

Yann LeCun認為,現(xiàn)在要撰寫機器學(xué)習(xí)算法并不難,用 3 行 Python 就可以完成,不過這還停留在監(jiān)督式學(xué)習(xí)階段,所謂的監(jiān)督式學(xué)習(xí)就是輸入大量的訓(xùn)練樣本,每一套訓(xùn)練樣本都已經(jīng)經(jīng)過人工標注出原始圖片和對應(yīng)的預(yù)期結(jié)果。以影像處理為例,訓(xùn)練集由多個(X,Y)參數(shù)組成,X就是影像的像素,Y則是預(yù)設(shè)的識別結(jié)果類別,像是車子、桌子等,之后再用大量的測試集來測試程序,若判斷結(jié)果正確,不用調(diào)整,若判斷有誤則調(diào)整程序中的參數(shù)。

因此,Yann LeCun表示,監(jiān)督式的機器學(xué)習(xí)就是功能優(yōu)化(Function Optimization),資料輸入和輸出的關(guān)系通過可調(diào)整的參數(shù)來優(yōu)化,經(jīng)由調(diào)整參數(shù)的方式,將結(jié)果的錯誤率降至最低,其中,調(diào)整參數(shù)的方式有很多種,很多人都會用梯度下降算法(Stochastic Gradient Descent),梯度下降算法可以找到最適合的回歸模型系數(shù).即時地根據(jù)輸入的資料動態(tài)調(diào)整模型。

身為「卷積神經(jīng)網(wǎng)絡(luò)之父」的 Yann LeCun 也介紹了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),卷積網(wǎng)絡(luò)就是將輸入的影像像素矩陣經(jīng)過一層過濾器,挑選出特征,再透過池化層(PoolingLayer),針對輸入特征矩陣壓縮,讓特征矩陣變小,降低計算的復(fù)雜度。CNN影像和語音識別都有很好的成效,不僅如此,還能識別街上移動的路人、街景的物體,F(xiàn)acebook 也用 CNN 來識別 Facebook 用戶上傳的照片,他表示一天 Facebook 就有10億以上的照片,可以準確地識別物體的類別,像是人還是狗、貓等,還能識別照片的主題,像是婚禮或是生日派對等。

不過,Yann LeCun提出,監(jiān)督式的機器學(xué)習(xí)有2大問題,第一是要如何建立復(fù)雜的算法來解決復(fù)雜的問題,第二則是手動調(diào)整參數(shù)的知識和經(jīng)驗都是來自于不同任務(wù),許多工程師想要處理的領(lǐng)域,像是影像識別、語音識別都需要建置不同模型,因此,監(jiān)督式機器學(xué)習(xí)可以在訓(xùn)練過的專案上有很好的表現(xiàn),但是沒有訓(xùn)練過的資料,程序就無法辨別,簡單來說,如果要程序識別椅子,不可能訓(xùn)練所有椅子的特征資料。

事實上,Yann LeCun 表示現(xiàn)實中有種機器具備數(shù)百萬的調(diào)整鈕(Knob),這些調(diào)整鈕就像機器學(xué)習(xí)中的參數(shù)和 Perceptron 的權(quán)重一樣,可以用上百萬的訓(xùn)練樣本來訓(xùn)練模型,最后分類出上千種的類別,但是,每一個特征的識別都必須經(jīng)過數(shù)十億次的操作,因此,可想而知,現(xiàn)今大家所使用的神經(jīng)網(wǎng)絡(luò)是非常復(fù)雜的,如此龐大的運作不可能在一般的 CPU 上執(zhí)行,“我們面對的是非常大規(guī)模的優(yōu)化問題?!彼f。

AI系統(tǒng)的架構(gòu)

AI系統(tǒng)的架構(gòu)大致上可以分為感知(Perception)、觸發(fā)器(Agent)和目標(Objective)3個模組,先由感知器偵測真實世界的數(shù)據(jù),像是影像、語音等,這些數(shù)據(jù)經(jīng)由觸發(fā)器,會依據(jù)狀態(tài)觸發(fā)目標,執(zhí)行相對應(yīng)的程序并產(chǎn)生結(jié)果,其中觸發(fā)器就是AI 的精髓,觸發(fā)器必須要負責(zé)規(guī)劃、預(yù)測等智能工作,而目標則是由本能和固定的兩個元件所組成,以視覺識別(VisualIdentity)系統(tǒng)為例,經(jīng)由感知收集影像數(shù)據(jù),透過觸發(fā)器觸發(fā)分析情緒的程序,再判斷影片中的人是開心還是不開心。

AI 架構(gòu)中的觸發(fā)器(Agent)主要負責(zé)預(yù)測和規(guī)劃,運作過程又可分為模擬器(Simulator)、執(zhí)行器(Actor)、回饋器(Critic),模擬器接收到狀態(tài)后,傳送給執(zhí)行器,執(zhí)行器就會啟動相對應(yīng)的動作,并同時對模擬器提出要求,啟動相對應(yīng)的動作之后送到回饋器,經(jīng)由回饋器分析要採取的動作,決定后才送往目標(Objective)執(zhí)行。

市場上 AI 好像無所不能,但其實,Yann LeCun個人認為,AI 還是有些局限,像是機器必須會觀察狀態(tài)、了解很多背景知識、世界運行的定律,以及精確地判斷、規(guī)劃等,其中,Yann LeCun 認為 AI 最大的局限是無法擁有人類的「常識」。

由于目前比較好的AI應(yīng)用都是采用監(jiān)督式學(xué)習(xí),能夠準確識別人工標示過的物體,也有些好的成果是用強化學(xué)習(xí)(Reinforcement Learning)的方式,但是強化學(xué)習(xí)需要大量地收集資料來訓(xùn)練模型,Yann LeCun表示,對應(yīng)到現(xiàn)實社會中的問題,監(jiān)督式學(xué)習(xí)不足以成為“真的”AI。

他指出,人類的學(xué)習(xí)是建立在與事物互動的過程,許多都是人類自行體會、領(lǐng)悟出對事物的理解,不需要每件事都要教導(dǎo),舉例來說,若有個物體被前面的物體擋住,人類會知道后面的物體依然存在的事實,或是物體沒有另一個物體支撐就會掉落的事實。

“人腦就是推理引擎!”他說明,人類靠著觀察建立內(nèi)部分析模型,當(dāng)人類遇到一件新的事物,就能用這些既有的模型來推測,因為生活中人類接觸到大量的事物和知識,而建立了“常識”。這些常識可以帶領(lǐng)人類做出一些程序無法達到的能力,像是人類可以只看一半的臉就能想像另外一半臉,或是可以從過去的事件推測未來等。

他舉例,若人類看到一張戰(zhàn)利品放不下行李箱的圖片,再看到一個句子說:”這些戰(zhàn)利品放不下行李箱,因為它太小了?!叭祟惸軌蚝芮宄刂馈八敝傅氖切欣钕?,人類也因為知道整個社會和世界運行的規(guī)則,當(dāng)沒有太多的信息時,人類可以依照因果關(guān)系自動補足空白的信息。

無監(jiān)督式學(xué)習(xí)是突破 AI 困境的關(guān)鍵,采用無監(jiān)督學(xué)習(xí)的對抗訓(xùn)練讓 AI 擁有真正自我學(xué)習(xí)的能力。

如何讓 AI 擁有人類的常識?Yann LeCun認為要用無監(jiān)督式學(xué)習(xí)。他又稱之為預(yù)測學(xué)習(xí),他將現(xiàn)今機器學(xué)習(xí)的方式分為強化式、監(jiān)督式和無監(jiān)督式學(xué)習(xí),并以黑森林蛋糕來比喻。

強化學(xué)習(xí)是蛋糕上不可或缺的櫻桃,所需要資料量可能大約只有幾個Bits,監(jiān)督式學(xué)習(xí)是蛋糕外部的糖衣,需要10到10,000個Bits的資料量,而無監(jiān)督學(xué)習(xí)則是需要數(shù)百萬個Bits,無監(jiān)督學(xué)習(xí)被他比喻為黑森林蛋糕,因為無監(jiān)督學(xué)習(xí)的預(yù)測能力像擁有黑魔法一樣神奇,不過,他也強調(diào)黑森林蛋糕必須搭配櫻桃,櫻桃不是可選擇的配料,而是必要的,意味著無監(jiān)督學(xué)習(xí)與強化學(xué)習(xí)相輔相成,缺一不可。

Yann LeCun認為,程序還是很難在不確定性的情況下,正確地預(yù)測,舉例來說,如果一只直立的筆,沒有支撐之后,程序可以判斷出筆會倒下,但是無法預(yù)測會倒向哪一個方向。

因此,他表示,對抗訓(xùn)練(Adversarial Training)是可以讓 AI 程序擁有自學(xué)能力的方法,他解釋,對抗訓(xùn)練就是讓兩個網(wǎng)絡(luò)相互博奕,由生成器(Generator)和判別器(Discriminator)組成,生成器隨機地從訓(xùn)練集中挑選真實數(shù)據(jù)和干擾噪音,產(chǎn)生新的訓(xùn)練樣本,判別器再用與真實數(shù)據(jù)比對的方式,判斷出數(shù)據(jù)的真實性,如此一來,生成器與判別器可以交互學(xué)習(xí)自動優(yōu)化預(yù)測能力,創(chuàng)造最佳的預(yù)測模型。

視頻鏈接:https://www.facebook.com/816762428486534/videos/826164667546310/?fallback=1

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多