下個(gè)月,麻省理工學(xué)院(MIT)的研究團(tuán)隊(duì)將展示所謂的“神經(jīng)架構(gòu)搜索”算法,該算法可以將AI優(yōu)化AI的過(guò)程加快240倍或者更多。 文 | 伍文靚 自2017年以來(lái),研究人員一直使用AI神經(jīng)網(wǎng)絡(luò)來(lái)幫助設(shè)計(jì)更好更快的AI神經(jīng)網(wǎng)絡(luò)。 迄今為止,這種應(yīng)用在很大程度上是一種學(xué)術(shù)追求,主要是因?yàn)檫@種方法需要數(shù)萬(wàn)個(gè)GPU hours。然而,下個(gè)月,麻省理工學(xué)院(MIT)的研究團(tuán)隊(duì)將展示所謂的“神經(jīng)架構(gòu)搜索”算法,該算法可以將AI優(yōu)化AI的過(guò)程加快240倍或者更多。 優(yōu)化后的AI速度更快,精準(zhǔn)度更高。而這個(gè)新算法的出現(xiàn)將助力優(yōu)化后的AI廣泛應(yīng)用于圖像識(shí)別算法和其他相關(guān)應(yīng)用。 MIT電子工程和計(jì)算機(jī)科學(xué)的助教Song Han表示:“我們團(tuán)隊(duì)在模型大小、推理延遲、準(zhǔn)確性和模型容量等多個(gè)方面做出了權(quán)衡?!彼€補(bǔ)充說(shuō):“這些因素組成了一個(gè)巨大的設(shè)計(jì)空間。以前,人們都在設(shè)計(jì)基于人類(lèi)啟發(fā)的神經(jīng)網(wǎng)絡(luò)。而新算法試圖將這種勞動(dòng)密集型的、基于人類(lèi)啟發(fā)的方式轉(zhuǎn)變?yōu)橐粋€(gè)基于學(xué)習(xí)的、基于AI的設(shè)計(jì)方式。就像AI可以學(xué)習(xí)下棋一樣,AI也可以學(xué)習(xí)設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)?!?/p> 就像在圍棋和國(guó)際象棋中獲勝的AI程序教給大師們新策略一樣,AI優(yōu)化AI這一新的探索為設(shè)計(jì)AI神經(jīng)網(wǎng)絡(luò)提供了全新的方法。此類(lèi)神經(jīng)網(wǎng)絡(luò)被稱(chēng)為卷積神經(jīng)網(wǎng)絡(luò)(CNN),MIT團(tuán)隊(duì)研究的新算法促進(jìn)了這種神經(jīng)網(wǎng)絡(luò)的發(fā)展。CNN通常作為圖像識(shí)別程序的神經(jīng)網(wǎng)絡(luò)。除此之外,它在自然語(yǔ)言處理和藥物發(fā)現(xiàn)等領(lǐng)域也有所應(yīng)用。 MIT的Han指出,一旦他們團(tuán)隊(duì)的算法建立起最優(yōu)的CNN,得到系統(tǒng)分類(lèi)圖像的速度很可能是其他神經(jīng)架構(gòu)搜索構(gòu)建的AI的1.8倍。 Han說(shuō),團(tuán)隊(duì)能夠以如此驚人的速度精確定位最優(yōu)的CNN設(shè)計(jì),有三個(gè)重要的想法: 第一、他們減少了運(yùn)行神經(jīng)架構(gòu)搜索的GPU內(nèi)存負(fù)載。一般來(lái)說(shuō),標(biāo)準(zhǔn)的神經(jīng)結(jié)構(gòu)搜索可以同時(shí)檢查網(wǎng)絡(luò)中神經(jīng)層之間所有可能的連接。然而,Han的團(tuán)隊(duì)每次只在GPU的內(nèi)存中保存一條路徑。這個(gè)技巧可以在僅使用十分之一內(nèi)存空間的情況下,對(duì)參數(shù)空間進(jìn)行完整的搜索,從而使他們的搜索覆蓋更多的網(wǎng)絡(luò)配置,而不會(huì)耗盡芯片上的空間。 第二、從已丟棄的神經(jīng)網(wǎng)絡(luò)搜索中刪除整個(gè)路徑,這明顯加快了神經(jīng)網(wǎng)絡(luò)搜索的速度。 第三、讓神經(jīng)網(wǎng)絡(luò)搜索意識(shí)到AI系統(tǒng)可能正在運(yùn)行的硬件的延遲時(shí)間——無(wú)論是CPU還是GPU加速的移動(dòng)平臺(tái)系統(tǒng)。 Han說(shuō),令人驚訝的是,關(guān)于一些圖像識(shí)別神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)觀點(diǎn)是錯(cuò)誤的。在某種意義上,AI網(wǎng)絡(luò)設(shè)計(jì)師在設(shè)計(jì)主要運(yùn)行在GPU系統(tǒng)上的網(wǎng)絡(luò)時(shí),他們的想法仍然停留在CPU時(shí)代。 CNN在其圖像識(shí)別算法中使用過(guò)濾器,這些算法是由3×3、5×5或7×7像素組成的正方形網(wǎng)格。一般來(lái)說(shuō),7x7的過(guò)濾器很少見(jiàn),因?yàn)槿藗冋J(rèn)為,運(yùn)行更多的3x3過(guò)濾器比運(yùn)行單個(gè)7x7過(guò)濾器更快。 然而,Han說(shuō),經(jīng)過(guò)AI優(yōu)化的AI使用了相當(dāng)數(shù)量的7x7過(guò)濾器。他還表示,這是當(dāng)今大多數(shù)AI計(jì)算中GPU占主導(dǎo)地位的原因?!澳壳?,我們已經(jīng)發(fā)現(xiàn)GPU上運(yùn)行7x7更簡(jiǎn)單,因?yàn)镚PU有很大的并行度,”Han補(bǔ)充道,“而且調(diào)用一個(gè)大型內(nèi)核比調(diào)用幾個(gè)小型內(nèi)核更有效。” 在談到他的團(tuán)隊(duì)的算法時(shí),Han說(shuō):“它為人類(lèi)工程師未來(lái)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)提供了良好的反饋。”然而,這并不意味著AI能夠構(gòu)建更強(qiáng)大的版本。 雷鋒網(wǎng)注:本文作者 Mark Anderson,文章編譯自IEEE 雷鋒網(wǎng)注:【封面圖片來(lái)源:網(wǎng)站名IEEE】 |
|
來(lái)自: 周婷111 > 《Al遠(yuǎn)景》