![]() 導(dǎo)讀 漫長的30年間,數(shù)度從主流方向的超然出走,是Bengio的制勝秘訣。這種不盲從主流的風(fēng)格體現(xiàn)在他研究生涯的方方面面。 90年代末期,神經(jīng)網(wǎng)絡(luò)被打入冷宮,Bengio的論文多次遭拒,連學(xué)生們也開始擔(dān)心,和他一起研究神經(jīng)網(wǎng)絡(luò)會(huì)導(dǎo)致畢業(yè)后找不到工作。 “那場(chǎng)有關(guān)神經(jīng)網(wǎng)絡(luò)的文化沙漠可能'勸退’了很多研究者,但我有點(diǎn)固執(zhí),堅(jiān)信我們應(yīng)該堅(jiān)持下去。”而時(shí)過境遷,如今神經(jīng)網(wǎng)絡(luò)早已成為主流,審稿人的看法也發(fā)生了翻天覆地的變化。 此時(shí),Bengio卻已經(jīng)開始研究新方向,尋找新問題?!拔艺J(rèn)為不能把所有雞蛋放在一個(gè)籃子里,我們應(yīng)該探索更多不同的方法。在過去的七年里,我一直在努力探索當(dāng)前神經(jīng)網(wǎng)絡(luò)方法的局限性,這樣才能讓未來的人工智能具備當(dāng)前缺乏的能力?!?/span> 談及現(xiàn)如今Scaling Law催生的模型性能大爆發(fā),Bengio依然保持著客觀審慎的思考,他認(rèn)為“Scaling Law并不是理論定律,只是基于經(jīng)驗(yàn)性觀察總結(jié)的規(guī)律。為了解決大模型目前存在的問題,我們需要探索Scaling Law之外的新方法?!?/span> 在OpenAI等巨頭紛紛為AGI的到來摩拳擦掌之時(shí),Bengio更關(guān)心的是如何應(yīng)對(duì)AI對(duì)人類的潛在風(fēng)險(xiǎn)。正如奧本海默所帶來的核末日一樣,AI引發(fā)的人類安全危機(jī)甚至比核武器更為沉重。Bengio坦言,假如有機(jī)會(huì)回到年輕時(shí),會(huì)提醒當(dāng)時(shí)的自己注意AI風(fēng)險(xiǎn),而即便覆水難收,當(dāng)下最重要的是明確,“我能做什么,我們每個(gè)人能為一個(gè)更好的世界做什么?!?/span> 要點(diǎn)速覽
智源專訪欄目意在通過展現(xiàn)技術(shù)研究者和創(chuàng)業(yè)者的研究經(jīng)歷和故事,記錄技術(shù)世界的嬗變,激發(fā)當(dāng)代AI從業(yè)者的創(chuàng)新思維,啟迪認(rèn)知、關(guān)注突破性進(jìn)展,為行業(yè)注入靈感光芒。本次專訪為總第15期(下集在文章結(jié)尾) 本期邀請(qǐng)到世界級(jí)人工智能專家、圖靈獎(jiǎng)得主Yoshua Bengio,Bengio現(xiàn)任蒙特利爾學(xué)習(xí)算法研究所(Mila)創(chuàng)始人和科學(xué)主任、蒙特利爾大學(xué)教授。他不盲從主流的研究風(fēng)格來源于父母早年側(cè)重于自由探索和批判思維的家庭教育,近年來Bengio把研究重心轉(zhuǎn)向了AI for science、系統(tǒng)2和AI安全。 AI啟蒙之路:阿西莫夫科幻小說、可編程計(jì)算器、神經(jīng)網(wǎng)絡(luò)的新大陸 您第一次接觸到計(jì)算機(jī)科學(xué)是什么時(shí)候?如何發(fā)現(xiàn)自己的興趣并走上這條道路的? 我開始接觸到這個(gè)領(lǐng)域時(shí)只有十幾歲。在那個(gè)年代,可編程計(jì)算器非常流行,也吸引著我。后來,我逐漸對(duì)計(jì)算機(jī)產(chǎn)生了興趣,學(xué)會(huì)了針對(duì)計(jì)算器上的匯編語言。 后來,我和弟弟(編者注:同哥哥一樣,Samy Bengio也在深度學(xué)習(xí)方面頗有建樹,他是谷歌杰出科學(xué)家,也是Google Brain首批員工之一。)一起攢錢買了我們的第一臺(tái)電腦。當(dāng)時(shí)還沒有成熟的個(gè)人電腦軟件產(chǎn)業(yè),所以我們學(xué)習(xí)了一些簡單的編程語言,自行編寫軟件程序讓電腦執(zhí)行,這些經(jīng)歷對(duì)我們來說非常寶貴。沒有老師教我們,所以我們只能通過閱讀和實(shí)踐自學(xué)成才。 這些早期經(jīng)歷讓我對(duì)計(jì)算機(jī)科學(xué)產(chǎn)生了濃厚的興趣,最終在上大學(xué)時(shí)選擇它作為我的專業(yè)。同時(shí),我也對(duì)物理學(xué)和數(shù)學(xué)感興趣,所以在研究生期間我也選修了一些偏理論性的研究方向。 您是如何進(jìn)入神經(jīng)網(wǎng)絡(luò)這個(gè)領(lǐng)域的? 研究生入學(xué)之初,我讀了幾篇關(guān)于神經(jīng)網(wǎng)絡(luò)的論文。我覺得這個(gè)研究領(lǐng)域非常有趣,就像發(fā)現(xiàn)了一片新大陸一樣興奮,我想閱讀更多神經(jīng)網(wǎng)絡(luò)相關(guān)的論文。 我讀了幾篇Hopfield和Hinton在1982年發(fā)表的論文,接著是1985年關(guān)于反向傳播(back propagation)的論文。1986年,我讀了Hinton和其他幾位作者共同撰寫的名為《并行分布式處理》(Parallel Distributed Processing)的一本書。那是神經(jīng)網(wǎng)絡(luò)研究的早期階段,這些學(xué)者稱自己為連接主義者(connectionist)。這些論文深刻地影響了我的研究視野、對(duì)神經(jīng)網(wǎng)絡(luò)的理解以及研究方向。 有沒有某一事件或某個(gè)時(shí)刻,給了你計(jì)算機(jī)將改變世界的靈感? 十幾歲的時(shí)候,我讀了大量科幻小說,比如阿西莫夫的作品。早在上世紀(jì)40年代,人們已經(jīng)開始思考變得更聰明的人工智能和計(jì)算機(jī)將會(huì)怎樣。包括阿蘭·圖靈在內(nèi)的許多計(jì)算機(jī)科學(xué)先驅(qū)都預(yù)見了,總有一天我們會(huì)制造出足夠聰明的機(jī)器。這到底是創(chuàng)造偉大還是暗藏危機(jī)?早在70年前計(jì)算機(jī)科學(xué)家們已經(jīng)在思考這些問題了。 你的父母來自巴黎,一家人從法國搬到了加拿大。童年經(jīng)歷是如何影響你后來的生活經(jīng)歷和工作風(fēng)格的? 我們家沒有很嚴(yán)格的家規(guī),無論是上學(xué)還是寫作業(yè),父母總是會(huì)關(guān)心我和弟弟想做什么。我父親常說,父母應(yīng)該從孩子身上學(xué)習(xí),而不是孩子對(duì)父母耳提面命。 我的父母賦予了我很多自由和批判性思維。這對(duì)于科學(xué)家來講至關(guān)重要,科學(xué)家必須跳出思維的條條框框。你必須相信自己解決問題的能力、承擔(dān)風(fēng)險(xiǎn)、表達(dá)出你不確定的想法。這種自由的氛圍對(duì)我非常有幫助。在不同國家之間搬遷實(shí)際上也是了解觀點(diǎn)多樣性、文化和語言多樣性的良好經(jīng)歷。 在科學(xué)領(lǐng)域我們需要格外謹(jǐn)慎,因?yàn)槲覀儾荒艽_保自己掌握的就是真理。我們必須允許自己犯錯(cuò)誤,考慮與自己相悖的觀點(diǎn),因?yàn)槲覀兒芸赡苁清e(cuò)的。因此,文化多樣性對(duì)于研究者來說是一堂很好的人生課。 大模型前身,注意力機(jī)制,圖靈獎(jiǎng) 您在過去幾十年取得了許多重要的成就,您認(rèn)為其中最重要、最有價(jià)值的工作有哪些? 2014年,我們團(tuán)隊(duì)受到人類認(rèn)知機(jī)制的啟發(fā),在論文《Neural Machine Translation by Jointly Learning to Align and Translate》中首次將注意力機(jī)制應(yīng)用于自然語言處理領(lǐng)域,大大提升了機(jī)器翻譯的性能。這篇發(fā)表在 ICLR 2015 上的論文引起了行業(yè)熱議,啟發(fā)了后續(xù)的一系列語言大模型研究。 就在論文發(fā)表的一年后,谷歌在2016年將這項(xiàng)技術(shù)應(yīng)用于谷歌翻譯中,它的性能突飛猛進(jìn),表現(xiàn)非常出色,這種大規(guī)模應(yīng)用是學(xué)術(shù)界無法做到的,我們也看到了規(guī)模效應(yīng)的影響。谷歌翻譯在2016年取得的進(jìn)步,得益于注意力機(jī)制帶來的革命性改進(jìn)。 到了2017年,Transformer正式提出,其基本架構(gòu)是多層注意力機(jī)制的層層疊加,這項(xiàng)技術(shù)催生了現(xiàn)代大語言模型現(xiàn)代架構(gòu)。 回顧過去幾十年的工作,這些成果是比較突出的亮點(diǎn),被圖靈獎(jiǎng)提名委員會(huì)認(rèn)可,也是他們決定將2018年圖靈獎(jiǎng)授予我和Geoffrey Hinton、Yann LeCun的主要依據(jù)。當(dāng)然在此之外,我還完成了許多其它的工作。 在注意力機(jī)制、Transformer等相關(guān)技術(shù)出現(xiàn)之前,神經(jīng)網(wǎng)絡(luò)經(jīng)歷了一場(chǎng)寒冬,在所有人都對(duì)神經(jīng)網(wǎng)絡(luò)失去信心的時(shí)候,是什么讓您始終堅(jiān)持這個(gè)研究方向? 2019年第7屆海德堡桂冠論壇(Heidelberg Laureate Forum, HLF)中,Yoshua Bengio發(fā)表題為“面向人工智能的深度學(xué)習(xí)(Deep Learning for AI)”的演講,演講中圍繞維數(shù)災(zāi)難(Curse of Dimensionality)問題展開探討。 ![]() 不能把大模型的未來全押注在 Scaling Law之上, AGI 在現(xiàn)階段當(dāng)然不存在,但在未來我們很可能會(huì)實(shí)現(xiàn) AGI,只是目前還沒有實(shí)現(xiàn)罷了。這是兩個(gè)不同的問題,Yann似乎在試圖回避關(guān)于未來AGI是否會(huì)存在的問題。但當(dāng)我問他時(shí),他也公開表示,他認(rèn)同我們正在朝著構(gòu)建AGI的方向前進(jìn)。 Yann不喜歡AGI這個(gè)詞,他更喜歡稱之為人類水平的AI。但重點(diǎn)是我們?cè)诓粩嗳〉眠M(jìn)步,因此有理由相信,未來一定會(huì)創(chuàng)造出在許多任務(wù)上和人類能力相當(dāng)?shù)臋C(jī)器?,F(xiàn)在在一些公開場(chǎng)合,Yann也認(rèn)同在未來幾年或幾十年可能實(shí)現(xiàn)AGI。但他始終強(qiáng)調(diào)我們還沒有發(fā)展到那個(gè)階段,所以不愿意討論風(fēng)險(xiǎn)問題。 Ilya Sutskever在去年的訪談中曾表示OpenAI在制造AGI,你認(rèn)為這是在虛張聲勢(shì)嗎? 不,我不認(rèn)為這是虛張聲勢(shì)。Ilya真的打算實(shí)現(xiàn)這個(gè)目標(biāo),而且他在最近幾年取得了很多進(jìn)展。我們應(yīng)該認(rèn)真看待他的計(jì)劃?;蛟S現(xiàn)在Ilya不知道能否實(shí)現(xiàn)AGI,但重點(diǎn)是,這是他的目標(biāo),并且許多其他公司也有相同的目標(biāo)。所以我認(rèn)為這是一個(gè)認(rèn)真的目標(biāo),我們不應(yīng)該輕易地認(rèn)為這絕不可能實(shí)現(xiàn),因?yàn)槲覀円膊恢牢磥頃?huì)如何發(fā)展。 現(xiàn)階段研究重點(diǎn): ![]() 近期,我的研究重點(diǎn)是人工智能安全(AI safety)。換言之,我們正在探索如何構(gòu)建不會(huì)傷害人類的AI系統(tǒng)。 事實(shí)上,很多論文或論據(jù)表明當(dāng)前的技術(shù)可能被用于構(gòu)建一些可能產(chǎn)生傷害人類動(dòng)機(jī)的 AI 系統(tǒng)。 我們需要構(gòu)建更安全的AI系統(tǒng),讓它與人類價(jià)值觀、意圖、法律、規(guī)范和道德保持一致,我們期待AI的行為符合人類的道德準(zhǔn)則。 如果能回到20、30歲, 1945年原子彈在日本廣島和長崎爆炸后,原子彈之父奧本海默成為美國的“普羅米修斯”,他本人陷入深徹的反思與懊悔,對(duì)核武器濫用帶來的災(zāi)難性后果深感憂慮。 在AI治理方面,我們需要達(dá)成類似的國際條約,在國際層面達(dá)成共識(shí)。各國不應(yīng)毫無約束地自行研發(fā)人工智能技術(shù),尤其不能將AI用于軍事目的,而是應(yīng)該把所有資源集中起來構(gòu)建安全的AI,并確保它不會(huì)被用于對(duì)抗人類。 在此基礎(chǔ)上,我們可以共享AI帶來的好處。AI在醫(yī)療、環(huán)境、貧困問題等方面都可以帶來積極的影響,它也有潛力推動(dòng)科學(xué)領(lǐng)域的變革。因此,我們需要在享受AI帶來的進(jìn)步和避免AI帶來的災(zāi)難之間尋求平衡。 在AI安全上,我們不能各自為政,必須攜手同行。 Geoffrey Hinton在AI安全方面與您持有相同的觀點(diǎn),他甚至曾表示對(duì)自己的畢生工作感到后悔,那么我們應(yīng)該以悲觀還是樂觀的心態(tài)看待AI的發(fā)展?面對(duì)AI帶來的風(fēng)險(xiǎn)和威脅,你會(huì)不會(huì)對(duì)自己的工作感到后悔或遺憾呢? 我想,我應(yīng)該在過去的工作中更加重視AI可能帶來的風(fēng)險(xiǎn)。甚至在10年前,我就讀過聽過人們談?wù)揂I的風(fēng)險(xiǎn),但我并沒有給予足夠的重視。這是我曾犯下的錯(cuò)誤。 過去的就讓他過去吧,我們無法改變??傮w而言,我是一個(gè)樂觀主義者,但我也看到了AI可能帶來的巨大風(fēng)險(xiǎn)。樂觀還是悲觀,其實(shí)無關(guān)緊要。重要的問題是,我能做什么,我們每個(gè)人能為一個(gè)更好的世界做什么。 每個(gè)公民都可以有所作為。因?yàn)槿绻嗟墓褚庾R(shí)到了AI可能帶來的風(fēng)險(xiǎn),政府就會(huì)更加重視。在每個(gè)國家、每個(gè)政體中,政府都希望盡力獲得更多民意支持。 我會(huì)盡力而為。幸運(yùn)的是,我得到了很多認(rèn)可和支持,并且能夠在AI安全領(lǐng)域繼續(xù)開展研究。因此,我正在將更多精力轉(zhuǎn)移到這方面,盡我所能減少AI帶來的風(fēng)險(xiǎn)。 經(jīng)驗(yàn)豐富的人通常能發(fā)揮重要作用,但他們也可能因?yàn)楣虉?zhí)己見而作出錯(cuò)誤判斷。作為科學(xué)家,你可以選擇傾聽人們的意見,然后根據(jù)自己的經(jīng)驗(yàn)、知識(shí)來采納這些意見;你也可以不予理睬,等待時(shí)間去證明事情的真相。 我們不必全然相信經(jīng)驗(yàn)豐富之人給出的建議,但也不應(yīng)該完全忽視它。我們可以考慮多種可能性并提出假設(shè),然后通過實(shí)驗(yàn)研究來驗(yàn)證它們。這就是科學(xué)研究的工作方式。 所以你會(huì)提醒年輕的自己注意AI安全的風(fēng)險(xiǎn)? 是的,我會(huì)。 您在培養(yǎng)人工智能人才方面有非常豐富的經(jīng)驗(yàn)。在教學(xué)方面,這些年來您積累了哪些寶貴的實(shí)踐經(jīng)驗(yàn)? 這是一個(gè)有趣的問題。如果你是一個(gè)學(xué)生,有個(gè)教授在課堂上滔滔不絕了兩三個(gè)小時(shí),你的大腦會(huì)停止思考,你會(huì)跟不上老師講的內(nèi)容。如果只是讓學(xué)生被動(dòng)地聽課和接收知識(shí),很難刺激他們主動(dòng)思考。反之,如果有一種教學(xué)方式讓學(xué)生積極參與其中,迫使他們集中注意力傾聽其他人的想法,學(xué)習(xí)效果會(huì)更好。 ? 從我的教學(xué)經(jīng)驗(yàn)來看,翻轉(zhuǎn)課堂(flipped class)行之有效。我會(huì)給學(xué)生們布置作業(yè),讓他們?cè)谡n前學(xué)習(xí)材料,在課堂上隨機(jī)選擇一些學(xué)生針對(duì)材料進(jìn)行課堂展示,其他學(xué)生需要提出問題或回答問題。這樣他們就幫我把活兒干了(笑)。 我的角色是確保學(xué)生們給出的答案是正確的,確保學(xué)生們真正理解了材料。而且過程里,大量任務(wù)由學(xué)生自主完成,這樣也保證了課堂活躍度。 此外,當(dāng)學(xué)生們?cè)诩依锟匆曨l或論文等材料自學(xué),可以按照自己的節(jié)奏來,累了就喝杯茶或咖啡,過會(huì)兒再來學(xué)。但教室里聽講,即使學(xué)生們無法集中精力課程也會(huì)繼續(xù),就會(huì)因此錯(cuò)過老師們講的內(nèi)容。所以我認(rèn)為傳統(tǒng)的講座并不是一種高效的教學(xué)方式。 相比之下,小組討論是一種更好的教學(xué)方法。比如我和我的三五個(gè)研究生,可能還有其他教授一起開展小組討論,更有助于我們互相學(xué)習(xí)和頭腦風(fēng)暴。 在教學(xué)過程中,我們必須擺脫“老師無所不知而學(xué)生一無所知,他們只需要吸收老師所給的學(xué)習(xí)材料”的傳統(tǒng)觀念。教學(xué)是一個(gè)對(duì)話的過程,需要由老師和學(xué)生共同參與。 Bengio在課堂教學(xué)中 我有幾個(gè)建議想分享給年輕學(xué)者。 首先,對(duì)于研究者而言,善于提問是很重要的技能。如果你想從事學(xué)術(shù)研究,你必須對(duì)你所研究和討論的主題有深入的理解。有時(shí)我們讀到一些文章,我們會(huì)理所當(dāng)然地接受作者的觀點(diǎn),而不會(huì)去思考“它是如何運(yùn)作的?為什么有效?”這類問題。 我們不應(yīng)該未經(jīng)思考而輕易接受他人的觀點(diǎn),而是應(yīng)該試圖證明為什么這個(gè)結(jié)論是正確的,為什么作者會(huì)這樣寫,他們是否有證據(jù)可以證明自己得出的結(jié)論。如果沒有證據(jù),我們應(yīng)該持保留態(tài)度。也許有的人太自信了,比如Yann,他會(huì)非常篤定地講一些事。聽者會(huì)覺得,啊他一定是對(duì)的。人的直覺可能是錯(cuò)誤的,你需要有說服力的論據(jù)、有力的證據(jù)或?qū)嶒?yàn)結(jié)果來證明自己的觀點(diǎn)。研究的過程就是不斷提出問題。 下一個(gè)建議是,保持謙虛。你必須接受自己可能會(huì)犯錯(cuò)。在我的職業(yè)生涯中,關(guān)于哪些AI方法論或基礎(chǔ)理論會(huì)成功,我的想法改變了很多次,但這沒關(guān)系。 事實(shí)上,正是勇于承認(rèn)錯(cuò)誤才展現(xiàn)出你的聰明和謙遜,并且表明你充分認(rèn)識(shí)到自身知識(shí)的局限性。科學(xué)研究只有在你愿意改變想法、認(rèn)真傾聽并考慮他人觀點(diǎn)時(shí)才能取得進(jìn)展。也許其他人的觀點(diǎn)與你相悖,但他們可能是對(duì)的。 很多時(shí)候,沒有人知道正確答案,我們需要通過做實(shí)驗(yàn)或其他方法來尋找答案。如果無法確定,就不要篤信某一種觀點(diǎn)或結(jié)論。從事科學(xué)研究的人要學(xué)會(huì)接受現(xiàn)實(shí)可能存在多種解釋,所謂的認(rèn)知謙遜(epistemic humility)正是如此。 還有很多問題,我們無法從現(xiàn)存理論中找到答案。因此,研究者必須培養(yǎng)自己的直覺。培養(yǎng)直覺的有效方法之一是親身參與實(shí)踐。 親自動(dòng)手去做研究或工程項(xiàng)目,嘗試?yán)斫饽阏谶\(yùn)行的代碼,甚至通過重新編寫代碼來幫助自己加深對(duì)程序邏輯和運(yùn)行機(jī)制的理解,在大量的實(shí)踐或失敗中積累經(jīng)驗(yàn),從而建立更強(qiáng)的直覺,這是非常重要的。 最后一個(gè)建議是多閱讀。在任何知識(shí)領(lǐng)域中,每個(gè)人都像是一個(gè)微型大腦,通過閱讀可以了解他人的研究成果,研究思路和前沿進(jìn)展,從而持續(xù)積累關(guān)于這個(gè)領(lǐng)域的知識(shí)。這是一種日常訓(xùn)練,每天都要做。 閱讀論文很重要。面對(duì)領(lǐng)域中不斷新增的海量論文,你可能會(huì)覺得手足無措。因此,你在選擇論文的時(shí)候必須有所取舍,跟進(jìn)最重要的研究進(jìn)展。 你現(xiàn)在每天仍然會(huì)閱讀多少篇論文? 現(xiàn)在我必須非常高效地讀論文,因?yàn)橐x的內(nèi)容太多了,很多論文我甚至都不會(huì)完整地閱讀,只是大致瀏覽一下,看一下摘要和圖表。如果我對(duì)某篇文章的摘要很感興趣,就會(huì)更深入地閱讀這篇文章的內(nèi)容。所以我很難準(zhǔn)確計(jì)算每天閱讀論文的數(shù)量,但我確實(shí)每天都在堅(jiān)持讀論文。 不僅是論文,現(xiàn)在還有很多方式可以了解前沿研究進(jìn)展,比如通過博客文章等。我認(rèn)為更重要的是閱讀的時(shí)間,而不是數(shù)量。(如果非要說時(shí)間的話)三小時(shí)左右。 |
|