為什么ChatGPT的誕生意義非凡?當下發(fā)展第三代人工智能需要解決哪些關(guān)鍵問題?中國模式和國外有什么區(qū)別?4月23日晚7點,人文清華講壇,中國人工智能奠基人、清華大學(xué)計算機系教授、中國科學(xué)院院士張鈸發(fā)表演講《走進“無人區(qū)”-探索人工智能之路》,為大家解讀人工智能的發(fā)展歷程,指出實現(xiàn)通用人工智能任重道遠,提醒大家要在人工智能熱中保持清醒進行冷思考,中國要大力加強基礎(chǔ)理論研究,聚天下英才而用之,堅持不懈地努力。 線上線下超過300萬觀眾跟隨張鈸院士一起共同思考如何迎接人工智能時代的挑戰(zhàn)。 ![]() 張鈸,清華大學(xué)計算機系教授,中國科學(xué)院院士,清華大學(xué)人工智能研究院名譽院長。2011年德國漢堡大學(xué)授予自然科學(xué)名譽博士,獲2014年度CCF(中國計算機學(xué)會)終身成就獎,2019年度吳文俊人工智能科學(xué)技術(shù)獎最高成就獎。 他從事人工智能、人工神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)等理論研究,和模式識別、知識工程和機器人等應(yīng)用技術(shù)研究。在上述領(lǐng)域共發(fā)表學(xué)術(shù)論文200多篇和5部(章)專著。其科研成果獲ICL歐洲人工智能獎等。此外,他是智能技術(shù)與系統(tǒng)國家重點實驗室創(chuàng)建者之一,并于1990-1996年擔任該實驗室主任。 以下為演講實錄整理稿,約16000字。(全文讀完約20分鐘) ![]() 大家好,很高興來到講堂,今天我講的題目是《走進“無人區(qū)”探索人工智能之路》。什么是人工智能?很多人認為,人工智能是用機器,特別是計算機來模擬人類的智能。這個理解肯定是不對的。迄今為止,全世界對于什么是智能沒有統(tǒng)一的認識,因為我們對自己的大腦了解非常少。2019年,有人問美國非常有名的腦科學(xué)家科赫(Christof Koch),“到現(xiàn)在為止,我們對人類的大腦了解多少呢?”他回答,“我們甚至不了解一條蠕蟲的腦子”。一條蠕蟲的腦子那么簡單我們都沒有了解清楚,對人類大腦的了解更是太少。因此,這就遇到一個問題,我們都說不清楚“智能”,如何搞人工智能? ![]() 人工智能的兩條路徑 1.唯物主義學(xué)派 人工智能經(jīng)過多年的探索走出了兩條道路,一條道路叫做行為主義道路或者行為主義學(xué)派,或者唯物主義學(xué)派。這個學(xué)派的主張是用機器模擬人類的智能行為。“智能”跟“智能的行為”是兩個完全不同的概念?!爸悄堋笔侵冈谖覀兇竽X里面的過程,我們對它的了解非常少。“智能的行為”是智能的外部表現(xiàn),我們可以觀察到它,就可以模擬它。因此,人工智能追求的目標是什么?追求機器的行為跟人類的行為相似,而不是追求內(nèi)部工作原理的一致。例如,ChatGPT已經(jīng)達到了這個目標,因為跟ChatGPT對話與跟真人對話很相近。在ChatGPT跟我們對話的過程中,它內(nèi)部的工作原理跟大腦工作原理一樣嗎?我可以明確告訴大家是不一樣的。因此,我們現(xiàn)在的人工智能走的是一條機器智能的道路,跟人類的智能并不完全一樣,它只是行為上相似,這是目前人工智能的主流。 2.唯心主義學(xué)派 人工智能還有另外一派,我們稱之為內(nèi)在主義學(xué)派或唯心主義學(xué)派。它主張必須用機器模擬人類大腦的工作原理,這樣才是真正的智能,即類腦計算。這兩個學(xué)派不存在誰對誰錯的問題,因為大家按照不同的思路去走人工智能的道路。前者主張除了人類這條道路外,機器或其它方法也可以走出一條智能的道路;后者主張走向智能道路只有人類這一條,這兩個目前都處于探索階段。 我們?nèi)祟愂侨绾翁剿鬟@條道路的呢?最開始是1956年,在美國召開了人工智能研討會,參加會議的10個主要人物來自數(shù)學(xué)、計算機科學(xué)、認知心理學(xué)、經(jīng)濟學(xué)和哲學(xué)等不同領(lǐng)域。他們經(jīng)過八周的討論,定義了人工智能,認為要做一個會思考的機器,也即,希望機器能像人那樣思考。與會者主張用符號推理、符號表示來做這件事。在這個會議上,Newell和Simon表演了一個程序,叫做“邏輯學(xué)家”。該程序是用機器證明數(shù)學(xué)原理第二章中的部分原理,這表明,機器能做類似推理的工作。因為數(shù)學(xué)定理的證明與推理相似。在這個會議上定義了什么是“人工智能”。 人工智能的三個階段 從1956年到現(xiàn)在,人工智能是我們現(xiàn)在遇到的非常年輕的領(lǐng)域,因為它的歷史不到70年。這個過程分成三個階段,分別是第一代人工智能、第二代人工智能和第三代人工智能。 1. 第一代人工智能 第一代人工智能想做什么事情呢?——想讓機器像人類一樣思考,換句話講,要設(shè)計一個會思考的機器。思考是指推理、決策、診斷、設(shè)計、規(guī)劃、創(chuàng)作、學(xué)習(xí)等,思考實際上決定我們白領(lǐng)工作的基礎(chǔ)。任何一個白領(lǐng)工作都需要這樣一個思考能力(行為)或理性行為。 人類的思考是什么基礎(chǔ)決定的?也就是說,人類白領(lǐng)工作做得好,思考能力一定要很強,那么怎么才能讓我們的思考能力變強呢?比如,醫(yī)生在醫(yī)療診斷上的思考能力比我們在座的人都強。醫(yī)生跟我們的差別在哪兒?醫(yī)生跟我們的差別在兩個方面,一是醫(yī)生有豐富的醫(yī)學(xué)知識和臨床經(jīng)驗,我們沒有,因此我們看不了病;除掉知識和經(jīng)驗這個基礎(chǔ)之外,還需要有運用知識的能力。運用知識的能力是推理,由此及彼、由表及里,叫做推理。也即,從已有的知識出發(fā)推出新的結(jié)論、新的知識。 ![]() 無論是做管理工作或者做技術(shù)工作需要的能力也分為兩個方面。一是在某個領(lǐng)域具有豐富的知識和經(jīng)驗,二是具有很強的推理能力。根據(jù)這樣的分析,人工智能的創(chuàng)始人提出了“基于知識與經(jīng)驗的推理模型”。這個思想非常簡單,也即我們要實現(xiàn)機器會思考,只要把相應(yīng)的知識放在計算機里。比如,我們要讓計算機看病,只要把醫(yī)生的知識和經(jīng)驗放到知識庫里,醫(yī)生看病的推理過程放在推理機制里,計算機就能看病了。如果要讓計算機做一些其它的思考工作,比如設(shè)計工作,我們把某個領(lǐng)域的設(shè)計知識和經(jīng)驗輸入知識庫,把設(shè)計的推理過程放在推理機制里,計算機就能幫你設(shè)計。所以基于知識和經(jīng)驗的推理模型是所有理性行為共同的計算模型,我們用這個計算模型就可以讓機器像人類那樣思考。 這個模型的核心思想是知識驅(qū)動,換句話講,知識是人類智慧的源泉,知識就是力量。這些知識我們通常叫它理性知識,理性知識來自學(xué)習(xí),所以所有做白領(lǐng)工作的人必須要接受教育。因為不接受教育,你就不可能有理性知識,沒有理性知識就不可能做任何一個白領(lǐng)的工作。所以好多人要接受教育,而且最好能接受更高等的教育,這樣才可能保證理性工作做得好。有的時候我們也把它叫做符號主義,因為我們把人類的知識和經(jīng)驗以符號的形式表達在計算機之中。 我們看一下最早的例子。70年代初,美國人根據(jù)這個思想做出一個名為MYCIN的醫(yī)療診斷系統(tǒng),主要用于看血液傳染病、開抗生素的藥。內(nèi)科醫(yī)生的知識、傳染病專家的知識都被擱在里面,因為這個知識非常有限,所以這個系統(tǒng)可以像醫(yī)生那樣看血液傳染病,最后開出抗生素的藥。同時,這里增加了傳染病專家的知識,因此它的看病水平要比一般的內(nèi)科醫(yī)生強。在發(fā)達國家必須要這么做,也就是說,它的醫(yī)療診斷系統(tǒng)必須比一般醫(yī)生水平要高才有用處。但是在發(fā)展中國家不一定要有這個要求,因為我們還有好多社區(qū)醫(yī)生,所以達到三甲醫(yī)院醫(yī)生的水平就可以推廣應(yīng)用。此外,它還可以幫助全科醫(yī)生進行醫(yī)療輔助診斷。 這個系統(tǒng)看起來有很多優(yōu)勢,因為它能像人類那樣進行推理,人類完全可以理解它的診斷過程,所以這個系統(tǒng)是可理解、可解釋的。但是最大的缺點是,所有的知識都要靠人類告訴它,它不可能從客觀世界去學(xué)習(xí)知識。在第一代人工智能時,計算機沒有自學(xué)能力,這是很難的。因為我們平常傳授知識是用自然語言進行,但是當我們要把知識傳授給計算機時,當時的計算機還不懂自然語言,必須要想出一個計算機能理解的辦法跟它進行交流,才有可能構(gòu)造這種系統(tǒng)。所以這種系統(tǒng)在當時構(gòu)造起來很困難,費時費力,因此其應(yīng)用和產(chǎn)業(yè)化相對較差。因為所有知識都靠人類去告訴它,所以它永遠超不過人類。 第一代人工智能模型基于非常難構(gòu)造的知識和經(jīng)驗推理模型。美國人做的MYCIN醫(yī)療診斷系統(tǒng)的知識非常有限,只開抗生素藥、只看血液傳染病,但是這么小的一個系統(tǒng)也花了三年半時間才構(gòu)成。所以第一代人工智能走過的路是比較曲折的,最開始的時候應(yīng)用有限,后來有了專家系統(tǒng)以后,雖然在窄的領(lǐng)域里得到一些應(yīng)用,但總的來講應(yīng)用較窄,所以那時候叫做“人工智能的冬天”。 2. 第二代人工智能 在第一代人工智能處于低潮時,第二代人工智能開始。第二代人工智能主要是從人工神經(jīng)網(wǎng)絡(luò)出發(fā),1943年提出人工神經(jīng)網(wǎng)絡(luò)模型,它主要想模擬人類腦神經(jīng)網(wǎng)絡(luò)的工作原理。這個模型最早很簡單,所以能做的事情比較少。第二代人工智能初期進展也很緩慢。清華大學(xué)從1978年開始進入人工智能領(lǐng)域,相當一段時間里我們處于第一代人工智能結(jié)束,第二代人工智能開始的階段,遇到了人工智能的冬天。 ![]() 1978年,我們成立了人工智能與智能控制教研組,這是中國最早的研究人工智能的機構(gòu)。當時差不多有30位老師參與,這些老師絕大部分來自于自動控制領(lǐng)域,原來并不是搞人工智能的。1978年時,我們招收了頭一批碩士生;1980年至1982年間,我代表教研組到美國訪問了兩年,最主要的目的是學(xué)習(xí)人工智能。因為我當時雖然選擇了這個方向,實則對人工智能很不了解。我去美國伊利諾斯大學(xué)香檳分校綜合科學(xué)實驗室訪問了兩年。那個時候綜合科學(xué)實驗室的主任是華人科學(xué)家錢天聞,他的方向是人工智能。他那時有6位博士生,其中1位已經(jīng)做了8年,因為沒有選到好的題目,所以沒法再做下去;有一個做了不到一年就轉(zhuǎn)到計算機的其他方向去了;還有一個臺灣來的做了4年,也沒選到合適的方向。從這些情況來看,當時人工智能確實處于低潮。 (1)作為主要方向的“智能機器人” 我們從1985年開始招收第一批博士生。當時我回國以后,也感覺到雖然可以開展一些和人工智能有關(guān)的教學(xué),但科研幾乎沒法開展。所以我們在1982年至1984年期間就做了調(diào)查研究,在兵器工業(yè)部的支持下到西南、東北,訪問了大量跟兵器有關(guān)的研究所和工廠。經(jīng)過這個調(diào)查,我們感覺必須要發(fā)展智能機器人。因為國外裝引信、弄炸藥都是自動化的,但在國內(nèi)當時還是人工,所以當時我們把智能機器人作為一個主要的研究方向。 我們在此基礎(chǔ)上開始建立智能機器人實驗室,當時困難非常多。一是沒錢,當時要買PUMA560機器人,在美國所有搞人工智能的大學(xué)里都有這個設(shè)備,但是機器人是巴黎統(tǒng)籌委員會對中國禁運的物資,所以我們當時買不著這個設(shè)備。我們通過跟福建合作,從香港買人家的二手貨,用機床的名義運到國內(nèi)來。我們在非常困難的情況下把這個設(shè)備買下來,上面沒有任何說明書,這是全國進口的第一臺機器人設(shè)備。當時這個設(shè)備要十幾萬塊錢,但我們一分錢沒有,所以就跟福建省計算機研究所合作,說咱們各出一半錢,另一半錢我們先從他們那里借,所以實際上完全是他們出的錢買的。后來因為這個工作搞得很好,他們也沒再向我們要錢。所以就把這個實驗室建起來了。 1985年建立實驗室,1986年國家設(shè)立了“863”發(fā)展計劃,這個發(fā)展計劃把智能機器人作為了一個主題。從那時開始,清華大學(xué)就參加了第一屆智能機器人主題的“863”高技術(shù)研究。我們從第一屆到第四屆都是作為專家參加委員會,到了第五屆,清華大學(xué)成為開展智能機器人研究的組長單位。1997年,設(shè)立了空間機器人,清華大學(xué)也是空間機器人的組長單位。在這種情況下,我們從1987年開始籌建,到1990年正式成立了一個叫“智能技術(shù)與系統(tǒng)”國家重點實驗室,這個實驗室搞得很好,每4至5年評估一次,我們連續(xù)3次全得到優(yōu)。因為得到優(yōu)以后,運行費就給1000萬,當時1000萬還是很大的一個數(shù)目。正是由于這兩個工作的支持,我們的工作得以開展。在低潮期時,不管國內(nèi)還是國外,好多單位都難以繼續(xù)這方面的研究,但從78年代一直到90年代末,由于國家重點實驗室對清華大學(xué)的支持,我們的研究工作一直做得不錯。 ![]() 首先我們建立了兩個理論。一是建立了問題求解的商空間理論和粒計算理論,這個當時在國際上有相當影響。2005年,我們在清華大學(xué)發(fā)起、組織了國際粒計算會議,后來每年開一次,延續(xù)至今。我們確立了這個研究方向,直到現(xiàn)在持續(xù)進行研究。二是在人工神經(jīng)網(wǎng)絡(luò)方面,我們也做了早期的很多工作。當時人工神經(jīng)網(wǎng)絡(luò)的發(fā)展也很困難,在模型和學(xué)習(xí)算法方面,我們做出了很好的成果。此外,1990年開始,我們主要做了自動駕駛車,那個時候叫移動機器人,這在國際上都算是開展很早的單位,在國內(nèi)當然也算是最早的。1992年,我們又承擔了軍用移動機器人項目,這個項目后來也得到國家和部門的獎勵。這個工作一直延續(xù)至今,雖然現(xiàn)在很多單位都在開展自動駕駛的研究工作,但其實清華大學(xué)是最早進行自動駕駛研究工作的單位之一。 (2)第二代人工智能面臨的問題:感性知識的傳授 ![]() 第二代人工智能的初期發(fā)展階段出現(xiàn)了一個問題。因為模型本身比較簡單,好多學(xué)習(xí)算法還沒有發(fā)現(xiàn),因此最開始進展比較慢。本世紀初開始,第二代人工智能蓬勃發(fā)展。第一代人工智能主要在符號主義指導(dǎo)下進行,它的目的是模擬人類的理性行為。但是人類除了理性行為之外還有大量的感性行為,這個感性行為要用人工神經(jīng)網(wǎng)絡(luò)來進行模擬。我們剛才說過了知識是人類智慧的源泉,知識是我們理性行為的基礎(chǔ)。這個知識指的是理性知識、分析問題的方法等,這些知識來自教育。人類除了理性知識以外,還有大量感性知識。比如,我們認識馬牛羊、張三李四,這屬于感性知識。感性知識來自何處?它絕對不是來自于學(xué)習(xí),也不是來自于傳授。大家想一想,我們怎么用自然語言去傳授什么是“馬”?馬有馬頭、馬尾巴、四條腿。那么什么是“四”、什么是“條”、什么是“腿”?你說細長的叫腿,什么是“細”?什么是“長”?換句話講,你要傳授一個感性的概念,你必須要用很多新的概念去描述它,那么最初的概念如何傳授?實際上是很難的。因此感性的知識是不可以用語言來傳授的,也無法從書本上學(xué)來。那我們的感性知識來自何處?我們每一個人最初得到的感性知識是認識我們的母親。我們什么時候認識我們的母親?怎么認識我們的母親?到現(xiàn)在還是說不清楚的。那么感性的知識來自何處?如果真能知道這些,我們就知道如何去教計算機認識馬、認識牛、認識羊。 (3)深度學(xué)習(xí)的底層邏輯:觀察與傾聽 我們觀察一下小孩,小孩在很小的時候(特別是2歲以前),除了吃喝拉撒睡以外都做什么事呢?其中四項重大任務(wù)必須在2歲以前完成,這個工作完成的不好,孩子的認知、智商、情商的發(fā)展都會受很大影響。第一項任務(wù)就是觀察,孩子要利用所有時間、抓緊每分每秒去認真觀察周圍的事物。小孩醒來以后都盯著東西看,目不轉(zhuǎn)睛,為什么這樣?因為他必須抓緊每分每秒去觀察周圍的世界,建立視覺基礎(chǔ)。第二項任務(wù)是傾聽,建立聽覺基礎(chǔ)。大人看著孩子沒有不吭聲的,因為你要給他創(chuàng)造聲音,不斷讓他傾聽,建立聽覺基礎(chǔ)。所有這些感性知識都在不斷觀察、不斷傾聽的過程中學(xué)習(xí)。所以我們在第二代人工智能里深度學(xué)習(xí)就是用這個辦法。 過去,我們主要通過編程的方法告訴計算機,馬牛羊有什么特征,這個方法是不正確的,用這個辦法來教它,結(jié)果教不會。語音也是這樣,過去,我們通過告訴它“我有什么特征”來教它聽懂“我”,效果很不好。最后怎么完成的呢?就是基于大數(shù)據(jù)的機器學(xué)習(xí)。我們把網(wǎng)上所有馬牛羊的照片拿來,把中間的大部分做成訓(xùn)練樣本,讓它觀察和學(xué)習(xí)。學(xué)習(xí)完畢后,將剩下的樣本作為測試樣本去測它,識別率達到95%等等。語音也是這樣,我們收集了大量語音,把中間大部分作為訓(xùn)練樣本,讓計算機傾聽、學(xué)習(xí),最后把剩下的部分作為測試樣本去測它。這也是用同樣的辦法,即觀察和傾聽。那么用什么東西來觀察和傾聽呢?就是人工神經(jīng)網(wǎng)絡(luò)。也就是說,把識別的問題作為分類問題來進行,利用人工神經(jīng)網(wǎng)絡(luò)來分類,馬這組數(shù)據(jù)分成一類,牛這組數(shù)據(jù)又分成一類,這樣就實現(xiàn)了識別。所以這個神經(jīng)網(wǎng)絡(luò)是采取多層的神經(jīng)網(wǎng)絡(luò),這個神經(jīng)網(wǎng)絡(luò)叫深度神經(jīng)網(wǎng)絡(luò),即很深的神經(jīng)網(wǎng)絡(luò),而用這個神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)的,叫做深度學(xué)習(xí)。所以深度學(xué)習(xí)不是學(xué)很深的意思,而是用很深的神經(jīng)網(wǎng)絡(luò)來學(xué)它,這樣效果會很好。 (4)通過深度學(xué)習(xí)進行分類和預(yù)測 ![]() 我們看一下這樣做的效果。過去都是用同樣的圖像庫、圖像網(wǎng)進行圖像識別,一共有2萬多個種類,1千5百萬張圖。過去,我們用一個編程的辦法告訴它什么是馬、什么是羊,這樣做誤識率是50%。后來我們用機器學(xué)習(xí)的辦法來做,結(jié)果誤識率降到3.57%。從50%降到3.57%,而人類的誤識率是5.1%,降到3.57%是超過人類的水平的。 通過人工神經(jīng)網(wǎng)絡(luò)進行分類,也可以找數(shù)據(jù)中間的關(guān)聯(lián)關(guān)系。機器翻譯就是這么做的。過去的機器翻譯怎么做的呢?用語法分析、語義分析,效果非常不好?,F(xiàn)在換成機器學(xué)習(xí)的方法,效果非常之好。因為我們只要找中文和英文之間的關(guān)聯(lián)關(guān)系,不去仔細分析它的語法語義,也就是說,這個中文輸入對應(yīng)的是這個英文。在學(xué)了大量的結(jié)果以后,我們給一個中文它就會翻成英文,所以是利用這個模型學(xué)習(xí)數(shù)據(jù)中間的關(guān)聯(lián)關(guān)系,通過學(xué)習(xí)把中文和英文關(guān)聯(lián)起來,因此它能夠進行翻譯。 還可以用這個做預(yù)測。什么叫預(yù)測呢?用過去的數(shù)據(jù)預(yù)測未來的變化,也可以用人工神經(jīng)網(wǎng)絡(luò)或機器學(xué)習(xí)的辦法來做,例如傳染病預(yù)測、產(chǎn)品預(yù)測、股票預(yù)測等。所有這些預(yù)測都是用過去的數(shù)據(jù)來預(yù)測未來的變化。所以,大數(shù)據(jù)下的機器學(xué)習(xí)有這么多用處,除掉分類關(guān)聯(lián)關(guān)系的學(xué)習(xí)跟預(yù)測以外,還可以做生成。 深度學(xué)習(xí)出來后,也即第二代人工智能繁榮興起后,國內(nèi)也興起高潮。清華大學(xué)有很多年輕人參加,以朱軍為代表的年輕隊伍做了很多這方面的工作。一是理論工作,他們提出一個概率學(xué)習(xí)的理論和模型,就是在貝葉斯原來的理論上加一個維度,即后驗分布。原來貝葉斯理論是靠先驗分布和似然函數(shù),現(xiàn)在加上后驗分布以后,學(xué)習(xí)質(zhì)量和學(xué)習(xí)效率提高?;谶@個理論,我們做了一個開源的編程庫,可以供全世界使用。這個工作也得到了大家的好評。 (5)深度學(xué)習(xí)的不安全性 ![]() 還有一個非常重要的問題,我們一個博士生比較早發(fā)現(xiàn)深度學(xué)習(xí)的不安全性,他做了一個非常典型的例子。左邊這張雪山圖,原來計算機看起來是雪山,人看起來也是雪山,只要把它加一點噪聲,變成右邊這張圖(右邊這張圖比左邊的圖多了一點噪聲)。人看起來是雪山,當計算機卻看成是一條狗。這就充分說明,深度學(xué)習(xí)的模式識別跟人類的視覺完全不同,盡管它能夠把雪山和狗分開,但實際上它既不認識狗,也不認識雪山。為什么是這樣的情況呢?關(guān)鍵問題是——什么叫做狗?我們怎么定義一只狗?通常用人類視覺來區(qū)分,主要看它的外形,狗的外形跟貓的外形不一樣,但問題是什么是狗的外形?狗有各種各樣,我們?yōu)槭裁丛诒姸喙返耐庑卫锬軌蚍直娉鰜磉@就是狗,而且同樣一只狗站著、躺著、跑著,前面、背面都不一樣,為什么人類的視覺能夠在千變?nèi)f化的外形里確定它是狗?到現(xiàn)在為止我們沒搞清楚。我們對腦科學(xué)的研究很差,因為不知道人類的眼睛為什么在千變?nèi)f化的狗的外形里能夠斷定它是狗,而且有時把狗擋住了,擋了很多,我們還認識它。人類的視覺是怎么解決這個問題的?到現(xiàn)在還是個謎,所以計算機不知道怎么做。計算機看狗,最早的時候,狗在這邊它認識,挪了位置就不認識了,這就是位移的不變性,這個問題現(xiàn)在已經(jīng)解決。但是沒有解決的問題還有很多。例如,計算機識別固定尺寸的狗,把狗變大了不認識,變小了也不認識,這就是大小的不變性?,F(xiàn)在機器認識狗,變大變小,它都不認識。所以現(xiàn)在機器怎么做呢?只能用局部的紋理來區(qū)分狗和雪山。因此,我們把雪山中間的某個紋理改成皮毛的紋理,形狀一點不變,它就認為是狗,這就是它的實質(zhì)。所以我們可以看到深度學(xué)習(xí)是非常不安全、不可靠的,而且也是不可信的。 ![]() 我們比較早發(fā)現(xiàn)了人臉識別的不安全性。如上面這個圖所示,計算機能夠識別左邊的人和右邊的人不是同一個人。但我們只要給它加一點噪聲,它就把右邊這個人認為是左邊的人,所以現(xiàn)在為什么人臉識別那么不安全?因為我們只要改變一點它的局部特征,人還是認為是原來的人,但計算機完全看成是不同的人,所以人臉識別是非常不安全的?,F(xiàn)在用它來付錢還可以,但問題是用它來取錢就有問題了,你在網(wǎng)上是不可以刷臉取錢的,這就說明它的不安全性。 根據(jù)CSRanking統(tǒng)計,清華大學(xué)的團隊在全球人工智能頂刊發(fā)表高檔文章數(shù),2017-2019年排在第一位。這說明,清華大學(xué)或者我們中國的平均水平是不低的,平均水平是先進水平。問題出在我們的最高水平跟人家差距大,很難出出類拔萃的人才。換句話說,我們的創(chuàng)新能力不如人家。而往往最高水平是決定科技發(fā)展的主要因素,所以這一點我們還需努力。 (6)第二代人工智能的缺陷:不安全、不可信、不可控、不可靠、不易推廣 第二代人工智能也有它的缺點,它的所有數(shù)據(jù)(圖像、語音等)來自客觀世界,所以它實際很有用處,但是難以提升到認知水平。它識別東西只能區(qū)別不同的物體,并不能真正認識這個物體,這是它的最大問題,即不安全、不可信、不可控、不可靠、不易推廣。2016年,根據(jù)這個情況我們提出,必須發(fā)展第三代人工智能。 3. 第三代人工智能 ![]() (1)亟待發(fā)展的人工智能理論 第三代人工智能的基本思路是必須要發(fā)展人工智能理論。人工智能跟信息科技相比,為什么信息科技發(fā)展得那么快且持續(xù),人工智能卻發(fā)展得相對較慢且相當曲折?最主要的原因是,信息科技的理論從一開始就已經(jīng)建立起來。計算機理論于1936年建立,通訊理論于1948年建立。它的理論已經(jīng)建立了,所以技術(shù)發(fā)展和應(yīng)用非常順利。人工智能到現(xiàn)在為止沒有理論,只有我們剛才給大家介紹的幾個模型、幾個算法,而且我們前面分析過第一代人工智能的模型和第二代人工智能的模型、算法都有很多缺陷。因此,我們必須要去發(fā)展它的理論,這樣才能發(fā)展出安全、可控、可信、可靠和可擴展的人工智能技術(shù)。換句話講,在這個理論沒有建立之前,人工智能的算法基本上是不安全的,所以如果將來在工作當中要用人工智能的,始終存在著安全性的問題。有些銀行的領(lǐng)導(dǎo)跟我討論銀行系統(tǒng)智能化的問題,問我最主要要注意什么問題?我說最主要要注意安全問題。因為對人類來講,一個是生命,一個是財產(chǎn),如果涉及到生命和財產(chǎn)的處理要智能化,首先要考慮安全性。對目前的人工智能技術(shù)而言,系統(tǒng)越信息化、智能化,就越不安全。好多人以為搞了人工智能就更安全了,實則是搞了人工智能更不安全了。那我們?yōu)槭裁催€去搞它?因為它會提高效率和質(zhì)量,但是安全性會受影響。在這種情況下,才能推動我們的應(yīng)用和產(chǎn)業(yè)化發(fā)展。 第一代人工智能用了知識、算法、算力三個要素,其中最主要運用的是知識。第二代人工智能主要用數(shù)據(jù),即數(shù)據(jù)、算法和算力三個要素。這兩代人工智能都有它的缺點,因為它只用了中間三個要素。為了克服這個缺點,唯一的辦法是把知識、數(shù)據(jù)、算法和算力這四個要素同時用起來,這就是我們提出來的主張,全世界也很贊成我們這個主張。但是外國人跟我們不同的是強調(diào)數(shù)據(jù)的作用,而我們是強調(diào)知識的作用。我們認為,知識是人類智慧的源泉,而非數(shù)據(jù)。但同時也一定要注意數(shù)據(jù),因為計算機處理數(shù)據(jù)的能力比人類強得多,所以我們強調(diào)數(shù)據(jù)是強調(diào)機器的作用,強調(diào)知識是強調(diào)人類的作用。我們認為,人類對人工智能的作用應(yīng)該比機器更加重要,這一點與國外觀點不同。但是我可以告訴大家,ChatGPT這么大的成功就是因為它充分的利用了“知識、數(shù)據(jù)、算法、算力”這四個要素。 (2)大語言模型:大模型 ![]() 大語言模型就是LLM。我們首先在語言上突破,ChatGPT為什么有這么強大的性能?主要依靠兩個“大”,一個大模型,一個大文本。第一個“大”是一個大的人工神經(jīng)網(wǎng)絡(luò),人工神經(jīng)網(wǎng)絡(luò)可以用來做分類,用來學(xué)習(xí)數(shù)據(jù)中間的關(guān)聯(lián)關(guān)系,也可以用來做預(yù)測?,F(xiàn)在,在ChatGPT里用它做語言生成。這個巨大的人工神經(jīng)網(wǎng)絡(luò)叫“轉(zhuǎn)換器”,就是GPT的那個“T”。G是生成式,P是預(yù)訓(xùn)練,T是轉(zhuǎn)換器,它是靠這三個東西的。 大模型在這里起什么作用?大模型的“大”體現(xiàn)在哪里?深度神經(jīng)網(wǎng)絡(luò)是很深的神經(jīng)網(wǎng)絡(luò),它的中間層一般是幾層、十幾層。在ChatGPT里是非常深的神經(jīng)網(wǎng)絡(luò),有96層。其次是非常寬的神經(jīng)網(wǎng)絡(luò),一次能夠輸入2000多字(一個token,粗略地講相當于一個漢字)。原來的神經(jīng)網(wǎng)絡(luò)是逐字輸入,現(xiàn)在是一大段文本輸入。GPT4可以滿足12萬8千個漢字同時輸入,即300多頁文本同時輸入,它能看到全文,這是第一個“大”。最主要的問題是文本的語意表示。過去,文本在計算機里用符號表示,計算機看到符號不知道它說什么?比如,“我打他”,計算機看到的是ABC三個符號,所以我們必須幫它做語法分析,告訴它“我”是主語,“打”是謂語,“他”是賓語,它才知道是什么意思。現(xiàn)在文本不是用符號表示,而是用語意向量表示,這是人類從1957年到2013年花了56年時間才解決的。也就是說,所有的文本不管它是詞、句子、段落都是用向量來表示,計算機看到這個向量就知道它說什么。因為它把同樣語意的向量放在一起,不同語意向量放在空間的不同位置。所以它看到“我打他”這個向量,它馬上知道說的是“我打他”,因為“我打他”,“你打他”,“他打他”,同樣意思的東西放在一起。過去計算機處理文本只能把它當數(shù)據(jù)處理,現(xiàn)在可以把它當知識來處理,可以處理文本的內(nèi)容,這是最重要的一個突破,即向量表示。向量就是一個數(shù),所以計算機算起來非常容易。 ![]() 第二個是我們花了74年的時間解決了巨大的人工神經(jīng)網(wǎng)絡(luò)。這個巨大的人工智能神經(jīng)網(wǎng)絡(luò)叫“轉(zhuǎn)換器”,“轉(zhuǎn)換器”很長的文本可以同時輸入。最后一個是“自監(jiān)督學(xué)習(xí)”,這是OpenAI的貢獻。大家不要認為ChatGPT是OpenAI花四年時間做出來的,而是世界的科學(xué)家、工程師花了六七十年時間才研究出來ChatGPT。前面兩個成果都主要是大學(xué)做的,只有最后一個成果“自監(jiān)督學(xué)習(xí)”是OpenAI提出來的,OpenAI的主要貢獻就提出了“自監(jiān)督學(xué)習(xí)方法”,另外把它實現(xiàn)一共花了四年時間。過去要它學(xué)習(xí)都要做預(yù)處理、預(yù)先標注,這個工作量太大,無法大量學(xué)習(xí)。“自監(jiān)督學(xué)習(xí)”是原來的文本不經(jīng)過任何處理就可以學(xué)習(xí),用前面的文本預(yù)測后面的詞,輸入后預(yù)測下一個,預(yù)測下一個又把下一個變成輸入,就像接龍式學(xué)習(xí)。 (3)大語言模型:大文本 第二個是大文本。自監(jiān)督學(xué)習(xí)后,所有文本不用經(jīng)過任何的預(yù)處理就可以學(xué)習(xí)。文本原來是GB量級,現(xiàn)在是TB量級的。現(xiàn)在OpenAI差不多學(xué)了45個TB,相當于1351萬本牛津辭典。而且它的讀不是死讀,而是理解它的內(nèi)容,讀它內(nèi)部的知識。 這就使得我們進入了新的時代,這個時代我們就叫做生成式人工智能時代。這個時代有什么樣的結(jié)果呢?ChatGPT里最重大的成果是強大的語言生成能力,而強大的語言生成能力表現(xiàn)在開放的領(lǐng)域,不受領(lǐng)域限制。當我們跟ChatGPT對話時,不是只能談醫(yī)療問題,不能談農(nóng)業(yè)問題,而是什么問題都能談,這是人工智能的重大進步。無論是第一代人工智能還是第二代人工智能,它做的事情必須受三個限制——特定領(lǐng)域用特定模型完成特定任務(wù)?!叭齻€特定”就是所謂窄人工智能,專用人工智能。ChatGPT將這個問題完全打破,跟它對話的時候沒有領(lǐng)域限制。二是生成多樣性的輸出,這是ChatGPT的靈魂。它的一個輸入是多樣化的輸出,給它多樣化的輸出就給它創(chuàng)新的機會。它有多樣化的輸出,就有可能創(chuàng)新,如果要它創(chuàng)新,必須允許它犯錯誤。因為它多樣化的輸出,不能保證每個輸出都是對的。所以越希望它輸出有創(chuàng)造性,就越要允許它犯錯誤。所以我們看到ChatGPT有的時候回答問題非常機智、非常聰明,有的時候又胡說八道,這個問題就是我們要求它多樣化輸出的結(jié)果。 它生成的是連貫的、類似人類的文本,也就是說,它說的全是人話。這一點非常奇怪,它學(xué)了那么多文本,為什么不會亂?如果它說的是鬼話就麻煩了,它說出來的東西我們不知道它說什么,那么后面的工作就沒法做了?,F(xiàn)在它說出來的全是人話,胡說八道也是人話。我們?yōu)槭裁匆隙∣penAI,因為沒有人敢去做這個事。OpenAI花了幾億美金去做這個系統(tǒng),而且大多數(shù)人認為是不大靠譜的,以為輸出會很亂,居然輸出全是人話,這一點非常重要,就是語意上連貫的類似人類的文本,這是了不起的。第二個重大突破是在開領(lǐng)域?qū)崿F(xiàn)了人機自然語言對話,我們現(xiàn)在跟ChatGPT對話的時候不受領(lǐng)域限制的。ChatGPT沒出來以前,大家估計我們需要經(jīng)過幾代人的努力才可能實現(xiàn)開領(lǐng)域跟機器進行自然語言對話,我們過去那么小的領(lǐng)域都沒辦法實現(xiàn)跟計算機進行自然領(lǐng)域?qū)υ挘F(xiàn)在居然一夜之間可以不受領(lǐng)域限制進行對話,我覺得這兩個是非常了不起的。人工智能原來打算用幾代人的努力來完成它,居然在2022年完成,這是人工智能里非常了不起的事情。 ![]() 我對人工智能系統(tǒng)做過一個測試:請用小學(xué)三年級學(xué)生的身份寫一篇作文,作文題目叫“會飛的房子”。這非常考驗系統(tǒng)好不好。首先,寫的時候是不是以三年級學(xué)生這個身份寫的。有的系統(tǒng)不好,大人的話都出來了,寫成非常深的科幻故事,那就不對了。其次,“會飛的房子”給了非常大的創(chuàng)造性、想象力。有的系統(tǒng)會寫出來想象力非常高的文章,比如說它飛到城市、農(nóng)村,看到的全是童話世界而非現(xiàn)實世界,都是想象出來的。所以大語言模型是向通用人工智能邁出的一步。微軟說大語言模型是通用人工智能的火花,西方輿論里大多數(shù)說是通用人工智能的曙光,但是有少數(shù)人認為它就是通用人工智能,我認為這個意見是錯的。我們通向通用人工智能的道路依然任重道遠,換句話講,人工智能還有很長的路要走,因為要達到通用人工智能必須滿足三個條件。 (4)通用人工智能的三個條件 第一個條件是,系統(tǒng)必須跟領(lǐng)域無關(guān)。ChatGPT做到了領(lǐng)域無關(guān),但是它只是在對話、自然語言處理的問題上做到和領(lǐng)域無關(guān),其它大量的問題現(xiàn)在還做不到跟領(lǐng)域無關(guān)。我們現(xiàn)在做出來的醫(yī)療診斷系統(tǒng)只能看一個具體的病,能不能做出來一個系統(tǒng)什么病都會看?現(xiàn)在還不知道怎么做。所以在領(lǐng)域無關(guān)上,ChatGPT只是走了一步。第二,跟任務(wù)無關(guān),什么任務(wù)都會干。ChatGPT現(xiàn)在能對話,也能夠算四則運算,也能作詩、寫代碼,可以是多任務(wù),但是也不是什么任務(wù)都能干,復(fù)雜環(huán)境下的復(fù)雜任務(wù)它是干不了的。第三,要建立一個統(tǒng)一的理論。所以人工智能還有很長的路要走。 (5)大語言模型邁向通用人工智能的四個步驟 ![]() 我們認為,從大語言模型邁向通向人工智能首先需要走四個步驟。第一步是跟人類進行交互、跟人類對齊,第二步是多模態(tài)生成,第三步是跟數(shù)字世界交互,第四步是跟客觀世界交互。但也不是說這四步做了就完成了通用人工智能,但至少是向通用人工智能邁出這四步。 ![]() 第一步:與人類對齊。盡管現(xiàn)在ChatGPT說的都是人話,但是不見得是正確的。如何克服這個問題呢?必須靠人類去幫助它克服,跟人類對齊。我們看一下上圖的結(jié)果,GPT-3時的錯誤率是40%(40%錯,60%對)。經(jīng)過兩年人類的調(diào)整,幫助它改正,到ChatGPT時降到20%,GDP-4的時候降到10%,從這里可以看到,它的錯誤需要人類幫助進行糾正,而且這個糾正的速度是很快的。迭代的速度很快,但我們要看到錯誤仍然存在,不可能把它變成零。我們要它具有創(chuàng)造性就得允許它犯錯誤。 ![]() 第二步:多模態(tài)生成。我們用大模型生成文本,我們把它叫ChatGPT,現(xiàn)在可以用大模型來生成圖像、聲音、視頻、代碼。生成聲音里包括語音、音樂,所以可以用大模型生成各種各樣模態(tài)的東西。上圖是我們學(xué)生做的,關(guān)于如何用擴散模型。用圖形時一般要加上擴散模型,這樣圖形的結(jié)果質(zhì)量會更高,這個擴散+轉(zhuǎn)換器的模型是我們提出來的。 ![]() 這個是生數(shù)科技做的文本生成圖像,也就是說,你隨便寫一個文本,它就根據(jù)這個文本生成出來圖。我們看中間這張圖,中秋節(jié)的月兔和月餅,它畫出來兔子和月餅。大家看一下兔子,它的胡須、細節(jié)非常之好。當然我們也可以讓它按照某一個畫家的風(fēng)格畫出來圖,左邊的圖是按照某一個畫家的風(fēng)格畫出來的桌上的向日葵,它也畫得很好,質(zhì)量非常高,可以說達到人類的水平甚至畫家的水平。 ![]() 這一張圖是美國Midjourney的文生圖,它是說畫一張“穿著夾克衫和牛仔褲的情侶坐在屋頂上,背景是90年代的北京”的圖。請大家看這個圖,它畫出來人的神態(tài)、衣著和背景完全是北京90年代的感覺。它居然完全理解了,北京90年代的人就是這個樣子。這一方面反映了它繪畫的水平,另一方面給造假形成了極大的空間。大家想一想,如果它將來畫出來的畫說這是你在這兒干壞事當場被我拍下來的,你到什么地方去說理?說我沒有干壞事,這是計算機生成的。所以我們現(xiàn)在專門開了一個公司去鑒別文本究竟是機器生成的還是人寫出來的、圖像究竟是機器畫的還是人畫的、視頻究竟是人做的還是機器做的。我可以告訴大家,非常困難。隨著技術(shù)的進步,會越來越困難,給造假提供了非常好的機會,這個造假專門有個名字叫做“深度造假”。用深度學(xué)習(xí)的辦法來造假,而不是說造的很深的意思。大家想一想,如果以后網(wǎng)絡(luò)上的文本95%都是機器寫出來的,我們還能從網(wǎng)絡(luò)上看到真相嗎?一個事情出來以后,網(wǎng)絡(luò)上一片反對聲音,究竟是多數(shù)人在反對還是少數(shù)人操縱機器寫出來的?將來很容易用這個去制造輿論、混淆視聽,所以這個問題是非常嚴重的。 ![]() 這個是我們做的3D圖像,完全由計算機生成。視頻是多生成幾張圖像,但是時間上要有關(guān)聯(lián)性。 我們現(xiàn)在實現(xiàn)了三項突破,這個突破是在開領(lǐng)域里生成語意上連貫的類似人類的文本。語意上連貫是最重要的突破,有了這個突破以后就有了圖像的突破,因為圖像只要求在空間上連貫即可。視頻是什么?時空上連貫即可,所以大家要看到這三個是不同層次的問題。最重要的是,我們在語言上突破,緊跟著肯定會有圖像的突破,有了圖像突破后,肯定會有視頻的突破。它中間計算的資源要求越來越多,計算的硬件也多。 這里有個現(xiàn)象,我們把這個現(xiàn)象叫做涌現(xiàn),當系統(tǒng)規(guī)模沒有達到一定程度時,不會出現(xiàn)這個現(xiàn)象。也就是說,規(guī)模沒有達到一定程度時,畫出來的圖畫很糟糕,馬也沒有馬頭,畫得很不像,突然間,規(guī)模達到一定程度,畫出來的畫大多數(shù)都很好,這就叫做涌現(xiàn),即從量變到質(zhì)變。這個現(xiàn)象到現(xiàn)在為止,全世界還沒有完全搞清楚,這是大家產(chǎn)生恐慌的重要原因。許多人嚇唬大家,規(guī)模越來越大后,將來計算機會不會有意識?會不會主動攻擊人類?會不會出來統(tǒng)治人類?都是因為涌現(xiàn)難以解釋,所以大家就覺得非??只?。但是大家不要恐慌,我們看到它還有弱點。 ![]() 第三步:AI智能體。必須跟數(shù)字世界連起來,大語言模型再好,只能說不會干,很多事情要干了才行。首先,先在數(shù)字世界里具體干活,干完活以后就可以解決這樣的問題,它就知道自己這個東西做得怎么樣。因為它據(jù)有反饋,這個工作對促進它的性能有很大的好處。原來說了以后不知道說得對不對,現(xiàn)在照著你說的來干,一干就知道對不對,所以有了反饋以后可以推動大模型往前發(fā)展。 ![]() 第四步:具身智能。接下來就跟客觀世界連在一起,你必須得有手,光動口不動手怎么能干活,跟物理世界連接需要機器人,這就是“具身智能”,即具有身體的智能。智能光有腦袋還不夠,還必須具有身體,這樣你才能動口又動手,所以第四步就要和客觀世界連在一起。 人工智能的產(chǎn)業(yè)發(fā)展 信息產(chǎn)業(yè)的發(fā)展非常迅猛,原因在于它建立了理論。有了這個理論后,在理論指導(dǎo)下做的硬件和軟件全是通用的。通用是什么意思?市場非常之大,因此英特爾、IBM、微軟等大企業(yè)出現(xiàn),然后再把這些技術(shù)進行應(yīng)用推廣,實現(xiàn)信息化,這整個鏈條發(fā)展非常迅速。人工智能沒那么幸運,它沒有理論,只有算法和模型。根據(jù)這個算法和模型建立的硬件和軟件全是專用的?!皩S谩笔鞘裁匆馑??市場很小,所以到現(xiàn)在為止,還沒有產(chǎn)生人工智能的IBM、英特爾、微軟。所以人工智能產(chǎn)業(yè)的發(fā)展必須跟垂直領(lǐng)域深度結(jié)合才有可能發(fā)展。但是現(xiàn)在這個情況發(fā)生變化,具有一定的通用性的基礎(chǔ)模型出現(xiàn),它肯定會影響我們產(chǎn)業(yè)的發(fā)展。下面我們探討一下這個有什么樣的影響。 我們先看一下現(xiàn)在人工智能產(chǎn)業(yè)的發(fā)展。2020年,10億美金以上的全世界獨角獸企業(yè)一共有40家,2022年變成117家,2024年初時到126家,從這個情況來看,它是逐步增長的。 ![]() 大模型今后怎么發(fā)展?到現(xiàn)在為止,中國的大模型是“百模大戰(zhàn)”,有100甚至200家,而美國基本上是幾家(如Meta、谷歌和OpenAI)。我們有這么多人做基礎(chǔ)研究,現(xiàn)在大部分狀況不佳,他們的出路在哪兒呢?我這里畫了三個出路。第一個出路是向各行各業(yè)轉(zhuǎn)移,做各個垂直領(lǐng)域的大模型。現(xiàn)在有很多行業(yè)在考慮這個問題,石油行業(yè)肯定要考慮石油行業(yè)里的大模型,金融肯定要考慮金融行業(yè)的大模型,所以將來做通用大模型的數(shù)量越來越少,最后大多數(shù)做大模型的就轉(zhuǎn)向各個垂直領(lǐng)域。第二個也是最重要的,經(jīng)過微調(diào),到產(chǎn)業(yè)里應(yīng)用。它提供了公開的大模型軟件,讓大家開發(fā)應(yīng)用。第三個是跟其他的技術(shù)結(jié)合,發(fā)展新的產(chǎn)業(yè)。比如原來用軟件做文字編輯,現(xiàn)在加上大模型后,它可以幫你寫稿。所以很多記者都利用這個工具,先幫忙寫一個稿,然后我們再編輯,這樣方便得多,把其它技術(shù)結(jié)合起來發(fā)展成新的產(chǎn)業(yè)。很多獨角獸企業(yè)都這么去做,有的向各個行業(yè)轉(zhuǎn)移,有的專門做圖像,有的專門做視頻,有的專門做語音,這是國外的情況。我們也可以看到國內(nèi)的情況,例如清華大學(xué)智譜AI做的大模型,國內(nèi)也有一些大模型現(xiàn)在已經(jīng)發(fā)展得比較好。 那么這個肯定要推動產(chǎn)業(yè)的變革,今后無論做硬件還是軟件,一定要放到這個平臺上。過去在什么基礎(chǔ)上做軟件呢?比如,在毫無基礎(chǔ)的計算機里做一個服務(wù)軟件,我們該怎么教計算機做呢?計算機里什么都沒有,所以相當于教白癡做這個事,效率肯定很低?,F(xiàn)在如果把這個工作放到基礎(chǔ)模型的平臺上,這個平臺已經(jīng)學(xué)過1351萬本牛津辭典,至少相當于一個高中生,所以采用它是不可阻擋的趨勢。這些“高中生”誰提供呢?大模型企業(yè)提供公開的平臺給大家用。 大模型的局限性 ![]() 大模型是不是什么東西都會干?大模型的局限性、最大的問題是什么?大模型的所有工作都是外部驅(qū)動的,即在外部提示下做的。它不會主動干事,那么在外部提示下面來做時,它是用概率預(yù)測的方法來做,所以就會出現(xiàn)一些人類沒有的缺點,即輸出的質(zhì)量不可控,而且它不知道自己是對或錯,所以它的輸出不可信。第三,它受外部影響太大,我們要它怎么干它就怎么干。人類完全不一樣,即使這件事是別人交給他的,人類也是在自己的意識控制下完成,所以整個是可控、可信的。機器根本不知道自己在做什么,我們舉兩個例子。 案例一:我問ChatGPT,清華大學(xué)校歌的歌詞是什么?它不知道,胡編了一套,無中生有。我告訴它:“清華大學(xué)校歌不是這個,是'西山蒼蒼,東海茫茫......’”。我把這兩句抄給它,后面寫省略號,讓它去做。它說:“對不起,我剛才錯了,清華大學(xué)校歌是'西山蒼蒼,東海茫茫’。”結(jié)果下面又胡編下去。后來我告訴它:“你錯了,清華大學(xué)校歌不是這個?!蔽野颜麄€原文抄給它,它馬上說:“對不起,上面全說錯了,應(yīng)該是這個?!钡悄阃顺龊笤龠M去、再問它,它又胡編。我就問大家,為什么不能讓它改?為什么它不能自己改?它自己不能判斷對錯,只能人類在后臺去幫它改。這就排除了一個問題,大家說它逐步迭代,迭代后會不會越來越好?它不可能迭代,因為它自己不能改自己,它也判別不了正確和錯誤。所以這一點大家放心,現(xiàn)在為止,它基本上在人類操縱下做事。有朝一日它會不會主動去干?這個問題也在研究,我可以告訴大家,現(xiàn)在還不行。它有沒有自我激勵去干這個事情?它會不會產(chǎn)生這種動力?現(xiàn)在仍在研究過程中,一時半會兒不會有。所以請大家放心,迭代是人幫助它迭代,目前它還不可能自我迭代。 ![]() 案例二:它的輸出不一定都是好的。大家看到的Sora等,都是拿好的給大家看。上圖是美國非常好的一個圖形生成器DALLE.2生成的6張圖。我輸入“他憤怒地踢開門,揚長地走出”,生成的前面三張不錯,但后面的不僅是主題不對,畫的畫也很糟糕,所以它也會輸出質(zhì)量不好的,這就是造成不可信的重要原因。所以未來它最多像中間這個情況一樣,做我們的助手幫助我們。我們監(jiān)控它干,最終采取什么樣的設(shè)計我們來決定,未來只有少數(shù)工作可以完全交給機器干,獨立完成。 ![]() 高通全球投資研究做了一個統(tǒng)計圖,統(tǒng)計人工智能對各行各業(yè)的影響如何。這個圖里面列出來大量行業(yè),左邊深度比較深的表明影響小,比較淺的藍色表明影響大?;疑糠直砻鲿淮?,我們這里看到被代替的是屬于少數(shù),即灰色的部分較少。將來會被代替的是行政工作、秘書工作及法律工作,因為法律有大量文檔的整理工作。所以大家放心,人工智能對各行各業(yè)都有重大的影響,但是大多數(shù)是幫助大家提高工作質(zhì)量,被取代的是少數(shù)。 第三代人工智能的三空間模型 ![]() 我們?nèi)绾稳グl(fā)展這個理論呢?這是我們提出的一個想法,過去文本在一個空間里處理,圖像語音又在另一個空間里處理,這兩個空間不聯(lián)系?,F(xiàn)在我們有了大模型,組成了中間的空間,把整個感知、認知這一套連起來,為發(fā)展人工智能的理論提供了非常好的條件。 人工智能是探索“無人區(qū)”,我常常說人工智能的魅力就在于它永遠在路上。我們不能因為它的進展而過于樂觀,也不能因為它的挫折而沮喪,而是需要堅持不懈地努力。我就說這些,謝謝大家。 ![]() ![]() ![]() 本次講壇通過人民日報客戶端、新華網(wǎng)、央視頻、中新網(wǎng)、中國教育新聞網(wǎng)、澎湃新聞、騰訊新聞、搜狐教育、鳳凰網(wǎng)、百度新聞、知乎知學(xué)堂、清華大學(xué)出版社、虎嗅、長安街讀書會、中國出版?zhèn)髅缴虉?、抖音、B站、今日頭條、西瓜視頻、微博、快手、小紅書、視頻號等媒體和平臺在線同步直播。 “人文清華”講壇是清華大學(xué)發(fā)起的大型思想傳播活動,推動建設(shè)更創(chuàng)新、更國際、更人文的清華新百年。講壇定期邀請優(yōu)秀人文學(xué)者,在標志性建筑新清華學(xué)堂發(fā)表公眾演講,闡述其經(jīng)典學(xué)說、獨特思考和重大發(fā)現(xiàn)。 |
|