張文宇：DeepSeek從“彎道超車”到“換道超車”

昵稱UZWbF 2025-02-07 發(fā)布于海南

展開全文

浙江財(cái)經(jīng)大學(xué)供圖

這個春節(jié)的喜慶，相當(dāng)一部分是DeepSeek給的。杭州深度求索人工智能（AI）基礎(chǔ)技術(shù)研究有限公司（DeepSeek）作為2025年春節(jié)的“王炸”，其發(fā)布的大語言基座模型DeepSeek-V3與推理模型DeepSeek-R1，不久前在中國地區(qū)與美國地區(qū)應(yīng)用商店App下載排行榜折桂，也使得微軟、英偉達(dá)、亞馬遜、英特爾等科技巨頭爭相上線DeepSeek模型服務(wù)，這震撼了全世界AI領(lǐng)域與金融領(lǐng)域，更是讓國人揚(yáng)眉吐氣過了個大年?；叵肫鹪?023年的春節(jié)前不久，美國大語言模型ChatGPT狂飆登臺，而當(dāng)時我國卻還沒有推出可商用的國產(chǎn)AI大模型；在2024年春節(jié)期間，美國多模態(tài)大模型Sora橫空出世，雖然當(dāng)時國產(chǎn)大模型已處于跟跑階段，但仍然讓國人為中美之間的AI差距捏一把汗，甚至擔(dān)憂中美之間的AI差距越來越大。

DeepSeek的橫空出世，讓國產(chǎn)大模型從跟跑國際頂尖大模型的階段一舉躍升至與國際頂尖大模型的并跑階段，我們從中又能得到哪些啟示？

從“技術(shù)跟跑”到“技術(shù)并跑”

當(dāng)美國Open AI公司于2022年11月份推出ChatGPT時，美國在大模型領(lǐng)域處于明顯優(yōu)勢地位。由于當(dāng)時的中國還沒有可商用的國產(chǎn)大模型，中文互聯(lián)網(wǎng)上一片驚呼“狼來了”。但事實(shí)上，中國的部分高科技企業(yè)與學(xué)術(shù)界已經(jīng)跟跑美國大模型數(shù)年了，只是尚未推出商用版而已。到了2023年3月份開始，國產(chǎn)大模型開始像下水餃似地紛紛推向市場。不過，早期的國產(chǎn)大模型與國際頂尖大模型水平相較還是有一到兩個技術(shù)代差。好多人測試早期的國產(chǎn)大模型時還鬧出了不少笑話。例如讓它畫一個胸有成竹的男人，竟畫出了身上插滿了竹子的男人。早期的個別國產(chǎn)AI大模型雖然幼稚了些，但其敢于亮劍的精神，依然值得尊敬。

經(jīng)過數(shù)年的技術(shù)跟跑階段，中國DeepSeek大模型一經(jīng)推出即登C位。簡單來看，DeepSeek-R1在數(shù)學(xué)、代碼、自然語言對話等任務(wù)上的性能，都可以比肩OpenAI GPT-o1，實(shí)現(xiàn)了與國際頂尖大模型的技術(shù)并跑。其最核心的優(yōu)勢在于對人工智能三要素（數(shù)據(jù)、算力、算法）等進(jìn)行了系統(tǒng)級協(xié)同創(chuàng)新與工程優(yōu)化。例如：在數(shù)據(jù)方面，與OpenAI“海量數(shù)據(jù)投喂”的方式不同，DeepSeek把數(shù)據(jù)進(jìn)行總結(jié)和分類，經(jīng)過選擇性處理之后，輸送給大模型，提高了訓(xùn)練效率。在算力方面，與OpenAI“算力大氣粗”的方式不同，DeepSeek對低配版GPU集群（甚至多源異構(gòu)算力）進(jìn)行智能管理，打破了“大力才能出奇跡”的算力魔咒。在算法方面，與OpenAI打造“全能大模型”的方式不同，DeepSeek進(jìn)行了基于群智協(xié)同的系統(tǒng)工程優(yōu)化，主要包括混合專家模型、負(fù)載均衡、多頭潛在注意力機(jī)制、大小模型協(xié)同、強(qiáng)化學(xué)習(xí)推理，以及諸如FP8混合精度和負(fù)載均衡、通信優(yōu)化、內(nèi)存優(yōu)化、計(jì)算優(yōu)化等工程優(yōu)化方法。

DeepSeek-R1的輸出價格為2.19美元/百萬Token，相對于GPT-o1的60美元/百萬Token，價格下降了近30倍。

從“彎道超車”到“換道超車”

DeepSeek的大膽創(chuàng)新震撼了全世界的AI領(lǐng)域與金融領(lǐng)域，不少人驚呼：中國大模型一夜之間實(shí)現(xiàn)了對美國的彎道超車。但科技領(lǐng)域的創(chuàng)新不可能一蹴而就或輕易實(shí)現(xiàn)彎道超車的，而是需要長期的孵化后才能厚積薄發(fā)。DeepSeek是2023年7月份才成立公司，表面上讓人感覺是短時間內(nèi)實(shí)現(xiàn)了對OpenAI的彎道超車。但早在2008年起，DeepSeek創(chuàng)始人梁文峰便開始帶領(lǐng)團(tuán)隊(duì)研發(fā)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)探索全自動量化交易，這意味著團(tuán)隊(duì)在深度學(xué)習(xí)領(lǐng)域已經(jīng)深耕16載了。

DeepSeek成立公司后，當(dāng)時的國際背景是OpenAI剛在2024年2月15日推出Sora之后，又于2024年5月14日又推出了可實(shí)時進(jìn)行音頻、視覺和文本推理的升級大模型GPT-4o。“o”代表“omni”，代表“全能”。這使得中美AI大模型競爭局勢進(jìn)一步升級。當(dāng)時，國產(chǎn)大模型與國際頂尖大模型確實(shí)存在著技術(shù)上的代差。但是，若在“卷算力”賽道上盲目跟跑美國、進(jìn)而實(shí)現(xiàn)“彎道超車”并不明智。以2016年的人機(jī)圍棋大賽為例，表面上是英國DeepMind公司出品的AlphaGo以4：1贏了韓國9段棋手李世石。但是，當(dāng)時訓(xùn)練AlphaGo花費(fèi)了40天，需要耗費(fèi)算力、電力合計(jì)約3500萬美元，且每下一局還要耗費(fèi)約3000美元，而李世石下一盤棋只花費(fèi)了2碗米飯?？梢娫谫Y源受限的情況下實(shí)際是人類贏了。因此，通用人工智能AGI的發(fā)展方向應(yīng)該借鑒人類大腦的進(jìn)化路徑。

于是，DeepSeek不懼個別國家發(fā)起的“芯片禁令”和構(gòu)筑的“小院高墻”，開始在算力資源受限下另辟蹊徑，通過對人工智能三要素（數(shù)據(jù)、算力、算法）等進(jìn)行了一系列的系統(tǒng)級協(xié)同創(chuàng)新與工程優(yōu)化，并選擇向全世界開源，這無疑走出了與OpenAI等國外公司不同的技術(shù)路線，可謂是一個“筋斗云”實(shí)現(xiàn)了“換道超車”。與其說DeepSeek在性價比上超越了OpenAI，更準(zhǔn)確的表達(dá)應(yīng)該是在國際大模型賽道又做了新一輪的迭代，這也是DeepSeek對大模型進(jìn)行開源的初衷。

從“差距越來越大”到“差距越來越小”

當(dāng)美國Open AI公司于2024年2月15日推出Sora時，正值中國正月初六。由于Sora在視頻生成能力上一騎絕塵，遠(yuǎn)超當(dāng)時國產(chǎn)的多模態(tài)大模型，使得中文互聯(lián)網(wǎng)上一片驚呼“連個年都沒有過好，難道中美之間的AI差距進(jìn)一步拉大了”。但自從DeepSeep這匹黑馬通過“小米加步槍戰(zhàn)勝飛機(jī)大炮”的方法殺出算力圍堵的重圍后，有人又覺得中國AI已經(jīng)完全突破了“芯片禁令”和 “小院高墻”，甚至已經(jīng)遙遙領(lǐng)先美國了。

Meta創(chuàng)始人兼CEO扎克伯格表示：“DeepSeek非常先進(jìn)，中美之間的AI差距已經(jīng)非常小”。斯坦福大學(xué)計(jì)算機(jī)科學(xué)系客座教授吳恩達(dá)力挺DeepSeek：“中國在生成式 AI 領(lǐng)域正趕超美國”。確實(shí)，DeepSeek縮短了中美之間的AI差距，但遠(yuǎn)遠(yuǎn)達(dá)不到中國AI已經(jīng)遙遙領(lǐng)先。無論是唱衰中國AI水平還是“捧殺”中國AI水平，兩者都不可取。

AI產(chǎn)業(yè)分基礎(chǔ)層、技術(shù)層、應(yīng)用層。我國在AI應(yīng)用層處于國際領(lǐng)跑，在AI技術(shù)層處于國際并跑，在AI基礎(chǔ)層處于國際跟跑。無論是OpenAI還是DeepSeek，它們都基于美國谷歌公司在2017年提出的Transformer架構(gòu)，不屬于從0到1的顛覆性基礎(chǔ)理論創(chuàng)新，皆屬于從1到100的大規(guī)模工程整合創(chuàng)新。DeepSeek的創(chuàng)新更是包含了一種從架構(gòu)設(shè)計(jì)到工程優(yōu)化全流程的系統(tǒng)級技術(shù)突破與技術(shù)創(chuàng)新。

我國在AI基礎(chǔ)層目前尚處于國際跟跑，主要原因包括：（1）雖然我國的數(shù)據(jù)總量超過美國的數(shù)據(jù)總量幾十倍，但我國高質(zhì)量的數(shù)據(jù)量不足；（2）我國的算力總量不小，僅略低于美國，但高端智能算力缺口很大；（3）雖然我國的AI工程師與AI創(chuàng)業(yè)者總量全球第一，但我國頂尖AI科學(xué)家數(shù)量還不足。未來AGI賽道的核心競爭力更會來自于基礎(chǔ)層的大數(shù)據(jù)、大算力與強(qiáng)算法。我國在AI基礎(chǔ)層與國際先進(jìn)水平的差距當(dāng)然會影響中國版AGI的性能。因此，要改變這個局面，中國科技人才、包括青年學(xué)生需要在基礎(chǔ)研究、特別是從0到1的創(chuàng)新上有更多的定力、花更大的功夫。以后，中美之間在AGI賽道上你追我趕會是常態(tài)，中國不會永遠(yuǎn)是跟跑，也常常會領(lǐng)跑，但目前還遠(yuǎn)遠(yuǎn)談不上遙遙領(lǐng)先。

當(dāng)機(jī)器越來越像人，人要更像人

在AGI成為大趨勢、新質(zhì)生產(chǎn)力成為熱詞的背景下，AI作為激發(fā)新質(zhì)生產(chǎn)力的重要力量，帶來的是巨大的“AI+X”人才需求缺口。但培養(yǎng)適應(yīng)AGI時代的人才，常常面臨學(xué)科跨界與人機(jī)跨界的雙重挑戰(zhàn)。這樣的跨界不僅僅是人機(jī)物的三元融合，更是思維、認(rèn)知和組織結(jié)構(gòu)的跨越。隨著弱AI向AGI邁進(jìn)，可謂是人類為機(jī)器打開了籠子。然而，部分學(xué)生還在采取上一代人的學(xué)習(xí)方法，花費(fèi)大量時間對知識點(diǎn)進(jìn)行反復(fù)地死記硬背，提高自己的重復(fù)腦力勞動能力，這簡直是把自己關(guān)進(jìn)了刷題的籠子啊。但是，人的腦算力能快得過云計(jì)算嗎？人的腦容量能趕得上大數(shù)據(jù)嗎？不管人類的重復(fù)腦力勞動能力有多厲害，在機(jī)器面前都是小兒科。過于大量刷題就像現(xiàn)在的士兵花費(fèi)大量時間去耍大刀一樣毫無意義。

在工業(yè)文明時代大顯身手的愛迪生有句名言：“天才來自1%的靈感和99%的汗水”。但隨著ChatGPT敲開了AGI大門后，99%的搬磚汗水將會逐漸被機(jī)器所取代，只有那1%的人類靈感是不容易被機(jī)器取代的。因此，在讀書階段，年輕學(xué)子要用基于自主學(xué)習(xí)的創(chuàng)新汗水去灌溉那1%的人類靈感——蘊(yùn)含著人類意識與人性光輝的基礎(chǔ)創(chuàng)新、平臺創(chuàng)新、內(nèi)容創(chuàng)新、模式創(chuàng)新以及文理商工跨學(xué)科融合創(chuàng)新能力，提升自己的人機(jī)協(xié)同能力、并鶴立機(jī)群。當(dāng)機(jī)器越來越想人，人要更像人。

目前，浙江大學(xué)、復(fù)旦大學(xué)、浙江財(cái)經(jīng)大學(xué)等高校已將人工智能作為全校大學(xué)生通識必修課程，并且推出了“AI+X”微專業(yè)，以進(jìn)一步加強(qiáng)人工智能通識教育和交叉學(xué)科教育。浙江省多地的大中小學(xué)AI教育一體化建設(shè)也已經(jīng)得以有利推進(jìn)。例如，在浙江財(cái)經(jīng)大學(xué)的支持下，杭州市青少年科技教育協(xié)會發(fā)起了“以AI為愛，溫暖起跑線”行動，為廣大中小學(xué)生推出了一系列的AI公益講座、AI玩樂會、AIGC實(shí)操等活動，這啟迪了廣大青少年的創(chuàng)新能力和AI應(yīng)用實(shí)踐能力，并共同探尋“人機(jī)共智”的“青春路徑”。

（張文宇：浙江財(cái)經(jīng)大學(xué)盈陽金融科技學(xué)院院長、浙江財(cái)經(jīng)大學(xué)人工智能研究院院長、二級教授、博士生導(dǎo)師）

“轉(zhuǎn)載請注明出處”

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：昵稱UZWbF > 《IT數(shù)碼AI電腦手機(jī)》

舉報(bào)/認(rèn)領(lǐng)