【億邦原創(chuàng)】閆俊杰走路微縮著肩,語(yǔ)氣非常溫和,面對(duì)太多人時(shí)忍不住緊張。有員工覺(jué)得,外界之所以認(rèn)為MiniMax低調(diào)神秘,主要因?yàn)槔习迨莍人,“光是在今天的活動(dòng)上做個(gè)演講,就緊張好久?!?/p> 有人形容閆俊杰是“掃地僧”,不顯山不露水,但手上都是真功夫。他語(yǔ)速略快,氣息輕而軟,不會(huì)正襟危坐下判斷,也沒(méi)有鏗鏘有力的精英范兒,但行業(yè)里沒(méi)人忽視閆俊杰的看法。 ![]() 這得益于他先于行業(yè)作出MOE架構(gòu)的判斷。去年年中,行業(yè)共識(shí)還是Dense(稠密)模型時(shí),閆俊杰已經(jīng)判斷出Dense瓶頸,拿出全公司80%的可用資源,耗時(shí)6個(gè)月,經(jīng)歷兩次失敗,研發(fā)MOE架構(gòu),并在今年1月推出國(guó)內(nèi)第一個(gè)MOE(混合專(zhuān)家系統(tǒng))架構(gòu)大模型的abab6.5。 效果立竿見(jiàn)影,“我們用的MOE模型,取得了比Dense模型快3~5倍的速度,這也是為什么我們的模型每天能處理幾十億次交互,正是因?yàn)樗銐蚩?,響?yīng)時(shí)間足夠低,才能得到廣泛部署。” 產(chǎn)品調(diào)用量也一馬當(dāng)先。當(dāng)下,MiniMax產(chǎn)品每天與全球用戶(hù)發(fā)生30億次交互,生成超過(guò)3萬(wàn)億的文本Token、2000萬(wàn)張圖、7萬(wàn)小時(shí)語(yǔ)音。 ![]() MiniMax身處一個(gè)巨頭林立、全球競(jìng)速、前路未知的行業(yè),既有激動(dòng)人心的愿景指引,也有盲人摸象的無(wú)處著力,但閆俊杰的決策思路看起來(lái)簡(jiǎn)單清晰: 他認(rèn)為現(xiàn)階段的主要任務(wù)還是模型層能力的提升?!斑^(guò)去兩年發(fā)生了很多次,當(dāng)模型能力有較大提升時(shí),用戶(hù)的使用場(chǎng)景和使用深度隨之顯著提升。反之當(dāng)模型遭遇一些事故,當(dāng)天用戶(hù)對(duì)話(huà)量下降了40%?!?/p> 他認(rèn)為創(chuàng)業(yè)公司要想獨(dú)立發(fā)展只有一條路:在技術(shù)快速進(jìn)化的窗口關(guān)閉前,做出用戶(hù)量巨大的 2C 產(chǎn)品,所以格外關(guān)注AI滲透率和使用時(shí)長(zhǎng)的提升。 他總結(jié)方法有三:持續(xù)降低模型的錯(cuò)誤率;提供無(wú)限長(zhǎng)的輸入與輸出;多模態(tài)。三種方法背后的核心還是技術(shù)進(jìn)步,產(chǎn)品效果是技術(shù)進(jìn)步的體現(xiàn)。 MiniMax做了好幾次重大的底層技術(shù)變革,他只透露了Linear Attention(線(xiàn)性注意力)這個(gè)方向。MOE(混合專(zhuān)家系統(tǒng))+Linear Attention(線(xiàn)性注意力)讓MiniMax大模型的訓(xùn)練與反饋?zhàn)兊酶?,在與GPT-4o同一代模型能力對(duì)比上,新一代模型處理10萬(wàn)token時(shí),效率可提升2-3倍,長(zhǎng)度越長(zhǎng),提升越明顯。 對(duì)于大模型迭代放緩及外界唱衰的現(xiàn)狀,他認(rèn)為大模型發(fā)展的下一個(gè)轉(zhuǎn)折點(diǎn),不是發(fā)布了哪些新模型,而是哪一個(gè)模型可以把錯(cuò)誤率降低到個(gè)位數(shù)。“如果Scaling law是對(duì)的,這個(gè)模型一定會(huì)出現(xiàn),標(biāo)志就是錯(cuò)誤率降為個(gè)位數(shù)。好幾家公司都具備這些能力,沒(méi)道理訓(xùn)不出一個(gè)更好的模型。只是不知道什么原因,還沒(méi)有人把它真正發(fā)布出來(lái)?!?/strong> 從事技術(shù)研發(fā)是一件很奢侈的事,閆俊杰每次看賬單都會(huì)很心疼。但從讀書(shū)到工作、到創(chuàng)業(yè)的十幾年間,他對(duì)技術(shù)的理解慢慢變得非常簡(jiǎn)單。他認(rèn)為技術(shù),特別是研發(fā)投入很大的技術(shù),追求的不應(yīng)該是10%的提升,而是數(shù)倍變化的提升。“如果一個(gè)技術(shù)只有10%的提升,那這個(gè)技術(shù)可能是眾多工作中的一個(gè),你不做也會(huì)有人開(kāi)源出來(lái)。只有帶來(lái)幾倍變化,對(duì)滿(mǎn)足用戶(hù)需求很重要,外面又沒(méi)有,這才值得我們投入,這樣的東西才比較核心?!?/p> 會(huì)后,MiniMax創(chuàng)始人閆俊杰(花名IO)、MiniMax國(guó)際業(yè)務(wù)總經(jīng)理盛靜遠(yuǎn)、MiniMax技術(shù)總監(jiān)韓景濤和包括億邦動(dòng)力在內(nèi)的媒體交流對(duì)話(huà),在對(duì)話(huà)中,他回答了對(duì)Character.AI被收購(gòu)看法,展望了陪伴類(lèi)AI的發(fā)展前景,給出了對(duì)行業(yè)趨勢(shì)、路徑及轉(zhuǎn)折點(diǎn)的判斷。對(duì)話(huà)內(nèi)容經(jīng)億邦動(dòng)力編輯整理: 1、“如果Scaling law是對(duì)的,沒(méi)道理訓(xùn)不出一個(gè)更好的模型。” 提問(wèn):如何看待今年AI產(chǎn)品的大力投流? 閆俊杰:核心要看企業(yè)要什么——如果企業(yè)認(rèn)為Query重要,就應(yīng)該無(wú)限投流;如果認(rèn)為Query量跟模型效果之間是對(duì)數(shù)關(guān)系,不是線(xiàn)性關(guān)系,價(jià)值就沒(méi)那么大;如果認(rèn)為商業(yè)化重要,只要產(chǎn)品能轉(zhuǎn)正就應(yīng)該無(wú)限投流;如果認(rèn)為商業(yè)化,就應(yīng)該考慮ROI。 這里面的核心不是投流本身,而是一家公司要的那個(gè)東西到底是什么。這個(gè)東西我覺(jué)得不同的公司有不同的判斷。 提問(wèn):如何看待Character.AI被收購(gòu),以及陪伴類(lèi)AI的發(fā)展前景? 閆俊杰:解釋一件事,星野的底層設(shè)計(jì)其實(shí)不是陪伴用戶(hù)聊天,而是一個(gè)內(nèi)容社區(qū)。這里面有用戶(hù)創(chuàng)建的角色,也有用戶(hù)創(chuàng)建的故事、創(chuàng)建的世界觀(guān)。另一些用戶(hù)可以根據(jù)創(chuàng)造的世界觀(guān)進(jìn)行互動(dòng),很像小說(shuō)這樣的交互體驗(yàn)。所以我們的核心是內(nèi)容社區(qū),而不是陪人聊天,這是非常fundamental的不一樣。 對(duì)用戶(hù)來(lái)說(shuō),星野希望做到個(gè)性化,并且你在這個(gè)產(chǎn)品中得到的體驗(yàn)不完全來(lái)自模型,也來(lái)自另外一些用戶(hù)的創(chuàng)作。 我們認(rèn)為對(duì)內(nèi)容社區(qū)的產(chǎn)品來(lái)說(shuō),用戶(hù)得到的輸出來(lái)自模型+數(shù)據(jù),而這些數(shù)據(jù)主要是另外一些用戶(hù)的創(chuàng)作,這是一個(gè)比較核心的區(qū)別。中國(guó)公司還是比較容易做好產(chǎn)品,并且在技術(shù)上的提升速度也更快。 關(guān)于Character.AI被收購(gòu),我認(rèn)為這是一個(gè)比較好的結(jié)局,似乎每個(gè)人在里面都得到了好處。 提問(wèn):今年很多模型和AI產(chǎn)品都變成了期貨,技術(shù)迭代速度放緩,什么時(shí)候什么條件下,大模型會(huì)度過(guò)瓶頸期,開(kāi)始一下輪上升? 閆俊杰:我們對(duì)技術(shù)發(fā)展方向還是很堅(jiān)定的。比如我們今天更新了視頻模型,實(shí)際上兩個(gè)月前我就知道今天可以發(fā)這個(gè)視頻模型,雖然那時(shí)候還沒(méi)有做出來(lái),但根據(jù)那時(shí)的實(shí)驗(yàn)結(jié)果已經(jīng)能夠預(yù)測(cè)。語(yǔ)言模型也是一樣的。 下一輪模型上升的一個(gè)核心標(biāo)志,可能不是GPT4、GPT-4o這些產(chǎn)品,也不是Claude3、Claude3.5 sonnet,也不是MOE。真正重要的是,什么時(shí)間點(diǎn)有一個(gè)模型可以把錯(cuò)誤率降低到個(gè)位數(shù)。現(xiàn)在所有模型的錯(cuò)誤率都是兩位數(shù),錯(cuò)誤率降低到個(gè)位數(shù),這是一個(gè)本質(zhì)變化。 為什么?這意味著首先模型有了一個(gè)數(shù)量級(jí)的提升,其次這讓很多復(fù)雜任務(wù)從不可做變成可做。 復(fù)雜任務(wù)需要多步驟,多步驟之間是乘的關(guān)系。這就是為什么現(xiàn)在沒(méi)有Agent可以應(yīng)用,因?yàn)樵匠苏_率越低,沒(méi)法支持非常靈活的Agent。 這不是因?yàn)锳gent框架寫(xiě)得不夠好,而是因?yàn)槟P捅旧聿粔蚝?,這是根本原因。 什么時(shí)間點(diǎn)會(huì)出來(lái)一個(gè)錯(cuò)誤率能夠降低10倍的模型? 首先現(xiàn)在顯然起來(lái)沒(méi)有的,至少?zèng)]有公開(kāi)的。但是我們可以看到,現(xiàn)在每家公司有了更多算力,Open AI和谷歌的算力比他們剛做出GPT4時(shí)多了不止4倍。算法也在進(jìn)步,Open AI在同樣水平的情況下,2023年只能做出GPT4,現(xiàn)在能做GPT-4o,性能差不多,速度快了可能10倍,這意味著算法進(jìn)步了。 計(jì)算量多了10倍,算法也快了10倍,好幾家公司都具備這些能力,沒(méi)道理訓(xùn)不出來(lái)一個(gè)更好的模型。 我的判斷是,如果Scaling law是對(duì)的話(huà),這個(gè)模型一定會(huì)出現(xiàn),標(biāo)志就是錯(cuò)誤率是個(gè)位數(shù),只是不知道什么原因,還沒(méi)有人把它真正發(fā)布出來(lái)。 美國(guó)公司怎么做的,我不完全知道,我能看到的事情是,基于兩個(gè)假設(shè):首先,大部分中國(guó)公司還是比美國(guó)公司落后。其次,我們能看到自己的進(jìn)展。假定按照我們現(xiàn)在的技術(shù)進(jìn)展,再加上國(guó)外的技術(shù)資源,肯定能做出更好的模型,這個(gè)我是可以來(lái)判斷的。 2、“為了更高的用戶(hù)覆蓋度和使用深度,唯一的辦法是多模態(tài)?!?/strong> 提問(wèn):今年視頻生成賽道非常激烈,MiniMax為什么要做視頻生成,對(duì)你們整個(gè)布局來(lái)說(shuō)有什么必要性? 閆俊杰:我們一直以來(lái)的目標(biāo)就是要做動(dòng)態(tài)輸出,這也是為什么我們的聲音模型做得很好,音樂(lè)模型也非常好。今天我們把視頻模型也做得非常好。 為什么干這么一件事?因?yàn)槲覀冇幸粋€(gè)基本認(rèn)知,這人類(lèi)社會(huì)中,大模型的核心價(jià)值是做更好的信息處理,而大部分的信息體現(xiàn)在多模態(tài)的內(nèi)容里,而不是文字上,文字知識(shí)里面最精華的那么一小部分。 為了能夠有非常高的用戶(hù)覆蓋度和使用深度,唯一的辦法是多模態(tài),輸出動(dòng)態(tài)內(nèi)容而不是只輸出文字內(nèi)容,這是一個(gè)非常核心的判斷。 所以我們先做文字,又做聲音,還做了圖片,現(xiàn)在把視頻也做出來(lái)。這個(gè)路線(xiàn)是一以貫之的,一定要能夠做多模態(tài)。 提問(wèn):挑戰(zhàn)和難點(diǎn)在哪兒? 閆俊杰:首先這件事本身挺難的,因?yàn)橐曨l的復(fù)雜度比文本更高,context天然很長(zhǎng)。比如一個(gè)視頻是千萬(wàn)的輸入和輸出,天然就很難處理。 其次,視頻和文本需要的基礎(chǔ)設(shè)施不同。比如一個(gè)5秒的視頻有幾兆,但5秒看到的文字可能不到1K,這是幾千倍的存儲(chǔ)差距。這里面的挑戰(zhàn)在于,之前基于文本建的這套底層基礎(chǔ)設(shè)施,清洗數(shù)據(jù)、標(biāo)注數(shù)據(jù)、處理數(shù)據(jù)的方法,對(duì)視頻上都不太適用。這意味著基礎(chǔ)設(shè)施也需要升級(jí)。 還有一個(gè)是耐心,做文字有很多開(kāi)源的東西,做視頻沒(méi)有太多開(kāi)源的東西,很多東西越來(lái)越需要重新來(lái)做,需要付出的耐心也更大。 提問(wèn):MiniMax怎么去解決技術(shù)迭代過(guò)程中遇到的數(shù)據(jù)問(wèn)題。 閆俊杰:數(shù)據(jù)方面,中國(guó)還是有比較好的措施,上海這邊就有一個(gè)千分之料的公司,他們有很多非常高質(zhì)量的數(shù)據(jù),可以開(kāi)放給技術(shù)的公司使用,這些數(shù)據(jù)完全沒(méi)有版權(quán)問(wèn)題,對(duì)創(chuàng)業(yè)公司幫助非常大。 我們自己也會(huì)采購(gòu)第三方數(shù)據(jù)。還有一點(diǎn)不知道該怎么判斷,海外很多人質(zhì)疑Open AI是不是使用了其他數(shù)據(jù),這似乎是一個(gè)沒(méi)有明確定義的模糊地帶。對(duì)我們來(lái)說(shuō),我們會(huì)盡可能地用這種比較符合版權(quán)的數(shù)據(jù)。 3、“技術(shù)研發(fā)是很奢侈的一件事,每次看賬單都會(huì)很心疼。” 提問(wèn):您演講時(shí)說(shuō)自己花了兩年時(shí)間才意識(shí)到技術(shù)是最核心的要素,這中間經(jīng)歷了怎樣的注意力漂移? 閆俊杰:我們一直都覺(jué)得技術(shù)重要,但覺(jué)得它重要,跟覺(jué)得它100%重要,中間其實(shí)需要一個(gè)過(guò)程。 做技術(shù)是一件非常奢侈的事,因?yàn)榧夹g(shù)具有不可預(yù)測(cè)性,而且研發(fā)投入很大,看一眼我們每個(gè)月的賬單,我還是會(huì)非常心疼。 當(dāng)一個(gè)東西很奢侈的時(shí)候,很多時(shí)候你會(huì)想要不要走點(diǎn)捷徑?比如說(shuō)不做技術(shù)了,先把產(chǎn)品提升好怎么樣。再比如一個(gè)東西要實(shí)驗(yàn)三次才能成功,第三次實(shí)驗(yàn)成功的時(shí)候,你又在想前面兩次是不是可以不用做。 但我們的實(shí)踐經(jīng)驗(yàn)證明,走捷徑就會(huì)被打臉。這個(gè)事也發(fā)生好多次了,至少在我這兒類(lèi)似的錯(cuò)誤都超過(guò)十次了。本來(lái)我們一開(kāi)始一致認(rèn)為技術(shù)重要度是70%,打臉一次,升到75%,再打臉一次,升到80%,就這么一個(gè)提升過(guò)程,直到現(xiàn)在。 當(dāng)然這都是一些負(fù)反饋,也有正反饋的時(shí)候,當(dāng)你真的把一些關(guān)鍵技術(shù)突破之后,能非常明顯地感受到用戶(hù)和客戶(hù)對(duì)你的認(rèn)可。 不管正反饋還是負(fù)反饋來(lái)看,最終發(fā)現(xiàn)都是技術(shù),我還是比較慶幸自己一直是一個(gè)做技術(shù)的人。 提問(wèn):您此前介紹將80%的算力和資源放到MOE上,未來(lái)的大模型研發(fā)還會(huì)保持這樣的水準(zhǔn)嗎? 閆俊杰:從讀書(shū),到工作,到創(chuàng)業(yè),我對(duì)技術(shù)的理解慢慢變得非常簡(jiǎn)單。技術(shù)這件事,特別是研發(fā)投入很大的技術(shù),追求的不應(yīng)該是10%的提升。如果一個(gè)技術(shù)的提升只有10%,那這個(gè)技術(shù)可能是眾多工作中的一個(gè),你不做也會(huì)有人開(kāi)源出來(lái)。 一家像我們這樣的創(chuàng)業(yè)公司,真正應(yīng)該花錢(qián)做的研發(fā)是那種能帶來(lái)幾倍變化的技術(shù),這種東西很多時(shí)候如果我們不做,外面也沒(méi)有,對(duì)滿(mǎn)足用戶(hù)的需求又很重要,我們只能自己來(lái)做,這樣的東西才比較核心。 不管我們現(xiàn)在還是再往后看,我們?cè)谑裁礃拥募夹g(shù)方向上最愿意花錢(qián),核心的判斷是我們認(rèn)為這個(gè)方向做出來(lái)能不能帶來(lái)幾倍的變化。如果能,不管多難都要做出來(lái)。如果不滿(mǎn)足這個(gè)標(biāo)準(zhǔn),不管多簡(jiǎn)單我們都不應(yīng)該做。 提問(wèn):您此前比行業(yè)更早做出MOE方向的判斷,這次決定Linear attention這個(gè)方向,這個(gè)決策是怎么做出來(lái)的?這次預(yù)判和實(shí)踐對(duì)MiniMax發(fā)展來(lái)說(shuō)有哪些意義? 閆俊杰:原因是我們發(fā)現(xiàn)模型輸入的長(zhǎng)度很重要,韓總來(lái)說(shuō)一下。 韓景濤:長(zhǎng)度為什么重要,我們還是比較堅(jiān)信Scaling law。 Scale可以理解為是一種多個(gè)維度的縮放,很多人會(huì)簡(jiǎn)單認(rèn)為參數(shù)量越來(lái)越大是一種Scale。還有一個(gè)緯度,就是支持的長(zhǎng)度也是可以Scale的。 原理上我們相信Scaling law不管是有點(diǎn)慢有點(diǎn)快,這幾年肯定還是對(duì)的,并且能趕上預(yù)測(cè)的曲線(xiàn)。 Scale除了參數(shù)量、數(shù)據(jù)量、計(jì)算量以外,context lenght也是非常重要的一環(huán),原理上我們相信這個(gè)一定得做好。 傳統(tǒng)的Transformer相當(dāng)于是一個(gè)N方復(fù)雜度的self attention計(jì)算,如果一定要是N方的話(huà),永遠(yuǎn)不可能Scale得特別長(zhǎng),8K或者10ktoken的上文,大概就達(dá)到這一代硬件技術(shù)的瓶頸。 我們想做得更大,不管是原理還是實(shí)際應(yīng)用上,肯定要Scale更長(zhǎng)。比如星野這樣的聊天機(jī)器,用戶(hù)跟它聊天,肯定不希望星野只能記住最近8000字的內(nèi)容,這對(duì)用戶(hù)體驗(yàn)的損傷很大。如果能Scale到8萬(wàn)字、80萬(wàn)字、800萬(wàn)字,肯定能做出更不一樣的產(chǎn)品。 在Scale的實(shí)踐中,我們產(chǎn)品摸索發(fā)現(xiàn)有一個(gè)長(zhǎng)的記憶、長(zhǎng)的context length非常重要,也非常實(shí)用,我們就開(kāi)始探索。 如果一直用之前的舊算法,ON方一會(huì)限制我們的Scale,那我們會(huì)探索極端一點(diǎn),看能不能找一個(gè)ON的。因?yàn)镺N Scale性天然很好,計(jì)算復(fù)雜度非常低,尤其是上文越長(zhǎng)優(yōu)勢(shì)越明顯,這樣我們進(jìn)行了一些調(diào)研,看了一下前沿的工作和我們自己做一些探索創(chuàng)新。 我們發(fā)現(xiàn)把Linear attention做好非常重要,而且我們也找到了這一個(gè)點(diǎn),一開(kāi)始遇到很多工程瓶頸,但是研究到現(xiàn)在,我們對(duì)Linear attention的駕馭到了一個(gè)可以用的狀態(tài)。 閆俊杰:總結(jié)起來(lái),核心還是快,不管是做MOE還是Linear attention,還是其他探索,本質(zhì)是讓同樣效果的模型變得更快,這是我們認(rèn)為的本質(zhì)。 就像剛剛說(shuō)的,快意味著同樣的算力可以做得更好,這個(gè)是我們底層的研發(fā)思路。除了Linear attention、MOE,還有一些其他有價(jià)值的事,我們也在探索。 |
|