今天凌晨,OpenAI突然放大招,推出新款人工智能模型GPT-4o。「o」代表著「omni」(全能),GPT-4o改寫(xiě)了大模型交互定義,可以實(shí)時(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理,語(yǔ)音響應(yīng)時(shí)間短至232毫秒,與人類(lèi)的反應(yīng)速度接近。語(yǔ)音對(duì)話中,GPT-4o的節(jié)奏、語(yǔ)氣甚至接梗,與真人無(wú)異。新智元稱(chēng):“這一夜,OpenAI要改變歷史?!?/span> “看完發(fā)布會(huì)的觀眾們,久久未從巨大的震驚中走出……從今夜之后,人機(jī)交互徹底進(jìn)入新的時(shí)代!” 作 者 | 新智元編輯部 本文轉(zhuǎn)載自“新智元”,混沌君略有刪改 ![]() ![]() 一夜顛覆語(yǔ)音助手:全新旗艦GPT-4o登場(chǎng) 當(dāng)然,這次發(fā)布會(huì)的壓軸主角,就是OpenAI推出的旗艦?zāi)P虶PT-4o了。 這個(gè)帶著光環(huán)登場(chǎng)的模型,其最大意義就在于,把GPT-4級(jí)別的智能,帶給了OpenAI的每一位用戶! 從此以后,無(wú)論你是付費(fèi)用戶,還是免費(fèi)用戶,都能通過(guò)它體驗(yàn)GPT-4了。 唯一不同的是,ChatGPT Plus的消息限制是免費(fèi)用戶的5倍。 并且,GPT-4o不僅提供與GPT-4同等程度的模型能力,推理速度還更快,還能提供同時(shí)理解文本、圖像、音頻等內(nèi)容的多模態(tài)能力。 注意,GPT-4o接下來(lái)要放大招了。 實(shí)時(shí)語(yǔ)音對(duì)話:ChatGPT完美變身Moss研發(fā)負(fù)責(zé)人Mark Chen首先展示的,是全新ChatGPT的關(guān)鍵功能之一——實(shí)時(shí)語(yǔ)音對(duì)話。 他向它問(wèn)道:「我正在臺(tái)上,給大家做現(xiàn)場(chǎng)演示呢,我有點(diǎn)緊張,該怎么辦呀?」 ChatGPT非常體貼地表示:「你在臺(tái)上做演示嗎,那你真的太棒了!深呼吸一下吧,記得你是個(gè)專(zhuān)家!」 Mark瘋狂地大喘氣幾次,問(wèn)ChatGPT能給自己什么建議嗎。(此處全場(chǎng)笑聲) 它驚訝地說(shuō)道:「放松啊Mark,慢點(diǎn)呼吸,你可不是個(gè)吸塵器!」(它的幽默感,也再次引起全場(chǎng)哄笑) ![]() 注意,在這個(gè)過(guò)程中,ChatGPT和Mark的互動(dòng)幾乎無(wú)延遲,隨時(shí)接梗,共情能力滿分。 而且,模型能夠理解人類(lèi)在對(duì)話中適時(shí)「打斷」的習(xí)慣,會(huì)及時(shí)停下來(lái)聽(tīng)你說(shuō)話,并給出相應(yīng)的回復(fù),而且也不會(huì)「斷片」。 比如,Mark表示自己要再試一遍深呼吸,此時(shí)ChatGPT也恰到好處地插進(jìn)來(lái)接話說(shuō)「慢慢呼氣」。 整個(gè)過(guò)程,自然連貫得仿佛它是個(gè)坐在你對(duì)面的人類(lèi),完全沒(méi)有AI的機(jī)械感和僵硬感! 相比反應(yīng)遲鈍、沒(méi)法打斷還缺少情商的Siri等語(yǔ)音助手,這局ChatGPT完勝。 這,才是人類(lèi)最理想AI語(yǔ)音助手的樣子啊,Moss果然成真了! 不僅如此,ChatGPT的「高情商」也讓觀眾們驚呼太頂了! 對(duì)話中,它可以聽(tīng)懂用戶說(shuō)話時(shí)不同的語(yǔ)調(diào)、語(yǔ)氣,還能根據(jù)自己的臺(tái)詞生成不同語(yǔ)氣的語(yǔ)音,完全沒(méi)有「機(jī)械感」。 扮演不同角色,給任性的人類(lèi)講睡前故事接下來(lái),ChatGPT被要求講一個(gè)睡前故事,主題是「戀愛(ài)中的機(jī)器人」。 ChatGPT沒(méi)講幾秒,就被人類(lèi)粗暴地打斷了:「多點(diǎn)情緒,故事里來(lái)點(diǎn)戲劇性行不?」 ChatGPT表示ok,用更起伏的聲調(diào)、更夸張的語(yǔ)氣開(kāi)始講起了故事。 結(jié)果沒(méi)幾秒,它又被再次打斷:「不行不行,再多點(diǎn)情感,給我最大程度的表達(dá)可以嗎?」 接下來(lái),我們聽(tīng)到一個(gè)仿佛在舞臺(tái)上表演莎劇的ChatGPT,語(yǔ)氣夸張到仿佛是個(gè)戲劇演員。 隨后,它又多次被打斷,并且耐心地按照人類(lèi)的要求,依次變成了機(jī)器人聲和唱歌模式。 ChatGPT聽(tīng)到要求自己唱歌時(shí),甚至嘆了口氣,然后開(kāi)始亮起了優(yōu)美的歌喉。 這也就是ChatGPT脾氣好,要是真人,估計(jì)要被暴打了。不過(guò)它無(wú)奈嘆氣的那個(gè)瞬間,一瞬間的確san值狂掉——真的好像人??! 視頻實(shí)時(shí)互動(dòng)解方程秀完情商,ChatGPT要開(kāi)始秀智商了。 下一個(gè)任務(wù),另一位研發(fā)負(fù)責(zé)人Barret手寫(xiě)了一個(gè)方程,并打開(kāi)攝像頭拍給ChatGPT,讓它扮演「在線導(dǎo)師」的角色幫助自己解題,而且只能給提示,不能直接說(shuō)答案。 接到任務(wù)的ChatGPT,甚至開(kāi)心大叫:「Oops,我好興奮啊!」 小哥在紙上寫(xiě)下這樣一個(gè)方程:3x+1=4。然后問(wèn)ChatGPT自己寫(xiě)的是什么方程,ChatGPT語(yǔ)調(diào)自然地回答出來(lái)了。 隨后,在小哥的要求下,它一步一步說(shuō)出了解題步驟。 最厲害的是,隨著小哥在攝像頭中解題,ChatGPT實(shí)時(shí)地就給出了鼓勵(lì)和引導(dǎo)。 而且可怕的是,時(shí)間上沒(méi)有絲毫延遲,這邊人還在算呢,那邊就實(shí)時(shí)給出了評(píng)價(jià)和反饋。(說(shuō)背后沒(méi)藏個(gè)人還真不信呢) 想起之前谷歌剪輯版的Gemini演示,這對(duì)比之下真是打臉啪啪的啊。 當(dāng)被問(wèn)到「學(xué)習(xí)線性方程在生活中有什么用」這樣的問(wèn)題時(shí),ChatGPT還會(huì)舉出實(shí)際的例子對(duì)你「循循善誘」:
不僅言之有物,而且態(tài)度及其和藹,說(shuō)話說(shuō)到一半被打斷時(shí)都不會(huì)生氣。 方程的任務(wù)告一段落,兩人還現(xiàn)場(chǎng)來(lái)了一波表白——在紙上寫(xiě)下「我 ChatGPT看到后,驚喜又害羞地說(shuō):「哦,你竟然說(shuō)愛(ài)我,你太可愛(ài)了!」 桌面版ChatGPT秒解代碼難題解方程任務(wù)也許還不能充分展現(xiàn)ChatGPT的能力,于是OpenAI又上了一波難度——看代碼,并進(jìn)行簡(jiǎn)短描述。 模型幾乎是立即理解了代碼,并給出了絲滑且完整的描述。 比如準(zhǔn)確對(duì)應(yīng)了函數(shù)名及其功能,并識(shí)別出了其中取平均值、最高值等操作的意圖。 當(dāng)被問(wèn)到「如果沒(méi)有foo這個(gè)函數(shù),繪制的圖表會(huì)是什么樣子」,ChatGPT也立即做出了正確回復(fù),可見(jiàn)已經(jīng)完美理解了代碼中的內(nèi)在邏輯。 接下來(lái),ChatGPT還被要求概述代碼生成的圖表,并回答用戶問(wèn)題。 不出意外,圖表中各方面的關(guān)鍵信息也都被ChatGPT精準(zhǔn)捕捉到了,包括x、y軸的信息與范圍、數(shù)據(jù)標(biāo)注的含義等。 隨后Mark提出的問(wèn)題是「你看到哪個(gè)月的氣溫最高?對(duì)應(yīng)的最高氣溫大概是多少?」 這種能作為學(xué)校數(shù)學(xué)考試題目的圖表理解任務(wù),ChatGPT解決起來(lái)也幾乎沒(méi)有障礙,還能像接受面試一樣實(shí)時(shí)回答你的問(wèn)題。 直播觀眾提問(wèn):給你看看我的自拍模型演示之后,還有彩蛋。 發(fā)布會(huì)在線上同步直播,于是主持人收集了一些推特網(wǎng)友的提問(wèn),并且當(dāng)場(chǎng)展示。 這可以說(shuō)是比演示更加刺激的環(huán)節(jié),在沒(méi)有準(zhǔn)備和彩排的情況下,這可是真刀真槍地檢驗(yàn)?zāi)P蛯?shí)力了。 第一位網(wǎng)友的提問(wèn)是「GPT-4o是否具有實(shí)時(shí)翻譯功能?」 隨后,在Mark的任務(wù)定義下,ChatGPT完成了將英語(yǔ)「同聲傳譯」為意大利語(yǔ)的任務(wù)。 第二位網(wǎng)友的提問(wèn)是「模型可以只通過(guò)我的表情識(shí)別情緒嗎?」 研發(fā)負(fù)責(zé)人Barett也沒(méi)在怕,拿起手機(jī)就照了一張自拍,甩給了ChatGPT,問(wèn)道「我現(xiàn)在是什么情緒呢?」 ChatGPT不知是幽默了一把還是翻車(chē)了,說(shuō)「我好像在看一個(gè)木質(zhì)表面的東西」。 見(jiàn)勢(shì)不好,Barett匆忙打斷。他在提示工程方面也是經(jīng)驗(yàn)頗深,一句話就將對(duì)話拉回正軌:「那是我之前發(fā)給你的的東西,不用擔(dān)心,我不是一張桌子」。 ChatGPT表示,啊,這就對(duì)了嘛。再次引起全場(chǎng)哄笑。這次它給出了非?!溉诵曰沟恼_答案—— 「看起來(lái)你非常開(kāi)心快樂(lè),帶著大大的笑容,可能甚至有一點(diǎn)興奮。無(wú)論正在發(fā)生什么事,似乎你心情很好,愿意分享一下有什么高興事嗎?」 Barett順勢(shì)表示:「我開(kāi)心的原因是我們正在做演示,你的表現(xiàn)很棒。」 受到夸獎(jiǎng)的ChatGPT居然很風(fēng)趣地來(lái)了一句「哦,別說(shuō)了,你都讓我臉紅了」,再次逗笑了全場(chǎng)。 ![]() GPT-4o強(qiáng)在哪兒? 在過(guò)去幾年里,OpenAI一直在專(zhuān)注于提升模型的智能水平。 雖然后者已經(jīng)達(dá)到了一個(gè)相當(dāng)?shù)乃?,但是,今天這是第一次,模型在易用性方面,邁出了一大步! 為什么會(huì)把模型的易用性提到如此戰(zhàn)略層面的高度?這是因?yàn)?,即使一個(gè)AI再?gòu)?qiáng)大,如果它不能和人有效互動(dòng),也就失去了意義。 在這個(gè)過(guò)程中,OpenAI所著眼的,是人類(lèi)和機(jī)器交互的未來(lái)。 而今天GPT-4o的發(fā)布,可能會(huì)成為一個(gè)分水嶺,讓人機(jī)協(xié)作的范式徹底邁入一個(gè)新階段! 為此,OpenAI希望把GPT-4o和人類(lèi)的互動(dòng),打造得格外舒服自然。 不過(guò),雖然這個(gè)理想很宏大,但是在實(shí)際操作過(guò)程中,卻遭遇了不小的困難。 毫秒級(jí)響應(yīng),與人類(lèi)對(duì)話一致首先,在人類(lèi)之間互動(dòng)時(shí),有很多東西是我們認(rèn)為理所當(dāng)然的,但要讓AI理解這些,就變得很困難。 比如,我們的談話經(jīng)常被打斷,談話過(guò)程中會(huì)有背景噪聲,會(huì)有多個(gè)人同時(shí)說(shuō)話的情況,說(shuō)話人的語(yǔ)氣語(yǔ)調(diào)也經(jīng)常發(fā)生微妙的變化。 OpenAI克服了很大困難,花費(fèi)了數(shù)月的時(shí)間,終于打造出了完美適應(yīng)這些狀況的GPT-4o! 在GPT-4o發(fā)布之前,通過(guò)語(yǔ)音模式(Voice Mode)與ChatGPT對(duì)話,平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。 當(dāng)時(shí),為了實(shí)現(xiàn)這一點(diǎn),「語(yǔ)音模式」設(shè)有三個(gè)獨(dú)立模型的管線: - 一個(gè)簡(jiǎn)單模型將音頻轉(zhuǎn)錄成文本 - GPT-3.5或GPT-4接收文本并輸出文本 - 第三個(gè)簡(jiǎn)單模型將文本轉(zhuǎn)換回音頻 這一過(guò)程走下來(lái),意味著主要的智能來(lái)源GPT-4就丟失了很多信息:
而這也導(dǎo)致了延遲,大大破壞了我們和ChatGPT協(xié)作的沉浸感。 但現(xiàn)在,GPT-4o讓一切都發(fā)生得很自然。 它能以平均320毫秒,做出響應(yīng)。 它可以跨越語(yǔ)音、文本、視覺(jué)多種形式,直接進(jìn)行推理! GPT-4o是OpenAI首個(gè)端到端訓(xùn)練的跨越文本、視覺(jué)和音頻的新模型,意味著所有輸入和輸出都由相同的神經(jīng)網(wǎng)絡(luò)處理。 這就會(huì)徹底顛覆ChatGPT 1億用戶的工作和生活。 不僅如此,由于GPT-4o是「原生的多模態(tài)」,自然地集成了語(yǔ)言、視覺(jué)和音頻等多種能力。 用戶可以上傳各種圖片、視頻,以及包含圖片和文字的文檔,討論其中的內(nèi)容。 GPT-4o也內(nèi)置了搜索功能,可以實(shí)時(shí)搜索網(wǎng)頁(yè)信息來(lái)回復(fù)用戶。 相比ChatGPT,GPT-4o的記憶能力更是提升了不少,不僅在對(duì)話中可以記住你提過(guò)的問(wèn)題,還能記住你們之間的所有對(duì)話,提供「連續(xù)感」。 更高級(jí)的是,新版模型還具備了數(shù)據(jù)分析能力,可以理解并分析用戶上傳的數(shù)據(jù)和圖表。 而且,為了真正實(shí)現(xiàn)「讓AGI惠及全人類(lèi)」的愿景,GPT-4o有50種語(yǔ)言的版本,并改進(jìn)了推理的質(zhì)量和速度,這也就意味著,全球97%的人口都可以使用GPT-4o了! GPT-4o刷新SOTA,擊敗「開(kāi)源GPT-4」還免費(fèi)用GPT-4o的具體性能表現(xiàn)如何? 接下來(lái)的圖表中,可以看到,OpenAI對(duì)此前所有堪稱(chēng)超越GPT-4版本的模型,做出了統(tǒng)一回應(yīng):
在傳統(tǒng)基準(zhǔn)測(cè)試中,GPT-4o在文本、推理和編碼智能方面,達(dá)到了GPT-4 Turbo級(jí)別的性能,同時(shí)在多語(yǔ)言、音頻和視覺(jué)能力方面創(chuàng)下了新高。 如下是,在文本評(píng)估中,GPT-4o幾乎碾壓一眾模型,包括Claude 3 Opus,Gemini Pro 1.5,甚至是「開(kāi)源版GPT-4」Llama 3 400B。 GPT-4o在零樣本的COT MMLU(常識(shí)問(wèn)題)上創(chuàng)造了88.7%的新高分。 與傳統(tǒng)的5個(gè)樣本,沒(méi)有使用COT的MMLU評(píng)測(cè)中,GPT-4o更是創(chuàng)下了87.2%的新高分! 不過(guò)在DROP中,GPT-4o的表現(xiàn)稍落后于GPT-4 Turbo。 在音頻ASR表現(xiàn)上,比起Whisper-v3 ,GPT-4o顯著提高了所有語(yǔ)言的語(yǔ)音識(shí)別性能,尤其是對(duì)資源較少的語(yǔ)言。 音頻翻譯能力,GPT-4o刷新SOTA,并在MLS基準(zhǔn)上超過(guò)了Whisper-v3。 另外,OpenAI團(tuán)隊(duì)還對(duì)最新模型GPT-4o在M3Exam基準(zhǔn)上進(jìn)行了測(cè)試。 這是一種多語(yǔ)言和視覺(jué)評(píng)估基準(zhǔn),由來(lái)自其他國(guó)家標(biāo)準(zhǔn)化測(cè)試的多項(xiàng)選擇題組成,有時(shí)還包括數(shù)字和圖表。 結(jié)果如下表所示,在所有語(yǔ)言的測(cè)試中,GPT-4o都比GPT-4強(qiáng)。 (在此,省略了Swahili和Javanese兩種語(yǔ)言的視覺(jué)結(jié)果,因?yàn)檫@些語(yǔ)言只有5個(gè)或更少的視覺(jué)問(wèn)題。) 最后,在視覺(jué)理解基準(zhǔn)EVALS評(píng)估上,GPT-4o也取得了領(lǐng)先的性能。 同樣,擊敗了GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro,以及Claude 3 Opus。 ChatGPT免費(fèi)用戶,可以訪問(wèn)的功能OpenAI官博還介紹了,ChatGPT免費(fèi)用戶可以訪問(wèn)新模型加持下的功能,包括: - 體驗(yàn)GPT-4級(jí)別的智能 - 從聯(lián)網(wǎng)后的模型得到響應(yīng) - 分析數(shù)據(jù)并創(chuàng)建圖表 - 暢聊你拍的照片 - 上傳文件以幫助總結(jié)、撰寫(xiě)或分析 - 發(fā)現(xiàn)和使用GPTs和GPT Store - 用記憶構(gòu)建更有用的體驗(yàn) 比如,你拍一張照片發(fā)給ChatGPT,然后問(wèn)「這個(gè)食物的營(yíng)養(yǎng)價(jià)值是什么」? ChatGPT瞬間做出響應(yīng),解釋了牛角包的營(yíng)養(yǎng)價(jià)值。 免費(fèi)用戶還可以體驗(yàn)到聯(lián)網(wǎng)搜索的快樂(lè)。(當(dāng)然是最新最強(qiáng)模型) 另外,免費(fèi)福利還包括,在GPT商店中使用模型。 API速度飆升2倍,再打骨折此外,讓開(kāi)發(fā)者興奮的是,GPT-4o不僅應(yīng)用在ChatGPT服務(wù)中,模型的API也被同步放出,可以部署各種下游應(yīng)用程序上。 同時(shí),API的性能也有所改進(jìn),據(jù)說(shuō)相比GPT-4 Turbo,推理速度提升2倍,消息限制提高五倍,而且價(jià)格還會(huì)降低50%。 ChatGPT桌面版也來(lái)了 正如Murati一出場(chǎng)開(kāi)宗明義的:對(duì)OpenAI來(lái)說(shuō),打造一款真正讓所有人可用的產(chǎn)品,非常之重要。 為了讓每個(gè)人無(wú)論身在何處,都能隨時(shí)用上ChatGPT,OpenAI發(fā)布了ChatGPT的桌面版本。 它擁有桌面應(yīng)用程序,和全新的用戶界面,可以很輕易地和我們的工作流融為一體。 只需一個(gè)簡(jiǎn)單的快捷鍵——Option+空格鍵,就可以立即召喚桌面版ChatGPT。 甚至,你也可以直接在應(yīng)用程序中截圖,并進(jìn)行提問(wèn)。 然后,讓其幫你總結(jié)所截取的網(wǎng)頁(yè)內(nèi)容——「將其總結(jié)成5個(gè)主題,并列出行動(dòng)計(jì)劃」。 接下來(lái),ChatGPT一通炫技,嗖嗖嗖地解決了提出的問(wèn)題。 你甚至,可以從你的電腦上直接與ChatGPT進(jìn)行語(yǔ)音對(duì)話,點(diǎn)擊桌面應(yīng)用程序右下角的耳機(jī)圖標(biāo),便可開(kāi)始。 ![]() 神秘gpt2就是GPT-4o! 幾天前,大模型LMSYS競(jìng)技場(chǎng)上,一個(gè)名為gpt2神秘模型突然現(xiàn)身,其性能甚至超越了GPT-4。 全網(wǎng)紛紛猜測(cè),這個(gè)模型,可能就是GPT-4.5/GPT-5。 就連Altman本人多次發(fā)貼,暗示gpt2的強(qiáng)大能力—— 如今,gpt2的身份,真的解密了。 OpenAI研究科學(xué)家William Fedus剛剛發(fā)文, 一直在測(cè)試的版本「im-also-a-good-gpt2-chatbot」就是GPT-4o。 以下是它一直以來(lái)的表現(xiàn)。 im-also-a-good-gpt2-chatbot總ELO得分,超過(guò)了最新的gpt4-turbo-2024-04-09。 但ELO最終得分,會(huì)受到「提示」難度的限制(即無(wú)法在類(lèi)似「你好嗎」這種簡(jiǎn)單提示上取得任意高的勝率)。 OpenAI團(tuán)隊(duì)發(fā)現(xiàn),在更難的提示集合上——尤其是編程方面——存在更大的差距: 而GPT-4o在我們此前的最佳模型上,ELO甚至可以提高100分。 最關(guān)鍵的是,GPT-4o不僅是全世界最好的模型,甚至可以在ChatGPT中免費(fèi)用。 另一邊,LMSYS發(fā)布了最新的gpt2-chatbots結(jié)果,已經(jīng)躍升至大模型競(jìng)技場(chǎng)榜首! 奧特曼對(duì)此大贊,「令人驚嘆的工作」! OpenAI聯(lián)創(chuàng)Greg Brockman表示,「初步的指標(biāo)看起來(lái)很有前景」。 接下來(lái),就看明天谷歌I/O大會(huì)上的表現(xiàn)了。 |
|
來(lái)自: DOICT觀察者 > 《DICT軟件技術(shù)服務(wù)》