去年火山引擎大會(huì)上,豆包團(tuán)隊(duì)展示一項(xiàng)功能: 用攝像頭對(duì)準(zhǔn)一個(gè)物體提問,AI能實(shí)時(shí)作答。當(dāng)時(shí)看完演示視頻,我有一個(gè)念頭:如果做成了,AI 真的「長(zhǎng)」眼睛了。 但這類技術(shù)從演示到落地,需要時(shí)間。畢竟,理解真實(shí)世界的視覺信息,遠(yuǎn)比生成文字或圖像復(fù)雜得多;過去大半年我一直關(guān)注進(jìn)展,直到上周六,終于上線了:視頻通話功能。 多數(shù)人把它當(dāng)作新奇玩意兒,用來(lái)玩梗、搞笑。我認(rèn)為,這是一個(gè)技術(shù)拐點(diǎn),它會(huì)在商業(yè)世界里引發(fā)一系列新的想象。 可以先思考一個(gè)問題:視覺理解跟傳統(tǒng)的圖像識(shí)別,有什么本質(zhì)不同?可能有三點(diǎn)關(guān)鍵差異。 首先,技術(shù)從“標(biāo)簽化”走向“語(yǔ)義化”。 以前圖像識(shí)別,是一個(gè)巨型分類器。你給它一張圖,它能告訴你這是貓、那是蘋果,僅此而已,它的邏輯,靠大量打標(biāo)簽的數(shù)據(jù)訓(xùn)練出來(lái)的。 看到某種像素組合,就知道對(duì)應(yīng)哪個(gè)對(duì)象,但它不理解貓為什么會(huì)在這兒,也不知道蘋果放在廚房和實(shí)驗(yàn)室意味著什么。 語(yǔ)義化不一樣。當(dāng)看到一張“貓?zhí)稍谏嘲l(fā)上的照片”,AI要識(shí)別出貓和沙發(fā)這兩個(gè)元素,還要理解「躺著」的狀態(tài)、「沙發(fā)」這個(gè)環(huán)境,甚至推測(cè)這是一個(gè)安靜的家庭場(chǎng)景:貓?jiān)谛菹?,家里沒人打擾。 它開始解析背后的“故事”,進(jìn)行推理和常識(shí)判斷。這種能力怎么實(shí)現(xiàn)的呢? 表面上看,是多模態(tài)大模型的突破。傳統(tǒng)圖像識(shí)別只能處理圖像,是單模態(tài)系統(tǒng)。豆包這次的能力,是建立在一個(gè)既能看懂圖像、又能理解語(yǔ)言的大模型之上。 這意味著 AI 不僅能看到,還能調(diào)用知識(shí)庫(kù),把畫面翻譯成語(yǔ)言,再進(jìn)一步分析思考。但這還不是全部,它還有兩個(gè)關(guān)鍵能力:實(shí)時(shí)交互和上下文理解。 傳統(tǒng)圖片、拍照對(duì)話,三四輪就結(jié)束了,豆包是實(shí)時(shí)的、連續(xù)的、可追問的。你可以一邊對(duì)著畫面提問,一邊不斷深入,聊到你煩了為止,這對(duì)用戶體驗(yàn)來(lái)說(shuō),是個(gè)質(zhì)的飛躍。 第三點(diǎn)最值得關(guān)注:它已經(jīng)顯現(xiàn)出「具身智能」的雛形。 什么叫具身智能?簡(jiǎn)單講,AI 沒有實(shí)體,但可以通過攝像頭感知外部世界,并作出反應(yīng)。 它不再是那種被動(dòng)等你下指令的工具,而是一個(gè)能看、會(huì)想、還能回應(yīng)的智能體——把圖像、語(yǔ)言和邏輯整合在一起,開始具備類似人類的感知能力。 所以我說(shuō),這種對(duì)真實(shí)世界的“感知”能力,是 AI 走向更高階智能形態(tài)的關(guān)鍵一步。 讓AI看到東西,還能回答問題,聽起來(lái)像開掛,背后卻藏著一堆技術(shù)難題。什么難題呢? 講技術(shù),太干巴了,跟你講個(gè)故事: 你生過孩子嗎?生過,更好;沒有,也不要緊張。至少見過剛出生的嬰兒吧,他一睜眼,世界就在面前了,哇哇的哭,看起來(lái)特別可愛。 不過,他能「看見」,卻什么都「不懂」;你指著一個(gè)杯子說(shuō):這是杯子。他眨眨眼,腦子里壓根沒建立起聲音、圖像和意義之間的聯(lián)系。 AI也是一樣。它不是不會(huì)看,而是看得見但看不懂。豆包這次上線的能力,不是加了個(gè)攝像頭讓它多認(rèn)幾個(gè)字,是讓它完成了一次真正的「認(rèn)知成長(zhǎng)」。 就像嬰兒一樣,AI也得一步步來(lái),第一步:先學(xué)會(huì)「眼睛和耳朵對(duì)得上」,把「看到的畫面」和「聽到的語(yǔ)言」真正連接起來(lái)。 它看到一張圖里有人在笑,你問它:他在干嘛?它識(shí)別出「嘴巴張開了」后,還得知道「張開嘴巴+眼角彎彎=笑」,然后才能說(shuō):他在笑。 所以,這跟嬰兒第一次聽到「笑」這個(gè)詞,再看到大人笑的樣子一樣,慢慢把信號(hào)對(duì)在一起。 對(duì)在一起,然后呢?還得反應(yīng)快,還要會(huì)想。 要知道,我們不是來(lái)看AI做作業(yè)的,是來(lái)問問題的。你不可能等它慢慢分析完再來(lái)回答你;它得一邊看,一邊聽,一邊想,三件事同步進(jìn)行,而且還要說(shuō)得準(zhǔn)。 好像那個(gè)長(zhǎng)大的孩子,你指著一個(gè)東西問他:這是啥?;他不用翻字典,就能立刻告訴你答案,甚至還能補(bǔ)一句:我記得上次你也用過它。 有了反應(yīng)還不夠,還要能猜出來(lái)。怎么猜? 現(xiàn)實(shí)世界哪有什么標(biāo)準(zhǔn)答案?拍一張照片,光線暗、角度怪、遮擋多,AI得在這種混亂中找出線索。你還可以指著一個(gè)它沒學(xué)過的工具問:“這是干啥用的?” 這時(shí)候,它不能只會(huì)說(shuō)“我不認(rèn)識(shí)”,得靠自己推理出一個(gè)合理的答案。 孩子長(zhǎng)大了,你帶他去工地,他沒見過某個(gè)零件,但他能根據(jù)它的形狀、位置、顏色,猜出它可能是用來(lái)擰螺絲的。這才是真正的「看懂」。 所以,長(zhǎng)眼睛和開天眼,不一樣;一個(gè)是具備某個(gè)能力,一個(gè)是把看、聽、說(shuō)串聯(lián)在一起。它像人一樣,經(jīng)歷從「看得到」到「看得懂」的成長(zhǎng)過程,這一層一層的認(rèn)知升級(jí),才有機(jī)會(huì)理解人類的世界。 既然AI能「看懂」物理世界,那麻煩來(lái)了。比如:會(huì)不會(huì)改變熟悉的行業(yè)?又會(huì)催生哪些新的商業(yè)模式? 說(shuō)點(diǎn)近距離的。辦公場(chǎng)景中,很多人面對(duì)屏幕時(shí),除了看文字、圖表、設(shè)計(jì)圖、還有代碼界面等等。 當(dāng)你看到一段K線圖搞不懂時(shí),只要共享一下屏幕,AI能幫你分析走勢(shì),告訴你是漲還是跌;再比如寫文章卡殼了,靈感沒了,怎么辦?拿出手機(jī)對(duì)著屏幕一拍,AI能根據(jù)你寫的內(nèi)容提供建議。 這種能力,會(huì)催生一種新服務(wù)模式:我把它叫做「屏幕即服務(wù)」。 當(dāng)然,未來(lái)真正值得關(guān)注的是教育、醫(yī)療這兩個(gè)對(duì)“理解”要求很高的行業(yè)。 你想,孩子做題時(shí)突然卡住了,問誰(shuí)呢?以后,他可以直接指著題目說(shuō):幫我看看這道題怎么解?AI能一邊看題,一邊聽問題,然后,用語(yǔ)音告訴你思路。 那醫(yī)生呢? 以前看CT片要花很多時(shí)間,醫(yī)生找角度,反復(fù)對(duì)比。以后是不是只要拿手機(jī)一拍,AI能立刻告訴你有沒有異常?有沒有結(jié)節(jié)?有沒有早期跡象?效率提升的不只是幾倍,而是幾十倍。 再來(lái)看零售。 現(xiàn)在購(gòu)物體驗(yàn),最多是拍照搜同款。未來(lái),你打開攝像頭,對(duì)準(zhǔn)感興趣的商品,馬上知道這是什么品牌、多少錢、評(píng)價(jià)怎么樣,甚至直接跳轉(zhuǎn)購(gòu)買鏈接。 走在大街上,看到櫥窗里的衣服,朋友戴的首飾,雜志上的推薦單品;只要對(duì)著它們一拍,信息立馬浮現(xiàn)出來(lái),這不是科幻,是正在發(fā)生的現(xiàn)實(shí)。 而且,這種能力還會(huì)催生一個(gè)新的趨勢(shì):即時(shí)興趣到即時(shí)購(gòu)買;用戶從“感興趣”到“下單”,中間不再需要復(fù)雜的流程,決策路徑被大大縮短了。 再進(jìn)一步,智能導(dǎo)購(gòu)、門店運(yùn)營(yíng)也會(huì)發(fā)生根本性變化。 想象一下,未來(lái)的門店里裝上了AI攝像頭,它能實(shí)時(shí)觀察顧客的行為:他在哪個(gè)商品前停留了多久?對(duì)哪類首飾特別關(guān)注?有沒有反復(fù)回頭看?有沒有皺眉、猶豫? 這些細(xì)節(jié),AI都能捕捉到,并據(jù)此判斷顧客的興趣偏好;同時(shí),商家也能通過AI視覺分析客流熱點(diǎn)、動(dòng)線軌跡、商品陳列效果,從而不斷優(yōu)化門店布局和服務(wù)策略。 再來(lái)看看制造業(yè)。 過去很多工廠靠人工巡檢,靠經(jīng)驗(yàn)判斷良品率。但人眼總有盲區(qū),疲勞也會(huì)影響判斷;未來(lái),AI攝像頭可以自動(dòng)監(jiān)控生產(chǎn)線,識(shí)別表面瑕疵、零件錯(cuò)位、顏色偏差等問題。 這樣不僅能看得更細(xì),還能記得更多,形成數(shù)據(jù)反饋閉環(huán),幫助工廠實(shí)現(xiàn)真正的智能化管理。 除了這些,還有很多我沒想到的場(chǎng)景。可以說(shuō),這項(xiàng)能力帶來(lái)感知世界方式的一次躍遷。它讓我們重新思考:該如何與世界交互?又該如何在此基礎(chǔ)上創(chuàng)造新的商業(yè)價(jià)值? 來(lái)勢(shì)洶洶的豆包,會(huì)不會(huì)卷到阿里、騰訊、百度? 肯定會(huì)。 背后站著字節(jié),這家公司在理解用戶需求、打造爆款產(chǎn)品、快速迭代的能力上,毋庸置疑; 作為它的AI旗艦應(yīng)用,天然具備兩個(gè)關(guān)鍵優(yōu)勢(shì):一能快速獲取海量用戶的反饋數(shù)據(jù);二有「用戶工廠」的基因,擅長(zhǎng)用數(shù)據(jù)驅(qū)動(dòng)產(chǎn)品創(chuàng)新。 所以你看,現(xiàn)在“天眼”雖然裝在豆包里,但以后未必只出現(xiàn)在這一個(gè)產(chǎn)品上;它可能很快會(huì)被復(fù)制到抖音、甚至投資的其他項(xiàng)目里,比如:AI眼鏡、智能終端等等。 你可以想象一下:只要有一個(gè)設(shè)備能搭載AI視覺能力,它就能「看見」一切;再加上它本身強(qiáng)大的知識(shí)問答能力,這就意味著:AI不再只是個(gè)工具,而是真正走向了「全民助手」的階段。 再來(lái)看看,其他大廠相比,到底有什么不同? 夸克也在做AI視覺相關(guān)的功能,拍照搜題、搜同款商品,目前更像「搜索+AI」的路線;核心優(yōu)勢(shì)是信息檢索能力,擅長(zhǎng)從海量數(shù)據(jù)中快速找到匹配的內(nèi)容,就像一位經(jīng)驗(yàn)豐富的圖書管理員。 豆包是從大模型和多模態(tài)能力切入的,強(qiáng)調(diào)「看懂」畫面背后的含義,還能推理、解釋、互動(dòng);更像一個(gè)「看得見、聽得懂、會(huì)思考」的私人導(dǎo)師。 我認(rèn)為,兩者各有優(yōu)勢(shì),在AI視覺這條賽道上,誰(shuí)也替代不了誰(shuí),形成了良好的互補(bǔ)。 再來(lái)看騰訊元寶。這款產(chǎn)品在上線初期吸引大量用戶關(guān)注,但從公開討論來(lái)看,用戶留存率還有待提升。 一方面,大模型「幻覺」問題還沒有完全解決,影響了實(shí)際使用體驗(yàn);另一方面,當(dāng)前,交互方式還停留在傳統(tǒng)的二維界面操作,缺乏「像人一樣對(duì)話」的智能體式交互。 相比之下,豆包有點(diǎn)「IP角色」的感覺,在桌面端可以隨時(shí)調(diào)用、自由交互。這種體驗(yàn)上的差異,也是影響用戶粘性的重要因素。 對(duì)了,前幾天,我還刷到騰訊張軍的視頻號(hào),他也發(fā)了一條元寶「開天眼」的視頻,我還點(diǎn)了個(gè)贊,相信這一切,也很快要來(lái)了。 至于百度文小言,今年,我也看到它在視頻生成模型上的突破,開源是好事,但實(shí)際APP上,還要更多時(shí)間去打磨,比如:它的視頻通話要拍照才可以識(shí)別。 通義千問APP視頻通話,現(xiàn)在已經(jīng)悄悄增加了一個(gè)「預(yù)約體驗(yàn)」入口,看來(lái)也在摩拳擦掌。 盡管豆包視覺模型來(lái)勢(shì)洶洶,它要真正建立起長(zhǎng)期優(yōu)勢(shì),也不是一蹴而就的事。有兩個(gè)關(guān)鍵點(diǎn)值得持續(xù)關(guān)注: 一,AI再聰明,也離不開高質(zhì)量、多樣化的數(shù)據(jù)喂養(yǎng)。如何在合規(guī)前提下,收集更多有助于多模態(tài)訓(xùn)練的數(shù)據(jù),是所有廠商都面臨的問題。 二,真正的行業(yè)融合 把它作為一個(gè)解題工具,價(jià)值太有限了,要想真正跑贏別人,得把能力嵌入到教育、醫(yī)療、制造等行業(yè)中去,成為行業(yè)變革的一部分。 所以,豆包這次的「開天眼」,意味著AI正在從「被動(dòng)響應(yīng)」走向「主動(dòng)感知」,從「工具走向助手」。 接下來(lái)誰(shuí)能走得更遠(yuǎn),拼的不只是技術(shù),更是數(shù)據(jù)、場(chǎng)景、生態(tài)的全面布局,對(duì)了,還有用戶體驗(yàn)。希望其他巨頭們,盡快跟上這場(chǎng)「視覺革命」。 |
|
來(lái)自: 王智遠(yuǎn)同學(xué) > 《待分類》