2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

OpenAI機器人活了!說話做事太像人,2分半視頻震撼世界

 九彩飛翔 2024-03-17 發(fā)布于重慶

圖片

圖片

OpenAI機器人來了,說話竟然會“結巴”,AI負責人深度拆解背后技術。
作者 |  云鵬
編輯 |  李水青
OpenAI大模型加持,Figure機器人再次顛覆了我們的想象!

圖片

▲測試員說自己餓了,問Figure 01有什么能吃的,Figure 01準確地理解蘋果是可食用的并精準遞送了過去

智東西3月14日消息,昨晚機器人明星創(chuàng)企Figure發(fā)布了一段2分35秒的視頻。視頻中,Figure 01可以輕松完成很多高難度動作:
描述自己眼前看到了什么;
判斷自己眼前看到的這些東西相互之間有什么關聯;
給饑餓的測試員找到桌子上唯一能吃的蘋果并精準遞送過去;
進行“回憶”,并對自己做過的事情給出評價;
用簡單易懂的話語口頭解釋自己做事的緣由,比如為什么覺得自己做的好?
這背后,Figure 01用上了OpenAI的大模型能力。
整個過程中,Figure 01的動作非常流暢自然,對人類語言的理解以及背后含義也能充分Get到,同時很多語言、動作上的細節(jié)跟人類非常相似,它甚至還會“結巴”!簡直令人驚掉下巴。

圖片

▲測試員提問說,你覺得你剛才做的怎么樣,Figure 01對自己之前的行為進行了評價并說明原因

Figure的AI技術負責人Corey Lynch對該演示進行了深入技術拆解。Corey Lynch特別強調說,這一切都是機器人自己學習并完成的,沒有任何人為操控,而且是標準的“1倍速”。

圖片

▲Corey Lynch發(fā)文進行技術拆解

Figure創(chuàng)始人發(fā)文稱,OpenAI提供了視覺推理和語言理解能力,而Figure的神經網絡則負責實現快速、靈敏的機器人動作。

圖片

▲Figure創(chuàng)始人Brett Adcock發(fā)文

今年2月24日,Figure剛剛宣布獲得了6.75億美元(折合約48.58億人民幣)高額融資,估值達到26億美元(折合約187.12億人民幣),一舉躍升獨角獸。其投資方包括微軟、OpenAI、英偉達、英特爾,陣容十分亮眼。

圖片

▲Figure宣布融資信息

當天,Figure還提前官宣了與OpenAI、微軟達成合作,稱其將與OpenAI合作開發(fā)下一代人形機器人AI模型,利用微軟云進行AI基礎設施構建、訓練等。Figure透露,他們將通過與OpenAI的合作繼續(xù)突破AI學習的邊界。OpenAI當時也轉發(fā)了Figure的推文稱,OpenAI正在與Figure合作,將其多模態(tài)模型擴展到機器人的感知、推理和交互中。
今天的視頻,顯然是Figure與OpenAI合作的階段性成果展示。毫無疑問,機器人與大模型的結合,又向前邁了一步。
當然,Figure還不忘在評論區(qū)放上了自己的招聘鏈接,呼吁更多有志之士加入自己。

圖片

▲Figure發(fā)布招聘信息

推薦智東西年度會議。4月18-19日,2024中國生成式AI大會將在北京舉行。同期設有具身智能技術研討會,優(yōu)必選和科大訊飛的人形機器人專家領銜。免費報名或購票通道開放中,期待你的參會~

01.
短短2分半視頻細節(jié)多到炸裂,
Figure的機器人太逼真了!
視頻中,Figure 01機器人可以理解人的提問并對眼前物體進行識別和理解。
比如測試員問Figure 01眼前有什么,Figure 01可以準確說出桌子上有一個蘋果放在盤子中央、有一個裝有杯子和盤子的晾碗架,還有測試員正站在桌子旁,一個手放在了桌子上。

圖片

緊接著測試員問它我能吃點什么,Figure 01在思考過后會快速準確地抓取盤子中的蘋果交給測試員。
Figure 01在拿蘋果的過程中還不忘“倒個手”,將蘋果從右手遞到左手,再通過左手遞給測試員,其動作非常流暢,也非常符合人類做事的習慣:從距離更近的一邊把物體送過去。

圖片

測試員隨后讓Figure 01一邊整理桌子上的垃圾,一邊回答剛才為什么要這么做。
Figure 01馬上開始將垃圾撿入籃子里,并在撿的過程中說,因為蘋果是桌子上唯一能吃的東西,所以我把蘋果給了你。

圖片

Figure 01在整理垃圾的過程中,機器人手臂和手掌的動作非常靈活自然,拿放垃圾的動作較為流暢,并且在整理完成后,還不忘貼心地把籃子往前推了一小下。

圖片

這“一小下”,卻讓我們感到十足的真實感。它似乎不僅知道如何完成任務,還知道任務完成后的目的是什么:完成后交給測試員。但實際上,測試員起初并沒有在語言中提到整理后“遞給他”這件事。
接下來,測試員問Figure 01,基于你現在看到的場景,你覺得你面前的這些餐具一會兒會到哪去?
Figure 01在思考后回答說,桌上的餐具,包括盤子和杯子,很可能會進到晾碗架里。這里我們能看到,Figure 01是可以理解面前的杯子、盤子與晾碗架之間的關系的。

圖片

測試員緊接著說,那你能把它們放進去嗎?Figure 01在回答可以后,就把面前的一個杯子和一個盤子放到了晾碗架里。

圖片

▲把杯子放到晾碗架里

圖片

▲把盤子放到晾碗架里

在放入的過程中,Figure 01知道杯子要倒扣著放進晾碗架,這個要求測試員完全沒有說,同時Figure 01在放入盤子的時候知道要將盤子卡在晾碗架的槽子里,這一點測試員同樣沒有提到。

圖片

可以看到,Figure 01不僅可以理解測試員的要求并執(zhí)行,同時它對于執(zhí)行過程中操作的物體以及周邊環(huán)境是有理解的,它可以自己理解杯子和盤子要如何放進晾碗架里。
測試員隨后問它,你覺得你做的怎么樣?
Figure 01思考后回答說它覺得自己做的很好,它說,蘋果有了新主人、垃圾不見了、桌上的東西也歸位了。

圖片

測試員回復它說,我同意,謝謝你Figure 01。Figure 01回答說,不客氣,如果還有什么需要幫忙的,跟我說就好。
值得一提的是,Figure 01的回復話語一開始竟然“結巴”了一下:“I……I think……?!边@簡直過于真實了,好像它真的在思考自己該如何回答并有一些“猶豫”,說話的語氣與真人十分類似。
同時,Figure 01能夠理解測試員話語中“你做的”中到底包含哪些事,包括它自己之前做的遞送蘋果、整理垃圾、收拾杯盤。這一點無疑是更難得的。
隨后在視頻說明中,Figure提到Figure 01的一些特性,包括充分學習、動作迅速、可執(zhí)行靈巧操作。

02.
AI技術負責人深度拆解實現原理:
多個大模型參與,
流暢雙手動作如何實現?
Figure的創(chuàng)始人在X平臺發(fā)文稱,這是在端到端的神經網絡上實現的人機對話,OpenAI提供的是視覺推理和語言理解能力,Figure的神經網絡則負責實現快速、底層級(low-level)、靈敏的機器人動作。
視頻中的測試員實際上是Figure的AI技術負責人Corey Lynch,他也是前谷歌DeepMind科學家。
他提到,Figure的機器人目前可以描述自己的視覺經歷、計劃未來的行動、進行記憶回溯、口頭解釋自己的行為原因。
隨后,Corey Lynch對視頻內容進行了進一步技術拆解。以下是他技術拆解的全文:
Figure 01所有的行為都是學習得來的(而非遙控操作的),并以正常的速度(1倍速)運行。
我們將機器人攝像頭的圖像和機載麥克風捕獲的語音轉錄文本輸入到一個由OpenAI訓練的大型多模態(tài)模型中,該模型會理解圖像和文本。
該模型會處理整個對話的歷史記錄,包括過去的圖像,以產生語言響應,這些響應通過文本到語音模型被人類聽到。同一個模型負責決定在機器人上運行哪個學習到的閉環(huán)行為以完成給定的命令,將特定的神經網絡權重加載到GPU并執(zhí)行策略。

圖片

將Figure 01連接到一個大型預訓練的多模態(tài)模型,賦予了它一些有趣的新能力?,F在,Figure 01+ OpenAI可以:
1、描述它的周圍環(huán)境。
2、在做決策時使用常識推理。例如,“桌子上的那個盤子和杯子可能接下來會放到晾碗架上”。
3、將模糊的、高級別的請求,如“我餓了”,轉化為一些符合上下文的行為,如“把蘋果遞給這個人”。
4、用簡單的英語描述為什么它執(zhí)行了特定的動作。例如,“這是我能從桌子上提供給你的唯一可食用的物品”。
一個理解對話歷史的大型預訓練模型賦予了Figure 01強大的短期記憶。
考慮一下這個問題,“你能把它們放在那里嗎?”“它們”指的是什么,而“那里”又在哪里?正確回答需要反思記憶的能力。
有了一個預訓練模型分析對話的圖像和文本歷史,Figure 01很快就形成并執(zhí)行了一個計劃:
1)把杯子放在晾碗架上。
2)把盤子放在晾碗架上。
最后,讓我們談談學習得來的低層級的(learned low-level)雙手操作。
所有的行為都由神經網絡視覺運動變換策略驅動,將像素直接映射到動作。這些網絡以10Hz的頻率接收機載圖像,并以200Hz的頻率生成24自由度的動作(手腕姿態(tài)和手指關節(jié)角度)。這些動作作為高速率的'設定點',供更高速率的全身控制器跟蹤。這是一個有用的關注點分離:
1、互聯網預訓練模型通過對圖像和文本進行常識推理,提出高級計劃。
2、學習到的視覺運動策略執(zhí)行計劃,執(zhí)行難以手動指定的快速反應行為,比如在任何位置操作可變形的袋子。
3、同時,全身控制器確保安全穩(wěn)定的動態(tài)。例如,保持平衡。
最后,Corey Lynch發(fā)表了自己的一些感受:
即使在幾年前,我也會認為和一個能規(guī)劃和執(zhí)行自己的全學習行為的類人機器人(a humanoid robot while it plans and carries out its own fully learned behaviors)進行完整的對話是我們可能需要等待幾十年才能看到的事情。顯然,很多事情已經改變了。
在我看來,Figure現在是全世界將具身智能(embodied AI)規(guī)模化擴展最好的地方。

圖片


03.
結語:AI大模型與機器人融合,
加速具身智能技術迭代
在Figure發(fā)布的最新視頻中,我們可以看到Figure的人形機器人與OpenAI大模型能力結合,完成了此前許多難以完成的“高難度動作”,機器人與人類的人機交互效果,再次向前迭代。
未來隨著AI大模型與機器人更加深度的結合,機器人真正走向更廣泛的商用、走向千家萬戶的進度也將提速,具身智能必將成為未來AI產業(yè)中的一條關鍵賽道。

(本文系網易新聞·網易號特色內容激勵計劃簽約賬號【智東西】原創(chuàng)內容,未經賬號授權,禁止隨意轉載。)

2024年中國生成式AI大會預告


    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多