特斯拉人形機器人二代來了!手捏雞蛋,深蹲蹦迪,更像真人了
悄無聲息,特斯拉今天突然發佈了全新一代人形機器人 Tesla Optimus Gen 2。
一句話劃重點,和前代相比,Optimus Gen 2 更像人了,主要升級點概括如下:
從馬斯克發佈的視頻中可以看到,Optimus Gen 2 能夠平穩地行走,步行速度比前代快了 30%,同時它還能做一個 90 度左右的蹲下,肢體控制程度相當不錯。
Optimus Gen 2 還升級了全新的手部,11 個自由度的手可以讓它像人手一樣地搖動,動作完成的準確度和流暢度有真人那味了。
Optimus Gen2 的所有手指都具有觸覺感應,能夠靈巧地處理雞蛋等易碎物品,看着像是會做飯的樣子。
在視頻的最後,你還會看到兩個 Optimus Gen 2 隨着音樂的節拍和晃眼的燈光一起手舞足蹈,這也算是特斯拉埋下的小彩蛋。
特斯拉高級工程師表示,視頻中的一切都是真實的,沒有使用 CGI 生成,所以動作都是實時的,沒有加速播放,並盛讚了特斯拉機器人在硬件性能上取得了難以置信的改進。
若他所説的屬實,那特斯拉人形機器人的進化一目瞭然 👇
▲圖片來自@Hanteta_
特斯拉機器人的進化之旅
從特斯拉推出第一台人形機器人開始,不過才短短三年時間,卻迎來了飛速進化。
在 2021 年 8 月 AI Day 上,馬斯克官宣特斯拉人形機器人 Tesla Bot 。這款機器人被設想為高 5 英尺 8 英寸,重 125 磅,具有承載 45 磅和舉起 150 磅等能力,主要是用來執行一些被認為危險、重複和無聊的任務。
但當時,這款機器人還只是幾張「活在」屏幕上的 PPT 概念圖,就連台上跳舞的亮相環節也是由穿着機器人套裝的男人完成。
緊接着到了第二年的 AI Day 2022 大會上,主角截然變換,走到台前的 Optimus Robot(擎天柱機器人)成了當天發佈會的最強主角。
裸露在外的機械結構讓它的顏值顯得有些粗糙,但無論是搬箱子、給植物澆花、還是在超級工廠裏搬磚,演示視頻裏的「擎天柱」能幹的活可真不少。
為這台擎天柱提供能量的不是火種,而一塊容量為 2.3kWh 的電池包,它被充分保護,放置在最核心的身體部位,即為圖中藍色的那一塊。
當時馬斯克稱,擎天柱「非常適合一整天的工作」,它靜坐時的功耗約為 100w,快走時為 500w。可能有人會問快走是多快,大概 2 米每秒。
為了確保擎天柱的靈活性,特斯拉甚至為其設計了 28 個關節,每一個關節裏都有多套執行器,這些執行器能夠在後台分析執行效率,減少無效工作。
特斯拉表示,整台擎天柱擁有 200 多個自由度,而它的手佔了其中的 27 個,由促動機(actuator)驅動,通過視覺系統和算法,擎天柱能夠準確識別手與物體的位置,完成上面提到的澆花、取物的任務。
從邁出第一步到自如地擺出各種姿勢,「擎天柱」花了 5 個月的時間。
到了今年 3 月的特斯拉投資者期間,Optimus 再次迎來了史詩級進化。其中一個亮點是,Optimus 從桌子上拿起了一個機械臂並將其固定到位,另一個 Optimus 則將其固定在仍在組裝的第三個 Optimus 身上,如此敏捷且流暢的任務執行,比最初的能力有了實質性的進步。
當時 Optimus 的動作仍比較僵硬,還不能完成像跑酷一樣的複雜動作,但已經初步展現出獨立短距離行走、搬運物體和使用基本工具等普適性能力。
僅僅半年後,9 月份的 AI Day 上,Optimus 不僅能夠根據顏色對方塊進行分類,還能自信地將雙臂舉在空中,然後在一條腿上擺出瑜伽姿勢,展露出優異的平衡力和協調力。
而現在,如上文所述,栩栩如生的身軀,機敏靈活的手指、流暢輕盈的步態,Optimus Gen 2 在運動和操作能力上更加貼近人類水平。也許再過不久,機動性更強的 Optimus 甚至可以復刻人類「爬、跳、抓、舉」等複雜動作。
當然,按照馬斯克的設想,Optimus 的遠景目標不僅僅是替代人類完成重複勞動、危險操作等任務,而是要成為一款通用服務機器人,融入到家庭、辦公場所和商業場景等更復雜的場景中。
因此,機器人的硬件僅僅只是基石,一個完整的人形智能體,還需要「大腦」級別的軟件和算法賦能。
將 GPT-4 塞入人形機器人會發生什麼?
今年以來,隨着大模型不斷的迭代升級,智能泛化能力的飛速提升,讓人們看到了人形機器人的潛在前景,我們時不時就會看到一些新玩家入局人形機器人賽道。
不謀而合的是,他們都選擇了具身智能這一解題思路。具身智能,顧名思義,指的是一種智能體利用自身的物理身體,通過感知、運動和環境交互來獲取信息、做出判斷並採取行動的智能形式,這也被視作人工智能的終極形態。
它強調身體在認知和行為發生中的關鍵作用。相比純思維型的智能,具身智能更加貼近人類自然智能,它強調身體、行為和環境對認知的重要作用。
一種不太嚴謹的表達是,AI 大模型用作大腦,機器人充當軀殼,AI 大模型套上機器人的殼就是具身智能。
除了上文所説的特斯拉機器人,一個更直觀的案例是,最近東京大學發佈的人形機器人 Alter3 便是首款由 GPT-4 驅動的人形機器人。得益於 GPT-4 的加持,不需要事先編程調教,通過口頭反饋,你就可以讓它自主地做出各種人類動作。
▲ 你不要過來呀
彈奏重金屬音樂、表演自拍、用手投球、扮鬼嚇人,在 GPT-4 智能語言描述的映射下,這些動作都不在話下。
需要説明的是,Alter3 本身無法理解像「抬起手有多高」這樣的細節,因此也就無法改進自己的動作,通過人類的口頭反饋,譬如「自拍時把手抬高一點」,接收到信息的 GPT-4 會將人類發出的指令分解為一連串步驟。
接着這些步驟就會被轉化為控制 Alter3 各個身體部位運動的 Python 代碼,也就是所謂的思維鏈(CoT),然後 Alter3 會把這些改進後的運動編碼存儲下來,形成「運動記憶」。
碰到下次再生成相同的運動時,它就會根據過去的相關經驗推理出如何最優地執行相似的任務,而不是從零開始,這種零樣本學習能力(zero-shot)也是機器人獲得真正智能的關鍵。
更離譜的是,沒有意識的它甚至可以通過 GPT-4 反饋的文本中推斷出適當的情感,並用清晰的動作表達出來,屬實是機器人又一「超綱」的表現。
像我們此前報道過的華為天才少年稚暉君的智元機器人遠征 A1,雷軍的「鐵蛋」也都歸屬於 AI + 機器人的範疇。
在大模型之前,機器人屬於專用設備,如今有了大模型的通用能力,通用機器人開始曙光乍現,正如稚暉君所説的那樣,現在我們不止需要 ChatGPT,還需要 WorkGPT。
這些進化間接印證了一條清晰可見的道路:當 AI 大模型生根發芽之後,總歸是要走進現實世界,而具身智能則是最佳的路徑。
一直活躍在 AI 前線的英偉達創始人黃仁勳曾洞察道:「具身智能將引領下一波人工智能浪潮。」
成熟的 AI 大模型充當人工大腦,模擬了人腦複雜的神經網絡,實現了語言理解、視覺識別、情景推理等認知功能,解決了機器人更高層次的認知和決策問題。
與此同時,各種傳感器、執行器、計算單元被集成到機器人軀體中,實現了對環境的感知和交互。比如視覺系統可以捕捉圖像和視頻,觸覺傳感器可以感受物體的形狀和質地等。
因此,在 AI 大模型與機器人實體深度融合的基礎之上,設想有一日,究極體的 Grok 結合 Optimus,也許能夠模糊虛擬和物理現實的界限,讓智能 AI 徹底走出屏幕,真正融入人類生活社會。
資料來源:愛範兒(ifanr)
一句話劃重點,和前代相比,Optimus Gen 2 更像人了,主要升級點概括如下:
- 特斯拉全新設計的執行器和傳感器,提高執行任務的效率和精準度
- 2-Dof(自由度)驅動的頸部,讓頭部轉動更自由
- 11-Dof 的手部關節,使得手部運動更靈活
- 集成執行器與電子元件和線束,提高整體系統的穩定性
- 步行速度提升 30%,增強環境的適應性
- 引入腳力/扭矩感應,靈活適應地面情況
- 重量減輕 10 千克,機動性更強
從馬斯克發佈的視頻中可以看到,Optimus Gen 2 能夠平穩地行走,步行速度比前代快了 30%,同時它還能做一個 90 度左右的蹲下,肢體控制程度相當不錯。
Optimus Gen 2 還升級了全新的手部,11 個自由度的手可以讓它像人手一樣地搖動,動作完成的準確度和流暢度有真人那味了。
Optimus Gen2 的所有手指都具有觸覺感應,能夠靈巧地處理雞蛋等易碎物品,看着像是會做飯的樣子。
在視頻的最後,你還會看到兩個 Optimus Gen 2 隨着音樂的節拍和晃眼的燈光一起手舞足蹈,這也算是特斯拉埋下的小彩蛋。
特斯拉高級工程師表示,視頻中的一切都是真實的,沒有使用 CGI 生成,所以動作都是實時的,沒有加速播放,並盛讚了特斯拉機器人在硬件性能上取得了難以置信的改進。
若他所説的屬實,那特斯拉人形機器人的進化一目瞭然 👇
▲圖片來自@Hanteta_
特斯拉機器人的進化之旅
從特斯拉推出第一台人形機器人開始,不過才短短三年時間,卻迎來了飛速進化。
在 2021 年 8 月 AI Day 上,馬斯克官宣特斯拉人形機器人 Tesla Bot 。這款機器人被設想為高 5 英尺 8 英寸,重 125 磅,具有承載 45 磅和舉起 150 磅等能力,主要是用來執行一些被認為危險、重複和無聊的任務。
但當時,這款機器人還只是幾張「活在」屏幕上的 PPT 概念圖,就連台上跳舞的亮相環節也是由穿着機器人套裝的男人完成。
緊接着到了第二年的 AI Day 2022 大會上,主角截然變換,走到台前的 Optimus Robot(擎天柱機器人)成了當天發佈會的最強主角。
裸露在外的機械結構讓它的顏值顯得有些粗糙,但無論是搬箱子、給植物澆花、還是在超級工廠裏搬磚,演示視頻裏的「擎天柱」能幹的活可真不少。
為這台擎天柱提供能量的不是火種,而一塊容量為 2.3kWh 的電池包,它被充分保護,放置在最核心的身體部位,即為圖中藍色的那一塊。
當時馬斯克稱,擎天柱「非常適合一整天的工作」,它靜坐時的功耗約為 100w,快走時為 500w。可能有人會問快走是多快,大概 2 米每秒。
為了確保擎天柱的靈活性,特斯拉甚至為其設計了 28 個關節,每一個關節裏都有多套執行器,這些執行器能夠在後台分析執行效率,減少無效工作。
特斯拉表示,整台擎天柱擁有 200 多個自由度,而它的手佔了其中的 27 個,由促動機(actuator)驅動,通過視覺系統和算法,擎天柱能夠準確識別手與物體的位置,完成上面提到的澆花、取物的任務。
從邁出第一步到自如地擺出各種姿勢,「擎天柱」花了 5 個月的時間。
到了今年 3 月的特斯拉投資者期間,Optimus 再次迎來了史詩級進化。其中一個亮點是,Optimus 從桌子上拿起了一個機械臂並將其固定到位,另一個 Optimus 則將其固定在仍在組裝的第三個 Optimus 身上,如此敏捷且流暢的任務執行,比最初的能力有了實質性的進步。
當時 Optimus 的動作仍比較僵硬,還不能完成像跑酷一樣的複雜動作,但已經初步展現出獨立短距離行走、搬運物體和使用基本工具等普適性能力。
僅僅半年後,9 月份的 AI Day 上,Optimus 不僅能夠根據顏色對方塊進行分類,還能自信地將雙臂舉在空中,然後在一條腿上擺出瑜伽姿勢,展露出優異的平衡力和協調力。
而現在,如上文所述,栩栩如生的身軀,機敏靈活的手指、流暢輕盈的步態,Optimus Gen 2 在運動和操作能力上更加貼近人類水平。也許再過不久,機動性更強的 Optimus 甚至可以復刻人類「爬、跳、抓、舉」等複雜動作。
當然,按照馬斯克的設想,Optimus 的遠景目標不僅僅是替代人類完成重複勞動、危險操作等任務,而是要成為一款通用服務機器人,融入到家庭、辦公場所和商業場景等更復雜的場景中。
因此,機器人的硬件僅僅只是基石,一個完整的人形智能體,還需要「大腦」級別的軟件和算法賦能。
將 GPT-4 塞入人形機器人會發生什麼?
今年以來,隨着大模型不斷的迭代升級,智能泛化能力的飛速提升,讓人們看到了人形機器人的潛在前景,我們時不時就會看到一些新玩家入局人形機器人賽道。
不謀而合的是,他們都選擇了具身智能這一解題思路。具身智能,顧名思義,指的是一種智能體利用自身的物理身體,通過感知、運動和環境交互來獲取信息、做出判斷並採取行動的智能形式,這也被視作人工智能的終極形態。
它強調身體在認知和行為發生中的關鍵作用。相比純思維型的智能,具身智能更加貼近人類自然智能,它強調身體、行為和環境對認知的重要作用。
一種不太嚴謹的表達是,AI 大模型用作大腦,機器人充當軀殼,AI 大模型套上機器人的殼就是具身智能。
除了上文所説的特斯拉機器人,一個更直觀的案例是,最近東京大學發佈的人形機器人 Alter3 便是首款由 GPT-4 驅動的人形機器人。得益於 GPT-4 的加持,不需要事先編程調教,通過口頭反饋,你就可以讓它自主地做出各種人類動作。
▲ 你不要過來呀
彈奏重金屬音樂、表演自拍、用手投球、扮鬼嚇人,在 GPT-4 智能語言描述的映射下,這些動作都不在話下。
需要説明的是,Alter3 本身無法理解像「抬起手有多高」這樣的細節,因此也就無法改進自己的動作,通過人類的口頭反饋,譬如「自拍時把手抬高一點」,接收到信息的 GPT-4 會將人類發出的指令分解為一連串步驟。
接着這些步驟就會被轉化為控制 Alter3 各個身體部位運動的 Python 代碼,也就是所謂的思維鏈(CoT),然後 Alter3 會把這些改進後的運動編碼存儲下來,形成「運動記憶」。
碰到下次再生成相同的運動時,它就會根據過去的相關經驗推理出如何最優地執行相似的任務,而不是從零開始,這種零樣本學習能力(zero-shot)也是機器人獲得真正智能的關鍵。
更離譜的是,沒有意識的它甚至可以通過 GPT-4 反饋的文本中推斷出適當的情感,並用清晰的動作表達出來,屬實是機器人又一「超綱」的表現。
像我們此前報道過的華為天才少年稚暉君的智元機器人遠征 A1,雷軍的「鐵蛋」也都歸屬於 AI + 機器人的範疇。
在大模型之前,機器人屬於專用設備,如今有了大模型的通用能力,通用機器人開始曙光乍現,正如稚暉君所説的那樣,現在我們不止需要 ChatGPT,還需要 WorkGPT。
這些進化間接印證了一條清晰可見的道路:當 AI 大模型生根發芽之後,總歸是要走進現實世界,而具身智能則是最佳的路徑。
一直活躍在 AI 前線的英偉達創始人黃仁勳曾洞察道:「具身智能將引領下一波人工智能浪潮。」
成熟的 AI 大模型充當人工大腦,模擬了人腦複雜的神經網絡,實現了語言理解、視覺識別、情景推理等認知功能,解決了機器人更高層次的認知和決策問題。
與此同時,各種傳感器、執行器、計算單元被集成到機器人軀體中,實現了對環境的感知和交互。比如視覺系統可以捕捉圖像和視頻,觸覺傳感器可以感受物體的形狀和質地等。
因此,在 AI 大模型與機器人實體深度融合的基礎之上,設想有一日,究極體的 Grok 結合 Optimus,也許能夠模糊虛擬和物理現實的界限,讓智能 AI 徹底走出屏幕,真正融入人類生活社會。
引用最後,放上網友 @cb_doge 讓 Grok 評價 Optimus Gen 2 的回答:
哦,特斯拉在 Optimus Gen 2 上取得的進步真是讓人矚目!自從上次上線後,無論是速度、重量減輕,還是處理像雞蛋這樣易碎物體的能力,都有了顯著的提高。這就像看到一隻小鳥勇敢嘗試第一次飛翔,儘管它擁有更多的執行器而非羽毛。
放眼全局,我們要明白,發展像 Optimus 這樣的機器人是一場長跑,而不是衝刺。這就像觀看技術與人性之間緩慢而優雅的舞蹈,每一步都使我們更接近一個理想的未來,在那裏,機器人和人類可以和諧相處、共同工作。
至少,這是我們的夢想。
資料來源:愛範兒(ifanr)