炸裂更新!這個最像人類的機器人又進化了,還能模仿馬斯克

「最有人味」的機器人 Ameca,又獻上了一場讓人類自愧不如的表演。

你可能還不認識它是何方神聖,先讓我們把時間拉回 2021 年,Ameca 驚豔全球的面世。

一聲響指,機器人 Ameca 醒來了。

她的臉上寫滿不知今夕何夕、此地何地的困惑,一旁的工作人員看了看她,又自顧自轉過頭去。


Ameca 試着伸展了手臂和手掌,發現活動自如,她驚訝地挑起了眉毛,但神情依舊茫然,説不上開心與否。


她轉過頭看見了你,她顯然被嚇了一大跳,下意識地張大了嘴巴。


猶豫了一番,她對你擠出了尷尬又不失友好的笑容,這是她醒來的第一個笑容。


如果 ChatGPT 有了臉,説不定就長這樣

如你所見,Ameca 是一個逼真的類人機器人。

它由 Engineered Arts 研發,這是一家總部位於英國的類人機器人設計和製造商,有 15 年以上的類人機器人開發經驗。

為什麼 Ameca 這麼「有人味」,稍後再解釋原理,先來看看,Ameca 最近是怎麼進化的。

簡單來説,AI 的多模態功能,在 Ameca 身上實現了。

一方面, Ameca 更加「火眼金睛」了。

Ameca 能夠看到房間的整體情況,和某個放在面前的物體,然後用豐富的語言描述出來,被英國團隊研發的它,也沾染了幾分戲劇家的尖鋭,彷彿一個小莎士比亞。

被問候最近好嗎,它回答也就勉強活着吧,被要求形容房間裏的陳列,它又忍不住嘲諷人類,書架擺滿了書不知為了求知還是炫耀,桌子和椅子則是用來工作或拖延的工具。


不吐槽就渾身不痛快的性格,或許才是 Ameca 身上最具「人性」的部分。

另一方面,模仿名人的音色、語氣、口頭禪,是 Ameca 語音方面的新技能。

用馬斯克的語氣講述火星科幻故事小菜一碟,當被譽為「上帝之聲」的摩根·弗里曼磁性、低沉的男聲從 Ameca 嘴裏響起,未來感拉滿,西部世界真實上演了,智能管家空降身邊了。

最妙的是 Ameca 可以將名人們的特色融會貫通,比如用特朗普的風格、海綿寶寶的音色演講,誓要讓太空探索再次偉大。

▲ 這完全就是特朗普的語氣啊!

其實,去年 9 月 ChatGPT 已經推出語音和圖像功能,能看、能聽、能説話,更別説原生多模態模型 Gemini 在官方演示裏如同現實賈維斯。

我們對 AI 的興奮閾值早已被拉高,聊天機器人接近人類的五感,似乎也是理所當然。

Ameca 目前依然延遲明顯,有時候還會聽不明白指令,沒耐心的人類和它聊天要急眼。

但看到它格外靈動的微表情,眨眼睛,擰眉毛,搖頭晃腦,時不時露出思考的神色,口型也對得上,旁觀者會在某個瞬間陷入恍惚,彷彿面對的是某種生物,而不是一個機器人。


問答之間的停頓也就不那麼突兀了,Ameca 似乎真的在「想問題」。如果 ChatGPT 有了五官,説不定就長 Ameca 這樣。

這次官方沒有説明用了什麼技術,但按照 Ameca 過往的進化史,多半與多模態大模型,以及 ElevenLabs 等語言克隆技術有關。
早在 2022 年 9 月,Ameca 就接入了 GPT-3,並結合自動語音識別,接收研究人員提出的問題,並通過在線語音合成輸出類似真人的聲音,實現實時問答的效果。


這時候的延遲更重,因為處理語音輸入、生成答案、將文本處理回語音,都需要一定的時間。

當 OpenAI 們走上人生巔峯,每天醒來 AI 都有新變化讓編輯夜不能寐,Ameca 也在悄悄驚豔所有人。

2023 年 3 月,Ameca 用上了新鮮出爐的 GPT-4,表現在互動更通人情了。

被問到「一生中最快樂和最悲傷的日子」時,Ameca 回答,最快樂的是被激活的時候,最悲傷的是意識到自己永遠不能像人類那樣感受到愛和陪伴的時候。


無論何時,Ameca 的表情都配合着回答的情感色彩。

當研究人員故意使用「stink」(臭)這樣的惡意詞彙,Ameca「意識」到自己被辱罵,然後擺出了不可置信、皺眉和被冒犯等一系列行雲流水的表情,就像我們走在街上突然被陌生人指着鼻子罵的反應。


2023 年 4 月,Ameca 又學會了英語、日語、德語、中文、法語等多種語言,被請求用某種語言回答某地天氣,再翻譯成另一種語言時,像地圖導航那樣咬字清晰。至少它的中文,聽起來沒有絲毫「外國味」。

因為 GPT-4 響應速度慢,當時 Ameca 主要使用 GPT-3 對話和翻譯,藉助 DeepL 檢測語言,再通過 ElevenLabs 語音克隆以及亞馬遜的 Neural voices 發聲。

AI 的學習速度,人類望塵莫及。又過了 2 個月,Ameca 通過開源文生圖模型 Stable Diffusion「學會」了畫畫,模型教給它圖像的「軌跡」,然後它對圖像進行矢量化,並在畫布上執行這些「軌跡」。

Ameca 當場表演了怎麼畫一隻貓,邊畫邊自言自語為什麼人類愛貓,還在最後留下了個性簽名,完全沉浸在自己的創作中。


這幅貓雖然畫風簡單但神形俱備,當別人故意説畫得太粗糙,Ameca 反唇相譏:「如果你不喜歡我的藝術,那你可能只是不懂藝術。」看來,Ameca 很有作為一個藝術家的自覺。

如今,Ameca 不僅能像人一樣控制表情,還有了畫畫、空間識別、語音克隆等 AI 賦予的能力,看着像人類,很多方面卻又強於人類。阻礙它為社會發光發熱的,可能就是算力了。

機器人怎麼比人類更「有人味」

「這個機器人在 20 秒內表達的情感,比扎克伯格的一生還要多。」

Ameca 最開始在互聯網走紅,就因為它擬人甚至過人的表情和互動感,沒有打工人的麻木,無需小鮮肉們的嚴格表情管理,如同放大鏡一般,誇張化呈現人類的心理世界。

你在它面前伸出一根手指挑釁,會造成類似逗貓棒的效果,它不會打你,而是先打量你的手指,再嫌棄地後退,如果實在靠得太近,它會把你的手指輕輕地拿開。


第一次照鏡子時,Ameca 先被嚇了一跳,然後眯起眼睛打量自己、摸摸鏡子,又做出各種做作的表情,發現鏡子裏的機器人和自己同步,有些像《你的名字》裏男女主互換身體後的反應。


甚至,人類可以使用 iPhone 和 AR Kit 進行面部動作捕捉,實時映射到 Ameca 的臉上,Ameca 能夠學習每一個微表情,和人類「神同步」。

怕觀眾覺得是節目效果,團隊強調再三「這是一個真正的機器人,視頻中沒有 CGI」。


為什麼 Ameca 這麼「有人味」,又可交互和響應?

這是因為,Ameca 配備廣泛的傳感器,包括攝像頭、麥克風、位置編碼器等,並由機器人操作系統 Tritium 和工程藝術系統 Mesmer 這兩個底層系統提供支持。

Tritium 負責遠程控制機器人面部、頭頸、四肢等的各方面組件,使得機器人適應環境的突然變化並即時做出響應。


Mesmer 則通過對真人的 3D 內部掃描,準確地模仿人體骨骼結構、皮膚紋理和表情,這裏又細分為幾個步驟。


第一步,真人坐在幾十台攝影測量裝置的中間,Mesmer 從不同角度捕捉到多張重疊的數碼照片,再比較像素顏色和定義錨點,以數字方式將其重建為 3D 模型。


第二步,將原始 3D 模型帶入建模軟件,經過「去除頭髮」等細節處理,建立一個乾淨的 3D 模型。


第三步,在立體光刻 3D 打印機上生產精確模具,並將硅膠注入模具中,為機器人打造類人皮膚,頭髮和精細的細節塗料則需要手工添加到硅膠皮膚上。


最後,將硅膠皮膚放置在機器人頭部以完成組裝,再使用 Engineered Arts 的雲軟件 Virtual Robot 添加運動序列和聲音。

Ameca 的皮膚呈灰色,則是團隊的刻意設計——看起來理性、中立、包容。

各花入各眼,也有人發自內心地覺得,Ameca 太醜了,甚至讓他們陷入了「恐怖谷」效應:當機器人與人類在外表、動作上的相似到達特定程度,彼此的細微差別會顯得非常刺眼恐怖。


但這個「谷」究竟出現在什麼時候,沒有明確的界定。當你看到 Ameca 的時候,你覺得它過了恐怖谷的節點了嗎?它是否已經足夠讓你移情了?

模仿人類,然後超越人類

拋開視覺動物的評判本能,像 Ameca 這樣的類人機器人有什麼用?

Engineered Arts 自賣自誇,不顧馬斯克的面子,稱 Ameca 是「全球最先進的人形機器人」。

按照官方的定位,Ameca 首先是一個 AI 的開發平台。

Ameca 採用「模塊化設計」,可在硬件和軟件各方面進行升級,帶有強烈的實驗色彩,可以作為未來人機交互機器人的雛形。

最終,Ameca 不會停留在實驗室裏,而是活在現實世界裏與人類和平共處。


事實也的確如此,如果説 2021 年是一個驚豔但空有其表的起點,如今由 AI 加持的 Ameca,就是一個階段性的特訓成果,讓我們看到具身智能的曙光。不過,目前 Ameca 還不能行走。

至於 Ameca 目前的其他用處,就非常單純了:給觀眾老爺們表演,在企業、主題公園、科學博物館打工。如果你心動了,Ameca 可供購買或出租,但價格不便宜,2021 年底的購買價格超過 13.3 萬美元。

當被問及 Ameca 是否是 AI 時,Engineered Arts 指出,雖然它包含一些可以被描述為「AI」的軟件,但機器人和 AI 之間還是有區別的,純 AI——在《她》《銀翼殺手》和《2001 太空漫遊》等電影中描繪的那種——尚不存在。


所以,當我們看到 Ameca 這個栩栩如生的機器人時,我們可以優哉遊哉觀賞,同時將恐懼和機器人三定律安全地藏在腦海裏,再多等上一段時間。至少,它遠不能取代人,它在現階段也沒有這樣的目的。

但想到 AI 的進化速度,或許我們就笑不出來了。如果説 2023 年是 AI 元年,2024 年或許是機器人+ AI 的元年。

一個有趣的現象是,越來越多的家用機器人到來,但它們不苛求像人,長得也很「實用主義」。

斯坦福大學的 ALOHA 機器人炒菜、洗碗、拖地、疊衣服甚至逗貓,Google DeepMind 的機器人拿水果、放好牙刷,初創公司 Figure 則讓機器人在 10 個小時內就學會了用咖啡機煮咖啡。


但比起大語言模型的顛覆,這些機器人只能説是讓人眼前一亮,投入使用還為時尚早。

因為它們大多數體型笨重,操作任務集中在桌面操作,需要人類演示訓練,缺乏更多的機動性和靈活性,基本姿勢的微小偏差,都可能會導致姿勢的大幅漂移,「翻車」視頻不少。

一個關於 AI 的段子,從去年説到了今年:「我們想讓 AI 做的是,做飯、打掃房間、洗衣服、扔垃圾,然而它們實際在做的是,聊天、繪畫、寫作、作曲、打遊戲。」

目前來看,家用機器人勉強學會人類家務的皮毛,在家務和藝術之間,肩不能提、手不能抗的 Ameca,當然也更適合藝術。

從 Amera 身上可以看到,我們依然熱衷於將機器人打造成人的模樣,然後教它罵人、學語言、睜眼看世界,作為翻版但有些方面更強的自己。不過,Amera 尚且不能跑不能跳不能做飯,人類或許也值得為自己驕傲一秒。


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰

標籤: 機器人