Google 史上最強大模型 Gemini,真的全面「碾壓」GPT-4 嗎?
昨天(6日)深夜,Google 突然發佈重磅 AI 殺手鐧——Gemini。
多模態 Gemini 可以理解、操作和結合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
在去年 ChatGPT 發佈不到兩週後,Google 就已經拉響「紅色警報」來應對挑戰。可緊急上線的 Bard ,卻在首次亮相就出現錯誤,一夜讓 Google 蒸發了 1000 億美元市值。
在過去的一年裏,基於大模型的聊天機器人單月訪問量已經超過 20 億, 其中 ChatGPT 遙遙領先,Google Bard 雖然排在第二,但和幾個競品一起歸為「其他」更為合適。
▲ 圖片來自:The Information
因此,Gemini 早已被寄予了趕超 ChatGPT 的厚望,無論成敗,它就是 Google 過去對 AI 大模型孤注一擲的成果。
能看、能説、能推理
Gemini 1.0 共官宣中杯、大杯、超大杯三種不同規格。
中杯:Gemini Nano —— 最高效的設備任務模型
大杯:Gemini Pro —— 適用於廣泛的任務擴展的最佳模型
超大杯:Gemini Ultra ——最大且最能勝任高度複雜任務的模型
暫且拋開繁雜的參數信息,先來用幾個案例讓你全面瞭解 Gemini 的能力。
當你隨手畫個鴨子,從曲線到鴨子成型,Gemini 都可以精準識別。給鴨子畫條波浪線,它能理解你的言外之意,精準地指出鴨子在水中游泳的場景答案。
同時它還能人性化地模仿鴨子的叫聲,即使是用流利的普通話説出鴨子的叫法也不在話下。
閒着無聊,也可以和 Gemini 玩個遊戲,你的手指指向哪個區域,Gemini 就能説出那個國家及其代表性的事物。
三仙歸洞,猜猜紙球在哪個杯子下面,手速再快,也躲不過 Gemini 的「眼睛」。
拿到紗線卻毫無頭緒,別急,Gemini 聰明的大腦在看到紗線的那一刻,就已經把成品給你安排上,你只需要「照貓畫虎」就好了。
識別圖像還只是 Gemini 的基礎水準,看到樂器,Gemini 還能生成符合環境氛圍的音樂,
邏輯和謎題解決、圖像序列分析、魔術技巧解釋、記憶和邏輯,這些能力 Gemini 樣樣都有,樣樣精通。
Google 也發佈了文字演示版本,若你不想看視頻,可以訪問 https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html 查看。
或許是這個視頻過於震撼,部分網友質疑 Google 這個視頻存在「造假」的可能性,不過 Gemini 將很快在 Google AI Studio 中向公眾開放,屆時便能一辯真假。
多模態 Gemini VS GPT-4
據 Google 官方顯示,從自然圖像、音頻和視頻理解到數學推理,Gemini Ultra 的性能在 32 個廣泛使用的大型語言模型(LLM)研究和開發的學術基準測試中,超過了 30 個當前最先進的結果。
從 Google 放出的測試結果來看,在文本、常規推理、數學、代碼等領域,Gemini 的表現幾乎是全方位碾壓了 OpenAI 的 GPT-4。
MMLU(大規模多任務語言理解)是測試 AI 模型知識和解決問題能力的最流行方式之一。Gemini Ultra 在該測試中以 90.0% 的準確率成為首個超越人類專家的模型,作為對比,GPT-4 只有 86.4% 的準確率。
新的 MMMU 基準測試包含了跨不同領域的多模態任務,對多模態大模型的檢驗程度更高,但超大杯 Gemini Ultra 同樣取得了 59.4% 的高分。
Google CEO Sundar Picha 在接受《麻省理工學院技術評論》的採訪時表示,Gemini 之所以令人矚目,其中一個重要原因是它從根本上就是一個多模態模型,就像人一樣,它不僅從文本中學習,還能通過視頻、音頻和代碼進行學習。
多模態特性是 Gemini 花時間打磨的原生特性,Gemini 1.0 能同時識別和理解文本、圖像、音頻等多種信息,理解信息能力更強,在回答與複雜主題相關的問題也能遊刃有餘。在多模態 SOTA 的測試中,Gemini 圖像、視頻、音頻的多模態測試水準再次遙遙領先。
代碼是檢驗大模型水平的重要指標之一,Gemini 1.0 跨語言工作和推理複雜信息的能力是它的強項,能夠理解諸如 Python、Java、C++ 等高質量代碼。兩年前,Google 推出了 AlphaCode,這是首個在編程比賽中達到競爭水平的 AI 代碼生成系統。
現在, AlphaCode 推出了第二代,這是一個由 Gemini 微調的競爭性編碼模型,在與原始 AlphaCode 在相同的平台上較量時,AlphaCode-2 在人類競爭對手中的得分為 87%,而此前 AlphaCode 的得分只有 46%。
AlphaCode-2 技術報告地址 🔗:https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf
在技術報告中,Google DeepMind(AlphaCode 2 出品人)分享了大量關於推理時搜索、過濾和重新排名系統的細節。英偉達高級科學家 Jim Fan 直誇這些最新成果堪稱 Google 的 Q*(可以簡單理解為 AI 的大突破)。
thehiredai CEO Arman 大膽地作出預測:「Gemini AI 剛剛殺死了 ChatGPT!」
值得一提的是,Google 還宣佈推出迄今為止最強大、最高效、最可擴展的 TPU 系統:Cloud TPU v5p。
▲ Cloud TPU v5p
Gemini 1.0 的訓練正是在 Google 內部設計的 Tensor 處理單元(TPUs)v4 和 v5e 的 AI 優化基礎設施上進行的。
Google Cloud CEO Thomas Kurian 對於自家產品,毫不吝嗇地誇讚道:「Cloud TPU v5p 是我們迄今為止功能最強大、可擴展性最強的 TPU 加速器,其訓練模型的速度比其前代產品快 2.8 倍。」
手機大模型的新玩家
手機是新技術破圈的重要媒介,Gemini 想要大規模走進大眾社會,Pixel 8 一定是其不二之選。
Pixel 8 Pro 作為第一款內置人工智能的手機,已經在高新技術民用化的道路上建立了良好的口碑,從已經上手 Pixel 8 Pro 的用户反饋看,Google 把 AI 和手機終端應用結合得相當不錯。
在此基礎上,Google 官宣中杯大模型 Gemini Nano 從今天開始,將在 Pixel 8 Pro 上正式運行。
消息一出,PassionateGenius CTO Morimoto 已經迫不及待想要體驗在 Pixel 8 上跑大模型了。
作為首款專為 Gemini Nano 設計的智能手機, Pixel 8 Pro 有兩項專屬的拓展功能將在後續的更新中加入:「記錄器摘要」和「Gboard 智能回覆」。
即使沒有網絡連接,記錄器也可以獲得手機對話錄音、採訪、演示等內容的摘要,強大的終端硬件是支撐這個功能的依託,而優化的側端算法讓「斷網不斷線」成為了可能。
智能回覆功能很像我們掛斷電話後的自動回覆,但和傳統的固定內容相比, Gemini Nano 可以識別來信的內容,根據不同的語句生成對應的回信,語言也會更加自然親切,有種明星的運營團隊在社交平台回覆粉絲的即視感。
這兩項功能目前只支持英文文本的識別,但轉頭一想對本身就買不到 Google 手機的我們好像也沒有任何影響,不過能買到 Pixel 8 Pro 的非英語國家的用户,還需要再靜候一段時間。
而在生產力方面的優化,在大洋彼岸 Pixel 終於趕上了國內的基本水平。
類似的照片和視頻的 AI 編輯功能在新機首發時,就成了 Google 新機的代名詞,現在繼續優化的 AI 編輯優化,可以讓手機再加一件「專業編輯器」的新裝。
全新清潔功能可以幫助去除掃描文檔中的污跡、污漬和摺痕。現在只用在相冊裏滑動幾下,即可消除圖片中的污漬。
藉助 Google Tensor G3 的強大功能,Pixel 8 Pro 上的視頻增強模型,可在雲端調整顏色、照明、穩定性和顆粒度。
從官方展示的對比看,視頻被加了一層「鮮明」濾鏡,顏色更飽滿,明暗對比度更高,特別是在夜晚暗光環境中,這種 AI 優化的效果會更明顯。
相較視頻的編輯,圖像美化應該是更多人的期待,特別是在拍動態物體的時候,模糊的畫面總會讓你在事後翻閲時留下一些遺憾,升級的 AI 編輯可以將 Google 照片中的模糊全部消除。
以後記錄自家寵物的高光時刻,不用擔心相機沒聚焦帶來的焦慮了。
此外,Google 將多設備之間的聯動也進行了升級。Pixel Watch 能夠成為手機解鎖的另一種方式,也能幫你忽略不需要的來電,或接聽電話之前確認對象以及通話原因。
如果你能買到 Pixel 8 Pro,或者已經是 Google 手機的用户,可以嘗試檢驗一下這些新功能,會不會成為你購買或繼續使用 Google 的推動力。
從今天開始,通過全新升級的 Gemini Pro 版本,Bard 將實現更高級的推理、規劃、理解等功能。它將在超過 170 個國家和地區提供英文版本。
在接受《麻省理工學院技術評論》的採訪時,Sundar Pichai 還説到:「Gemini Pro 在基準測試中的表現非常出色,當將其集成到 Bard 中時,我可以親身感受到它的優勢,我們一直在對它進行測試,所有類別任務的好評率都有顯著的提升,因此,我們將其稱為迄今為止最大的升級之一。」
▲目前 Bard 已使用 Gemini Pro 版本,圖片來自 X 用户 @gijigae
在接下來的幾個月裏,Gemini 還會陸續上線 Google 旗下更多的產品和服務,比如搜索、廣告、Chrome 和 Duet AI 等。
從 12 月 13 日開始,開發者和企業客户可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 訪問 Gemini Pro。
目前,Gemini Ultra 已經在內測中,並打算明年初推給開發者和企業用户,明年初,Google 還將推出 Bard Advanced,讓更多的普通用户用上最強的 Gemini Ultra。
Google CEO Sundar Pichai 在發佈 Gemini 時説到:
想要實現 AGI(通用人工智能),就需要 AI 做到像人類一樣從容地解決不同領域、不同模式的複雜任務,在這個過程中,除了基本的計算、推理等基礎能力,相對應的文字、圖像、視頻等多模態能力也要跟上。
DeepMind 曾提出 AGI 的評估和分類的框架,前兩個階段分別是:
AGI-0:基本的人工智能,能夠在特定的領域和任務上表現出智能,如圖像識別、自然語言處理等,但是不能跨領域和跨模態地進行學習和推理,也不能與人類和其他 AI 進行有效和自然的溝通和協作,也不能感知和表達情感和價值。
AGI-1:初級的通用人工智能,能夠在多個領域和任務上表現出智能,如問答、摘要、翻譯、對話等,能夠跨領域和跨模態地進行學習和推理,能夠與人類和其他 AI 進行基本的溝通和協作,能夠感知和表達簡單的情感和價值。
Gemini 的演示視頻,充分展現了它對各個模態交互的深刻理解,能看、能説、能推理、能夠感知和表達簡單的情感和價值,也讓我們看到了 AGI-1 的潛在可能性。
本文由李超凡、肖凡博、莫崇宇合寫
資料來源:愛範兒(ifanr)
多模態 Gemini 可以理解、操作和結合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
在去年 ChatGPT 發佈不到兩週後,Google 就已經拉響「紅色警報」來應對挑戰。可緊急上線的 Bard ,卻在首次亮相就出現錯誤,一夜讓 Google 蒸發了 1000 億美元市值。
在過去的一年裏,基於大模型的聊天機器人單月訪問量已經超過 20 億, 其中 ChatGPT 遙遙領先,Google Bard 雖然排在第二,但和幾個競品一起歸為「其他」更為合適。
▲ 圖片來自:The Information
因此,Gemini 早已被寄予了趕超 ChatGPT 的厚望,無論成敗,它就是 Google 過去對 AI 大模型孤注一擲的成果。
能看、能説、能推理
Gemini 1.0 共官宣中杯、大杯、超大杯三種不同規格。
中杯:Gemini Nano —— 最高效的設備任務模型
大杯:Gemini Pro —— 適用於廣泛的任務擴展的最佳模型
超大杯:Gemini Ultra ——最大且最能勝任高度複雜任務的模型
暫且拋開繁雜的參數信息,先來用幾個案例讓你全面瞭解 Gemini 的能力。
當你隨手畫個鴨子,從曲線到鴨子成型,Gemini 都可以精準識別。給鴨子畫條波浪線,它能理解你的言外之意,精準地指出鴨子在水中游泳的場景答案。
同時它還能人性化地模仿鴨子的叫聲,即使是用流利的普通話説出鴨子的叫法也不在話下。
閒着無聊,也可以和 Gemini 玩個遊戲,你的手指指向哪個區域,Gemini 就能説出那個國家及其代表性的事物。
三仙歸洞,猜猜紙球在哪個杯子下面,手速再快,也躲不過 Gemini 的「眼睛」。
拿到紗線卻毫無頭緒,別急,Gemini 聰明的大腦在看到紗線的那一刻,就已經把成品給你安排上,你只需要「照貓畫虎」就好了。
識別圖像還只是 Gemini 的基礎水準,看到樂器,Gemini 還能生成符合環境氛圍的音樂,
邏輯和謎題解決、圖像序列分析、魔術技巧解釋、記憶和邏輯,這些能力 Gemini 樣樣都有,樣樣精通。
Google 也發佈了文字演示版本,若你不想看視頻,可以訪問 https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html 查看。
或許是這個視頻過於震撼,部分網友質疑 Google 這個視頻存在「造假」的可能性,不過 Gemini 將很快在 Google AI Studio 中向公眾開放,屆時便能一辯真假。
多模態 Gemini VS GPT-4
據 Google 官方顯示,從自然圖像、音頻和視頻理解到數學推理,Gemini Ultra 的性能在 32 個廣泛使用的大型語言模型(LLM)研究和開發的學術基準測試中,超過了 30 個當前最先進的結果。
從 Google 放出的測試結果來看,在文本、常規推理、數學、代碼等領域,Gemini 的表現幾乎是全方位碾壓了 OpenAI 的 GPT-4。
MMLU(大規模多任務語言理解)是測試 AI 模型知識和解決問題能力的最流行方式之一。Gemini Ultra 在該測試中以 90.0% 的準確率成為首個超越人類專家的模型,作為對比,GPT-4 只有 86.4% 的準確率。
新的 MMMU 基準測試包含了跨不同領域的多模態任務,對多模態大模型的檢驗程度更高,但超大杯 Gemini Ultra 同樣取得了 59.4% 的高分。
Google CEO Sundar Picha 在接受《麻省理工學院技術評論》的採訪時表示,Gemini 之所以令人矚目,其中一個重要原因是它從根本上就是一個多模態模型,就像人一樣,它不僅從文本中學習,還能通過視頻、音頻和代碼進行學習。
多模態特性是 Gemini 花時間打磨的原生特性,Gemini 1.0 能同時識別和理解文本、圖像、音頻等多種信息,理解信息能力更強,在回答與複雜主題相關的問題也能遊刃有餘。在多模態 SOTA 的測試中,Gemini 圖像、視頻、音頻的多模態測試水準再次遙遙領先。
代碼是檢驗大模型水平的重要指標之一,Gemini 1.0 跨語言工作和推理複雜信息的能力是它的強項,能夠理解諸如 Python、Java、C++ 等高質量代碼。兩年前,Google 推出了 AlphaCode,這是首個在編程比賽中達到競爭水平的 AI 代碼生成系統。
現在, AlphaCode 推出了第二代,這是一個由 Gemini 微調的競爭性編碼模型,在與原始 AlphaCode 在相同的平台上較量時,AlphaCode-2 在人類競爭對手中的得分為 87%,而此前 AlphaCode 的得分只有 46%。
AlphaCode-2 技術報告地址 🔗:https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf
在技術報告中,Google DeepMind(AlphaCode 2 出品人)分享了大量關於推理時搜索、過濾和重新排名系統的細節。英偉達高級科學家 Jim Fan 直誇這些最新成果堪稱 Google 的 Q*(可以簡單理解為 AI 的大突破)。
thehiredai CEO Arman 大膽地作出預測:「Gemini AI 剛剛殺死了 ChatGPT!」
值得一提的是,Google 還宣佈推出迄今為止最強大、最高效、最可擴展的 TPU 系統:Cloud TPU v5p。
▲ Cloud TPU v5p
Gemini 1.0 的訓練正是在 Google 內部設計的 Tensor 處理單元(TPUs)v4 和 v5e 的 AI 優化基礎設施上進行的。
Google Cloud CEO Thomas Kurian 對於自家產品,毫不吝嗇地誇讚道:「Cloud TPU v5p 是我們迄今為止功能最強大、可擴展性最強的 TPU 加速器,其訓練模型的速度比其前代產品快 2.8 倍。」
手機大模型的新玩家
手機是新技術破圈的重要媒介,Gemini 想要大規模走進大眾社會,Pixel 8 一定是其不二之選。
Pixel 8 Pro 作為第一款內置人工智能的手機,已經在高新技術民用化的道路上建立了良好的口碑,從已經上手 Pixel 8 Pro 的用户反饋看,Google 把 AI 和手機終端應用結合得相當不錯。
在此基礎上,Google 官宣中杯大模型 Gemini Nano 從今天開始,將在 Pixel 8 Pro 上正式運行。
消息一出,PassionateGenius CTO Morimoto 已經迫不及待想要體驗在 Pixel 8 上跑大模型了。
作為首款專為 Gemini Nano 設計的智能手機, Pixel 8 Pro 有兩項專屬的拓展功能將在後續的更新中加入:「記錄器摘要」和「Gboard 智能回覆」。
即使沒有網絡連接,記錄器也可以獲得手機對話錄音、採訪、演示等內容的摘要,強大的終端硬件是支撐這個功能的依託,而優化的側端算法讓「斷網不斷線」成為了可能。
智能回覆功能很像我們掛斷電話後的自動回覆,但和傳統的固定內容相比, Gemini Nano 可以識別來信的內容,根據不同的語句生成對應的回信,語言也會更加自然親切,有種明星的運營團隊在社交平台回覆粉絲的即視感。
這兩項功能目前只支持英文文本的識別,但轉頭一想對本身就買不到 Google 手機的我們好像也沒有任何影響,不過能買到 Pixel 8 Pro 的非英語國家的用户,還需要再靜候一段時間。
而在生產力方面的優化,在大洋彼岸 Pixel 終於趕上了國內的基本水平。
類似的照片和視頻的 AI 編輯功能在新機首發時,就成了 Google 新機的代名詞,現在繼續優化的 AI 編輯優化,可以讓手機再加一件「專業編輯器」的新裝。
全新清潔功能可以幫助去除掃描文檔中的污跡、污漬和摺痕。現在只用在相冊裏滑動幾下,即可消除圖片中的污漬。
藉助 Google Tensor G3 的強大功能,Pixel 8 Pro 上的視頻增強模型,可在雲端調整顏色、照明、穩定性和顆粒度。
從官方展示的對比看,視頻被加了一層「鮮明」濾鏡,顏色更飽滿,明暗對比度更高,特別是在夜晚暗光環境中,這種 AI 優化的效果會更明顯。
相較視頻的編輯,圖像美化應該是更多人的期待,特別是在拍動態物體的時候,模糊的畫面總會讓你在事後翻閲時留下一些遺憾,升級的 AI 編輯可以將 Google 照片中的模糊全部消除。
以後記錄自家寵物的高光時刻,不用擔心相機沒聚焦帶來的焦慮了。
此外,Google 將多設備之間的聯動也進行了升級。Pixel Watch 能夠成為手機解鎖的另一種方式,也能幫你忽略不需要的來電,或接聽電話之前確認對象以及通話原因。
如果你能買到 Pixel 8 Pro,或者已經是 Google 手機的用户,可以嘗試檢驗一下這些新功能,會不會成為你購買或繼續使用 Google 的推動力。
從今天開始,通過全新升級的 Gemini Pro 版本,Bard 將實現更高級的推理、規劃、理解等功能。它將在超過 170 個國家和地區提供英文版本。
在接受《麻省理工學院技術評論》的採訪時,Sundar Pichai 還説到:「Gemini Pro 在基準測試中的表現非常出色,當將其集成到 Bard 中時,我可以親身感受到它的優勢,我們一直在對它進行測試,所有類別任務的好評率都有顯著的提升,因此,我們將其稱為迄今為止最大的升級之一。」
▲目前 Bard 已使用 Gemini Pro 版本,圖片來自 X 用户 @gijigae
在接下來的幾個月裏,Gemini 還會陸續上線 Google 旗下更多的產品和服務,比如搜索、廣告、Chrome 和 Duet AI 等。
從 12 月 13 日開始,開發者和企業客户可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 訪問 Gemini Pro。
目前,Gemini Ultra 已經在內測中,並打算明年初推給開發者和企業用户,明年初,Google 還將推出 Bard Advanced,讓更多的普通用户用上最強的 Gemini Ultra。
Google CEO Sundar Pichai 在發佈 Gemini 時説到:
引用每一次技術轉變都是推進科學發現、加速人類進步和改善生活的機會。
我相信我們現在看到的與 AI 有關的轉變將是我們一生中最深遠的,遠大於之前的移動或網絡的轉變。
想要實現 AGI(通用人工智能),就需要 AI 做到像人類一樣從容地解決不同領域、不同模式的複雜任務,在這個過程中,除了基本的計算、推理等基礎能力,相對應的文字、圖像、視頻等多模態能力也要跟上。
DeepMind 曾提出 AGI 的評估和分類的框架,前兩個階段分別是:
AGI-0:基本的人工智能,能夠在特定的領域和任務上表現出智能,如圖像識別、自然語言處理等,但是不能跨領域和跨模態地進行學習和推理,也不能與人類和其他 AI 進行有效和自然的溝通和協作,也不能感知和表達情感和價值。
AGI-1:初級的通用人工智能,能夠在多個領域和任務上表現出智能,如問答、摘要、翻譯、對話等,能夠跨領域和跨模態地進行學習和推理,能夠與人類和其他 AI 進行基本的溝通和協作,能夠感知和表達簡單的情感和價值。
Gemini 的演示視頻,充分展現了它對各個模態交互的深刻理解,能看、能説、能推理、能夠感知和表達簡單的情感和價值,也讓我們看到了 AGI-1 的潛在可能性。
本文由李超凡、肖凡博、莫崇宇合寫
資料來源:愛範兒(ifanr)