Google 史上最強大模型 Gemini，真的全面「碾壓」GPT-4 嗎？

昨天（6日）深夜，Google 突然發佈重磅 AI 殺手鐧——Gemini。

多模態 Gemini 可以理解、操作和結合不同類型的信息，包括文本、代碼、音頻、圖像和視頻。

在去年 ChatGPT 發佈不到兩週後，Google 就已經拉響「紅色警報」來應對挑戰。可緊急上線的 Bard ，卻在首次亮相就出現錯誤，一夜讓 Google 蒸發了 1000 億美元市值。

https://s3.ifanr.com/wp-content/uploads/2023/12/60.png!720

圖片來源：s3.ifanr.com

在過去的一年裏，基於大模型的聊天機器人單月訪問量已經超過 20 億，其中 ChatGPT 遙遙領先，Google Bard 雖然排在第二，但和幾個競品一起歸為「其他」更為合適。

https://s3.ifanr.com/wp-content/uploads/2023/12/12-2.png!720

圖片來源：s3.ifanr.com

▲ 圖片來自：The Information

因此，Gemini 早已被寄予了趕超 ChatGPT 的厚望，無論成敗，它就是 Google 過去對 AI 大模型孤注一擲的成果。
能看、能説、能推理

Gemini 1.0 共官宣中杯、大杯、超大杯三種不同規格。

中杯：Gemini Nano —— 最高效的設備任務模型

大杯：Gemini Pro —— 適用於廣泛的任務擴展的最佳模型

超大杯：Gemini Ultra ——最大且最能勝任高度複雜任務的模型

https://s3.ifanr.com/wp-content/uploads/2023/12/1-1.png!720

圖片來源：s3.ifanr.com

暫且拋開繁雜的參數信息，先來用幾個案例讓你全面瞭解 Gemini 的能力。

https://s3.ifanr.com/wp-content/uploads/2023/12/50.gif

圖片來源：s3.ifanr.com

當你隨手畫個鴨子，從曲線到鴨子成型，Gemini 都可以精準識別。給鴨子畫條波浪線，它能理解你的言外之意，精準地指出鴨子在水中游泳的場景答案。

同時它還能人性化地模仿鴨子的叫聲，即使是用流利的普通話説出鴨子的叫法也不在話下。

https://s3.ifanr.com/wp-content/uploads/2023/12/51.gif

圖片來源：s3.ifanr.com

閒着無聊，也可以和 Gemini 玩個遊戲，你的手指指向哪個區域，Gemini 就能説出那個國家及其代表性的事物。

https://s3.ifanr.com/wp-content/uploads/2023/12/52.gif

圖片來源：s3.ifanr.com

三仙歸洞，猜猜紙球在哪個杯子下面，手速再快，也躲不過 Gemini 的「眼睛」。

https://s3.ifanr.com/wp-content/uploads/2023/12/53.gif

圖片來源：s3.ifanr.com

拿到紗線卻毫無頭緒，別急，Gemini 聰明的大腦在看到紗線的那一刻，就已經把成品給你安排上，你只需要「照貓畫虎」就好了。

https://s3.ifanr.com/wp-content/uploads/2023/12/54.gif

圖片來源：s3.ifanr.com

識別圖像還只是 Gemini 的基礎水準，看到樂器，Gemini 還能生成符合環境氛圍的音樂，

邏輯和謎題解決、圖像序列分析、魔術技巧解釋、記憶和邏輯，這些能力 Gemini 樣樣都有，樣樣精通。

Google 也發佈了文字演示版本，若你不想看視頻，可以訪問 https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html 查看。

或許是這個視頻過於震撼，部分網友質疑 Google 這個視頻存在「造假」的可能性，不過 Gemini 將很快在 Google AI Studio 中向公眾開放，屆時便能一辯真假。

多模態 Gemini VS GPT-4

據 Google 官方顯示，從自然圖像、音頻和視頻理解到數學推理，Gemini Ultra 的性能在 32 個廣泛使用的大型語言模型（LLM）研究和開發的學術基準測試中，超過了 30 個當前最先進的結果。

從 Google 放出的測試結果來看，在文本、常規推理、數學、代碼等領域，Gemini 的表現幾乎是全方位碾壓了 OpenAI 的 GPT-4。

https://s3.ifanr.com/wp-content/uploads/2023/12/2-1.png!720

圖片來源：s3.ifanr.com

MMLU（大規模多任務語言理解）是測試 AI 模型知識和解決問題能力的最流行方式之一。Gemini Ultra 在該測試中以 90.0% 的準確率成為首個超越人類專家的模型，作為對比，GPT-4 只有 86.4% 的準確率。

https://s3.ifanr.com/wp-content/uploads/2023/12/3-1.jpg!720

圖片來源：s3.ifanr.com

新的 MMMU 基準測試包含了跨不同領域的多模態任務，對多模態大模型的檢驗程度更高，但超大杯 Gemini Ultra 同樣取得了 59.4% 的高分。

Google CEO Sundar Picha 在接受《麻省理工學院技術評論》的採訪時表示，Gemini 之所以令人矚目，其中一個重要原因是它從根本上就是一個多模態模型，就像人一樣，它不僅從文本中學習，還能通過視頻、音頻和代碼進行學習。

多模態特性是 Gemini 花時間打磨的原生特性，Gemini 1.0 能同時識別和理解文本、圖像、音頻等多種信息，理解信息能力更強，在回答與複雜主題相關的問題也能遊刃有餘。在多模態 SOTA 的測試中，Gemini 圖像、視頻、音頻的多模態測試水準再次遙遙領先。

https://s3.ifanr.com/wp-content/uploads/2023/12/4-1.jpg!720

圖片來源：s3.ifanr.com

代碼是檢驗大模型水平的重要指標之一，Gemini 1.0 跨語言工作和推理複雜信息的能力是它的強項，能夠理解諸如 Python、Java、C++ 等高質量代碼。兩年前，Google 推出了 AlphaCode，這是首個在編程比賽中達到競爭水平的 AI 代碼生成系統。

https://s3.ifanr.com/wp-content/uploads/2023/12/5.png!720

圖片來源：s3.ifanr.com

現在， AlphaCode 推出了第二代，這是一個由 Gemini 微調的競爭性編碼模型，在與原始 AlphaCode 在相同的平台上較量時，AlphaCode-2 在人類競爭對手中的得分為 87%，而此前 AlphaCode 的得分只有 46%。

AlphaCode-2 技術報告地址 🔗：https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf

在技術報告中，Google DeepMind（AlphaCode 2 出品人）分享了大量關於推理時搜索、過濾和重新排名系統的細節。英偉達高級科學家 Jim Fan 直誇這些最新成果堪稱 Google 的 Q*（可以簡單理解為 AI 的大突破）。

https://s3.ifanr.com/wp-content/uploads/2023/12/61.jpg!720

圖片來源：s3.ifanr.com

thehiredai CEO Arman 大膽地作出預測：「Gemini AI 剛剛殺死了 ChatGPT！」

https://s3.ifanr.com/wp-content/uploads/2023/12/62.jpg!720

圖片來源：s3.ifanr.com

值得一提的是，Google 還宣佈推出迄今為止最強大、最高效、最可擴展的 TPU 系統：Cloud TPU v5p。

https://s3.ifanr.com/wp-content/uploads/2023/12/63.jpg!720

圖片來源：s3.ifanr.com

▲ Cloud TPU v5p

Gemini 1.0 的訓練正是在 Google 內部設計的 Tensor 處理單元（TPUs）v4 和 v5e 的 AI 優化基礎設施上進行的。

https://s3.ifanr.com/wp-content/uploads/2023/12/64.jpg!720

圖片來源：s3.ifanr.com

Google Cloud CEO Thomas Kurian 對於自家產品，毫不吝嗇地誇讚道：「Cloud TPU v5p 是我們迄今為止功能最強大、可擴展性最強的 TPU 加速器，其訓練模型的速度比其前代產品快 2.8 倍。」
手機大模型的新玩家

手機是新技術破圈的重要媒介，Gemini 想要大規模走進大眾社會，Pixel 8 一定是其不二之選。

Pixel 8 Pro 作為第一款內置人工智能的手機，已經在高新技術民用化的道路上建立了良好的口碑，從已經上手 Pixel 8 Pro 的用户反饋看，Google 把 AI 和手機終端應用結合得相當不錯。

在此基礎上，Google 官宣中杯大模型 Gemini Nano 從今天開始，將在 Pixel 8 Pro 上正式運行。

https://s3.ifanr.com/wp-content/uploads/2023/12/65.jpg!720

圖片來源：s3.ifanr.com

消息一出，PassionateGenius CTO Morimoto 已經迫不及待想要體驗在 Pixel 8 上跑大模型了。
作為首款專為 Gemini Nano 設計的智能手機， Pixel 8 Pro 有兩項專屬的拓展功能將在後續的更新中加入：「記錄器摘要」和「Gboard 智能回覆」。

即使沒有網絡連接，記錄器也可以獲得手機對話錄音、採訪、演示等內容的摘要，強大的終端硬件是支撐這個功能的依託，而優化的側端算法讓「斷網不斷線」成為了可能。

https://s3.ifanr.com/wp-content/uploads/2023/12/6.gif

圖片來源：s3.ifanr.com

智能回覆功能很像我們掛斷電話後的自動回覆，但和傳統的固定內容相比， Gemini Nano 可以識別來信的內容，根據不同的語句生成對應的回信，語言也會更加自然親切，有種明星的運營團隊在社交平台回覆粉絲的即視感。

https://s3.ifanr.com/wp-content/uploads/2023/12/7.gif

圖片來源：s3.ifanr.com

這兩項功能目前只支持英文文本的識別，但轉頭一想對本身就買不到 Google 手機的我們好像也沒有任何影響，不過能買到 Pixel 8 Pro 的非英語國家的用户，還需要再靜候一段時間。

而在生產力方面的優化，在大洋彼岸 Pixel 終於趕上了國內的基本水平。

類似的照片和視頻的 AI 編輯功能在新機首發時，就成了 Google 新機的代名詞，現在繼續優化的 AI 編輯優化，可以讓手機再加一件「專業編輯器」的新裝。

全新清潔功能可以幫助去除掃描文檔中的污跡、污漬和摺痕。現在只用在相冊裏滑動幾下，即可消除圖片中的污漬。

https://s3.ifanr.com/wp-content/uploads/2023/12/8.png!720

圖片來源：s3.ifanr.com

藉助 Google Tensor G3 的強大功能，Pixel 8 Pro 上的視頻增強模型，可在雲端調整顏色、照明、穩定性和顆粒度。

https://s3.ifanr.com/wp-content/uploads/2023/12/9.gif

圖片來源：s3.ifanr.com

從官方展示的對比看，視頻被加了一層「鮮明」濾鏡，顏色更飽滿，明暗對比度更高，特別是在夜晚暗光環境中，這種 AI 優化的效果會更明顯。

https://s3.ifanr.com/wp-content/uploads/2023/12/10.gif

圖片來源：s3.ifanr.com

相較視頻的編輯，圖像美化應該是更多人的期待，特別是在拍動態物體的時候，模糊的畫面總會讓你在事後翻閲時留下一些遺憾，升級的 AI 編輯可以將 Google 照片中的模糊全部消除。

以後記錄自家寵物的高光時刻，不用擔心相機沒聚焦帶來的焦慮了。

此外，Google 將多設備之間的聯動也進行了升級。Pixel Watch 能夠成為手機解鎖的另一種方式，也能幫你忽略不需要的來電，或接聽電話之前確認對象以及通話原因。

https://s3.ifanr.com/wp-content/uploads/2023/12/11-2.png!720

圖片來源：s3.ifanr.com

如果你能買到 Pixel 8 Pro，或者已經是 Google 手機的用户，可以嘗試檢驗一下這些新功能，會不會成為你購買或繼續使用 Google 的推動力。
從今天開始，通過全新升級的 Gemini Pro 版本，Bard 將實現更高級的推理、規劃、理解等功能。它將在超過 170 個國家和地區提供英文版本。

在接受《麻省理工學院技術評論》的採訪時，Sundar Pichai 還説到：「Gemini Pro 在基準測試中的表現非常出色，當將其集成到 Bard 中時，我可以親身感受到它的優勢，我們一直在對它進行測試，所有類別任務的好評率都有顯著的提升，因此，我們將其稱為迄今為止最大的升級之一。」

https://s3.ifanr.com/wp-content/uploads/2023/12/70.png!720

圖片來源：s3.ifanr.com

▲目前 Bard 已使用 Gemini Pro 版本，圖片來自 X 用户 @gijigae

在接下來的幾個月裏，Gemini 還會陸續上線 Google 旗下更多的產品和服務，比如搜索、廣告、Chrome 和 Duet AI 等。
從 12 月 13 日開始，開發者和企業客户可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 訪問 Gemini Pro。

目前，Gemini Ultra 已經在內測中，並打算明年初推給開發者和企業用户，明年初，Google 還將推出 Bard Advanced，讓更多的普通用户用上最強的 Gemini Ultra。

https://s3.ifanr.com/wp-content/uploads/2023/12/73.jpg!720

圖片來源：s3.ifanr.com

Google CEO Sundar Pichai 在發佈 Gemini 時説到：

引用每一次技術轉變都是推進科學發現、加速人類進步和改善生活的機會。

我相信我們現在看到的與 AI 有關的轉變將是我們一生中最深遠的，遠大於之前的移動或網絡的轉變。

想要實現 AGI（通用人工智能），就需要 AI 做到像人類一樣從容地解決不同領域、不同模式的複雜任務，在這個過程中，除了基本的計算、推理等基礎能力，相對應的文字、圖像、視頻等多模態能力也要跟上。

DeepMind 曾提出 AGI 的評估和分類的框架，前兩個階段分別是：

AGI-0：基本的人工智能，能夠在特定的領域和任務上表現出智能，如圖像識別、自然語言處理等，但是不能跨領域和跨模態地進行學習和推理，也不能與人類和其他 AI 進行有效和自然的溝通和協作，也不能感知和表達情感和價值。

AGI-1：初級的通用人工智能，能夠在多個領域和任務上表現出智能，如問答、摘要、翻譯、對話等，能夠跨領域和跨模態地進行學習和推理，能夠與人類和其他 AI 進行基本的溝通和協作，能夠感知和表達簡單的情感和價值。

Gemini 的演示視頻，充分展現了它對各個模態交互的深刻理解，能看、能説、能推理、能夠感知和表達簡單的情感和價值，也讓我們看到了 AGI-1 的潛在可能性。

本文由李超凡、肖凡博、莫崇宇合寫

資料來源：愛範兒（ifanr）

標籤: Google Gemini GPT-4

Google 史上最強大模型 Gemini，真的全面「碾壓」GPT-4 嗎？

如果喜歡我們的文章，請即分享到︰