Google 發佈「AI 全家桶」反擊 GPT-4o ！搜索引擎罕見大更新， 121 句「AI」道盡焦慮

昨晚 OpenAI 發佈了 ChatGPT-4o 後，壓力就給到了 Google I/O ，彷彿 Google 無論如何也擺脱不了「AI 界的汪峯」這一稱號。

而 Google 則通過近 2 個小時的發佈會，提了 121 次 AI ，推出了十餘種新品及升級，可謂「量大管飽」，火力全面覆蓋，但給人的驚喜卻並不多。

https://s3.ifanr.com/wp-content/uploads/2024/05/11111.png!720

圖片來源：s3.ifanr.com

我們先給大家一次性總結這場發佈會的亮點，更多功能解析請接着往下看。

發佈會要點：

Google Search AI：發佈了 AI Overviews，加強版 AI 搜索概要功能，多步推理能力上架。
Gemini 大模型：Gemini 1.5 Flash（100 萬上下文）；Gemini Pro（200 萬上下文）。
Gemma 大模型：發佈開源多模態大模型 Pali Gemma 和 Gemma2。
AI in Google Workspace：用 Gemini 的能力和 Side Panel 的形式，將 Google 系列產品串在一起。
Gemini App：手機版的 Gemini 應用程序，即將支持和 AI 視頻對話，近幾周發佈。
Project Astra：最新的多模態 AI 項目，包含 Imagen3、 Music AI Sandbox 和 Veo 等針對圖像、音樂、視頻的生成式 AI。

做搜索起家，用搜索王炸

Google Search 是 Google 最大的投資和創新領域之一，更是它們的創始產品。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO12.jpg!720

圖片來源：s3.ifanr.com

25 年前，Google 開啓了搜索功能，今晚 Google 再次拓展了搜索的邊界。

簡單來説，有了 AIGC 的 Google Search，可以做到更多事情：

引用無論你在想什麼，無論你需要完成什麼，只要問問（它），Google Search 就能找到。

而 Google Search 的一切進化，都是建立在專為其定製的 Gemini 模型上。

Google 在發佈會上介紹，「與眾不同」的 Google Search，主要有三個獨特的優勢：

Google 的實時信息包括超過一萬億個關於人、地點和事物的事實
名列前茅的產品，和最好的網絡服務之一
Gemini 的力量

把將這三件事結合在一起，就解鎖了 Google 在搜索領域的全新能力。

第一個新功能是 AI Review，用户可以通過在搜索結果的頂部，獲取由 AI 大模型生成的摘要，以此簡化整個搜索過程，讓複雜問題的檢索過程，變得簡單。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO10.jpg!720

圖片來源：s3.ifanr.com

Google 稱，到今年年底，將有超過十億人使用 Google Search 中的 AI Review 功能，而且 Google 宣稱，這也將會是其搜索引擎 25 年以來最大的更新之一。

Multi-step reasoning 是 Google Search 中的另一個重磅功能。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO8.jpg!720

圖片來源：s3.ifanr.com

通過全新的多步推理，以後我們做一些生活、工作和出行的計劃，會變得非常簡單。

比如你可以通過搜索欄來找到「附近最好的瑜伽館」，隨後附近所有關於瑜伽館的評價評分、課程推薦、距離等重要信息，都會被分類成塊，十分清楚地在搜索結果中顯示。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO7.jpg!720

圖片來源：s3.ifanr.com

依靠 Google 自有的龐大數據庫，AI 在搜索過程當中可以調用最新、最全的高質量信息，所以搜索結果的準確性和可信性也就有了更多的保障。

目前，Google 在全球包含了超過 2.5 億個地點，並實時更新，當中還包括評分、評論、營業時間等重要信息。

Planning in Search 是另一個幫你減少負擔的更新。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO6.jpg!720

圖片來源：s3.ifanr.com

比如你現在正在重新調整膳食結構、從頭安排飲食計劃，不想在早餐、午餐和晚餐時吃通心粉和奶酪。

直接把需求拋給搜索框，Google Search 就能還給你一份按照要求，且合理安排的全新一週食譜。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO5.jpg!720

圖片來源：s3.ifanr.com

而且，你還可以隨時改變條件和細節，搜索的結果也會根據最新的提示實時更新。

如果説上述的功能，我們已經在其他公司的產品中見過，甚至用過，那 Ask with Video ，一定會給你一些驚喜。

生活當中有很多物件，都有着各自的專屬名稱，有些器械出現一些小問題時，也都有着對應的修理方式。但很多時候只有專業人士才能叫得出，也只有他們能「對症下藥」。

現在通過 Google Search 的 Ask with Video，每個人都能稱為專家，它相當於一本裝在手機裏的百科全書。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO4.jpg!720

圖片來源：s3.ifanr.com

唱片的零部件不起作用了不知道從何下手，相機的快門突然失靈…… 以前可能要大費周折地寄回廠家售後，但現在用 Google 設備的鏡頭拍下問題所在，Google Search 就能根據你所遇到的問題初步診斷，一些小故障還能當場給出解決方案。

在發佈會的實時演示裏，AI 還把整個的修理步驟一一列出，按照屏幕上的指示，演示者很快就能解決小麻煩。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO3.jpg!720

圖片來源：s3.ifanr.com

這個功能，是通過 AI 逐幀分解視頻，把每一幀的關鍵信息導入 Gemini 的長觸點窗口挨個分析，並梳理網絡中相關的文章、論壇、視頻等，從中找到見解，以此實現了 Ask with Video 的智能建議。

比起傳統的文字輸入，視頻最大的好處在於，我們和 AI 的交互過程變得更加直觀，用「這裏」「這個」等模糊的詞語，也能使大模型知道我們指代到底是什麼。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO2.jpg!720

圖片來源：s3.ifanr.com

Google 稱，這些最新的 AI 功能，將會在未來幾周內於實驗室功能推出，這也意味着更強大的 Google Search 離落地已經不遠了。

後續版本中，它甚至還將能基於頁面中視頻的自動字幕來尋找答案，不知道會不會搶了那些「1 分鐘看完 XX 電影」博主的飯碗。

圖 · 歌 · 片，瞄着 OpenAI 打

如果説前兩天的 GPT-4o 是 AI 再一次給世界帶來了一點震撼，那今晚 Google 官宣的 Project Astra 則是震撼的延續。

Project Astra 是 GoogleMind 的原型——一個通用人工智能助手。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO20.jpg!720

圖片來源：s3.ifanr.com

和 GPT-4o 的使用效果類似，用户可以通過它和 AI 實時對話，以及視頻聊天。

發佈會的演示可以很好地表現這個新功能，工作人員在演示視頻中將手機鏡頭對準身邊的物品，並向 Project Astra 提出一些疑問，它幾乎能做到零延時地準確回答。

例如 Project Astra 能説出音響上半部分的是高音喇叭，對電腦屏幕上顯示的代碼也能輕鬆識別其具體作用。

Google 稱：

引用我們的新項目專注於構建一個未來的人工智能助手，它可以在日常生活中真正提供幫助。

基於更強大的 AI 性能，Google 在 I/O 上還宣佈了另外三個實用功能，它們分別在「圖像」「音樂」「視頻」領域，體現着先進技術的「未來感」。

Imagen 3 是 Google 發佈的最新的圖像生成模型。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO18.jpg!720

圖片來源：s3.ifanr.com

它可以更加理解我們的提示詞，並以此創建更加逼真的圖像。

發佈會上展示的「狼」的生成圖片，就是 Imagen 3 在一段敍述中，準確提取了 8 個細節信息，並且在圖片中都有體現。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO17.jpg!720

圖片來源：s3.ifanr.com

不難發現，生成圖片不僅細節準確，而且十分逼真。

Imagen 3 還能應對一些更加抽象的圖片創作，例如根據「彩虹色」「羽毛組成的 light」「黑色背景」的提示，生成的創意圖片。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO16.jpg!720

圖片來源：s3.ifanr.com

就像是它很清楚你想要什麼。

發言人甚至在發佈會上開玩笑式地炫耀「你可以用它來數別人臉上的鬍鬚」。

在音樂生成方面，Google 也有了新的突破。

Music AI Sandbox 是最新推出的音樂生成模型，Google 這次在 I/O 現場還請來了 Marc Rebillet 坐鎮分享。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO14.jpg!720

圖片來源：s3.ifanr.com

根據藝人創作的一小段音樂 demo，Music AI Sandbox 能在此基礎上拓展延長，還可以進一步按照用户輸入的提示詞，如音樂風格和種類等，進行樂曲的二度創作。

Google 稱，它們和 YouTube 一起構建了 Music AI Sandbox：

引用這是一套專業的 AI 音樂工具，可以從頭開始創建新的樂器部分，在軌道之間轉換風格等，以幫助我們設計和測試它們。

另一個實用模型名為 Veo，專注於生成視頻。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO13.jpg!720

圖片來源：s3.ifanr.com

用户只需輸入相關的文本、圖像或視頻提示，Veo 就能創建高質量的 1080p 規格的視頻，時長也達到了 60 秒之久。

它能以不同的視覺和電影風格捕捉指令中的詳細信息。

https://s3.ifanr.com/wp-content/uploads/2024/05/11-2.gif

圖片來源：s3.ifanr.com

例如，我們可以在提示中輸入事物、橫向或延時的航拍照片，並使用其他提示進一步編輯視頻。

一直以來，視頻生成 AI「只在理論上成立」其實有諸多阻礙，其中走向「能用」的最大門檻是：視頻生成時間只有短短几秒，一般只能在一兩個動作裏反覆橫跳。

https://s3.ifanr.com/wp-content/uploads/2024/05/22.gif

圖片來源：s3.ifanr.com

所以 Sora 發佈之初才會引起非常大的討論，而今晚開始，Google 的 Veo 也成了大家重點關注的對象，從照片寫實主義到超現實主義和動畫，大部分的影視風格，它都能處理。

除了 Project Astra 以外，Google 還為我們提供了一個可私人定製的 Gemini ——Gems。

Google 表示，它能在保留指定特徵的情況下完成任務，成為千人千面的私人助手，用户可以通過調整定位，使其成為瑜伽好友、虛擬的流行人物、健身夥伴、創意寫作指導甚至是微積分導師等，都不在話下。

https://s3.ifanr.com/wp-content/uploads/2024/05/m4-1.jpg!720

圖片來源：s3.ifanr.com

Gemini 狂卷長文本，Gemini 家族再添新成員
Gemini 項目自曝光以來，一直備受關注。起初也曾存在一定爭議，但後來也憑藉自身實力挽回了口碑，而今也越來越成熟。

據皮查伊介紹，目前有超過 150 萬開發人員使用 Gemini 模型，用户數量已經達到 20 億，如今皮查伊再提「Gemini 時代」，目標是將其集成到所有產品中，為用户帶來全新體驗，也為創造者、開發者、創業公司創造新的機會。

https://s3.ifanr.com/wp-content/uploads/2024/05/m3.jpg!720

圖片來源：s3.ifanr.com

目前最新的 Gemini 1.5 Pro 支持 100 萬 token 文本量，今年晚些時候據稱這個數字將會達到 200 萬，能夠同時處理 2 小時的視頻、22 小時的音頻、超過 60,000 行代碼或超過 140 萬個單詞。

此外，大會還宣佈了基於 Gemini 1.5 Pro 的 Gemini Advanced，據稱它可以處理「多個大型文檔，總計最多 1500 頁，或彙總 100 封電子郵件」，還支持 35 種語言和 150 多個國家 / 地區。
不得不説，在文本量方面，Gemini 確實很卷，「朝着將任何輸入轉為任何輸出的目標邁出了一大步」。

https://s3.ifanr.com/wp-content/uploads/2024/05/m2.jpg!720

圖片來源：s3.ifanr.com

安全永遠是重中之重

自 AI 誕生之初以來，關於如何辨別 AI 生成內容的爭論就一直沒有停止。Google 的對策是通過 SynthID，為 AI 生成的圖像和音頻添加不可見的水印，使其更易於區分，

未來 Google 將會把這一範圍推廣到文本及視頻中，並在接下來的幾個月裏，通過更新生成式 AI 工具包開源 SynthID 文本水印，幫助更多開發人員更輕鬆地負責任地構建 AI。

https://s3.ifanr.com/wp-content/uploads/2024/05/m1.jpg!720

圖片來源：s3.ifanr.com

Gemini 融入其中後，Android 會在通話過程中，檢測到可疑活動時發出警告，例如被要求提供您的社會安全號碼和銀行信息，屬於是直接把「反詐中心」裝手機上了。

還有無障礙功能 TalkBack 也將通過 Gemini Nano 增強，圖像描述將更加清晰和豐富，幫助視力不佳的用户通過語音反饋更好地操作手機，體現出 Google 一貫的人文關懷。

https://s3.ifanr.com/wp-content/uploads/2024/05/IO23.jpg!720

圖片來源：s3.ifanr.com

而對於 Google 今晚的表現，英偉達 NVIDIA 研究經理 Jim Fan 的評價，十分中肯。

Google 新發布的模型似乎是多模態輸入，但不是多模態輸出的 Imagen3 和 Music AI Sandbox 仍然作為獨立組件與 Gemini 分離。將所有模態 I/O 原生合併是不可避免的未來。
它可以執行任務，如「使用更機器人化的聲音」「編輯這幅圖像」「生成一致的漫畫條帶」。

而且還不會在模態邊界上丟失信息，例如情感和背景聲音，全新模型打開了新的上下文能力，用户也能通過少量示例教導模型，並以新穎的方式結合不同的意義。

https://s3.ifanr.com/wp-content/uploads/2024/05/111111-1.png!720

圖片來源：s3.ifanr.com

GPT-4o 並不完美，但它正確地掌握了形式因素，用安德烈的 LLM- 作為操作系統的比喻來説：

引用我們需要模型本地支持儘可能多的文件擴展名。

Google 做對了一件事：他們終於在將人工智能整合到搜索框中做出了認真的努力。

Gemini 不必是最好的那一個，但卻可以成為最廣泛使用的一個。

*王萌對本文亦有貢獻

資料來源：愛範兒（ifanr）

標籤: Google GPT-4o