蘋果今年最大的更新要來了,AI Siri 的終極形態比 GPT-4o 更科幻 | WWDC24 前瞻
Siri 已經落後了。
據《紐約報道》,這就是去年蘋果軟件主管 Craig Federighi 和機器學習高管 John Giannandrea 花了幾周測試 ChatGPT 後的想法,因此,他們決定對這個 13 歲的語音助手進行大改造。
離 WWDC 開發者大會還有不到半個月的時間,科技記者 Mark Gurman 帶來了 AI 版 Siri 的最新進展爆料,看起來,這個總是被吐槽「人工智障」的語音助手確實將迎來大更新。
一個壞消息:裏面一些重磅功能可能不會在今年到來。
儘管如此, Mark Gurman 稱蘋果內部依然將 iOS 18 視為有史以來最重要的升級。蘋果 WWDC24 將於北京時間 6 月 11 日凌晨 1 點舉辦,屆時 APPSO 將在 Apple Park 現場給大家帶來最新報道,敬請關注。
姍姍來遲又未來可期的「掌控應用」功能
據報道,在 AI 的加持下,Siri 將能夠進一步「掌控應用」,實現應用功能的精準控制。
比如説,讓 Siri 把文件從一個文件夾轉移到另一個文件夾,或者讓 Siri 打開特定的新聞文章,甚至可以讓 Siri 給出一個文章摘要。
雖然現在已經能夠使用 Siri 來發短信甚至發微信,但是基於 AI 大改造的 Siri 將走得更遠,能夠分析人們如何使用自己的設備,並學會越來越多的自動操作。蘋果計劃,將在其開發的 app 中支持「數百個」的命令。
▲ iOS 10 就已經能實現的 Siri 發微信功能
聽着確實不錯,不過 Gurman 表示,這個功能一開始僅限於蘋果自己開發的 app,而且不會在今年推出,可能最早要等到明年的 iOS 18 後續更新。
並且也有消息稱,舊型號或許僅有搭載 A17 Pro iPhone 15 Pro,以及 M1 以上的 Mac 能夠支持更多本地 AI 功能。
新的 Siri 一開始可能一次只能聽懂並執行一個命令,但有望在未來支持一串的命令,比如説將錄製好的會議錄音生成一個總結(也是 iOS 18 有望推出的功能),然後用郵件發給同事,還能直接補充一點文字説明,一套操作一句話就能交給 Siri 完成。
新的 Siri 也預計會和 iOS 18 的其他 AI 功能一樣,存在一個判斷系統,根據所需算力大小,判斷 AI 任務是否可以在設備本地完成,還是需要在雲端運行。
如果要去總結 Siri 目前這 13 年的發展,「管生不管養」恐怕是最貼切的一個。
在 2011 年的 iPhone 4s 發佈會上,Siri 壓軸登場,給在場觀眾和世人不小震撼。當時對 Siri 的演示是這樣的:可以問它某城市天氣如何,或者某股票表現如何,而一句話就能設定一個離開公司自動彈出的提醒事項,在當時也是一個非常酷非常未來的功能。
結果,13 年過去,上面的功能似乎還是 Siri 使用最多的幾個場景,就算是後來支持的家居操控,和快捷指令,總體上還是一些打開關閉的功能,其實 Siri 一直沒迎來質的飛躍。
即使在面對 Google Assistant、微軟 Cortana、三星 Bixby 等其他後來居上的語音助手挑戰,甚至國內小米「小愛同學」也越來越好用的情況下,蘋果依然不思進取,直到 ChatGPT 橫空出世才意識到 Siri 已經落後時代。
▲ 小愛同學已經在去年接入了大模型
雖然蘋果好像隔三差五就在發佈會上介紹,Siri 又變強了,能理解更多指令了,能幹更多事情了,但很多時候,能理解不代表能做到,能做到不代表能做好。
比如告訴 Siri,我想自拍,Siri 二話不説幫你打開相機和前置攝像頭,然後就沒有然後了,用户還需要伸手去點擊快門。甚至有的時候,Siri 只會自動跳轉相機應用,而不會跳轉到前置模式。
如果是三星的 Bixby 助手,會自動進入自拍的倒計時,全程真正做到不需要用户動手操作。
蘋果默認的相機應用本身自帶倒計時功能,因此這種流程在實現上根本不需要太多 AI 因素加持,但蘋果就是沒有把體驗做好。
Siri 的對手是快捷指令
不知道你有沒有使用過「快捷指令」這個功能呢?
蘋果收購 Workflow 公司後,在 iOS 12 中將其產品作為「快捷指令」整合入 iPhone,也在 macOS 12 時在 Mac 平台上推出。
▲ 快捷指令已經整合進入了蘋果生態鏈中
這個功能能夠實現很多 iOS 的進階玩法,比如説一鍵實現釘釘打卡,一鍵將 LivePhoto 和視頻製作成 GIF,甚至還能自動化運行,實現「節假日自動關鬧鐘」。
但這個功能對小白用户並不友好。想要新建一個快捷指令,用户要在一個類似腳本編程的界面中選擇各種操作模塊,並用各種諸如「如果.. 那麼」「只要… 就」的邏輯將其串聯起來,像是「節假日鬧鐘」這種包含多種邏輯判斷和自動化運行的快捷指令,用户即使是對着教程設置,也很容易出錯。
蘋果雖然提供一個可以直接獲取現成腳本的「快捷指令中心」,但是裏面提供的快捷指令效果簡單,很少有切中用户痛點的功能。
這個功能類似三星 Galaxy 手機的「Good Lock」模塊,提供效果非常強大的自定義功能,但是門檻相對應也不低。
而 AI 大模型最重要的能力之一,就是自然語言的理解和邏輯思維能力。也就是説,用户對大模型 AI 説一句「我下班了,幫我打卡」,AI 就會知道你的意思是執行「打開釘釘」-「進行打卡」的操作,而不是表示自己「沒聽明白」。
現在的 Siri 也不是完全不具備這種能力。讓 Siri 在你離開公司時提醒你給家人買個生日蛋糕,是 iPhone 4s 發佈會上就被演示的功能,背後同樣是理解用户語言並轉化成相關操作的一個過程。
▲ Siri 發佈會上介紹的很多功能依舊是現在 Siri 的主要能力
而 AI 大模型加持後的 Siri 能做到的應該遠遠不僅如此。用户用自然語言描述自己的複雜需求,Siri 聽懂後,轉化成腳本的邏輯,並自己執行相應的步驟,不用讓用户面對複雜的編程,這才是真正的「快捷」指令。
▲ChatGPT 教我如何用 iOS 快捷指令設置節假日鬧鐘,雖然邏輯清晰,但似乎不太可用
除了讓用户更自然自定義操作,還可以去期待 Siri 成為一個更「主動」的助理。
如果你使用 iPhone 時間夠長,會發現在有時候,iPhone 會自動彈出建議。比如説,用户戴好藍牙耳機,就推薦你打開網易雲音樂,因為這就是你的使用規律;或者在深夜充電時,手機自動降低了充電功率,以保養電池,但又能在你醒來前充好,也是因為發現你有在睡前長時間充電的習慣。
這些就是機器學習的結果,也是蘋果一直以來致力的 AI 功能。現代人一天要花不少時間在手機上,用手機買買買、吃飯、辦公已經很普遍,手機自然成為比肚裏的蛔蟲更懂你的存在。
想象一下蘋果強大的情景感知,加上更強大的手機自動操作能力,AI 版的 Siri 或許真的能化身成一個真正的「私人助理」,在你把事情交給它完成之前,就預判好你的需求,把一切安排妥當。
比如説,通過你訂的機票,自動幫你查詢好目的地到達後的天氣,還提前設好鬧鐘,根據你的出行習慣和實時交通狀況,預計好出行的時間提前幫你叫車,到了機場自動彈出機票和自行使用應用值機,到了當地給你打開大眾點評推薦餐廳,簡直是私人助理+導遊。
想要實現這一套行雲流水的操作,我們當然會去想,這需要也開發者和蘋果的雙向奔赴。不過,AI 發展的速度已經超出了我們的想象,也許未來,AI 能夠直接模仿人類的操作。
我們能看懂的 UI,AI 也在學習中
雖然新的 Siri 的智能操作初期只支持蘋果自己的應用,但我更願意相信這只是蘋果 AI Siri 路線的起點或者中段,而並非終點。
我相信蘋果 AI 最終的目標是實現這樣的場景:早上起牀,用一句「Siri」喚醒 Siri,再讓它打開微信公眾號「愛範兒」,朗讀最新的文章,就這樣在完全不用動手的情況下,聽取愛範兒的早報。
▲ 一個許多年前的 iPhone 概念手機殼,想法是「Siri」擬人化和語音解放雙手
「快捷指令」能夠支持第三方 app 的操作,主要是因為蘋果開放了 API,第三方應用廠商也可以將應用內的操作拆分成快捷指令能夠執行的模塊。
但這還要看應用廠商是否願意提供相關的模塊和操作,比如説,如果菜鳥 app 不開放顯示取件碼的操作,就算 Siri 再聰明,也無法自行打開菜鳥顯示取件碼。
如果再進一步,讓 AI 直接能理解什麼是取件碼,以及取件碼在 app 的哪個位置,並在接到指令後自己打開呢?
這聽起來好像有點太科幻,不過,行業已經在進行相關嘗試了。
在上星期的微軟 Build 2024 開發者大會上,微軟整了個活:GPT-4o 支持的 Copliot,能夠實時查看屏幕上的內容,引導玩家一起玩《我的世界》。
演示中,Copilot 用非常流暢自然、甚至還帶有一絲情緒的語言,引導玩家在遊戲中製作一把劍。在這個過程中,Copilot 能夠識別遊戲揹包內的物品,還能告知玩家缺少的材料,完全就像一個帶你玩遊戲的「大神」。
這表明,AI 助手已經不僅僅是「你問我答」的文字機器人,或者只能夠在後台編程處理數據,而是真正能開始理解我們人類看見的 UI 界面,還能知曉我們如何操作。
而今年火了一段時間的「AI 硬件」Rabbit R1,基本拋棄了操作界面,完全通過 AI 語音助手完成各種服務的使用,Rabbit 公司宣稱,他們使用了一種名為「大動作模型」(LAM)的 AI 模型技術,能夠在理解了用户的指令後,在服務器模仿人類的操作,直接在相關網頁和應用中完成用户的指令。
▲ Rabbit R1 號稱用語音來實現跨應用跨平台的操作
雖然 Rabbit R1 的表現與他們所描繪的場景相差甚遠,但是這個願景本身非常美好,GPT-4o 等機器人在視覺理解的優秀表現,也讓人感覺讓 AI 代替人類實現操作的未來確實不遠了。
蘋果作為一家在開發者中極具號召力的公司,完全可以不用模仿初創公司 Rabbit 全盤使用「LAM」的做法,可以通過開放相關接口和提供 SDK 的做法,讓各大第三方開發商在應用中原生支持 AI 操作,帶來更加成熟穩定的語音操作體驗。
蘋果相關的研究顯示,他們確實有這種想法,配套蘋果的應用 UI 設計標準,Siri 能夠更容易理解 iPhone 屏幕上的一切。
▲ 蘋果也在研究怎麼讓大模型看懂 UI
雖然技術不如人,但蘋果在用户數量和生態構建上的領先,能成為一種非常強大的優勢。
9to5Mac 這樣預測和評價蘋果即將到來的 Siri 和 AI 更新:
比起 Rabbit R1 這種新潮硬件,人人都有的智能手機或許才是 AI 的最佳載體。
用户不需要知道自己在用的是 AI 功能,但是當他讓 Siri 幫忙規劃一個旅遊計劃、幫訂機票的時候,AI 已經在開始深刻改變他的生活。
資料來源:愛範兒(ifanr)
據《紐約報道》,這就是去年蘋果軟件主管 Craig Federighi 和機器學習高管 John Giannandrea 花了幾周測試 ChatGPT 後的想法,因此,他們決定對這個 13 歲的語音助手進行大改造。
離 WWDC 開發者大會還有不到半個月的時間,科技記者 Mark Gurman 帶來了 AI 版 Siri 的最新進展爆料,看起來,這個總是被吐槽「人工智障」的語音助手確實將迎來大更新。
一個壞消息:裏面一些重磅功能可能不會在今年到來。
儘管如此, Mark Gurman 稱蘋果內部依然將 iOS 18 視為有史以來最重要的升級。蘋果 WWDC24 將於北京時間 6 月 11 日凌晨 1 點舉辦,屆時 APPSO 將在 Apple Park 現場給大家帶來最新報道,敬請關注。
姍姍來遲又未來可期的「掌控應用」功能
據報道,在 AI 的加持下,Siri 將能夠進一步「掌控應用」,實現應用功能的精準控制。
比如説,讓 Siri 把文件從一個文件夾轉移到另一個文件夾,或者讓 Siri 打開特定的新聞文章,甚至可以讓 Siri 給出一個文章摘要。
雖然現在已經能夠使用 Siri 來發短信甚至發微信,但是基於 AI 大改造的 Siri 將走得更遠,能夠分析人們如何使用自己的設備,並學會越來越多的自動操作。蘋果計劃,將在其開發的 app 中支持「數百個」的命令。
▲ iOS 10 就已經能實現的 Siri 發微信功能
聽着確實不錯,不過 Gurman 表示,這個功能一開始僅限於蘋果自己開發的 app,而且不會在今年推出,可能最早要等到明年的 iOS 18 後續更新。
並且也有消息稱,舊型號或許僅有搭載 A17 Pro iPhone 15 Pro,以及 M1 以上的 Mac 能夠支持更多本地 AI 功能。
新的 Siri 一開始可能一次只能聽懂並執行一個命令,但有望在未來支持一串的命令,比如説將錄製好的會議錄音生成一個總結(也是 iOS 18 有望推出的功能),然後用郵件發給同事,還能直接補充一點文字説明,一套操作一句話就能交給 Siri 完成。
新的 Siri 也預計會和 iOS 18 的其他 AI 功能一樣,存在一個判斷系統,根據所需算力大小,判斷 AI 任務是否可以在設備本地完成,還是需要在雲端運行。
如果要去總結 Siri 目前這 13 年的發展,「管生不管養」恐怕是最貼切的一個。
在 2011 年的 iPhone 4s 發佈會上,Siri 壓軸登場,給在場觀眾和世人不小震撼。當時對 Siri 的演示是這樣的:可以問它某城市天氣如何,或者某股票表現如何,而一句話就能設定一個離開公司自動彈出的提醒事項,在當時也是一個非常酷非常未來的功能。
結果,13 年過去,上面的功能似乎還是 Siri 使用最多的幾個場景,就算是後來支持的家居操控,和快捷指令,總體上還是一些打開關閉的功能,其實 Siri 一直沒迎來質的飛躍。
即使在面對 Google Assistant、微軟 Cortana、三星 Bixby 等其他後來居上的語音助手挑戰,甚至國內小米「小愛同學」也越來越好用的情況下,蘋果依然不思進取,直到 ChatGPT 橫空出世才意識到 Siri 已經落後時代。
▲ 小愛同學已經在去年接入了大模型
雖然蘋果好像隔三差五就在發佈會上介紹,Siri 又變強了,能理解更多指令了,能幹更多事情了,但很多時候,能理解不代表能做到,能做到不代表能做好。
比如告訴 Siri,我想自拍,Siri 二話不説幫你打開相機和前置攝像頭,然後就沒有然後了,用户還需要伸手去點擊快門。甚至有的時候,Siri 只會自動跳轉相機應用,而不會跳轉到前置模式。
如果是三星的 Bixby 助手,會自動進入自拍的倒計時,全程真正做到不需要用户動手操作。
蘋果默認的相機應用本身自帶倒計時功能,因此這種流程在實現上根本不需要太多 AI 因素加持,但蘋果就是沒有把體驗做好。
Siri 的對手是快捷指令
不知道你有沒有使用過「快捷指令」這個功能呢?
蘋果收購 Workflow 公司後,在 iOS 12 中將其產品作為「快捷指令」整合入 iPhone,也在 macOS 12 時在 Mac 平台上推出。
▲ 快捷指令已經整合進入了蘋果生態鏈中
這個功能能夠實現很多 iOS 的進階玩法,比如説一鍵實現釘釘打卡,一鍵將 LivePhoto 和視頻製作成 GIF,甚至還能自動化運行,實現「節假日自動關鬧鐘」。
但這個功能對小白用户並不友好。想要新建一個快捷指令,用户要在一個類似腳本編程的界面中選擇各種操作模塊,並用各種諸如「如果.. 那麼」「只要… 就」的邏輯將其串聯起來,像是「節假日鬧鐘」這種包含多種邏輯判斷和自動化運行的快捷指令,用户即使是對着教程設置,也很容易出錯。
蘋果雖然提供一個可以直接獲取現成腳本的「快捷指令中心」,但是裏面提供的快捷指令效果簡單,很少有切中用户痛點的功能。
這個功能類似三星 Galaxy 手機的「Good Lock」模塊,提供效果非常強大的自定義功能,但是門檻相對應也不低。
而 AI 大模型最重要的能力之一,就是自然語言的理解和邏輯思維能力。也就是説,用户對大模型 AI 説一句「我下班了,幫我打卡」,AI 就會知道你的意思是執行「打開釘釘」-「進行打卡」的操作,而不是表示自己「沒聽明白」。
現在的 Siri 也不是完全不具備這種能力。讓 Siri 在你離開公司時提醒你給家人買個生日蛋糕,是 iPhone 4s 發佈會上就被演示的功能,背後同樣是理解用户語言並轉化成相關操作的一個過程。
▲ Siri 發佈會上介紹的很多功能依舊是現在 Siri 的主要能力
而 AI 大模型加持後的 Siri 能做到的應該遠遠不僅如此。用户用自然語言描述自己的複雜需求,Siri 聽懂後,轉化成腳本的邏輯,並自己執行相應的步驟,不用讓用户面對複雜的編程,這才是真正的「快捷」指令。
▲ChatGPT 教我如何用 iOS 快捷指令設置節假日鬧鐘,雖然邏輯清晰,但似乎不太可用
除了讓用户更自然自定義操作,還可以去期待 Siri 成為一個更「主動」的助理。
如果你使用 iPhone 時間夠長,會發現在有時候,iPhone 會自動彈出建議。比如説,用户戴好藍牙耳機,就推薦你打開網易雲音樂,因為這就是你的使用規律;或者在深夜充電時,手機自動降低了充電功率,以保養電池,但又能在你醒來前充好,也是因為發現你有在睡前長時間充電的習慣。
這些就是機器學習的結果,也是蘋果一直以來致力的 AI 功能。現代人一天要花不少時間在手機上,用手機買買買、吃飯、辦公已經很普遍,手機自然成為比肚裏的蛔蟲更懂你的存在。
想象一下蘋果強大的情景感知,加上更強大的手機自動操作能力,AI 版的 Siri 或許真的能化身成一個真正的「私人助理」,在你把事情交給它完成之前,就預判好你的需求,把一切安排妥當。
比如説,通過你訂的機票,自動幫你查詢好目的地到達後的天氣,還提前設好鬧鐘,根據你的出行習慣和實時交通狀況,預計好出行的時間提前幫你叫車,到了機場自動彈出機票和自行使用應用值機,到了當地給你打開大眾點評推薦餐廳,簡直是私人助理+導遊。
想要實現這一套行雲流水的操作,我們當然會去想,這需要也開發者和蘋果的雙向奔赴。不過,AI 發展的速度已經超出了我們的想象,也許未來,AI 能夠直接模仿人類的操作。
我們能看懂的 UI,AI 也在學習中
雖然新的 Siri 的智能操作初期只支持蘋果自己的應用,但我更願意相信這只是蘋果 AI Siri 路線的起點或者中段,而並非終點。
我相信蘋果 AI 最終的目標是實現這樣的場景:早上起牀,用一句「Siri」喚醒 Siri,再讓它打開微信公眾號「愛範兒」,朗讀最新的文章,就這樣在完全不用動手的情況下,聽取愛範兒的早報。
▲ 一個許多年前的 iPhone 概念手機殼,想法是「Siri」擬人化和語音解放雙手
「快捷指令」能夠支持第三方 app 的操作,主要是因為蘋果開放了 API,第三方應用廠商也可以將應用內的操作拆分成快捷指令能夠執行的模塊。
但這還要看應用廠商是否願意提供相關的模塊和操作,比如説,如果菜鳥 app 不開放顯示取件碼的操作,就算 Siri 再聰明,也無法自行打開菜鳥顯示取件碼。
如果再進一步,讓 AI 直接能理解什麼是取件碼,以及取件碼在 app 的哪個位置,並在接到指令後自己打開呢?
這聽起來好像有點太科幻,不過,行業已經在進行相關嘗試了。
在上星期的微軟 Build 2024 開發者大會上,微軟整了個活:GPT-4o 支持的 Copliot,能夠實時查看屏幕上的內容,引導玩家一起玩《我的世界》。
演示中,Copilot 用非常流暢自然、甚至還帶有一絲情緒的語言,引導玩家在遊戲中製作一把劍。在這個過程中,Copilot 能夠識別遊戲揹包內的物品,還能告知玩家缺少的材料,完全就像一個帶你玩遊戲的「大神」。
這表明,AI 助手已經不僅僅是「你問我答」的文字機器人,或者只能夠在後台編程處理數據,而是真正能開始理解我們人類看見的 UI 界面,還能知曉我們如何操作。
而今年火了一段時間的「AI 硬件」Rabbit R1,基本拋棄了操作界面,完全通過 AI 語音助手完成各種服務的使用,Rabbit 公司宣稱,他們使用了一種名為「大動作模型」(LAM)的 AI 模型技術,能夠在理解了用户的指令後,在服務器模仿人類的操作,直接在相關網頁和應用中完成用户的指令。
▲ Rabbit R1 號稱用語音來實現跨應用跨平台的操作
雖然 Rabbit R1 的表現與他們所描繪的場景相差甚遠,但是這個願景本身非常美好,GPT-4o 等機器人在視覺理解的優秀表現,也讓人感覺讓 AI 代替人類實現操作的未來確實不遠了。
蘋果作為一家在開發者中極具號召力的公司,完全可以不用模仿初創公司 Rabbit 全盤使用「LAM」的做法,可以通過開放相關接口和提供 SDK 的做法,讓各大第三方開發商在應用中原生支持 AI 操作,帶來更加成熟穩定的語音操作體驗。
蘋果相關的研究顯示,他們確實有這種想法,配套蘋果的應用 UI 設計標準,Siri 能夠更容易理解 iPhone 屏幕上的一切。
▲ 蘋果也在研究怎麼讓大模型看懂 UI
雖然技術不如人,但蘋果在用户數量和生態構建上的領先,能成為一種非常強大的優勢。
9to5Mac 這樣預測和評價蘋果即將到來的 Siri 和 AI 更新:
引用在 WWDC 上。我們或許不會看到任何特別革命性的東西,但 AI 融入數百萬人每天使用的系統和應用本身就是一場革命。
比起 Rabbit R1 這種新潮硬件,人人都有的智能手機或許才是 AI 的最佳載體。
用户不需要知道自己在用的是 AI 功能,但是當他讓 Siri 幫忙規劃一個旅遊計劃、幫訂機票的時候,AI 已經在開始深刻改變他的生活。
資料來源:愛範兒(ifanr)