從 Cortana 到 Copilot,微軟終於等到了屬於它的時代
前不久,我們報道了微軟在 Build 2023 開發者大會發布的 Windows Copilot ——深度集成在 Windows 11 人工智能助手。
至此,Copilot 已經出現在了微軟幾乎所有重要產品之中,包括輔助編程的 Github Copilot、輔助辦公的 Microsoft 365 Copilot、輔助客户溝通的 Viva Copilot、輔助業務流程的 Dynamic 365 Copilot 等等。
微軟比那些宣告自己 AI first、All in AI 的公司還要更進一步,選擇 All in Copilot,即全面轉向人工智能輔助技術。
我們來到了轉折點
看到這裏,相信有相當一部分不那麼關心 AI 技術的讀者還不太瞭解,「Copilot」到底是什麼。
「Copilot」一詞源自飛行術語,意思是副駕駛員(Co-pilot)。在飛機上,副駕駛員是協助主駕駛員操作飛機的人,通常當主駕駛員需要休息或處理其他任務時,副駕駛員就會接管控制權,二者共同負責飛機的安全飛行。
對照這個定義,我們就不難理解:每個使用計算機程序的人都是「駕駛員」,AI 則是輔助我們航行的「副駕駛」。
舉個例子,當你準備沉下心來辦公,你就可以在 Windows 11 調出 Copilot,把你的需求敲進去:
Windows Copilot 會建議你打開專注模式,並把系統界面調整成更沉浸的暗色模型。
這時候你還想聽一點音樂,再敲入需求:
Windows Copilot 會根據你喜歡的音樂類型,在 Spotify 等音樂軟件上播放對應的歌單。
聽起來我們像是又回到了命令行界面時代,通過一個輸入框實現所有的計算機操作。但不同的是,你不再需要花時間去學習和理解編程這門專屬於計算機的語言,你只要用人類的自然語言把你的需求拋給它,它就能幫你解決。
Windows Copilot 還可以幫你解決很多問題,例如當你收到一份冗長到讀不下去的文件,你可以直接把它從桌面拖到 Copilot 上,讓 AI 幫你總結這份文檔,實現「量子速讀」。
你還可以讓它幫你重寫或者解釋文檔的內容,提高工作的效率。簡單來説,Copilot 不能完全取代你的工作,但它能幫你節約很多不必要的重複性勞動,從而節約你在「數字瑣事」上花費的時間。
這也是微軟對於 Copilot 的定義:一種使用自然語言處理技術或大語言模型(如 GPT-4),幫助人們完成複雜或認知任務的應用程序或組件。
從撥號上網年代一路走來的朋友可能就察覺到了一些關鍵要素:
操作系統 + 助手,等等,這不就是 Windows 97 時代的 Clippy 和 Windows Phone 時代的 Cortana 嗎!?
沒錯,Clippy、Cortana 和 Copilot(微軟是不是對 C 開頭的單詞有執念?)在定位上確實存在一定的重合,你甚至可以把它們看作同一款產品在不同交互界面時代的三種形態。
Clippy:圖形交互界面的系統助手,其設計初衷是提供了一個平易近人、友好的界面,以簡化複雜的操作任務。然而,由於 Clippy 需要通過一個彈窗進行交互,它總會不合時宜地彈出來,導致用户在使用時失焦。
Cortana:語音交互界面的系統助手,對標 Siri 和 Google 助手,定位個人數字助手。但受限於功能侷限,Cortana 能做的事情很有限,即便微軟儘可能地把 Cortana 推向 Windows 之外的更多平台,也很難吸引用户使用。
Windows Copilot:自然語言交互時代的 AI 助手,它深植於系統之中,又不侷限於系統,它可以集成於各種程序和應用中,並且能夠理解用户的需求並提供幫助,在功能性、靈活性和集成度方面遠超 Clippy 和 Cortana。
從技術發展的路線來看,你會發現 Copilot 與 Cortana 的路徑類似但方向截然不同。
2014 年,Cortana 作為 Windows Phone 8.1 的默認語音助手首次亮相,提供語音搜索、日程管理和個性化建議等功能,標誌着微軟正式進入語音助手市場,與蘋果和 Google 競爭。
隨後,Cortana 隨 Windows 10 操作系統一同推出,拓展到 PC 和平板電腦之上,集成了更多的系統功能,為更多人熟知。
在接下來的時間,微軟把 Cortana 塞進了包括 Microsoft 365 套件、Teams 等更多的產品之中,希望能獲取更多的用户。
但到了 2021 年,微軟決定停止 Cortana 大部分服務,退出這場語音助手大戰。
Cortana 的失敗不僅是因為其市佔率一直上不去,還因為語音助手功能本身很難再翻起太大的浪花:10 年前的語音助手能幫你寫郵件、查天氣,10 年它仍然只能做這些基礎型的工作,用户的感知並不強。
直到 ChatGPT 的出現,語音 AI 助手給人留下的「愚蠢」刻板印象才被打破。
ChatGPT 能夠通過自然語言理解人們的需求,幫助人們完成一些需要高智能的任務,雖然 GPT 模型時而會出現生成錯誤的問題,但已經解決了 AI 助手長期以來的痛點——語義理解。
這是一個關鍵的轉折點,微軟迅速地把大語言模型技術與其產品結合起來,丟出了一個又一個讓人瞠目結舌的技術 Demo:用聊天的方式在 Bing 搜索、用幾句需求做出個精美的 PPT、讓 Edge 瀏覽器一鍵總結網頁內容……
很快,Copilot 將無處不在,AI 將無處不在,我們與計算機交互的固有邏輯開始出現裂縫,一個新的交互邏輯準備破殼而出,重新定義新一代的計算機和互聯網。
比爾· 蓋茨在 AI 爆發後給出了他的判斷。
也就是説,側邊欄 AI 助手將會成為一個新的常態,你的語言會變成像鼠標點擊、手指觸碰一樣具有「魔力」的新交互方式。
只不過,如果你只是把 Copilot 看作是一個新時代的 AI 助手,那你就太小看微軟的野心了。
全新的軟件形式
前面我們説到,微軟為旗下的很多產品都接入了 Copilot,讓 Bing、Edge、Office 煥發出新的活力。
更重要的是,這些散落在不同軟件的 Copilot 彼此之間並非獨立,而是相互打通的。
這裏我們要引入一個很重要的概念——插件集。
你可以把這些基於大語言模型的 Copilot 理解成 Chrome 瀏覽器(當然,這是一個非常不恰當的比喻),而插件就是瀏覽器上面的擴展程序,有了第三方的插件,Copilot 就能實現很多不同的功能。
此前,我們曾詳細介紹過 ChatGPT 的插件集體驗,有了這些第三方插件,ChatGPT 可以實現訂餐、查航班、解答數理化難題等等功能。
現在,這些插件同樣可以應用在 Bing、Edge、Office 甚至 Windows 之中,因為這些產品都採用了同樣的開放插件標準。
簡單來説,開發者只要開發一次插件,就能應用在微軟的一系列 Copilot 之中,這給開發者和用户都帶來了極大的靈活度。
還是拿實際應用舉例。
很快,你可以在 Bing 調用 Zillow 插件(租房信息查詢),然後直接向 Bing 提問,「用 XX 預算在 X 地租房有什麼房源推薦?」,Bing 就能直接給出對應的房源信息。
或者你可以在 Edge 瀏覽器上讓 AI 幫你總結食譜,然後調用 Instacart 插件,一鍵購買你缺少的食材。
這是一種全新的信息獲取方式,它跳過了從搜索引擎到服務商網站、再到具體信息的過程,直接提取了你最需要的內容,然後以平鋪直敍的方式呈現給你。
Copilot + 插件,或許會改變我們使用網絡獲取服務的方式。
另一方面,在我們最熟悉 Office 套件上,也能夠使用插件。
例如當你想用 Word 起草一份法律合同,但是你並不熟悉當地的法律,你就可以調用 Thomson Reuters、Westlaw 等法律插件來幫你起草和修改具體的內容。
插件集的出現豐富了大語言模型的可能性,而一個共同的插件標準又讓插件集的作用變得最大化,這就是微軟正在構建的 Copilot 技術堆棧,最終共同拼成了微軟眼中 Copilot 最理想的形態:
不僅是一種新的程序,不僅是一種新的用户界面,還是一個新的平台。
正如前面所説,大語言模型的出現賦予了軟件前所未有的易用性和可操作性,「AI 助手化」會成為軟件設計的新常態。
像 Adobe 等廠商都已經開始在自家的軟件加入 AI 功能,越來越多的開發者會考慮為自己的產品設計「Copilot」。
微軟瞄準的正是這麼一個尚處於萌芽時期的新機會,它想要利用自己在桌面系統和辦公軟件超高佔有率的優勢,搶先建立起這個全新的平台,領先一眾對手。
微軟 CTO Kevin Scott 在 Build 大會上誠摯地向開發者們介紹了這個宏大的願景,他引用了比爾 · 蓋茨的一段話:
Kevin Scott 認為像 GPT-4 這樣的基礎模型很強大,非常強大,但它並不能做所有的事,這需要更多開發者將這樣的技術應用到相對應的程序之中,把大語言模型作為構建程序的一部分,AI 才能創造出全新的用户體驗。
這是一種全新的程序開發方式。Kevin Scott 拋出了一個觀點:
當下,AI 正在以不可思議的速度重塑着人們對科技、對世界的認知,它不僅改變了我們處理數據的方式,也在重新定義我們與機器的交互方式,甚至是我們理解和解決問題的方式。
大語言模型的崛起,突破了傳統的程序設計框架,AI 開始能理解我們的語言,預測我們的需求,甚至理解我們的情感,用數據和算法的力量解決了以前我們難以想象的問題。
值得敬畏的是,面對這樣一場全新的科技鉅變,48 歲的微軟依然走在技術變革的最前沿。
資料來源:愛範兒(ifanr)
至此,Copilot 已經出現在了微軟幾乎所有重要產品之中,包括輔助編程的 Github Copilot、輔助辦公的 Microsoft 365 Copilot、輔助客户溝通的 Viva Copilot、輔助業務流程的 Dynamic 365 Copilot 等等。
微軟比那些宣告自己 AI first、All in AI 的公司還要更進一步,選擇 All in Copilot,即全面轉向人工智能輔助技術。
我們來到了轉折點
看到這裏,相信有相當一部分不那麼關心 AI 技術的讀者還不太瞭解,「Copilot」到底是什麼。
「Copilot」一詞源自飛行術語,意思是副駕駛員(Co-pilot)。在飛機上,副駕駛員是協助主駕駛員操作飛機的人,通常當主駕駛員需要休息或處理其他任務時,副駕駛員就會接管控制權,二者共同負責飛機的安全飛行。
對照這個定義,我們就不難理解:每個使用計算機程序的人都是「駕駛員」,AI 則是輔助我們航行的「副駕駛」。
舉個例子,當你準備沉下心來辦公,你就可以在 Windows 11 調出 Copilot,把你的需求敲進去:
引用我怎麼樣工作起來更高效?
Windows Copilot 會建議你打開專注模式,並把系統界面調整成更沉浸的暗色模型。
這時候你還想聽一點音樂,再敲入需求:
引用放點工作時適合聽的音樂
Windows Copilot 會根據你喜歡的音樂類型,在 Spotify 等音樂軟件上播放對應的歌單。
聽起來我們像是又回到了命令行界面時代,通過一個輸入框實現所有的計算機操作。但不同的是,你不再需要花時間去學習和理解編程這門專屬於計算機的語言,你只要用人類的自然語言把你的需求拋給它,它就能幫你解決。
Windows Copilot 還可以幫你解決很多問題,例如當你收到一份冗長到讀不下去的文件,你可以直接把它從桌面拖到 Copilot 上,讓 AI 幫你總結這份文檔,實現「量子速讀」。
你還可以讓它幫你重寫或者解釋文檔的內容,提高工作的效率。簡單來説,Copilot 不能完全取代你的工作,但它能幫你節約很多不必要的重複性勞動,從而節約你在「數字瑣事」上花費的時間。
這也是微軟對於 Copilot 的定義:一種使用自然語言處理技術或大語言模型(如 GPT-4),幫助人們完成複雜或認知任務的應用程序或組件。
從撥號上網年代一路走來的朋友可能就察覺到了一些關鍵要素:
操作系統 + 助手,等等,這不就是 Windows 97 時代的 Clippy 和 Windows Phone 時代的 Cortana 嗎!?
沒錯,Clippy、Cortana 和 Copilot(微軟是不是對 C 開頭的單詞有執念?)在定位上確實存在一定的重合,你甚至可以把它們看作同一款產品在不同交互界面時代的三種形態。
Clippy:圖形交互界面的系統助手,其設計初衷是提供了一個平易近人、友好的界面,以簡化複雜的操作任務。然而,由於 Clippy 需要通過一個彈窗進行交互,它總會不合時宜地彈出來,導致用户在使用時失焦。
Cortana:語音交互界面的系統助手,對標 Siri 和 Google 助手,定位個人數字助手。但受限於功能侷限,Cortana 能做的事情很有限,即便微軟儘可能地把 Cortana 推向 Windows 之外的更多平台,也很難吸引用户使用。
Windows Copilot:自然語言交互時代的 AI 助手,它深植於系統之中,又不侷限於系統,它可以集成於各種程序和應用中,並且能夠理解用户的需求並提供幫助,在功能性、靈活性和集成度方面遠超 Clippy 和 Cortana。
從技術發展的路線來看,你會發現 Copilot 與 Cortana 的路徑類似但方向截然不同。
2014 年,Cortana 作為 Windows Phone 8.1 的默認語音助手首次亮相,提供語音搜索、日程管理和個性化建議等功能,標誌着微軟正式進入語音助手市場,與蘋果和 Google 競爭。
隨後,Cortana 隨 Windows 10 操作系統一同推出,拓展到 PC 和平板電腦之上,集成了更多的系統功能,為更多人熟知。
在接下來的時間,微軟把 Cortana 塞進了包括 Microsoft 365 套件、Teams 等更多的產品之中,希望能獲取更多的用户。
但到了 2021 年,微軟決定停止 Cortana 大部分服務,退出這場語音助手大戰。
Cortana 的失敗不僅是因為其市佔率一直上不去,還因為語音助手功能本身很難再翻起太大的浪花:10 年前的語音助手能幫你寫郵件、查天氣,10 年它仍然只能做這些基礎型的工作,用户的感知並不強。
直到 ChatGPT 的出現,語音 AI 助手給人留下的「愚蠢」刻板印象才被打破。
ChatGPT 能夠通過自然語言理解人們的需求,幫助人們完成一些需要高智能的任務,雖然 GPT 模型時而會出現生成錯誤的問題,但已經解決了 AI 助手長期以來的痛點——語義理解。
這是一個關鍵的轉折點,微軟迅速地把大語言模型技術與其產品結合起來,丟出了一個又一個讓人瞠目結舌的技術 Demo:用聊天的方式在 Bing 搜索、用幾句需求做出個精美的 PPT、讓 Edge 瀏覽器一鍵總結網頁內容……
很快,Copilot 將無處不在,AI 將無處不在,我們與計算機交互的固有邏輯開始出現裂縫,一個新的交互邏輯準備破殼而出,重新定義新一代的計算機和互聯網。
比爾· 蓋茨在 AI 爆發後給出了他的判斷。
引用這是一個根本性的改變,自然語言現在是我們向計算機描述事物的主要「接口」,這是一個巨大的進步。
也就是説,側邊欄 AI 助手將會成為一個新的常態,你的語言會變成像鼠標點擊、手指觸碰一樣具有「魔力」的新交互方式。
只不過,如果你只是把 Copilot 看作是一個新時代的 AI 助手,那你就太小看微軟的野心了。
全新的軟件形式
前面我們説到,微軟為旗下的很多產品都接入了 Copilot,讓 Bing、Edge、Office 煥發出新的活力。
更重要的是,這些散落在不同軟件的 Copilot 彼此之間並非獨立,而是相互打通的。
這裏我們要引入一個很重要的概念——插件集。
你可以把這些基於大語言模型的 Copilot 理解成 Chrome 瀏覽器(當然,這是一個非常不恰當的比喻),而插件就是瀏覽器上面的擴展程序,有了第三方的插件,Copilot 就能實現很多不同的功能。
此前,我們曾詳細介紹過 ChatGPT 的插件集體驗,有了這些第三方插件,ChatGPT 可以實現訂餐、查航班、解答數理化難題等等功能。
現在,這些插件同樣可以應用在 Bing、Edge、Office 甚至 Windows 之中,因為這些產品都採用了同樣的開放插件標準。
簡單來説,開發者只要開發一次插件,就能應用在微軟的一系列 Copilot 之中,這給開發者和用户都帶來了極大的靈活度。
還是拿實際應用舉例。
很快,你可以在 Bing 調用 Zillow 插件(租房信息查詢),然後直接向 Bing 提問,「用 XX 預算在 X 地租房有什麼房源推薦?」,Bing 就能直接給出對應的房源信息。
或者你可以在 Edge 瀏覽器上讓 AI 幫你總結食譜,然後調用 Instacart 插件,一鍵購買你缺少的食材。
這是一種全新的信息獲取方式,它跳過了從搜索引擎到服務商網站、再到具體信息的過程,直接提取了你最需要的內容,然後以平鋪直敍的方式呈現給你。
Copilot + 插件,或許會改變我們使用網絡獲取服務的方式。
另一方面,在我們最熟悉 Office 套件上,也能夠使用插件。
例如當你想用 Word 起草一份法律合同,但是你並不熟悉當地的法律,你就可以調用 Thomson Reuters、Westlaw 等法律插件來幫你起草和修改具體的內容。
插件集的出現豐富了大語言模型的可能性,而一個共同的插件標準又讓插件集的作用變得最大化,這就是微軟正在構建的 Copilot 技術堆棧,最終共同拼成了微軟眼中 Copilot 最理想的形態:
不僅是一種新的程序,不僅是一種新的用户界面,還是一個新的平台。
正如前面所説,大語言模型的出現賦予了軟件前所未有的易用性和可操作性,「AI 助手化」會成為軟件設計的新常態。
像 Adobe 等廠商都已經開始在自家的軟件加入 AI 功能,越來越多的開發者會考慮為自己的產品設計「Copilot」。
微軟瞄準的正是這麼一個尚處於萌芽時期的新機會,它想要利用自己在桌面系統和辦公軟件超高佔有率的優勢,搶先建立起這個全新的平台,領先一眾對手。
微軟 CTO Kevin Scott 在 Build 大會上誠摯地向開發者們介紹了這個宏大的願景,他引用了比爾 · 蓋茨的一段話:
引用只有當平台創造的價值歸於在平台上進行構建的人,而不是平台構建者本身時,平台的真正價值才會實現。
Kevin Scott 認為像 GPT-4 這樣的基礎模型很強大,非常強大,但它並不能做所有的事,這需要更多開發者將這樣的技術應用到相對應的程序之中,把大語言模型作為構建程序的一部分,AI 才能創造出全新的用户體驗。
這是一種全新的程序開發方式。Kevin Scott 拋出了一個觀點:
引用讓 PC 、互聯網、智能手機變得偉大的,並不是那些隨平台誕生而存在之物,而是基於這些之上,被人們重新創造出來的新事物。
當下,AI 正在以不可思議的速度重塑着人們對科技、對世界的認知,它不僅改變了我們處理數據的方式,也在重新定義我們與機器的交互方式,甚至是我們理解和解決問題的方式。
大語言模型的崛起,突破了傳統的程序設計框架,AI 開始能理解我們的語言,預測我們的需求,甚至理解我們的情感,用數據和算法的力量解決了以前我們難以想象的問題。
值得敬畏的是,面對這樣一場全新的科技鉅變,48 歲的微軟依然走在技術變革的最前沿。
資料來源:愛範兒(ifanr)