OpenAI 團隊對話實錄:ChatGPT 很酷,但它還很糟糕

當 OpenAI 在 2022 年 11 月底悄悄推出 ChatGPT 時,這家位於舊金山的人工智能公司幾乎不抱任何期望。誠然,OpenAI 內部沒有人預料到這將引發一場病毒式的巨大熱潮。

自那時起,該公司一直在瘋狂追趕——並試圖從中獲利。

OpenAI 政策部門的 Sandhini Agarwal 説,ChatGPT 最初被視為「研究預覽版」:對兩年前的技術的更加成熟的版本的預告,更重要的是,通過公眾的反饋嘗試糾正其中的一些缺陷。


「我們不想過分宣傳它, 宣稱這是一個重大的根本性進步」,參與了 ChatGPT 研發工作的 OpenAI 研究員 Liam Fedus 説道。

為了深入瞭解這款聊天機器人——它是如何開發的,OpenAI 自發布以來如何不斷更新它,以及它的開發者如何看待其成功。

我們採訪了四名幫助建立這款已成為最受歡迎的互聯網應用之一的人員。

除了 Agarwal 和 Fedus 之外,我還採訪了 OpenAI 的聯合創始人 John SchulmanOpenAI 校準團隊的負責人 Jan Leike

校準團隊致力於解決人工智能如何實現用户想要的行為 (而無其他行為) 的問題。

我得到的感覺是,OpenAI 仍然對其研究預覽的成功感到困惑,但已經抓緊機會推進這項技術,觀察數百萬用户如何使用它並盡力修復出現的最大問題。

自 11 月份以來,OpenAI 已經對 ChatGPT 進行了多次更新。研究人員正在使用對抗訓練技術來阻止 ChatGPT 被用户誘導產生不良行為(也被稱為越獄)。

這項工作讓多個聊天機器人相互對抗:一個聊天機器人扮演對手的角色,通過生成文本來攻擊另一個聊天機器人,強迫它違反通常的約束併產生不想要的響應。成功的攻擊被添加到 ChatGPT 的訓練數據中。希望它能學習忽略這些攻擊。

OpenAI 還與微軟簽訂了數十億美元的交易,並與貝恩(譯者注:一家全球管理諮詢公司)達成聯盟,後者計劃在其客户(包括可口可樂)的營銷活動中使用 OpenAI 的生成性 AI 模型。

OpenAI 之外,圍繞 ChatGPT 的熱潮引發了對大規模語言模型的又一輪熱炒,全球各地的公司和投資者都加入了這場熱潮。

這僅僅三個月時間就產生了太多的炒作。ChatGPT 的來源是什麼?OpenAI 採取什麼措施確保它已經準備好公之於眾?他們下一步將做什麼?

內容有節選

Jan Leike:坦率地説,這太讓人不知所措了。我們感到非常驚訝,一直在努力趕上進度。

John Schulman:在發佈後的幾天裏,我一直在查看 Twitter,那個時期我的消息流裏滿是 ChatGPT 的截圖。

我預料到它對人們來説會很直觀,並且會有一定的追隨者,但我沒料到它會這般流行。

Sandhini Agarwal:看到人們開始如此廣泛地使用它,這對我們所有人來説都是一個驚喜。我們在這些模型上投入了太多的時間,使得我們常常會忘記對外界來説,這些模型有多驚人。

Liam Fedus:我們沒有預料到這款產品會如此受歡迎。畢竟之前有太多人嘗試開發通用聊天機器人了,我知道成功的可能性很小。然而,我們的私人測試已經讓我們相信,我們有一些人們真正會喜歡的東西。

Jan Leike:我很想更好地理解這背後的原因——是什麼在驅動着這一切病毒式傳播行為。説真的,我們不太明白。

團隊的部分困惑,源於 ChatGPT 的大部分技術並不新鮮。ChatGPT 是 GPT-3.5 的「精修版」, 後者是 OpenAI 幾個月前發佈的一系列大規模語言模型。而 GPT-3.5 本身又是 GPT-3 的更新版本,後者出現在 2020 年。該公司在其網站上提供這些模型的應用編程接口 (API),使其他軟件開發人員可以輕鬆地將這些模型集成到自己的代碼中。OpenAI 還發布了 GPT-3.5「先行預覽版」, 發佈於 2022 年 1 月的 InstructGPT。但這些以前的技術版本中沒有哪一個像 ChatGPT 那樣面向公眾推出。

Liam Fedus:ChatGPT 模型是從與 InstructGPT 相同的語言模型微調後得到的,我們使用類似的方法進行了精細調整。我們添加了一些對話數據並稍微對訓練過程有過調整。所以我們不想過分宣傳它,宣稱這是一個重大的根本性進步。但事實證明,對話數據對 ChatGPT 有着極大的積極影響。

John Schulman:從標準基準評估來看,在這些模型之間的底層技術實力其實相差不大,但 ChatGPT 更易於訪問和使用。

Jan Leike:某種意義上,你可以將 ChatGPT 理解為是我們發佈有些時日的 AI 系統的其中一個版本。

從底層來看,它並不比之前的模型強多少。在 ChatGPT 發佈的近一年之前,同樣的基礎模型就已經提供了 API。

另一方面,我們使它更符合人們想要做的事情。它在對話中與你交流,聊天界面易於使用,它試圖成為一個有用的工具。這是令人驚歎的進步,我認為這是人們正在意識到的地方。

John Schulman:它更容易推斷意圖,用户可以通過反覆交流來達到自己想要的目的。

ChatGPT 的訓練方式與 InstructGPT 非常相似,都是用一種被稱為「人工反饋強化學習 (RLHF)」的技術。這是 ChatGPT 的殺手鐧。基本思路是採用傾向於隨意吐出任何內容的大規模語言模型——在這種情況下是 GPT-3.5——並教它學習人類用户的偏好進行響應,從而實現精細化調整。

Jan Leike:我們有一個龐大的團隊,去閲讀 ChatGPT 的提示和響應,判斷一個響應是否比另一個響應更佳。

所有這些數據然後被合併到一個訓練步驟中。其中大部分都是我們在 InstructGPT 中所做的事情。

你想讓它真的有用,你想讓它説真話,你想讓它變得無害化。

然後它還有一些專門用於產生對話和作為助手的特質。

比如説,如果用户的查詢指令不夠清晰,它應該接着提出問題。它還應該亮明自己是一個 AI 系統的身份,不應假定自己沒有的身份,更不應表明自己擁有本不具備的能力。

當用户要求它執行本不應執行的任務時,它必須明確拒絕。

在這次訓練中出現的一句話是「作為 OpenAI 訓練的語言模型……」這句提醒本非硬性規定,但它卻成為人類審核員對其給出高度評價的一點。

Sandhini Agarwal:事實正是如此。人類審核員必須根據一系列標準對模型進行評級,例如真實性。但他們開始傾向於那些他們認為是做得對的事,比如不要不懂裝懂。

由於 ChatGPT 使用的是 OpenAI 用過的技術,所以團隊向公眾發佈這個模型時,並沒有做特殊準備。他們認為自己為以前的模型設置的門檻已經足夠高了。

Sandhini Agarwal:在準備發佈時,我們不認為這個模型是一個新的威脅。GPT-3.5 早已存於世上,我們清楚它已足夠安全。而且 ChatGPT 通過對人類偏好的培訓,自己學習了拒絕,拒絕了許多請求。

Jan Leike:對 ChatGPT,我們確實進行了一些額外的「紅隊測試」(譯者注:全方位的攻擊模擬,以發現系統漏洞),OpenAI 的所有人都坐下來,嘗試「搞壞」該模型。我們有外援在做同樣的事。我們與老用户進行過搶先體驗測試(Early-Access),後者給我們提供反饋。


Sandhini Agarwal:我們確實發現它產生了某些(人們)不想要的輸出內容,但 GPT-3.5 同樣會產生這些東西。就風險方面而言,它作為研究預覽版,這就是它最初(被髮布)的原因,所以其實問題不大。

John Schulman:你沒辦法等到你的系統完美再去發佈。我們已經對早期版本進行了幾個月的測試, 參與者對產品印象都很好。

我們最大的擔心是其準確性,因為這個模型喜歡捏造事實。但 InstructGPT 和其他大規模語言模型已經面世,所以我們認為只要 ChatGPT 在準確性和其他安全問題方面優於前者,那推出它應該沒太大問題。

發佈前,我們確信這些模型在準確性和安全方面似乎是比其他模型更好,於是根據我們有限的評估,我們做出了發佈的決定。

發佈之後,OpenAI 一直在觀察人們如何使用它,第一次看到當一個大型語言模型被放在數以千萬計的用户手中時,它的表現如何,這些用户可能想測試它的極限並發現它的缺陷。該團隊試圖抓住 ChatGPT 最有可能產生問題的例子,進而利用它們來優化該模型的未來版本。

Sandhini Agarwal:我們還有很多後續步驟。我堅信 ChatGPT 的病毒傳播,會使我們已知且迫切想要解決的許多問題浮出水面並變得更加緊急。

比如,我們知道該模型仍存在偏見。是的,ChatGPT 非常擅長拒絕不良請求,但它也很容易受提示詞影響,讓其只能接受那些請求。

Liam Fedus:觀察用户提供的豐富且創新的應用場景,實在是令人感到興奮,但我們總是關注改進的領域。我們認為通過部署、獲取反饋並不斷改進的迭代過程,我們可以生產出最合乎需求且功能強大的技術。隨着我們的技術不斷演變,出現新的問題總是不可避免。

Sandhini Agarwal:在 ChatGPT 發佈後的幾周時間裏,我們查看了幾個用户發現的最糟糕的案例,我指的是人們能看到的最糟的情況。我們初步評估了每個案例,並商量着如何去修復。

Jan Leike:(那些案例)有時是在 Twitter 上廣泛傳播的事件,也有一些人選擇私下聯繫我們。

Sandhini Agarwal:我們發現許多問題實際上就是上面提到的越獄行為,是我們急待解決。不過由於用户想盡辦法才能讓 ChatGPT 説出骯髒的話語,並非我們此前忽視了,我們也沒有感到太過驚訝。

儘管如此,這是我們目前正積極解決的問題。當我們發現越獄行為時,我們就把它們添加進我們的訓練和測試數據當中。我們看到的所有數據都會成為未來模型的一部分。

Jan Leike:每當我們有一個更好的模型時,我們就想把它放出來進行測試。我們自信地認為,一些有針對性的對抗性訓練,可以使越獄的情況得到很大的改善。

目前尚不清楚這些問題會否完全消失,但我們認為我們可以提高越獄的難度。

同樣,在發佈之前,我們並不是不知道存在越獄的可能性。

只是我認為,一旦你部署下去,就很難去預測哪些行為會成為安全隱患。因此,我們把重點放在監測人們使用該系統的目的上,觀察會發生什麼,繼而對其作出響應。

並不是説我們沒有主動去解決問題。而是當一個系統與現實世界接入後,我們沒辦法預見到所有可能發生的情況。

今年 1 月,微軟公佈了必應 Chat,一款搜索聊天機器人,許多人認為它是 OpenAI 未公佈的 GPT-4 版本(OpenAI 表示,Bing 是由我們下一代模型提供驅動的,微軟專門為搜索場景進行定製。它融合了 ChatGPT 和 GPT-3.5 的優勢) 。

名聲在外的科技巨頭使用聊天機器人,這對那些負責建立基礎模型的人帶來了新的挑戰。


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰

標籤: OpenAI  ChatGPT