17 萬本盜版書，是「ChatGPT 們」變聰明的秘密

「實錘」終於來了。

今年 7 月，OpenAI 和 Meta 被三位美國作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 起訴，稱兩家公司在未經作者同意的情況下，把他們的書用作素材訓練大模型。

https://s3.ifanr.com/wp-content/uploads/2023/08/kkkk.jpg!720

圖片來源：s3.ifanr.com

▲ 演員、作者 Sarah Silverman 和她的自傳，圖片來自 Vulture

證據？

在 OpenAI 案件裏，原告們輸入提示詞後，ChatGPT 能夠總結出他們的書的內容。

在 Meta 案件中，Meta 大模型 LLaMA 的論文裏就寫着，它訓練數據包括一個由 EleutherAI 整理的、名為「ThePile」的素材。

「ThePile」中又包含了一個名為「Books3」的數據集，它的內容正是線上盜版圖書資源庫 Bibliotik 的數據。

由此可見，當時原告提出的證據還相對「間接」。

直到現在，作家和程序員 Alex Reisner 正式揭露，Meta 的大模型背後到底都盜用了哪些作家的圖書。
讓人意外的是，這些「證據」其實一直都放在明面，但卻一直沒有被揭開，這是為什麼？

甚至，侵權素材的製造者，還一直堅持説這是一件「正義」的事。

17 萬本盜版圖書

https://s3.ifanr.com/wp-content/uploads/2023/08/C3WAlqnDcPL6oY4enMrYbd2Ey4JA8Ap541QDN9Mi.jpeg!720

圖片來源：s3.ifanr.com

▲ 圖片來自 Interesting Engineering

Alex Reisner 的「大項目」緣起於好奇心：

引用作為一名作家和電腦程序員，我一直很好奇生成式 AI 系統是用什麼類型書籍來訓練的。

今年夏天，Reisner 開始在 GitHub 和 Hugging Face 等社區找尋答案，最終找上了我們在上文提起的開源數據集「ThePile」。

然而，下載到「ThePile」，並不意味着你就能知道「Books3」裏都有什麼書。

首先，因為「ThePile」有 800G，大得一般文本編輯器根本沒法看。Reisner 寫了一系列程序才能得以從中提取「Books3」的信息。

https://s3.ifanr.com/wp-content/uploads/2023/08/samuel-bourke-sc-B_2-Om7Q-unsplash.jpg!720

圖片來源：s3.ifanr.com

▲ 圖片來自 Unsplash

沒想到的是，提取出來的信息裏，並沒有任何帶有「書名」「作者名」等標籤的數據，一切都只是「文本」。

於是，Reisner 又另外寫了一個程序去提取數據中的 ISBN 編號（國際標準書號），並將這些數據和其他線上圖書數據庫進行比對，以辨別出「Books3」中被收錄的具體書籍。
最後，這一步找出了 19 萬個 ISBN 編碼，識別出 17 萬個對應書名（實際書數量可能會略少於這個數，因為其中存在同一本書的不同版本），另外 2 萬個編碼則無法找到對應書名。

這些書裏，大約有 1/3 是虛構作品，2/3 是非虛構作品，來自於大大小小不同的出版社。

是的，在這些被識別出的書裏，也包括了文章開篇提到對 OpenAI 和 Meta 提出訴訟的三位作家的書籍，所以可以説是 Meta 的 LLaMA 以盜版書作為訓練素材非常直接的證據的了。

此外，我們還能在其中看到《我的天才女友》作者埃萊娜·費蘭特、《女僕的故事》作者瑪格麗特·阿特伍德、史蒂芬 · 金、村上春樹、著名飲食類作家邁克爾·波倫、驚悚小説作家詹姆斯·帕特森等人的眾多作品。

https://s3.ifanr.com/wp-content/uploads/2023/08/The-author-has-argued-the-feminist-label-can_yythkg.jpg!720

圖片來源：s3.ifanr.com

▲ 瑪格麗特·阿特伍德等八千多名作家也寫了聯名信，要求 AI 公司需要獲得作家授權才可將書籍用作訓練材料，圖片來自《獨立報》

除了著名作家的書籍以外，Reisner 還在「Books3」裏找到了「科學教」創始人羅恩·哈伯德的 102 本低俗小説、90 本信奉「年輕地球創造論」的牧師約翰·F·邁克阿瑟的書，以及「外星人創造論」支持者埃裏希·馮·丹尼肯的多部作品。

Reisner 在《大西洋月刊》的文章中指出，雖然「Books3」數據集在 AI 社區以外認知度不高，但在圈裏挺受歡迎的，「可以下載，但要找到有點難度，想要瀏覽和分析也同樣具有挑戰性」。

像 Reisner 這樣大費周章寫程序來分析比對，並且還精心撰文在大眾媒體上發佈，還是首次。

與此同時，AI 圈對「Books3」也有心照不宣的維護，因為，以「Books3」創造者的話來説 —— 它是確保生成式 AI 發展不會被大公司壟斷的重要資源。

「盜火者」還是「盜賊」？

https://s3.ifanr.com/wp-content/uploads/2023/08/original.jpg!720

圖片來源：s3.ifanr.com

▲圖片來自《大西洋月刊》

引用如果我們不需要像 Books3 這樣的東西的確會更好。

但情況是，如果沒有 Books3，只有 OpenAI 可以做到他們正在做的事情。

「Books3」的創造者，獨立開發者 Shawn Presser 對 Reisner 説道。

Presser 一開始做 Books3，就是為了給所有開發者「OpenAI 級別的訓練數據」。

2020 年，Presser 下載了一份 Bibliotik 的副本，再改寫了黑客 Aaron Swartz 十多年前寫下的程序，將所有 ePub 格式的圖書轉換成純文本 —— 一種更合適大模型使用的格式。

https://s3.ifanr.com/wp-content/uploads/2023/08/345354.jpg!720

圖片來源：s3.ifanr.com

至於數據集中部分書的版權信息出現缺失，Presser 稱那是轉換造成的意外結果，並非自己刻意為之。

而「Books3」這個名字，也是呼應了 OpenAI 之前提及的「Books1」和「Books2」。

在 2020 年的時候，OpenAI 的論文指出，GPT-3 的訓練數據中包括兩個基於互聯網的書籍數據合集。

人們從其體積推測，OpenAI 的「Books1」數據來自於「古登堡計劃（Project Gutenberg）」—— 專門收集版權已過期的圖書資源的項目。

https://s3.ifanr.com/wp-content/uploads/2023/08/werrwe-1.jpg!720

圖片來源：s3.ifanr.com

「Books2」的內容是什麼則一直無人知曉，有人從其體積猜是類似 Bibliotik 或 Libgen 的線上盜版圖書庫的數據。
當然，除了書籍的數據外，GPT-3 當時還用了其他數據，如維基百科和其他從網絡上抓取下來的文字信息。

這也是為什麼 EleutherAI 整合的「ThePile」裏也同樣包含了大量其他數據，如維基百科、YouTube 視頻的字幕、歐洲議會的文件和速記等等。

即便如此，相比之下，書籍的高質量文本仍然顯得很重要。

Meta 曾表示，最開始的 LlaMA-65B 大模型表現沒有其他好，主要是因為它「所使用的書籍以及學術論文數量有限」。

MIT 和康奈爾大學合作的論文也指出，書籍在大模型訓練數據中「對下游表現有最強正面效果的」。

所以我們會在 Meta 後來推出的 LlaMA 2 訓練數據中看到「ThePile」和其中的「Books3」。

https://s3.ifanr.com/wp-content/uploads/2023/08/230711141746-01-mark-zuckerberg-life-in-pictures-lead-restricted.jpeg!720

圖片來源：s3.ifanr.com

▲ 圖片來自 CNN

這也是為什麼，當 Books3 最近因丹麥反盜版組織 Rights Alliance 投訴侵權而被下架時，Presser 感到憤慨不平。

在他看來，所有牟利的大公司在私底下都把侵權內容拿來訓練自己的大模型，但又因為他們不公開其訓練數據，因此沒人能告得了他們。

而 Books3 被下架，卻正是因為他希望讓大模型更開放和有更高透明度而主動公開數據來源。

Presser 強調，我們不能讓財大氣粗的大公司壟斷這項在重塑我們文化的重要技術，而是要讓所有人都有資源去建立自己的大模型：

引用我的目標要讓所有人都能（建造這些大模型）。

除非書籍的作者有方法能把 ChatGPT 拉下線，或者告到他們關門，否則讓你和我都能建造自己的 ChatGPT 是非常必要的。

正如在 90 年代的時候，去保證任何人都能設立自己的網站一樣重要。

至於把 ChatGPT 告到下線，也不是完全沒有可能。

人人都在告 AI 巨頭

https://s3.ifanr.com/wp-content/uploads/2023/08/GettyImages-1490660714-scaled.jpg!720

圖片來源：s3.ifanr.com

▲ OpenAI 不再「Open」也不透明，圖片來自 Politico

明星作家發起的官司也許引來更多關注，但擁有把 ChatGPT 告到「重造」的潛力的，卻是傳統新聞媒體。

上週，NPR 報道援引知情人士消息稱《紐約時報》正在考慮起訴 OpenAI。

在過去幾周裏，《紐約時報》都在和 OpenAI 就授權協議談判。然而，談判進展似乎不太順利，以至於《紐約時報》都開始考慮就侵權告 OpenAI 了。
報道稱，聯邦版權法規定，違法者每項「蓄意」侵權行為最高可罰 15 萬美元，再結合《紐約時報》的文章數量，這個金額疊加起來「對於一家公司來説可能是致命的」。

除此以外，如果法官判定 OpenAI 的確非法拿了《紐約時報》的文章來訓練大模型，法院也可以命令 OpenAI 銷燬 ChatGPT 的數據集，強制它僅用已獲得授權的作品來重新訓練和創造 ChatGPT。

https://s3.ifanr.com/wp-content/uploads/2023/08/1614166805084-new_york_times_signage_2019.jpeg!720

圖片來源：s3.ifanr.com

▲ 圖片來自 BrookField

無論是原告是《紐約時報》還是書籍作家，這些官司（或潛在官司）能否勝訴，關鍵都在於 AI 巨頭們是否能把這些信息的使用説成「合理使用」—— 即在特定情況下，可允許不經許可去使用特定作品，譬如教學、評論、研究和報道等。
支持「合理使用」的人有兩個論點：

生成式 AI 並不會重現它們用於訓練的書籍本身，而是創造新內容；
那些新內容並不會損害原本作品的市場。

紐約大學科技法律與政策診所的負責人 Jason Schultz 稱，在圖書被盜用方面，這個論據還挺有力的。

但《紐約時報》的律師則堅持，OpenAI 對報紙文章的使用並不合乎「合理使用」。

假如用户能通過 AI 聊天機器人，獲取文章中提及的新聞事件描述，用户可能就不會再去找文章閲讀了，因此有可能會成為新聞文章的替代品，影響了原有市場。

https://s3.ifanr.com/wp-content/uploads/2023/08/Screen-Shot-2020-12-15-at-17.08.05.jpg!720

圖片來源：s3.ifanr.com

法律博主樊百樂指出，知識產權法並非一成不變，但其核心卻很堅定 —— 繁榮創作市場。

如果連估值數百億美元的 AI 公司，都可以不付一分版權費，免費把作家耗費數年心血創作的作品拿去牟利，甚至盜用這些書去訓練出意圖替代作家的工具，這對創作者而言無疑是致命打擊。

Presser 談論到的「數據不公平」問題，也不應是侵犯創作者權利的藉口。

版權問題終究會是決定 AI 能走多遠的其中一個關鍵因素。

範德堡大學知識產權項目聯席主任 Daniel Gervais 認為：

引用版權法是一把懸在 AI 公司頭上的利劍，除非它們想出如何協商解決方案，否則這把劍未來幾年都會懸在它們頭上。

這一切只是新階段的開始。

✍🏻 ✍🏻 ✍🏻

最後，我們整理了部分仍在進行中的 AI 公司侵權訴訟，以供參考👇

https://s3.ifanr.com/wp-content/uploads/2023/08/form.png!720

圖片來源：s3.ifanr.com

資料來源：愛範兒（ifanr）

標籤: ChatGPT OpenAI

17 萬本盜版書，是「ChatGPT 們」變聰明的秘密

如果喜歡我們的文章，請即分享到︰