強大的語言分析:《哈利·波特》作者 羅琳(J. K. Rowling)新書被曝光的故事
署名Robert Galbraith 的新作家寫了一本偵探小說。它受到了讀者和書評人的高度評價,但是其銷量卻極為慘淡,只售出了1500 本左右。如果不是一次意外轉折,它可能仍然不為大眾所知。英國的Sunday Times 發現,Robert Galbraith 原來是《哈利·波特》作者羅琳的化名。這個事實一經公佈,此書受到關注的程度就可想而知了,它立刻升至亞馬遜暢銷書排行第一位。可以想像的是,其續集的銷量也不用擔憂了。
從這個故事中,我們可以有許多感嘆。不過,關於作者身份如何被揭秘的,多數人可能不會去深究。其實這個故事是很有趣的。在揭秘的過程中,計算機再次發揮了重要的作用。
據nationalgeoprahic 網站,事情的經過是這樣的。 Sunday Times 的藝術編輯Richard Books 的一位同事從Twitter 上獲得一條匿名消息,宣稱Galbraith 就是羅琳。隨後,該賬號被刪除。為了確定此消息的可靠性,Brooks 的團隊首先上網查詢了一下,發現兩位作者的出版商相同,隨後他們找到了兩位計算機科學家,通過語言分析進一步確認。在確定Twitter 上透露的消息準確之後,Brooks 與羅琳進行了聯繫,隨後他從羅琳的發言人那裡得到證實。
這兩位計算機科學家是:牛津大學的Peter Millican 和Dunquesne 大學的Patrick Juola。 Sunday Times 給了他們五本書,除了《Cuckoo》之外,還有羅琳的另一本小說《The Casual Vacancy》,以及另外三本英國犯罪小說。
Patrick Juola 使用了一個叫做JGAAP 的軟件。他用不同的分析方法來檢測寫作的不同側面。其中一個測試是詞組的使用,因為不同的作者會使用不同的詞彙來形容某種東西,另一個測試是檢查某些常見詞彙的出現頻率。最強大的證據是單詞長度測試, Juola 說,從這個測試中發現了羅琳寫作的特色。全部測試的時間是一個半小時,所有測試都證明,《Cuckoo》與羅琳的《Casual Vacancy》最為接近。
與此同時,Peter Millican 也進行了測試。在上述的五本書之外,他又增加了幾本書,然後使用語言分析軟件Signature 進行了測試。軟件通過六個方面對書籍進行對比:單詞長度、句子長度、段落長度、單詞出現頻率、標點出現頻率,以及單詞使用情況。測試同樣顯示出Cuckoo 與羅琳所寫的書最為接近。在五個小時的測試之後,Peter Millican 寫信給Sunday Times,說他非常確信這是羅琳的作品。
對於Patrick Juola 來說,收到此類請求並非第一次。在現實情況中,他曾多次參與語言對比測試,其中不乏古怪的例子。有一次,他證明了奧巴馬的書籍《Dreams from my Father》並非本土恐怖分子Bill Ayers 所寫,另一次,他曾確認報紙上的某位匿名政治批評家的身份,使此人得以留在美國,而不是被驅逐出境。
語言分析同樣有著商業上的價值。 Patrick Juola 說,有些人會分析亞馬遜這樣的網站上的產品評論,從而判斷哪些評論是廠商所為,或者提供一些有價值的地域模式分析。
Juola 說,那位匿名提供信息的人刪除賬號是很聰明的。因為,“如果我們仍然能夠看到那個賬號的話,我們可以分析一下句式,看看它是否能和某個出版社工作的人對應上。”
圖片來自:fox5sandiego.com
資料來源:ifanr
從這個故事中,我們可以有許多感嘆。不過,關於作者身份如何被揭秘的,多數人可能不會去深究。其實這個故事是很有趣的。在揭秘的過程中,計算機再次發揮了重要的作用。
據nationalgeoprahic 網站,事情的經過是這樣的。 Sunday Times 的藝術編輯Richard Books 的一位同事從Twitter 上獲得一條匿名消息,宣稱Galbraith 就是羅琳。隨後,該賬號被刪除。為了確定此消息的可靠性,Brooks 的團隊首先上網查詢了一下,發現兩位作者的出版商相同,隨後他們找到了兩位計算機科學家,通過語言分析進一步確認。在確定Twitter 上透露的消息準確之後,Brooks 與羅琳進行了聯繫,隨後他從羅琳的發言人那裡得到證實。
這兩位計算機科學家是:牛津大學的Peter Millican 和Dunquesne 大學的Patrick Juola。 Sunday Times 給了他們五本書,除了《Cuckoo》之外,還有羅琳的另一本小說《The Casual Vacancy》,以及另外三本英國犯罪小說。
Patrick Juola 使用了一個叫做JGAAP 的軟件。他用不同的分析方法來檢測寫作的不同側面。其中一個測試是詞組的使用,因為不同的作者會使用不同的詞彙來形容某種東西,另一個測試是檢查某些常見詞彙的出現頻率。最強大的證據是單詞長度測試, Juola 說,從這個測試中發現了羅琳寫作的特色。全部測試的時間是一個半小時,所有測試都證明,《Cuckoo》與羅琳的《Casual Vacancy》最為接近。
與此同時,Peter Millican 也進行了測試。在上述的五本書之外,他又增加了幾本書,然後使用語言分析軟件Signature 進行了測試。軟件通過六個方面對書籍進行對比:單詞長度、句子長度、段落長度、單詞出現頻率、標點出現頻率,以及單詞使用情況。測試同樣顯示出Cuckoo 與羅琳所寫的書最為接近。在五個小時的測試之後,Peter Millican 寫信給Sunday Times,說他非常確信這是羅琳的作品。
對於Patrick Juola 來說,收到此類請求並非第一次。在現實情況中,他曾多次參與語言對比測試,其中不乏古怪的例子。有一次,他證明了奧巴馬的書籍《Dreams from my Father》並非本土恐怖分子Bill Ayers 所寫,另一次,他曾確認報紙上的某位匿名政治批評家的身份,使此人得以留在美國,而不是被驅逐出境。
語言分析同樣有著商業上的價值。 Patrick Juola 說,有些人會分析亞馬遜這樣的網站上的產品評論,從而判斷哪些評論是廠商所為,或者提供一些有價值的地域模式分析。
Juola 說,那位匿名提供信息的人刪除賬號是很聰明的。因為,“如果我們仍然能夠看到那個賬號的話,我們可以分析一下句式,看看它是否能和某個出版社工作的人對應上。”
圖片來自:fox5sandiego.com
資料來源:ifanr