這可能是第一台擁有想像力的計算機


讓我們想象一下這樣的場景,一片一望無際的麥田中種着一棵橡樹,以及萬里無雲的天空所營造出的一個陽光明媚的午後。當大多數人讀到這句話時,可以很容易就在他們的腦海裏想象出這樣的田園景象。這種人類所獨有的能力可以讓你在讀到一個場景的描述後,想象出這樣的場景。不過,這一珍貴的技能可能不再是我們人類所獨有的了。

這類在你看來可能想象力遠遠超越了當今計算機能力的事情,將由來自日本東京大學的Hiroharu Kato 和 Tatsuya Harada 所帶來。

最近,他們公佈了一台計算機,它能將一個對物體的描述轉換成圖像。這就是對想象力所作出的一個完美定義。

可以肯定的是,這些計算機的想象力還比較簡單,甚至有時十分混亂且沒有任何意義。但不可否認的是,這台計算機代表着計算機的創造力顯著地向前邁進了一大步。

計算機科學家長期以來都是利用文字管理來處理圖像,這一方式十分直接,例如:用户在搜索引擎中輸入一個單詞或一系列單詞,並利用關鍵詞得到高度相關的圖像。這並不是因為計算機擁有特殊的能力來理解用户輸入的關鍵詞。事實上,通過關鍵詞來得到結果的技術已經非常強大,但與此相反,在處理圖像時就無法發揮出等效的能力。

因此,幾年前計算機科學家開始將圖像當作一系列像素來對待,圖像會被分成一系列的短序列,每個序列對應於圖像的一個特定部分。例如,一個短序列可能對應於一個杯子的邊緣、皮膚的某個區域或天空的某部分。

這些短序列對人類可能沒有什麼意義,但對計算機而言就能將它們視為關鍵詞。因此,一台電腦分析一張圖片就能通過計算序列的數量以及出現的頻率,就像是通過計算文檔中詞語的出現頻率一樣。計算機科學家稱這些序列為“視覺關鍵詞”。

Kato 和 Harada 的方法則是反其道而行,想要鑑於視覺關鍵詞的分配,而得到原始圖像。這是一個非常困難的技術問題,雖然視覺關鍵詞可以描述圖像的一部分,它並不能解釋在圖像中的什麼位置。

Kato 和 Harada 用兩種不同的方法來處理這一問題。

  • 首先是評估每個視覺關鍵詞如何和其他視覺關鍵詞組合在一起。這一過程並非十分簡單,因為視覺關鍵詞沒有任何明顯的形狀,因此並不能像拼圖一樣適合被組合在一起。
  • 第二種方法是評估給定的視覺關鍵詞應該出現在圖象特定部分的可能性。例如,表示天空區域的視覺關鍵詞更可能出現在圖像的頂部。

有了以上兩種方法的鋪墊,最後 Kato 和 Harada 會使用自己的方法讓計算機能夠明白人類普通的日常句子,並生成相應的圖像。他們會把語句中的每一個單詞轉換成視覺關鍵詞,然後再將關鍵詞轉換成圖像。而把普通的單詞轉換成視覺關鍵詞同樣又是另一個棘手的任務。

整個項目困難重重,但這是一個充滿希望的開端,並希望能夠開闢一條通往新世代的圖像創建系統之路。

via technologyreview

本文轉載請註明來源:http://www.leiphone.com/news/201505/5SQMqrtEIYYlzuPV.html


資料來源:雷鋒網
作者/編輯:思睿

如果喜歡我們的文章,請即分享到︰

標籤: 想像力  計算機