當機器人夢見電子羊:揭開電腦的詭異夢境

機器人的夢境是什麼樣子呢?透過Google新發佈的一系列圖片,告訴了我們可能的答案。

 

  機器人的夢境是什麼樣子呢?透過Google新發佈的一系列圖片,告訴了我們可能的答案:建築、噴泉和橋樑融合為一幅景象,有如服用安眠藥後的催眠情況。

 

  Google公司的圖像識別神經網絡,被「訓練」透過照片裡的建築、動物或者物件,辨識其特徵與相貌。這些由美麗變成有點恐怖的圖片,就是它創造的;但這些圖片是怎麼產生的呢?首先提供一張照片給圖像識別神經網絡,經由識別圖片裡的特徵,強調辨識出來的特徵修改圖片,被修改過的圖片會再次被送回網絡裡,又一次的辨識特徵與強調它們,不斷地循環重複;最後,這個工作迴圈會把原圖片的特徵,修改成超乎想像地誇張。

 

  使用程度較低時,網絡可能只會創造出明顯經過銳化的圖像,這張圖片會變成像普通人使用Photoshop的濾鏡時都很熟悉的繪畫效果:

 

使用圖像識別神經網絡前後的差別。

 

  但是,假使這個網路運作的圖像裡,發現比較複雜的面貌或特徵(譬如動物),最後它會產生出一些令人不安的幻覺:

 

「騎士」的圖片經過來回偵測後,跑出動物的圖像。

 

  這個軟體甚至可以運作在純粹雜訊的圖片上,完全依照它自身的想像力去產生樣貌。

 

使用前:雜訊;使用後:香蕉。

 

  如果你用網絡集中在尋找建築物特徵上,在尋找辨識與增強的作用下,一張平凡無奇的雜訊圖片最後會變成這樣令人瞠目結舌:

 

由隨機雜訊製成的夢境。

 

  除了展示之外它還有更多功能。神經網絡是機器學習的一個共同特點:它知道如何識別圖像,而不是一個精準的程式計算機,公司提供圖像給網絡,並且讓它自己去拼湊那些關鍵的特徵。

 

  但那可能會導致軟體崩潰或者難以理解,因為我們不知道軟體會去檢查哪些特徵,又會選擇忽略哪些。舉例來說,我們希望網絡從雜訊圖片中找到啞鈴,網絡想的卻是肌肉發達的手臂拿著啞鈴。解決的辦法可能是提供更多單純只有啞鈴放在地上的圖片給軟體,直到它理解手臂不是啞鈴本身的一部分為止。

 

原本預設網絡能從雜訊圖片中找到啞鈴,但結果卻變成肌肉發達的手臂拿著啞鈴。

 

  Google工程師在公司的研究部落格上解釋道:「神經網絡的其中一個挑戰,是準確地理解每一個圖層的情況。我們知道,網絡經過訓練,日復一日越來越高程度的擷取圖片裡每個圖層的面貌,直到最後一個決定性的圖層顯示出圖片的內容。舉例來說,第一層找邊緣與角落,中間那些圖層說明全部形狀或組成的基礎樣貌,像是一扇門或者一片葉子,最後的幾層則組裝成完整的樣貌。這些網絡神經在面對建築物群或者樹木群時,會引發這樣的反應。」

 

  他們接著補充:「其中一種具象化的方式,是把網絡倒過來,增強輸入圖片的品質,藉此去引發特定的圖像解讀,想知道哪個類型的圖片會產生『香蕉』的結果,從用一張充滿隨機雜訊的圖片開始,然後逐步地扭曲這張圖片,讓網絡解讀的最後結果成為一根香蕉。」

 

  圖像辨識軟體目前已經運用在消費產品上,新的Google相片服務「Google Photos」特別提供文字搜尋選項:像是輸入「狗」,它就會找出所有Google上所能找到有關狗的圖片,但偶爾也會出現其他非犬類的四隻腳動物。

 

  現在我們知道,機器人不只會夢到電子羊,他們還會夢到如催眠般、多采多姿的景像。

 

 

 

原出處:The Guardian

分享閱讀: