打造「聊」癒系機器人！看圖說故事，AI 也略懂略懂

AI 如何看圖說故事？

看圖說故事對人類來說，是輕鬆好玩的事，但對 AI 來說，卻是巨大挑戰，因為這代表 AI 必須看出圖中有哪些物件、理解圖片意義、能夠生成文句，還要看懂圖片間的因果邏輯。在中研院資訊科學研究所古倫維副研究員的努力下， AI 看圖說故事的能力有了很大的進展。她的模型有什麼獨特之處呢？跟著研之有物一起來瞧瞧！

俗話說得好：「發文不附圖，此風不可長。」不論你發的是爆卦文、閒聊文還是業配文，有圖更容易晉身流量熱文。不過近年來，社群網站發文的風向漸漸有了改變，從「發文附圖」轉變成「發圖附文」，我們總是先來一張照片，再配上相應的描述文字。接下來，我們的發文習慣還會怎麼改變？

或許，未來你拍下一張照片上傳社群網站，電腦就會自動「看圖說故事」，為你的照片腦補一段說明文字，節省你的思考時間。

讓電腦學會「看圖說故事」的伎倆，正是中研院資訊科學研究所的古倫維副研究員正在鑽研的主題之一。她的主要研究領域是人工智慧（ AI ）的自然語言處理，在因緣際會下，接觸到一個 AI 看圖說故事的競賽： Visual Storytelling （ VIST ），開啟了她對 AI 看圖說故事的興趣。

中研院資訊科學研究所的古倫維副研究員，主要研究領域是人工智慧（ AI ）的自然語言處理，現正開發如何讓 AI 不只會說故事，還會看圖說故事。
攝影│林洵安

電腦如何學會「看圖說故事」？目前學界使用「機器學習」，簡單來說，就是讓電腦從大量的圖文搭配組合，從中學習看到怎樣的圖片，應該說出怎樣的故事。古倫維說：「其實一開始我們做得並不特別好。我們跟其他參加競賽的人一樣，用機器學習的方法，把圖和對應的文字丟進電腦，讓機器自己學習最佳的圖文搭配。然而機器學習幾乎是軍備競賽了！誰的電腦計算能力更強，得到的模型更複雜，生成的文字就會更好。」

先選角、打草稿，再寫故事

在軍備競爭不足的情況下，古倫維決定採取不同的策略：「既然完全由 AI 看圖說故事的效果不夠好，能不能在故事生成的過程中，有一個人類可以介入改善的步驟。」所以她把原來的做法分成了兩個階段，先從圖片抽取語意，接著再生成文字故事。

語意抽取，是指先從個別圖片中選出用來說故事的概念（如同電影選角），用知識庫找出概念之間的關係，建立圖片的關聯，再為這些圖片擬定最好的草稿（如同電影故事大綱)。

重點來了！在「選角」階段， AI 會先以機器學習的結果，找出最適合說故事的「角色組合」，尤其是面對連續圖片。這就好比張曼玉、梁朝偉、成龍三個演員，前兩個主要演愛情片，第三個以武打戲為主，如果第一張照片選了張曼玉，第二張照片應該選梁朝偉，生成的故事會比較好看。

但目前 AI 選角部分還不夠靈光，有時仍會發生如「張曼玉配成龍」的選角名單。古倫維的兩階段設計讓人類可在「選角」階段介入修改。實際例子如：圖片中有小男孩、天空、腳踏車三個概念。AI 從上圖抽取出的概念可能是「小男孩」、「天空」，最後生成的故事可能是「一個小男孩在天空下」……滿無聊的。但人類可以把「天空」改成「腳踏車」，機器最後就可能生成「一個小男孩騎著腳踏車。」嗯，是不是比較有故事性了？

最後，人類再將修改後的選角和故事大綱，交給 AI 產生整個故事。這種「先選角、打草稿，再說故事」的方式，最後產生的故事比較不會無聊或是不合理，更接近人類說出的故事。

古倫維的故事生成模型將產生故事的過程分成「語意抽取」及「故事生成」兩個階段。
圖說重製│黃曉君、林洵安
資料來源│古倫維

打造「聊」癒系機器人！看圖說故事，AI 也略懂略懂

欲瀏覽完整精采文章，請至研之有物官網：

https://research.sinica.edu.tw/ku-lun-wei-ai/

（趕快點進來喔！還有更多精采圖文！）