【專欄】語言、科技、藝術的交會： Omiyage 沉浸式藝術互動系統

古倫維博士是國際知名的自然語言處理學者，此領域是人工智慧的重要關鍵技術之一。古倫維於頂尖國際會議相當活躍，擔任技術主席，且常年發表頂級論文，研究成果豐碩，2023年更獲得 Woman in AI 提名及傑出資訊人才獎。

什麼是「Omiyage」？

Omiyage 在日文中的意思是出遊帶回來的特色紀念品。我們所開發的 Omiyage 系統讓觀展者與創作者可以擁有無距離感的交流，進行獨有的溝通並理解創作精神或背後的知識，同時交換感受，系統最後可以將這個經驗完整打包，提供使用者做為獨一無二的紀念品帶走，因此我們將系統命名為 Omiyage。

Omiyage 的技術背景

AI 語言模型將成為我們生活中的不可或缺的一部分。目前最為人所知的大型語言模型之一——ChatGPT，以及後續的其他大型語言模型，正開始在各方面改變我們的生活。例如：我們可以詢問大型語言模型我們想知道的問題，或者跟它聊天，甚至出現像是 VTuber 的虛擬人物，背後即是利用大型語言模型支援它與觀眾談話。有別於過往的語言模型，大型語言模型能提供良好的溝通介面，以及訓練時閱讀過的大量知識。目前出現的大型語言模型應用，也是基於這兩種新的特性，開發與「問答」或「對話」有關的功能。

我們希望能夠通過這個技術，親近各種困難知識，特別是在跨領域的應用上。一般來說，不同領域的專家要了解其他領域的知識並加以結合，是件不容易的事。我們希望利用科技推動生活向更美的方向前進，並且要將原先遙不可及的事物轉變成身邊隨時可得的靈感素材，更希望能夠協助教育領域將它們普及化，因此最後鎖定了「藝術」，發展了沉浸式藝術互動系統 Omiyage，它的目標是實踐「生活是藝術、藝術是生活」的理念，驅動我們輕鬆親近美的事物，並享受與藝術家即時互動，分享靈感和創作過程並表達感想。

為什麼是沉浸式？藝術？互動式？

在人工智慧的時代，若是講到沉浸式，首先想到的一定是 VR/AR 虛擬實境與擴充實境，此時沉浸式所指的是我們視覺上「沉浸」在完全虛構或半真半假的環境中。然而，在使用 Omiyage 的時候，它的「沉浸式」指的是使用者與欣賞物之間的小世界。使用者在與欣賞物或創作家進行對話的時候，將會是一個使用者個人與欣賞物或創作家交流的過程，使用者使用自己的語言抒發感想或提出疑問，而欣賞物或創作家也針對使用者所說的內容提供相對應的不同回覆。這個交流將是個人化且私人的，同時交流的內容也不會有第三者知道。我們可以將這個部分視為視覺後的思想交流，如果已有 AR/VR 環境，與 Omiyage 的整合也是很容易的。

Omiyage 首先選擇藝術領域，是因為我們認為藝術領域本身是其中一個進入門檻較高的領域，要了解一件藝術品需要有許多背景知識，包括藝術語言本身，甚至歷史與文化。同時，藝術感受是非常私人的，這兩者都符合大型語言模型可以提供知識性資訊以及個人化交流的長項。我們觀察到的是，一般的展覽、博物館、畫廊利用所謂「藝術語言」而非一般「生活語言」講述展品的歷史、流派、畫風、技法、色彩搭配等，觀賞者都需要具有一定的知識才能部分了解，同時為了表達展出的專業性，甚至可能堆疊許多專業名詞使得民眾敬而遠之，相當可惜。我們希望 Omiyage 背後大型語言模型的強大的交談能力，能夠搭建起專業語言與生活語言之間的橋樑。

另一個強大的功能是 Omiyage 將這類教育或知識提供的方向由單向灌輸轉變為雙向的互動，並將此經驗實體化的能力。我們前面所談到的大型語言模型最常見的應用：問答與對話，它們本來就是雙向互動型的應用，在這樣的應用中功能增強已經讓我們感到相當驚奇。然而，過去在展品資訊的提供上，都是單向的，由策展單位或是藝術家來解釋，觀展民眾則照單全收。這使得資訊接收方非常被動，同時也無法留下深刻的印象。 Omiyage 則將這個經驗轉變為互動的形式，這是一個實質上將資訊接受者轉成資訊提供者的巨大改變。同時，Omiyage 產出的經驗實體，也就是互動過程，它可以做成產品或是直接電子化分享到社群媒體達到廣告效果的概念，也提供一個新的商業模式，我們預期這樣的技術將可能改變整個產業的生態。

Omiyage 系統的架構怎麼運作？它有什麼特別能力？

Omiyage 背後所使用的語言模型可以有兩個選擇，一個是使用自己訓練的多模式語言模型（影像加語言），另一個是使用雲端的大型語言模型服務，如： ChatGPT 或 GPT4.0。系統的平台非常容易整合各種資料。它首先需要一張圖片，圖片的內容為我們目前正要了解、或是想要跟它互動的對象；另外則是一段對於該對象的介紹或描述。通常這樣的資料在策展單位或教育單位都是現成的，不需要特別為了使用 Omiyage 系統而重新建立，這個設計使得導入任何展出場景（甚至只是網頁展出）都非常容易，若是藝術家想要額外說明創作動機或介紹作品，只需要加入原有的介紹中即可。

Omiyage 基本設定是將對話的角色設定為藝術家或藝術品本身，因此會利用大型語言模型的提示工程（Prompt Engineering）功能，也就是給定特定的正確指示，包括我們剛才提到的介紹內容，以及該如何扮演好藝術家或藝術品角色的詳細說明，讓大型語言模型可以依照這些指示工作。目前若是使用雲端服務的大型語言模型，我們會給模型數個精心設計的範例作為訓練（In Context Learning）；若是使用自行建構的大型語言模型，則是利用維基藝術（WikiArt）的公開畫作圖與資訊來訓練模型，而後這兩者在角色設定與使用的指示上則是相同的。從使用者端來看， Omiyage 由網站形式呈現，任何時候只需要連結至網頁或手機掃碼 QR Code 就可以使用這個系統，操作上非常方便。

▲圖一、Omiyage 系統架構流程以及將互動過程實體化為書籤的範例

目前系統的設計上，主要針對展品或圖片的介紹內容連結作品與使用者。 Omiyage 在這樣的應用場景中具有三大特殊能力，能讓使用者在過程中獲得許多知識與樂趣。首先， Omiyage 具有連結特定名詞與生活用語的能力，例如：大型語言模型曾經在訓練資料閱讀過印象派的畫風與畫技，當觀賞者詢問「這幅畫的背景怎麼了？」的時候，它就可以用口語解釋光線和影子的變化所能表達的感受。

第二， Omiyage 具有連結生活經驗與感受的能力，例如：當使用者詢問殷墟出土的「鼎」是否可以煮火鍋時，雖然介紹文中沒有這項資料，但是 Omiyage 可以藉由訓練所知的「鼎」是烹煮器具，以及煮火鍋是烹煮行為這兩項資訊將它們連結起來，進而回答這個問題。當使用者看著一家人野餐的畫作，表達「女兒我愛你！」的時候，也可以從家庭活動連結到母親對女兒的情感，而做出適當的回覆。

第三， Omiyage 具有連結類似物件的能力，例如：當使用者對著日出畫作，說到「這個番茄好漂亮！」的時候， Omiyage 能夠藉由過去閱讀過番茄與太陽的外型顏色，知道它們看起來相當類似，進而回覆「您對番茄的感受與我對日出的感受相像」的說法。這也就是我們前面所說的，利用大型語言模型的技術提供「生活語言」與「專業語言」連結的功能。

除此之外， Omiyage 背後的大型語言模型，更提供多語功能，可馬上消除語言隔閡！過去國外的展品或教材都需要經過翻譯才能介紹給國內的民眾，現在藉由 Omiyage，不只準備資料時只需要輸入原始語言的資訊，使用者還可以使用自己的語言來互動，中間無須經過翻譯，大大減低跨國藝術知識傳遞的屏障。

▲圖二、使用者進入 Omiyage 選擇互動對象的畫面範例

科技，讓藝術不只是藝術！

互動式功能不只是改變我們的觀展經驗，未來 Omiyage 在 AI 上也具有相當大的應用潛力。由於它是一個使用平台，因此能夠收集展覽的資料，例如：民眾對展品的興趣點在哪裡？進到一個展區會先跟哪一個展品互動？這些對於策展人跟藝術家都是很寶貴的資訊，未來也可以用 AI 模型加以分析，提供下次展出的參考。

初試啼聲，我們將 Omiyage 稱之為沉浸式藝術互動系統，並將之應用在藝術領域。然而，這個系統的整體概念，可應用的範圍相當廣泛，不僅止於藝術。只要有一張圖、一些簡要說明，都可以藉由 Omiyage 讓物件活起來與我們互動。可以將它應用在科學教育上，來與過去的日晷儀、或是各種科學實驗互動；也可以應用在觀光景點，跟不同的地標互動；甚至利用照片可以跟過去的經驗互動。

在教育現場，課堂上老師也可以使用這樣的技術準備課程內容或讓同學們自由學習。而藉由互動、個人化與紀念品製作的功能，衍生的活動包括分享彼此的問題與互動、舉辦投票選出喜愛的互動內容、或是得到紀念品等，更是提高了學習動機。我們希望這樣的技術與系統，能夠達到藝術平民化、知識平民化的最終目標，享受「知與美」的生活樂趣。