讓電腦看懂人類的語言後能做什麼呢?應用自然語言處理(Natural Language Processing)的技術,除了能讓電腦理解文句所描述的意義外,在這個資訊爆炸的時代,還能進一步協助人類處理知識。我們能透過跨文件處理的技術,將非結構化的文字資訊轉換為結構化的知識庫(knowledge base)。一旦建立了跨語言、跨文件的巨大知識庫,就能跨領域探索未知的關聯,透過推論創造新知識,也能應用在智慧型問答、事件追蹤等等,讓人類掌握與運用資訊。

天氣冷或情緒激動的時候,有些人血管會痙孿,手指或腳趾的血管裡因為血流變少而發白,接著變成藍紫色。輕者過個二十分鐘痙攣就能緩解而恢復血色,嚴重者會因血管末梢缺氧太久而組織潰瘍、壞死,此為所謂的雷諾氏症候群(Raynaud’s syndrome)。回到一九八〇年代,當年有研究指出雷諾氏症候群的患者的血液往往黏滯性異常地高,另一方面,也有研究指出保健食品深海魚油中富含某種 omega-3 脂肪酸(Eicosapentaenoic acid, EPA,為進一步合成 DHA 的原料),能有效降低血液黏滯性。這兩者是來自不同的研究領域的獨立發現,他們不知道彼此的存在,所以沒人將這兩者連在一起。由於人腦的演化跟不上資訊爆炸成長的速度,所以即使像前述這樣相鄰的兩個領域也對彼此的研究進展很陌生。

後來美國的資料科學家斯旺森博士(Dr. Don R. Swanson),透過發掘不同文件間之連結關係,注意到深海魚油與雷諾氏症候群都和血液黏滯性有關(Swanson, 1986)。兩年後的臨床實驗證實了他的預測 ,一種發掘知識的新典範於焉建立!假定深海魚油為(A),雷諾氏症候群為(C),他們都和血液黏滯性(B)有關係。但發表(A)-(B)連結的文獻作者與發表(B)-(C)連結的文獻作者,本來並不知道彼此的存在,透過跨文件處理的技術來整合分析已知的知識,找到(B)這個橋樑後,大家就能發現(A)(C)的關係(圖一)。這說明建立跨領域文件間的連結,可以產生新知識。但這種巨量文件配對的計算量非常大,非人力可勝任。

 

【專欄】結合微觀與巨觀之跨語言跨文件知識發掘

圖一:跨領域建立知識連結示意圖(Kötter and Berthold, 2012)。

 

在這個大數據年代,資料探勘(data mining)蔚為潮流,但只到資料處理的層次。這是不夠的,知識處理(knowledge processing)才是未來的趨勢所在。然而知識大多以文字的形式記載,這些中文、英文等的文件內容,是非結構化的資料,必須轉化成結構化的訊息,才能進一步做知識處理。因此自然語言處理(Natural Language Processing, 簡稱NLP)的技術,就在其中扮演了非常重要的角色。我們希望計算機能分析文句結構,理解文句所描述的意義,達到「自然語言理解」的目的,將非結構化的文字資訊轉換為結構化的知識庫 (knowledge  base),讓電腦可以進一步應用。例如像文章開頭所展示的那樣,探索未知的知識關聯,挖掘新知識(knowledge discovery/exploration)。

近年來期刊發表量大幅上升,必須借助計算機的幫忙來分析,才有可能消化所有文獻並串連成新知識。另外,子領域也越分越細,在資訊爆炸的同時,領域間的藩籬也越築越高,使研究者更加不易得知其他領域的資訊。如果我們能收集當前各領域的文獻,進行跨語言、跨文件的處理與分析,構建一個巨大的知識庫,那就能進行跨領域文獻的知識推論,達到從既有的知識體系中產生新知識的目的。

但跨文件的資訊擷取與知識推論並非易事,如果只是單純從單一文件個別抽取資訊後再堆疊起來,會產生很多缺失。例如文檔之間並沒辦法建立連結,也就會失去使用這些連結推論出新知識的機會。為了解決這個問題,目前本實驗室正致力於結合中研院資訊所語言分析處理技術,先從單一文件中抽取命名實體(named entity)、關係與事件(relation and event),再建構文件間的連結,以建立單一語言的微觀知識庫。這邊說的連結不單是倚賴抽取關鍵字來建立相關性而已,而是經由理解內容後所獲得之因果邏輯推論。接著進一步連結不同語言各自的微觀知識庫,來建構多重語言的微觀知識庫。在建立單一微觀知識庫的過程中,我們會憑藉冗餘的訊息來精煉擷取出來的資訊。但另一方面,我們也會利用所有的文件背景來建立異質資訊網路,也就是所謂的巨觀知識庫。整合微觀與巨觀的資料庫後,我們也將設計一個知識投影器,把海量的知識投影到使用者關注的方向上。如此一來,就能一方面應用這個知識庫,同時減輕使用者的負荷,降低使用門檻,讓更多人共享(圖二)。

 

【專欄】結合微觀與巨觀之跨語言跨文件知識發掘

圖二:結合微觀與巨觀之跨語言跨文件知識發掘流程圖。

 

一旦建立了像這樣跨語言、跨文件,結合微觀與巨觀的知識庫後,除了能跨領域建立連結而挖掘出更多新知識外,還能應用在產生跨文件摘要、智慧型問答、即時個人/公司簡介、跨文件事件追蹤等等,能讓人類妥善運用與掌握資訊。

 

參考文獻:
1. Wikipedia
2. Swanson, D. R. Fish oil, Raynaud’s Syndrome, and undiscovered public knowledge. Perspect. Biol. Med. 1986, 30: 7–18.
3. M.R. Berthold (Ed.): Bisociative Knowledge Discovery, LNAI 2012, 7250: 33–50.
4. DiGiacomo RA, Kremer JM, Shah DM: Fish-oil dietary supplementation in patients with Raynaud’s Phenomenon: A double-blind, controlled, prospective study. The American Journal of Medicine. 1989, 86: 158-64.