◆◇研究計畫介紹◆◇ 中文資訊跨所研究計劃 資訊科學研究所研究員陳克健 語文是社會運作的基本工具,語文處理的資訊化直接攸關整個社 會的現代化腳步。今日我國社會全面資訊化的最大障礙,就是語文 處理上的困難,以中文輸入而言,非專業輸入員多視中文輸入為畏 途,而最需要獲取資訊的就是這些需要資訊做正確判斷的主管人員 ,因此痛下決心突破因難已是刻不容緩。行政院正規劃諸多國家級 資訊網路、資料庫及產業、技術、市場、稅務、戶政、地政、國土 、交通等相關資訊系統,均無不倚賴更多方便的中文資訊處理技術 ,如中文文字、語音輸入輸出技術,中文人機交談介面,智慧型中 文資訊檢索技術等,進而發展更有效的中下游應用項目。 中央研究院在此一領域的研究起步甚早,已奠定紮實基礎,許多 項目的成果技術不但在國內首屈一指,也領先大陸,領先全世界; 但由於投入的人力物力有限,進展一直相當緩慢。資訊所目前結合 史語所及計算中心所進行中的中文資訊跨所研究計劃正全力投入之 研究包括以下三個方向: 1.中文資訊處理研究環境之建立:如中文詞知識庫、白話文語料 庫、國語語音資料庫。 2.針對中文語文特性的中文資訊處理技術:如中文文句剖析、中 文全文檢索、語音辨識、文字辨認等技術。 3.應用研究:如國語聽寫機、智慧型中文輸入法、中文語音全球 網路資訊檢索系統。 建構中文資訊處理研究環境的目的是為國內中文自然語言及資訊 處理提供基本的研究資料與知識架構。故此一研究包括建構資訊處 理用中文詞知識庫、代表當代白話文的語料庫和中文語音資料庫。 詞知識庫的資料內容包括白話文一般常用詞及其相關語法、語意、 語音、頻率等資料。研究人員可憑藉此一知識庫配合實際的書面或 口語資料,深入探討真實的狀況而得到許多實際可以應用的語文資 訊,以提供中文資訊處理、語句剖析、語言了解等系統之用。在中 文語料庫方面收集整理當代白話文書面語及口語文字資料,加以分 類取樣,文本內容並做分詞和詞類標記工作。完成的標記語料庫, 可以呈現出中文的真正面貌,研究人員利用語料庫做為研究的素材 ,從中觀察抽取語言訊息建立語言模型。語料庫提供詞句各種不同 的使用範例,字詞的統計分佈,反應出實際的語言現象。因此利用 電腦從語料庫中自動抽取語言知識可取代大量人力成為一門新興的 學問。除此之外,語料庫也經常當作測試或訓練樣本,以考驗電腦 系統處理真實語言的能力。語音資料庫的用途和語料庫類似,語料 庫表達的是文字的訊息,而語音資料庫表達的是語音的訊息,它是 研究語音辨識、語音產生、了解語音變化及相依關係,不可或缺的 基本素材,研究人員可以從語音資料庫抽取語音的特徵訊息,應用 在語音系統上。 利用以上所述的中文資訊處理研究環境,發展中的中文資訊處理 技術包括:1.中文剖析技術,2.中文語音辨認,3.中文文字辨認, 4. 中文語言模型,5.中文全文檢索技術。 這些語言,文字,語音相關處理技術已有相當的成熟度,由這些 技術發展出成功而知名的應用系統包括:1.金聲系列國語語音辨認 系統,2.自然輸入法,3.尋易全球網路中文資訊檢索系統等。 理想的中文資訊環境應該是-電腦看得懂中文,聽得懂國語,能 直接以語言和人類溝通。然而語言的複雜程度,遠超過所能想像, 目前的這些初步成果只是達到理想中文資訊環境的第一步。本計劃 只是邁向理想的一小步,而這一小步希望是推動整個中文資訊研究 的一大步,本計劃所建立的基礎環境,已大量開放給學術界及研究 單位使用,目前已有國內外數十個單位使用本計劃發展出的詞庫及 語料庫。