中文文字自動識別是數位人文領域的重要一環,無需藉由費時耗力的人工打字工程,即可將中文古籍文本數位圖像自動轉為文字,使文本內容檢索得以開展。中央研究院數位文化中心日前參加「中國古籍文字自動識別挑戰2021」,歷經10天賽程拼搏,以近91%之高準確率,榮獲冠軍!自23組來自中國、香港、美國與臺灣的參賽隊伍中脫穎而出。

「中國古籍文字自動識別挑戰賽2021」由香港中文大學圖書館主辦,希望藉由比較各家對古籍中文字自動識別方案之優異,提升中文古籍文字自動識別技術,並推動學界對中文資料的發掘,為相關學科研究開創新里程。此次賽事共吸引中國13組、香港5組、臺灣4組、美國1組參賽隊伍共同角逐。依類別分,可分為學界13組、商界6組、其他領域4組。

本院數位文化中心由歷史語言研究所王祥安研究助技師領軍,協同丁盛、劉品廷等組員,以近91%的文字自動識別準確率,於此競賽中掄元,為競賽唯一達到90%以上辨識率的團隊。中國華南理工大學電子與信息學院則以86.1%的準確率,位居亞軍;季軍為中國科技(北京)有限公司(DeepBlueAI),準確率為84.6%。線上頒獎典禮已於4月21日舉行。

自1929年德國科學家Gustav Tausheck(1899-1945)提出字元辨識技術,光學字元識別(Optical Character Recognition, OCR)技術發展至今,已能結合人工智慧進行自動辨識。過往文字自動辨識競賽多聚焦於英文文本,且以歐美等西方國家為主;少數的中文文字自動辨識競賽亦以商業應用或近現代文本領域為主流,少見中文古籍領域之競賽。

一天分析50張高難度古文

「中國古籍文字自動識別挑戰2021」賽程長達10天(3月15日至3月26日),主辦單位每日上傳50張中國古籍圖像至各參賽隊伍所建置的網上平台,限定一小時內完成並回傳文字識別結果。評分標準包含正確識別的字數(錯誤識別字則扣分)、正確識別文字的行列順序與位置。意即除了文字的正確率,排版的正確率亦納入評比範圍。

此競賽不僅評分嚴格,內容辨識難度亦深具挑戰性,所提供之古籍圖像大多刻意挑選文字透底、圖像歪斜、含大小字並列與混合,或夾雜異體字、罕用字與肉眼無法辨識之文字等各式問題的高難度版本。王祥安於線上頒獎典禮進行技術簡報時表示,為準確辨識相關古籍文字內容與格式,數位文化中心在參賽過程中引入逾10項圖像處理、文字處理與機器學習技術,包括雜訊去除、版面分析、標記與文字偵測、文字辨識、根據語言模型進行錯字修正、文字序列輸出等,進行多重處理。

國際級中文古籍OCR辨識技術

數位文化中心自2017年開始研發OCR技術,陸續引入各式機器學習技術,以改進文字自動辨識率。值得一提的是,本院史語所漢籍資料庫工作室提供了大量高品質的漢籍文本影像與文字內容,讓數位文化中心技術團隊得以訓練出高水準的古籍文字自動辨識準確率。如「簡牘字典開發計畫—開放性資料庫的結構及技術探索」所研發的字元偵測技術,後來也被應用於OCR技術中。

經過數年不斷創新與學習的努力,數位文化中心所研發中文古籍OCR的辨識技術,無疑已取得國際的領先優勢。數位文化中心將持續精進相關技術,致力提升數位典藏在文字辨識上的良率,此一研發技術將不僅有助於數位資料庫的內容建置,降低人工著錄文字的成本,更能加速精準檢索與應用古籍文本之進程,從而促進人文學者進行文本解讀、版本比較與脈絡分析等種種研究取經。