《研究心得》 從圖形辨識窺視人類心靈的運作 資訊科學研究所副研究員 張復 對於電腦而言,文字、指紋、符號或人的臉孔都是一種圖形。這 些圖形有的展現在三度空間上,有的則展現在二度空間(平面)上 。我目前在資訊所的研究工作是探討如何使用電腦來辨認書本上的 文字,這是二度圖形辨識的一環。 圖形辨識的最大困難是對付圖形的變異性。當我開始接觸文字識 別的研究時,我天真地認為,以電腦的快速計算能力來對付圖形的 變異性應該不是很難的問題。所以,我和許多人一樣構想了一些直 截了當的方法,比如說把所有理想的文字圖形事先儲存在電腦裡。 當電腦遇到一個待辨認的文字時,它就把該文字的圖形與所有事先 儲存的圖形一一比對。比對出來最接近該文字圖形的理想圖形便是 該文字的原形。然而,電腦應該使用什麼方法來比對圖形呢?於是 我又構想了另一些簡單的方法,比如說把兩個圖形放置在同一個位 置上,然後測量它們之間重疊的面積。 當我實際做了一些實驗以後,我非常驚異地發現,這樣比對的方 法常常會把同一個的文字的兩種不同書寫形式判定為兩個不同的文 字。當我靜下來想這個問題的時候,我感覺到在辨認文字以前應該 對文字作一些結構的分析,然後根據結構的相似性來從事文字圖形 的比對。 然而如何對文字圖形作結構的分析呢?這又引發了深一層的問題 。首先,就一個文字的圖形來講,它的結構是什麼?在這個問題上 ,我和許多人一樣相信文字的構成份子是筆劃。我於是進一步構想 ,如果電腦能夠把一個文字圖形裡的筆劃抽離出來,再將筆劃與筆 劃之間的關係作一個分析,那麼它就不難找出同一個文字的各種形 式之間的共通性。這個想法本身並不是什麼創見,然而要如何實現 它卻不是一件易事。抽取筆劃的研究花費了我三、四年的時間,我 和研究助理們總算找到了一些合理的方法。 下一步的問題是如何分析筆劃的結構。這裡面牽涉到了中文文字 的一個特殊的問題。中文文書裡經常被使用的文字一共有五千多個 。難道我們要為電腦製造五千多個結構的模型嗎?建構模型的工作 固然浩大,電腦在辨認文字時必須一再使用這些模型也會耗費相當 多的計算時間。其實,這裡面真正耗費的計算時間並不是在機械性 的核對,而是在照顧各種可能細微的變化,這也是所有圖形處理最 花費計算時間的地方。那麼,如何能同時節省模型建構與電腦計算 的時間呢?傳統的智慧告訴我們,中文文字雖然多,但它們都是由 少數的子結構所構成的。這些子結構就是一般所說的部首或字元。 如果電腦能夠把文字裡的筆劃以及這些筆劃所構成的字元找出來, 那麼它只會在少數的字元以及它們的細微變化上花費計算時間,這 樣的作法便極為經濟而迅捷。同時,在建構文字的模型時,我們只 需要把它們的字元結構描述出來,不必把一筆一劃的各種關係都描 述出來,這也節省了模型建構的時間。 然而在這個關口上我們碰到了一個始料未及的難題。文字固然是 由少數的字元所構成的,但是電腦在不認識一個文字以前,它如何 知道這個文字的字元在哪裡?我們發現,問題倒不是出在電腦無法 從一個文字裡尋找到個別的字元,而是出在電腦經常會找出多於一 個文字所應該擁有的字元。比如說,當電腦在文字裡盲目搜索字元 時,它可以在「爭」字裡找出「王」這個字元來,可以在「資」字 裡找出「日」這個字元來。如果仔細去想,這樣的結果其實是合理 的。但是在我們的直覺裡,這兩個字不應該含有那樣的字元,所以 我們不會把那樣的字元放進它們的模型裡。因此當電腦去搜尋字元 時,它就會尋找到模型所不期待的字元來。 這個難題應該如何解決呢?我們的辦法是,首先我們任由電腦在 文字裡自由搜尋各種可能的字元。因此電腦可能尋找到模型所期待 的字元,也可能尋找到模型所不期待的字元。其次在從事文字與模 型的比對時,我們並不要求電腦所找到的字元必須與模型所包含的 字元一一對應。我們只要求模型裡大多數的字元可以在文字裡被尋 找到,而且這些字元又涵蓋了該文字大部份的筆劃。如果這兩個要 求被滿足了,我們就判定該模型與文字之間有了對應的關係。此外 ,從這個結果我們還可以判定,對應於模型裡的字元是應該存在於 文字裡的字元,而無所對應的字元則是不該存在的字元。所以,這 個方法的特色是在同時選取正確的文字模型與字元。 到這裡,讀者也許會問,為什麼人類在辨認文字的時候不會看到 不相干的字元(如「爭」字裡的「王」,或「資」字裡的「日」) ,而電腦卻很容易搜尋到不相干的字元呢?事實上,心理學的實驗 告訴我們,當人們在不正確的脈絡或無脈絡可依循的情況下觀察事 物,他們也會發生遲疑或誤判的可能。這告訴了我們,當人們辨認 物體時,他們是依靠一個完整的脈絡來同時辨認全體與個體。 然而這裡留下了一個很有趣的問題。我們知道人類的神經組織是 從低層(接近感官的層次)逐漸整合到高層的結構,這有利於神經 系統把局部的訊息彙整成整體的訊息。在這個彙整的過程中,低層 的神經細胞先偵測到較局部的屬性(如文字中的筆劃),這些細胞 把處理過的訊息繼續向中層傳送,促使中層的神經細胞偵測到中型 的屬性(如文字中的字元)。這些處理過的訊息經過再次的向上傳 遞,促使高層的神經細胞偵測到完整的形體(如文字本身)。每一 層的神經細胞僅僅根據從它的下一層所匯集到的訊息來決定自己是 否應該反應。所以,就像是上面所談到的電腦一樣,它們可能會偵 測到不應該偵測到的訊息,或做了不應該做的判斷。那麼,整個神 經系統怎樣來更正各層次錯誤的判斷以達到整體與局部的和諧呢? 神經生理學告訴我們,神經系統不僅有從低層到高層的連結,而 且也有從高層到低層的回路連結。這種從下到上,然後由上返下的 連結方式便使得訊息的流通成了一個迴遞過程(iterative process )。神經訊號在這個迴遞過程裡上下反覆地傳遞,結果,它們的某 些區域很快就收斂到穩定的狀態,有些區域則發散到渾沌的狀態。 我們的猜想是,人類的神經系統利用了(一)上述的迴遞過程,以 及(二)經由學習作用所引發的神經細胞之間的特殊的連結型態, 使得上下層之間屬於和諧的部份會收斂到一個穩定的狀態,而不相 干的部份則會發散到一個混沌的狀況。 當然,上述的看法在目前只是一個猜想。但是,一些實驗證據顯 示了當猴子或貓在從事知覺活動時,它們大腦相關的細胞群之間確 實有相位鎖定(phase locking)的訊號存在。相位鎖定的訊號活動 可以被解釋為經由迴遞過程而收斂的穩定狀況。同時,關於兔子的 嗅覺神經系統的模型也顯示了,當外界的輸入訊號式微時,上述的 穩定訊號就會轉成混沌的訊號。這些實驗結果提供了一些相當有利 的證據,使得上述的理論有繼續被探討的價值。 我在這個短文裡簡單地介紹了這幾年我在中研院裡所從事的研究 工作。從這個研究裡,我最大的收獲是對文字辨認有了一些方法上 的突破,而且從這個領域裡觸發了我對神經系統與心靈運作的關心 。這使得我的研究工作變得格外有趣,也增加了我與其他研究領域 交流的機會。