【專欄】淺談人工智慧於財務文字資料分析之應用

近年來，由於財務相關資料的大量累積，如何有效率地從中發現有用的訊息並用以進行更精準且有效的財務決策，遂成為一個重要的研究及實務上的議題。這些訊息不僅可協助相關從業人員（如：會計師、市場分析師）掌握投資機會、最大程度地降低風險或控制成本，更可以運用至各種不同的金融場景。

由於資料分析技術的盛行，近年來，在金融和計算機科學領域進行了許多有關財務資料分析及預測的研究。一般來說，我們可將資訊分為硬訊息（hard information）及軟訊息（soft information）兩大類，前者通常指的是數字，如：股票歷史價格；後者通常指文字訊息，如：新聞及財務報告之文字資訊、市場評論等。

不論在學術界或是產業界，以往大部分的研究或應用皆針對硬訊息進行模型建立或分析。然而，由於近年來資料分析領域的蓬勃發展與資料的大量累積，一些學者和金融相關產業開始利用文字探勘、自然語言處理、機器學習模型等相關技術針對「軟訊息（文字資料）」進行分析及預測模型之建立。舉例來說，於2009年的一篇研究利用財務報告中的文字訊息，針對財務中常用的風險指標「股票報酬波動度」（stock return volatility）進行預測 [1]。其中，股票報酬波動度定義為一段時間每日股票報酬率的標準差，舉例來說：若今天 A 公司股價上漲 70%，隔天突然又跌 50% ，這個報酬波動太大，普遍會被認定為財務高風險的公司。反之，如果公司股價穩定維持高價或低價，就會被視為財務低風險的公司；而在文字訊息方面，其則使用詞袋模型來表示一篇財務報告中的文字訊息，在此種模型中，每篇財務報告皆被表示為一個十分稀疏的高維度向量，每一個維度中的數值為一種字詞的特徵，其可為該字詞在此篇文章中是否出現（0或1）、出現的次數（詞頻）或詞頻與逆向文件頻率的乘積（term frequency–inverse document frequency，tfi-df）等不同形式。此項研究工作的實驗結果顯示：1）僅使用文字訊息來預測波動率的模型在某些年份中非常接近運用歷史股票報酬波動度做為特徵之模型；2）結合歷史股票報酬波動度及文字資訊可獲致具有更精準預測性能之模型；3）訓練資料對於時間因素是敏感的，在某些情況下使用更多的歷史財報增加訓練資料，並不一定能有更好的模型效能。

本實驗室從2013年即開始進行多項財務文字分析之相關研究工作，主要皆運用「10-K 財務年報的第七章」，也就是陳述企業管理和未來方向的章節文字，針對該企業未來的「股票報酬波動」進行預測並分析財務報表詞彙與風險的相關性。我們所開發的機器學習模型，訓練資料包含 1996-2013 年期間美國企業的財務年報（10-K），篇數超過四萬篇、字彙量數超過十萬字。在我們的多項研究工作當中，其中一篇2017年的論文中引入機器學習中的學習排序（learning to rank）技術進行財務報告之文字分析，我們認為直接利用單純文字資訊對實數值（如：股票報酬波動度）進行迴歸預測，可能會因為文字訊息與數值資訊之本質差異太大，造成不易找出財務風險與字詞之間的關係。有鑑於此，我們將預測問題簡化，透過根據公司之未來超額報酬對其進行風險等級分類，並利用排序模型找出公司未來風險等級及對應財務報告文字內容之關聯性。由實驗結果指出，採用排序模型來分析財務風險和文本訊息之間的關係可能比使用迴歸模型更為合理，並更容易找出與風險高度相關的字詞。圖一顯示由排序模型找出與風險高度相關的字詞，舉例來說， sureti 擔保、delist 赤字、forbear 隱忍，這些字與財務風險高度相關。而 amend 這個字是「改變」的意思，一般用在企業通過法律程序的某種修改行為，若在財報中高頻率出現，也能聯想到公司經營管理常常改變所帶來的風險。

圖一：圖中圓圈越大，代表該單字與財務風險越具正相關性 [2]。(單圓框為只透過財報中六大情緒詞分析的結果，雙圓框為運用財報所有單字分析的結果)

由圖一中，大家可能會有以下得疑問，為什麼使用所有單詞進行分析時， nasdaq 跟財務風險竟然也有這麼大的關係？為了找出答案，我們亦開發 FIN10K: Financial Reports Analysis 平臺[3]，用以查找財報原始資料、分析上下文，發現財報中 nasdaq 常被隨著 delisting 出現，delisting 為「除名」，兩個字組合一起在金融界為「下市」的意思，也就可以理解當 nasdaq 這個字出現，會跟財務風險高度相關。

圖二：出現 Nasdaq 單字的企業財報，多為高風險等級 (RR5 或 RR4，後方括號內的百分比數值為股票報酬波動)。找找看， Nasdaq 常伴隨著 delisting 出現 [3]。

以上所提及之研究工作主要是針對單詞層次進行分析，然而，若要進行更精準的語言理解，光靠單詞層次的分析是不足的，以下列從財報中抽取出的一句話為例：「A technological breakthrough or marketing or promotional success by one of our competitors could adversely affect our competitive position.」其中，breakthrough和success為正向單詞，而adversely為負向單詞，如果單純以單詞頻率計算，此句話可能會被演算法視為一個具有正向意涵的句子，但就文意而言，此句話應為具負向意涵之句子。上述例子顯示，文本理解中一個重要的挑戰──即文本中包含的語義絕非多個單詞含義的簡單組合，在某些情況下，常用的關鍵字比對技術或單詞層次的分析通常是不足甚或不可行的。有鑑於此，我們認為後續如需進一步針對財務文字資訊進行更細緻的分析或語義理解，引入超越單詞層次的方法（如：多字詞表示式層次（multi-word expression level）、句子層次（sentence level）抑或段落層次（paragraph level））是十分重要且不可或缺的。針對此部分，諸多新穎的深度學習模型在近年來在自然語言處理上有快速的進展，並已在多項自然語言處理任務上達到令人相當驚豔的效能。因此，我們實驗室也在近兩三年進行多項超越單詞層次的研究，其中包含多字詞表示式之偵測演算法[4]、句子層級之風險預測[5]等。

以上文章內容均在討論不同文字分析或自然語言處理技術對於財務非結構化文字分析的做法，但從另一個面向而言，財務文字分析中的一些特性本身即對於自然語言處理研究具有相當的吸引力。首先，在財務文字分析中預測目標的實用性或存在性（以上述財務風險預測工作為例，即為股票報酬波動度）大多是沒有爭議性的，而在許多自然語言處理的工作中，評估困難和註釋者（annotator）之間的分歧通常是個亟待解決的問題；但如股票報酬波動度這樣的預測目標則是總結有關現實世界事實（股票價格）的一個統計量，不受人類專業、知識或直覺的主觀影響。因此，這樣的預測任務可為任何類型的語言分析提供一個嶄新的、客觀的測試平台；其次，這樣的預測目標亦解決了標註資料的問題，許多自然語言工作依舊仰賴昂貴的標記資料資源（如：對齊的雙語語料庫），而上述的財務報告對於風險預測的工作，其使用的文本和歷史財務數據皆為免費的（依法提供），且是美國經濟的副產品，所以任何人皆能以相對較少的費用獲得大量的數據。是以，這樣的財務文字分析對於測試自然語言模型語義理解之能力是一個十分優良的平臺。

與許多跨領域研究相同，財務文字分析涉及財務與機器學習、自然語言處理之知識、技術的整合。如何透過財務領域專家與資訊科學家充分的討論與合作，找出重要的財務研究議題，並利用或開發相對應之機器學習與自然語言處理演算法，乃此類型研究之重要課題。此外，不同於傳統財務研究多使用硬訊息（數字訊息），目前研究和應用軟訊息於財務上仍相對較少，若能配合近年來自然語言模型在語義理解上的快速發展，更有效地利用並整合不同來源之文字資訊，對金融市場及財會相關研究應能有突破性的發展。

[1] Kogan, S., Levin, D., Routledge, B. R., Sagi, J. S., & Smith, N. A. (2009). Predicting risk from financial reports with regression. In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics (pp. 272-280).

[2] Tsai, M. F., & Wang, C. J. (2017). On the risk prediction and analysis of soft information in finance reports. European Journal of Operational Research, 257(1), 243-250.

[3] Liu, Y. W., Liu, L. C., Wang, C. J., & Tsai, M. F. (2016). Fin10K: A web-based information system for financial report analysis and visualization. In Proceedings of the 25th ACM International on Conference on Information and Knowledge Management (pp. 2441-2444).

[4] Du, C. H., Tsai, M. F., & Wang, C. J. (2019). Beyond Word-level to Sentence-level Sentiment Analysis for Financial Reports. In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1562-1566).

[5] Lin, S. C., Su, W. Y., Chien, P. C., Tsai, M. F., & Wang, C. J. (2020, May). Self-Attentive Sentimental Sentence Embedding for Sentiment Analysis. In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1678-1682).

（資訊科技創新中心）