推動語言形式化分析 促進人工智能發展
日期:2021-03-23 來源:中國社會科學網-中國社會科學報
隨著麻省理工學院施瓦茨曼計算研究院(Schwarzman College of Computing)于2018年成立,人工智能凸顯的類腦智能化信息處理再度成為自然科學與人文社會科學深化應用類腦計算技術解決科學問題的積極推手。語言作為展現人腦心智運行的特有稟賦,與仿真人類心智能力的智能化計算技術具有天然的聯系。當前,國家提出“科技創新2030”的宏大計劃,將腦科學和類腦研究確定為重大科技創新項目之一。這無疑為語言、大腦與人工智能研究提供了新的互鑒契機。在此全域皆“計算”的新時期,如何借助人工智能研究的東風,剖析展示人腦心智能力的語言研究與人工智能的關系就成為非常重要的議題。
語言形式化研究助力提升人工智能算法
人工智能的核心要義即為使用計算機等機器設備,模擬在學習、問題求解等過程中人腦的認知功能。這一技術在視覺感知、語音識別此類低階認知操作中表現良好,但在高階自然語言理解分析中的表現卻不盡如人意。這就表明,在自然語言處理中,人工智能仍需繼續進化,從心智語言計算分析中借鑒相關操作,完善算法。
在此意義上,語言的形式化分析是推動人工智能進化的重要依據之一,并非人工智能算法終結語言研究的進程。這是因為人類是最為復雜精準的語言機器,圈定了評估與考察類腦人工智能系統水準的最高界限。在形式語言學(現稱生物語言學)研究范式下,人類語言作為最復雜的符號系統之一,具備獨特、復雜的計算屬性。為探索此類計算屬性,喬姆斯基規劃了數個研究問題:人類獨有心智語言系統依托什么規則進行計算?兒童(或成人)怎樣獲得心智語言系統?該系統怎樣在大腦與心智中體現?怎樣演化發展?怎樣使用心智語言實現思維與交際?就提升語言算法化分析而言,語言形式化研究將為語言推導計算依賴的遞歸操作及其計算屬性找尋合適的實現工具當作核心任務之一。不言而喻,真正達成這一目標不僅需要深入了解心智語言系統抽象運算背后的原理與機制,并建構各類假說進行論證,也需要以實際語言使用中的數據(如來自田野調查、實驗與語料庫)對各種假設進行對比驗證。在此過程中,之所以將語言形式化分析在人工智能發展中提升至如此重要的地位,是因為幾乎所有語言形式化轉換分析工具都是形式語言學家與計算領域專家并肩合作的結果。此類計算領域專家能夠自如地在語言語法與其他系統的計算屬性之間進行轉換翻譯。因此,致力于解釋人腦生成語言的形式化分析,自然對拓新人工智能算法具有積極的意義。也正是因為這一關聯性,語言的形式化分析與仿真語言習得、加工和產出人類語言的計算實現具有相互印證的關系。
在人工智能進化史上,任何僅強調計算算法本身而忽視借鑒人類生成或理解語言的理念,使得人工智能在自然語言處理尤其是語義分析上始終不盡如人意。可見,割裂人腦語言運算過程與機器算法之間的內在聯系,無益于提升機器學習或深度學習此類人工智能技術在自然語言理解中的表現,導致機器很難突破正確理解自然語言的瓶頸。當前,使用機器分析人類語言語音取得了一定的成績(如手機智能語音助手展現的人機互動),說明語言形式化分析技術與經驗,結合日益精進的人工智能建模技術,能夠推進自然語言理解算法化分析逐漸走向成熟。換言之,鑒于目前人工智能在句法結構、語義以及語用意義分析中并非盡善盡美,若要全面提升自然語言理解的準確度,就必須參考人類怎樣實現同類心智運算,這似乎才是建立理解性人工智能模型的正確路向。
從融合心智語言系統運算與人工智能算法的理論分析與實踐操作來看,體現人類心智語言基本屬性的計算—表征理論,仍應是這一互參過程中的主要理論支點之一。在此意義上,以拒絕(新)笛卡爾主義和反對計算主義為主旨的所謂“廣義涉身認知科學”推進人工智能的進化,是一種矯枉過正的做法。這是因為,拋棄基于語言表征符號的心智運算,徹底轉向語言本體表征之外的心理學、人類學等語言本體之外的因素,推進自然語言理解的算法化分析就缺少了實現計算分析的基本材料。這種舍本逐末的做法,必定將自然語言理解算法分析逼進無望的絕境。因此,優化人工智能算法的理想做法應該積極超越這一認識,既整合基于心智語言表征的形式化推導技術,也綜合外部心理、社會與物理因素,如此才能真正優化自然語言理解的機器算法,使自然語言理解的算法化分析有所突破。從這個角度來說,以形式化方法解析語言本質及其使用的生物語言學為互鑒對象,完善自然語言理解中的人工智能算法在理論與實踐上似乎更加可行。
人工智能算法反哺語言形式化理論的演進
事物之間關系的雙向性,迫使我們思考人工智能算法的魯棒性在多大程度上影響語言的形式化分析及其理論建構。在語言形式化理論與經驗分析中,某些計算上顯著但又懸而未決的復雜問題一直困擾著語言學家。例如,分別對句法學家、語義學家以及形式語用學家而言,語言的基本計算單位到底是什么,句法結構怎樣產生意義,以及句子意義通過怎樣的運算用于思維與交際。此外,對關注聲音輸出與感知的語音以及音系研究者來說(手語研究亦然),參與計算的基本單位和組合規則也一直是語言學家期待徹底厘清的問題。
毫無疑問,任何人工智能算法上的進展,必定有助于語言學家更加深刻了解人類語言的具體特性以及計算屬性的起源,從而構建更加可靠、統一的有關語言知識與計算推導的理論。例如,助推計算實現的算法手段,使語言結構與意義的自動化分析與基于數據/語料庫的歸納學習,在驗證語言形式化分析理論假說時顯現它們的價值;亦能夠在統計上協助對比語言計算理論與實際語言的匹配程度,助力修正語言形式化分析理論,使之更加合理。此外,通過計算模型仿真句法、語義系統與心智中其他系統(如社會認知)的互動,能夠準確預測語言知識的發展,或者說,推測語言經驗與社會認知等怎樣協助語言生長發育。
因此,就語言形式化分析對探索中的人工智能算法的期待而言,理解性人工智能算法模型更受青睞。這種“透明的”計算模型對實施任務過程中的知識以易于理解的分步方式進行表征,與人類語言形式化分析中的知識表征形式可以進行比較與互參。從這個角度來說,機器算法的知識表征方式可為語言學家完善刻畫人腦加工心智語言表征的方式提供有效反饋,用以肯定合理的理論,發現與修正不合理的理論建構。尤其是當算法模型發現描寫語言的獨特方式,或發現語言學家沒有注意到的語言事實之時,語言學研究更是受益匪淺。
總之,為反哺語言形式化分析或推進自然語言理解,人工智能研究者需要認真了解人類怎樣計算推導、學習與使用語言的方法與過程,亦即相關形式語言學理論。反之,從事語言形式化分析以及自然語言理解的研究者,也需要跳出自我圈定的范圍,吸收計算算法的簡潔性與準確性,走跨學科的發展之路,如此才能百舉百全。
(作者單位:蘇州大學外國語學院)