數智化為語言研究提供新機遇
日期:2024-11-06 來源:中國社會科學網
中國社會科學網訊11月2日,語言資源與計算人文研討會暨語言資源與計算人文專委會第二次全體會議在京召開。來自語言學、計算機、統計學、自然語言處理等領域的多位專家學者參會,共同探討智能技術條件下的語言資源建設與規劃、基于語言資源的人文計算方法以及數智化賦能“絕學”冷門學科研究等問題。
在題為“語言智能與國家安全應用——輿情監測”的主旨報告中,中央民族大學信息工程學院教授趙小兵認為,輿情是指公眾對于某一事件、話題、人物或組織等的社會觀點、情感態度和行為傾向的總體表現。她從法律法規、傳播理論等角度,介紹了輿情分析的概念、作用及具體流程,比較了輿情分析不同模式的特點,提出在輿情監測中需要關注更廣泛的國際動態和媒體影響。
北京語言大學中國語言資源保護研究中心研究員王莉寧以“數字時代的語言資源保護開發”為題作報告。她認為,在信息時代,我們需要重新審視語言資源和語言數據的定義。語言不僅是交際工具,更是經濟、安全和戰略資源。因此,必須重視建立語言資源庫的重要性及其潛在應用。王莉寧分享了其研究團隊在中國語言資源知識圖譜、語言博物館等方面的探索,呼吁學術界加強交流與合作,共同推動語言資源的保護與發展。
中國人民大學統計與大數據研究院副教授代文林在其報告“一類適用于連續時間動態網絡的社區 Hawkes 模型”中,通過數據科學與不同學科的合作實例,展示了數據科學在社會學、健康政策、農業經濟等多個領域的應用潛力。他認為,數據處理、社會行為研究和網絡結構分析等為當前的人文社會科學開辟了重要方向,相關領域的交叉融合研究應得到更多重視。
北京大學人工智能研究院長聘副教授蘇祺在題為“文化遺產數字化整理與文化演化路徑探析”的報告中介紹了其研究團隊將自動化技術與人文學科相結合并對金石碑刻等文物開展研究的情況。該團隊利用多模態模型,結合視覺與文本信息進行古籍保護與修復,提高文字修復的準確率。她認為,語言是研究思想觀念和文化演變的重要工具,通過數字化手段和云智能技術建立語言與社會思想文化因素之間的多維度關聯,能夠為揭示語言背后的隱含信息提供有力支持。
科大訊飛有限責任公司研究員邵鵬飛作題為“大模型背景下的低資源語言數據處理探討”的報告。報告內容涵蓋大模型進展、語音識別大模型框架、自動標注的應用、低資源語言處理探討等,重點闡釋識別模型whisper在多種任務上的優勢,并探討了該模型的局限性。邵鵬飛認為,大模型技術在合成翻譯、識別任務上的應用價值,使民族語言和方言的標注與處理有了新思路。
內蒙古師范大學計算機科學技術學院研究員白雙成在其報告“清代蒙古文檔案史料文本化”中介紹了清代蒙古文檔案的識別與分析研究,特別是識別過程中面臨的特殊挑戰。他表示,該研究項目的最終目標是實現清代檔案的系統化和結構化處理,提升文獻研究的效率和準確性。
華中師范大學語言與語言教育研究中心副教授沈威的報告題目是“提升生成式大語言模型能力的若干方法”。他認為,生成式模型與人類學習有本質上的相似性,即通過學習來輸出知識,未來應更加關注如何通過優化提示詞、強化檢索策略、智能體設計來提升生成式大語言模型的應用效果和實用價值。
華中科技大學外國語學院教授唐旭日在題為“大規模漢語動詞搭配構式知識庫的自動獲取”的報告中,探討了動詞知識庫的研究進展,指出傳統的動詞知識庫在信息承載方面仍有不足,深度學習模型仍缺乏一定的可信度和可解讀性。他認為,搭配構式不僅是對現有知識庫的補充,也是探索語言文化特征的重要途徑,應重視其在動詞研究中的應用價值。
中國社會科學院民族學與人類學研究所民族語言文化行為實驗研究室主任龍從軍從民族文字促進數字化技術發展、提升民族文獻的保護利用、促進民族文獻資源共享、推動各民族共有精神家園構建、交叉學科研究新場域五個方面,討論了研究民族文字文獻的時代價值。他表示,加強民族語言資源建設,不僅能夠促進民族交往交流交融,而且能夠進一步發掘語言文字的多樣性,具有不可估量的價值。希望本次會議的召開,能夠推動民族語言文字文獻研究實現新發展。
會議由中國民族語言學會語言資源與計算人文專委會主辦,中國社會科學院民族學與人類學研究所民族語言文化行為實驗研究室和南京師范大學聯合承辦。
(中國社會科學院民族學與人類學研究所/供稿)