探求真理 發展學術 服務社會
        歡迎訪問深圳市社會科學網 今天是

        理論熱點

        基于大數據的區域國別研究創新

         日期:2024-10-31   來源:中國社會科學網

          大數據是互聯網技術發展的產物。大數據的特點通常被概括為“5V”,即體量大(Volume)、速度快(Velocity)、種類多(Variety)、價值高(Value)和有效性(Validity)。大數據兼顧了樣本數和維度數,是大樣本和多維度變量的結合。因此,對其使用和研究,需要采用新的方法,如社會網絡分析、數據可視化分析、空間數據分析等。這些方法不同于傳統的研究方法,將給區域國別研究帶來新的變化和發展。

          大數據的分類

          對世界范圍內不同國家和組織進行研究的資料,是一種海量的大數據。這些大數據大致可分為兩類。

          一類是靜態的數據(庫),傳統意義上的數據庫多可歸于此類。在學術研究進入計算機時代后,數據資料方面發生的首要變化是紙質資料的電子化,即通過掃描的方式將圖書、期刊等資料變成電子化資源,但這種圖片化的資料一般無法進行檢索。其次是紙質資料的數字化,即在掃描的基礎上,加入了文本識別,因而可以對資料的內容進行檢索,對數據資源的使用效率也會提高很多。將這些原始資料進行系統化、條理化整理后就形成了數據庫,目前市面上常見的商業數據庫和開源數據庫多是此類,可稱之為1.0版數據庫。

          就區域國別研究的主題而言,目前規模較大的靜態數據庫是社會科學文獻出版社開發的“國別區域與全球治理數據平臺”(CRGG),該平臺的原型是《列國志》系列叢書及在此基礎上開發的電子資源,圍繞國別、區域、國際組織等領域,全方位整合基礎信息、一手資料、科研成果。除了綜合性的數據庫資源,一些國內高校和科研機構也開發了專題性的數據庫,如復旦大學美國研究中心的“美國研究信息系統”(ASIS),該數據庫致力于建設一個美國研究的公共服務平臺,在為專業研究人員提供深度信息的同時,也成為普通民眾了解美國的一個窗口。

          外文的區域國別研究類數據庫,全球范圍內規模較大的有美國圣智(Cengage)旗下的參考文獻出版商Gale數據出版集團,它擁有數百個在線數據庫,其中與區域國別研究相關的有美國《國家地理》虛擬圖書館、史密森學會美國歷史原始資料庫等。外文專題數據庫較有代表性的美國東方觀察信息服務公司開發的《俄羅斯大全》,是迄今為止全球最大的收錄俄羅斯學術資源的數據庫。

          另一類新型大數據是動態的數據平臺,也可稱之為2.0版數據庫。它是在傳統靜態數據資料的基礎上,加上動態追蹤研究對象國和地區的網站、媒體、資訊、論壇等開源渠道數據,利用數據挖掘技術等手段,實時采集、定期采集、重點板塊高頻率采集等獲得的大數據。這些數據不僅可以實時更新,而且可以存儲下來,幫助研究者掌握研究對象國和地區的最新情況,而這正是區域國別研究的一個重要方面。

          目前較有代表性的是廣西大學中國—東盟信息港大數據研究院開發的“中國—東盟大數據”平臺,該平臺圍繞中國—東盟信息港建設目標,整合政府、高校、科研機構及企業等多方資源,充分利用云計算、物聯網、大數據等新一代信息技術,力圖全方位、多角度呈現東盟國家政治、經濟、軍事、教育、文化等方面的資訊,提供最新輿情追蹤,為用戶提供嚴謹、翔實的數據資料,為政府決策、企業投資提供高效的決策參考。

          此外,教育部下屬的多個區域國別研究備案中心也正在建設類似的區域國別研究數字化平臺,如蘭州大學的“文明互鑒與‘一帶一路’大數據平臺”、四川外國語大學的“區域國別研究數字化綜合平臺”等。這些新型區域國別研究大數據平臺的開發與利用,將會促進中國區域國別研究整體水平的提升。

          大數據的應用方式

          大數據的廣泛應用可以為高質量開展區域國別研究創造便利條件。由于大數據有著不同于傳統數據資料的特征,因此,對其應用和研究需要采用一些新的方法。

          一是社會網絡分析。區域國別研究的一個重要方面,是對各國重要政治人物的分析,而分析政治人物,考察其社會網絡則是一種重要途徑。社會網絡分析是一種研究人際關系和社會網絡的方法,主要通過數據可視化工具建立網絡圖來表示個體、組織和社會之間的聯系。進入網絡時代以后,社交媒體的用戶在應用程序上產生了巨量數據,包括用戶的地理位置、發布內容、時間等信息。這些數據可以用來分析特定地理位置或不同社交媒體平臺里特定的事件,展示用戶在社交媒體上的活動。透過社會網絡分析,可以揭示組織和個體之間的互動方式、信息傳播路徑和影響力等信息,從而更好地了解人與人之間的關系。這就為區域國別研究中的人物分析提供了重要渠道。

          二是文本數據分析。區域國別研究中還存在大量的文本材料。基于大數據的文本分析技術是一種對海量文本數據進行自動化挖掘和分析的技術。它通過數據統計分析軟件,采取數據搜集、分詞、數據清洗、特征提取以及建模和其他分析等步驟,對文本進行可視化(詞云分析)、情感分析、聚類分析、社會網絡分析等應用,以幫助研究者更好地理解文本數據和信息,從而加深對區域國別問題的認知。

          三是大數據可視化。區域國別研究會涉及海量的數據。大數據可視化是一種將大數據呈現為可視化形式的技術和方法。通過將大數據轉化為圖表、圖形、地圖等可視化元素,使得數據更加直觀、易于理解和分析,從而使得人們能夠更好地利用大數據為決策和判斷提供支持。

          在區域國別研究中,除了以上三種常見的大數據處理方法之外,還有地理信息系統、兵棋推演等大數據的應用方式,在專門領域也可以做出好的研究成果。

          大數據的使用案例

          大數據的出現和應用不僅促使區域國別研究的對象從國家和體系層次擴展至個體層次,還將研究的領域從宏觀擴展至微觀。在大數據時代,研究者不僅可以從靜態的數據庫中獲取區域國別研究的海量信息,而且可以利用各種大數據處理軟件工具,從網絡中快速挖掘可用于區域國別研究的個人數據,從而擴展研究的范圍和深度。

          案例一:海南大學“一帶一路”國際數據與輿論研究中心通過關注具有國際影響力人物的社交媒體賬號,運用機器學習模型分析其與關注者的發文情況,初步判斷兩者之間的相互影響狀況。

          案例二:北京大學可視化與可視分析實驗室通過可視化推文對相關國家領導人的個人行為進行分析。社交媒體作為一個分享、交流、傳播平臺,尤其是一些國家領導人,發文的數量非常可觀,從而形成一個可供觀察和研究的文本資料。通過挖掘這些文本,可以大致刻畫出用戶的行為特征。

          案例三:清華大學國際關系研究團隊使用“事件數據分析法”大數據來分析國家間關系。在區域國別研究中,兩個國家之間的雙邊關系是一個常見的研究主題。對于兩國雙邊關系的研究,過去通常采用歷史學、政治學的研究方法對雙邊關系作定性的描述,而大數據的出現則使雙邊關系的研究實現了由定性到定量的轉變。清華大學國際關系研究團隊對1950年以來,中國與美、日、俄、英、法、德、印等大國的外交事件進行編輯整理,將雙邊關系量化,編輯成數據庫,并借助可視化軟件,將兩國關系的變化轉化成坐標系中的圖形,從而幫助研究者更詳細地了解中外關系的變化,并對雙邊關系的未來發展做出更準確的預測。

          創新是區域國別研究不斷前進的動力。隨著大數據在區域國別研究中的日益推廣,各類數據庫的建設將不斷完善,大數據研究方法的重要地位也將愈加凸顯。

          (作者系四川外國語大學區域國別研究院執行院長、教授)