探求真理 發展學術 服務社會
        歡迎訪問深圳市社會科學網 今天是

        學術研究

        輿情大數據的社會科學應用

         日期:2021-04-28   來源:中國社會科學網-中國社會科學報

          在計算社會科學的發展進程中,多種形態的大數據類型不斷涌現,比如書籍文本大數據Google Books、網絡百科大數據Wikipedia等。在眾多的大數據類型當中,以Twitter、Facebook以及在線新聞輿情信息匯聚成的輿情大數據,構成計算社會科學的重要觀測對象。本文試圖就輿情大數據的主要特征及其在社會科學領域的應用場景做簡要分析。

          輿情大數據第一個重要特征是其話語屬性。文本的內容表達了各種各樣的觀點、態度和立場,這些歸結到一點,實際上就是話語,即各種各樣的社會主體,基于其立場,表達各種各樣的意見和看法。因此,話語分析應該是輿情大數據分析的第一層重要含義,借助于輿情大數據的高維屬性,對文本進行話語分析,呈現話語背后的立場與觀點、不同話語主體之間的交鋒與博弈、不同話語的聲量大小與社會影響等等。

          在中國崛起的時代,可以分析西方政治話語與中國話語之間的博弈,還可以分析西方話語的建構邏輯,以及如何尋找西方話語的破解之道。對于中國話語,我們則可以分析中國話語的國際影響力,以及如何進一步講好中國故事、建構中國話語。

          話語分析的方法多種多樣。從簡單的主題分析、語義分析到詞叢與搭配分析等,借助于這些技術,我們可以對文本表達做一些初步的分析;而借助于向量空間模型,比如說借助于詞向量模型,可以對話語中的關鍵特征所嵌入的語境深入挖掘;借助于句向量空間模型,則可以對話語的類型進行分類,呈現話語的結構。

          輿情大數據的第二個重要特征是其情感屬性。輿情者,情緒也。輿情信息中,總是會充斥著豐富的情感表達,這是由輿情信息的屬性所決定的。一方面,就新聞輿情而言,輿情需要與受眾 “同呼吸、共命運”。輿情數據的一個重要特征就是共情,只有這樣,輿情信息所表達的喜怒哀樂,才能與大眾的喜怒哀樂保持共振,輿情才能夠影響社會,才能夠吸引觀眾。因此,在線新聞輿情信息的一個重要特征就是其情感屬性。另一方面,就社交媒體信息而言,社交媒體的主體部分是大眾直接在社交媒體上表達所思所想、生存狀態與生存方式,在這些自我表達中,也往往是有感而發,分享的是或喜悅、或憂傷、或震驚、或憤怒的情感。

          正是因為無論是新聞媒體信息,還是社交媒體信息,都富含情緒表達,因此對輿情大數據進行情感計算,就成為一項非常重要的任務。這些年來,自然語言處理領域的情感計算技術飛速發展。從最初借助于LIWC、WordNet等情感詞庫開展情感詞頻統計,到現在基于機器學習和BERT模型等開展情感的精細描述,多種多樣的情感分析技術在飛速發展。就情感計算的內容而言,從最初計算正向和負向情感這樣的初級分類,到現在可以計算喜、怒、哀、樂、愛、懼、憎等基本情緒。隨著情感計算技術的進一步發展,未來進一步計算更加具體的情緒,比如羨慕、嫉妒、恨等都是大有可為的。正如李飛飛所言,人工智能的發展,在經歷了“視覺計算”之后,下一個發展的重點就是情感計算。對海量的非結構化文本信息和圖像進行情感計算,正是自然語言處理領域飛速發展的重要方向,而這為與情感計算相關的科學研究提供了堅實的技術支撐。

          輿情大數據第三個重要特征是其傳播屬性。輿情大數據的受眾和生產主體都是大眾,信息、話語或者情緒的傳播,構成輿情的一個重要景觀,而某種話語或者觀點在網絡空間或者社交媒體空間能否傳播開來,很大程度上取決于其傳播屬性。社交媒體平臺上涉及非常豐富的傳播現象,傳播的要素不僅僅包括話語,還包括情緒的傳播與擴散,比如疫情期間的恐慌情緒傳播。縱觀這些形形色色的傳播現象,我們可以發現,絕大多數傳播信息最終是在浩瀚的信息海洋中歸于寂滅,但也有一些有傳播生命力的傳播要素最終擴散開來,形成滔天巨浪。這里的關鍵問題在于,決定一些傳播要素的傳播力、傳播景觀的因素究竟是什么?比如說民粹主義思潮,為什么這些話語一時席卷全球的網絡空間,構成了改寫歷史的重大社會思潮?再比如,有哪些力量在操縱著網絡空間的信息傳播?資本、政府、社會組織等利益主體在其中扮演著怎樣的角色?

          分析輿情傳播特征的方法也多種多樣。既可以從經典傳播學的5W模型出發,描述信息傳播過程與傳播效果,也可以從網絡分析和復雜網絡分析的方法出發,分析社會網絡和社會結構如何塑造信息傳播的景觀。

          輿情大數據第四個重要特征是其社會屬性。輿情大數據包含社會生活中各種各樣的利益主體,涵蓋社會系統中各個階層,新聞輿情大數據描述和記錄了社會生活中各個階層和群體的生活方式與生存狀態,而社交媒體大數據的參與主體也是各種各樣。正是因為輿情大數據涵蓋社會各階層,包含多種事件,空間范圍涵蓋五湖四海。基于此,我們可以分析不同社會階層與群體的生活方式與生存狀態,可以運用階層分析、利益主體分析、群體比較分析等多種傳統社會科學的研究方法,分析不同群體的政治社會態度,分析社會各階層之間的互動與博弈,分析國家與社會的關系模式,總結歸納社會運行邏輯和社會結構邏輯。

          輿情大數據的第五個重要特征是其全球屬性。網絡無國界,輿情信息在全球層面越來越形成相互連通的局面,也有越來越多的社交媒體平臺橫跨全球多個國家,地球上某個地方發生的輿情事件極有可能波及遙遠國度;同時,越來越多的輿情大數據,比如全球在線新聞輿情大數據GDELT,匯聚了世界所有國家的輿情信息。

          在這樣的背景下,越來越多的輿情大數據具有全球性特征,為社會科學開展“環球航行”提供了觀測數據的平臺。正是因為這樣,社會科學第一次可以借助于這些具有全球特征的數據庫,對世界上多個國家開展比較研究,或者開展全球尺度的分析與研究,比如說Golder等人試圖借助于Twitter的平臺,分析歐洲、北美、非洲和大洋洲等多個地區人類情緒演變晝夜節律的全球普遍性。筆者認為,值得進一步深入分析的方向是,也可以從全球層面,分析不同文化背景下不同民族的生存方式與生活狀態,分析地球不同角落大眾的價值觀和文化觀念,開展大規模的跨文化比較研究。

          在輿情大數據監測全球的大背景下,社會科學研究可以利用這些全球性的實證數據,對世界多個國家與社會開展實證分析,克服過去社會科學研究的“地方性知識”的局限,開展真正具有全球比較意義的實證分析。因此,將全球視野納入社會科學的實證分析中來,通過對比多個社會系統的演變特征,或者將世界不同社會納入同樣的分析體系,或許能夠為未來的社會科學研究拓展研究視野和開辟新的研究領域提供重要支撐。

          (本文系教育部人文社會科學研究一般項目“基于大數據的西方主要社會思潮發展動態及其有效引導研究”(18YJC710016)階段性成果) 

          (作者單位:武漢大學社會學院)