探求真理 發展學術 服務社會
        歡迎訪問深圳市社會科學網 今天是

        學術研究

        推動科學數據開放共享

         日期:2021-03-30   來源:中國社會科學網-中國社會科學報

          近年來,越來越多的科研機構、學術出版商、項目資助方呼吁或致力于開放科學、開放數據的相關實踐。在開放科學這場“運動”中,科學數據的地位開始悄然發生變化:其不再僅是學術論文的附屬物,而成為科研的基礎產出。特別是開放共享的科學數據,因具有獨立的身份識別、屬性描述、監護機制、溯源流程,通過信息網絡可發現、可獲取、可互操作和可重用(科學數據管理的FAIR原則),而成為保證科研結果可驗證、可分享、可重現的基礎支撐。 

          開放科學數據是科學研究內在要求 

          從資金來源上看,當前大部分科學研究是由公共資金資助的,研究所取得的成果也應免費向公眾開放。2018年3月,國務院辦公廳印發的《科學數據管理辦法》指出,“政府預算資金資助形成的科學數據應當按照開放為常態、不開放為例外的原則,由主管部門組織編制科學數據資源目錄,有關目錄和數據應及時接入國家數據共享交換平臺,面向社會和相關部門開放共享,暢通科學數據軍民共享渠道”。美國科學與技術政策辦公室(OSTP)也于2013年提出,由聯邦資金全部資助或部分資助的科研項目所產生的非保密的科學研究數據,應存儲并無償為公眾提供訪問權限。公共資金資助的科學數據實現開放獲取,不僅有利于資源共享,還有利于加強對科研成果的社會監督,遏制科學不端行為的發生。 

          不管是出于學術期刊投稿的要求,抑或是科研工作者的共享需求,科學數據的開放共享都需要以數據存儲庫為平臺,從而實現科學數據的有效管理、公開共享、規范引用和出版傳播。我國科學數據共享事業起步較晚,相關數據開放工作受制于國外學術期刊的要求,數據的存儲和開放也更加依賴國外的數據存儲庫。為完善科技資源共享服務體系,推動科技資源向社會開放共享,我國于2019年成立了20個國家級科學數據中心,助力推進相關領域科學數據向國家平臺匯聚,完善科學數據存儲、管理和安全所需基礎設施。此外,也有“科學數據銀行”(Science Data Bank)這樣的公共數據存儲共享平臺,提供數據在線存儲、長期保存與獲取、共享、出版和引用服務。 

          開放數據推動可重復的科學研究 

          科學數據的開放共享可供其他研究人員引用或重現實驗,有助于避免不必要的重復實驗操作,縮短研究周期,加快整個領域的研究進程。信息科學領域的數據具有良好的科學數據開放共享基礎,各類算法競賽提供了基準數據集,如視覺識別挑戰大賽(ILVRC)的基準數據集ImageNet。2012年,AlexNet在該賽事中基于ImageNet獲得圖像分類和物體識別算法的優勝,錯誤率比第二名低了10.8個百分點,一戰成名,激起了更多使用卷積神經網絡和GPU來加速深度學習研究的出現。基準數據集的公開共享和應用,驅動相關領域研究取得重大進展和突破。 

          科學數據的開放共享還可以有效提升研究成果的學術影響力。比如,2016年,中國科學院空天信息創新研究院研究員邱玉寶等人發表的《青藏高原MODIS逐日無云積雪面積數據集》(DOI:10.11922/sciencedb.55)獲得了數千訪問量和多個平臺、國家級科學數據中心轉載,瀏覽量一直在科學數據銀行中名列前茅。相關數據也收到了大量海內外用戶的積極使用反饋,在學科領域被有效利用。 

          科學數據的開放共享也為公開、理性的學術交流提供了依據。比如,《社會學研究》2019年6期刊發《住房市場化與住房不平等——基于CHIP和CFPS數據的研究》一文,文章發表后有讀者對此文進行了復制性研究并公開提出一些疑問。隨后,原文作者吳開澤就數據處理、模型分析結果對讀者的疑問進行了重點回應。此類量化研究的重要特點在于可復制性。正因為爭議中的論文采用Chinese Household Income Project(CHIP)和中國家庭追蹤調查(CFPS)等公開數據,因此專業讀者可以重新復現該研究,從而進行開誠布公的學術交流,進一步提升研究的可信度。 

          科學數據開放共享舉措多樣 

          國際科學數據開放共享氛圍日益成熟。2015年,國際科學理事會(ICSU)、國際合作伙伴關系(IAP)、世界科學院(TWAS)和國際社會科學理事會(ISSC),在國際科學理事會發布了Open Data in a Big Data World協議(該協議認為“開放數據”將提高公共研究的效率、生產力和創造力),同時還公開支持科學論文的數據可以為科學的“自我糾正”提供基礎。“開放科學中心”(Center for Open Science)針對期刊出版發布《期刊透明性與開放性指南》,要求期刊在來源引用、數據、代碼、研究材料、研究設計與內容分析、研究預注冊和重復驗證等方面透明開放。Elsevier、Springer Nature、Taylor&Francis和Wiley等出版商也都制定了數據共享政策,鼓勵作者在論文中引用相關的科學數據,提供數據可用性聲明,并將數據存儲在合適的數據存儲庫中。 

          國內科學數據管理逐漸規范。在國家政策層面,2018年3月,國務院辦公廳發布的《科學數據管理辦法》提出,“主管部門和法人單位應積極推動科學數據出版和傳播工作,支持科研人員整理發表產權清晰、準確完整、共享價值高的科學數據”,并要求“科學數據使用者應遵守知識產權相關規定,在論文發表、專利申請、專著出版等工作中注明所使用和參考引用的科學數據”。在期刊方面,我國有《中國科學數據》和《全球變化數據學報》等數據期刊,另有部分傳統學術期刊專門設置了數據論文專欄。《中華外科雜志》于2017年發布《關于投稿人自愿提供稿件支持原始數據的通知》,明確稿件一經錄用,支撐數據將在文章發表的同時納入國家人口與健康科學數據共享平臺管理。 

          數據開放共享理念的實踐展開 

          科學數據開放共享模式可分為三類。1.與專業的科學數據存儲庫合作,開展科技論文與其支撐科學數據的關聯出版(附屬于出版物的數據發布)。2.獨立的數據出版即在數據存儲庫存儲發布(不依賴出版物的數據發布)。3.以數據論文形式發布(作為出版物本身的數據出版)。其中,第一種方式的開放共享流程較為靈活,可以以多種形式、在多個時間節點上嵌入配合論文的投稿、評審和出版流程。比如,可以在科技論文收稿階段提交數據集,科學數據隨科技論文一起參與整個論文評審流程;也可以在論文錄用階段提交科學數據,在科技論文出版前完成數據集的評審、加工整理和出版工作等。 

          科學數據與論文關聯共享的方式具有可獨立引用、獨立標識、獨立計量評價等諸多數據共享和數據重用上的優勢。此外,由專業的科學數據存儲庫負責數據的錄入、存儲及安全管理,可以使科學數據開放共享具有更好的持久性。 

          科學數據存儲庫在科學數據開放共享、幫助科研提升可重復性的過程中發揮著至關重要的作用。科學數據存儲庫使科學數據具備可發現性。比如,提供數據API、唯一標識符等服務;良好支持開放數據的重用,支持為開放共享的數據指定明確的數據使用許可協議(如CC許可協議),提供具有機器可讀性的元數據獲取服務,提供數據規范引用服務;支持開放共享數據的完整性和真實性;支持數據的更新操作及版本管理機制等。 

          如今,科學數據開放共享作為助力科學研究高度協作、開放獲取、數據共享、研究透明的重要途徑,正在幫助人們解決科研可重復性帶來的挑戰。我國在科學數據開放共享方面具有很大潛力,政府管理和科學研究領域都作出了不懈努力,并已取得一定成效。“數據開放共享”理念和實踐的發展進步,將為科學研究的可重復性描繪出美好藍圖。 

          (作者單位:中國科學院計算機網絡信息中心)