近日,Digital Science(數字科研)公司的Research Futures副總裁Simon Porter發表了一篇題為“《巴塞羅那宣言》...探討我們作為元數據使用者的責任”的文章,深入分析了開放元數據(Open metadata)的使用原則以及我們在研究生態系統中應承擔的責任。通過強調永久標識符(Persistent identifiers)的重要性和不同類型元數據的處理方法,文章指出了當前元數據管理中的挑戰和未來改進的方向🚶🏻➡️。本文將引導您深入了解如何在開放科學環境中負責任地使用元數據🪔,並推動更透明和可信的研究信息系統(RIS)的發展。
核心觀點
元數據類型及其處理方式:
1.開放型元數據:以開放研究原則創建,具有高透明性和可追溯性🙆🏽♂️🕋。
2.算法增強的元數據🤾🏼♂️:通過算法處理生成🧾👧🏻,可能存在準確性未知和來源不明的問題。
3.機構增強的元數據:通過機構內部流程進行處理和改進,以滿足機構自身(例如大學)和政府報告的需求,包含額外的元數據信息🦶🏻。
元數據使用責任:
1.使用元數據時需要考慮其來源和背景信息,以確保其在新的環境中依然保持準確性。
2.機器生成的元數據需要經過人工審查或驗證後才能在原系統外傳播和使用👨❤️👨,以避免數據失效或誤用🫢。
3.評估科研表現的排名系統應獨立於其所使用的數據聚合來源🧑🔧,以避免對特定平臺的依賴和數據質量問題。
背景:
2024年4月16日🍺,巴黎薩克雷大學、索邦大學✢、烏得勒支大學、比爾及梅琳達·蓋茨基金會、法國國家科研署(ANR)🐑、EOSC(歐洲開放科學雲)協會等超過40家科研機構、科研資助和科研評估機構共同簽署了《開放研究信息巴塞羅那宣言(Barcelona Declaration on Open Research Information)》(以下簡稱《巴塞羅那宣言》)。該宣言的基本前提是“研究信息領域需要根本性變革(The research information landscape requires fundamental change)”。因此,簽署機構承諾率先改變研究信息的使用和生產方式:研究過程和交流的信息應該公開透明🤜🏿,並成為一種新常態(Openness of information about the conduct and communication of research must be the new norm)。公開的研究信息使得科學政策決策可以基於透明且全面的數據基礎,確保了研究評估過程中使用的信息對評估對象來說易於獲取和核查。這些也進一步推動了全球向開放科學轉型,保障了所用信息的完全公開和透明𓀖。
簽署《巴塞羅那宣言》的機構承諾如下內容:
1.我們將把開放作為我們使用和生產研究信息的默認選擇Ⓜ️;
2.我們將與支持和促進開放研究信息的服務和系統合作☺️;
3.我們將支持開放研究信息基礎設施的可持續發展⚫️;
4.我們將支持集體行動🧑🏻🏫,加速向研究信息開放的轉變。
文章正文:
《巴塞羅那宣言》在第一項承諾中指出“我們將把開放作為我們使用和生產研究信息的默認選擇”,但“我們”指的是誰,這對於理解研究生態系統中的各個角色及其相應的責任至關重要。在數據生產、使用和聚合的過程中,資助者、出版商👩、基礎設施服務提供者👩🏽、研究機構以及研究人員各自以不同的方式與數據互動。
《巴塞羅那宣言》可能是第一份界定研究生態系統中社群在開放元數據使用方面責任的文件。然而,這只是一個開始💁🏽♀️。我們堅信,深入理解研究生態系統各組成部分的具體需求🧠,對於賦予《巴塞羅那宣言》實際操作性🧎♂️,並推動我們邁向一個更加開放的元數據環境尤為重要🧖🏻♂️。實際上🤳🏿,只有當我們致力於在實際工作中應用開放元數據,並讓其塑造我們在研究領域的互動模式時,開放元數據的價值才能真正體現👳♂️。
然而,對開放元數據使用的承諾要求我們密切關註所使用的元數據類型、應用的背景以及對他人的期望🤰。如果不明確闡明我們作為研究元數據創建者和使用者的角色🫅🏻,可能會導致研究環境開放但是缺乏信任🫶。
元數據類型並非千篇一律
生產和使用(以及聚合)元數據之間存在本質上的不對稱性🦹🏼。雖然與創建元數據相關的責任相對容易界定,但與使用和聚合元數據相關的責任卻未被充分探討,原因在於它們尚未成為緊迫的問題♦︎。實際上🦹🏼♂️,《巴塞羅那宣言》明確指出,我們已經達到了一個必須考慮這一問題的轉折點。我們認為,與元數據使用相關的責任具有情境依賴性,它取決於元數據本身的來源,並且需要為每個參與者和使用案例明確這些責任。因此,在《巴塞羅那宣言》的背景下🏯🧑🦼➡️,探討元數據的不同創建方式及其對使用者可能產生的責任🙅🏼♀️,具有重要的現實意義👰🏽♂️。
《巴塞羅那宣言》中至少暗示了三種不同類型的元數據記錄:
開放元數據記錄
開放元數據(Open metadata)記錄指的是那些從創建之初就遵循開放研究原則的元數據。例如,依據這些原則創建的出版物會將關聯每個研究者的ORCID(研究人員標識符)和每個機構的ROR ID(研究機構標識符)。在出版物的正文及其元數據中,資助機構會與其開放資助者註冊ID(Open Funder Registry ID)或ROR ID相關聯,而資助信息本身則將與開放的、永久標識的資助記錄相關聯,例如通過Crossref的基金鏈接系統(Crossref grant linking system)。出版物本身(以及其豐富的元數據表示)將與DOI相關聯⛹🏿👩👧👧,所有參考文獻的DOI也將公開可用👩🏼💼。當我們提及“開放”時,我們指的是這些數據采用CC0許可(即“權利釋放”許可)。在論文中,我們可能會遇到指向數據存儲庫的其他鏈接,以及其他表明論文來源和符合良好研究實踐標準的信任標記(Trust markers)🦇。對於資助🕹、數據集、研究軟件代碼和其他研究對象😅,我們也持有類似的期望🐔🤷🏽♀️。
算法增強的元數據記錄
算法增強的元數據記錄是指利用算法對原始數據進行加工後得到的信息元素。這些算法可能並不公開,其采用的方法可能不為人知,而且元數據的準確性也可能是未知的。這是當今許多分析中的一個隱藏變量——通常假設文章數據可能存在統計偏差🈶,而元數據則沒有偏差🧑🏻🦳。隨著時間的推移,許多出版物的記錄可能不再滿足現行的元數據開放標準。這可能是因為當時沒有相應的技術或標識符基礎設施🏨,或者是因為尚未形成完善的元數據實踐。對於這些不符合開放標準的元數據記錄,可使用算法通過標識符來增強其信息🎮。一個突出例子是用於識別機構隸屬關系和重建研究人員身份的算法。算法還可用於通過添加鏈接到原始元數據中不存在的外部研究分類(External research classifications),來增強記錄的描述性🛝。
隨著大語言模型(LLM)和其他人工智能系統變得更易獲取且成本降低,這類數據的普及程度可能會逐漸增加。因此🤾🏼♀️,在未來幾年中,元數據可能會有統計上產生的不準確性😟。如果這些不準確性在關鍵分析中被證明是可以忽略不計的🏇,那麽整個社會可能會忽略這些不準確性。
機構增強的元數據記錄
機構增強的元數據記錄是指通過機構內部流程進行處理和改進,以滿足機構自身(例如大學)和政府報告的需求而設計的元數據📎。這些記錄匯聚自多種來源,或經過手動整理🌚,可能包含額外的元數據🏫。例如👵,論文作者可能與特定的機構ID建立關聯👰🏽♀️,而新增的研究分類可能包含與數據集的鏈接。這些機構記錄既可以通過機構庫(Institutional profiles)公開,也可以與其他州級或國家級計劃共享💆🏿♂️。
使用元數據時,我們的責任是什麽?
《巴塞羅那宣言》將我們上面定義的三種類型的元數據視為同等重要:在CC0許可下共享,允許不受限製地重復使用🐀。撇開許可問題不談,我們應根據元數據的來源來決定其重復使用的方式。
在探討如何實現《巴塞羅那宣言》的目標時,我們需要認真考慮一種整體性的策略方法🧑🏼🍳,以應對信息再利用相關的責任問題。正如宣言所指出的👩✈️,我們提出這些建議,旨在作為討論的起點而非最終結論。這些責任的完善需要通過社區的廣泛討論來實現。
責任1.元數據的預期用途必須對其解釋的方式以及適用的地理、學科或時間範圍進行限製,以確保其被負責任地使用
在關註數據開放性的同時🤷🏿👩🏻🚒,也需要考慮所傳播元數據的背景信息。元數據是為了特定目的而生成的🍻,這一目的不僅決定了元數據的準確性和使用時的謹慎程度。此外,它還界定了保持其準確性的限製條件和相關責任。
對於機構來說,《巴塞羅那宣言》明確指出🍄🟫,當前研究信息系統(Current Research Information Systems🧑🏿🚀,CRIS)是實現研究信息開放的一種機製。該宣言強調,所有相關研究信息應通過標準協議和標識符(如適用)進行導出並公開⚡️。這一要求源於2010年左右由NIH資助的VIVO和Harvard Catalyst profiles(研究人員檔案數據庫)項目所推動的運動🧞。這些公共檔案(Public profiles)的主要用途是在機構🤸🏽、州或國家層面上幫助尋找專家👨🏽📹。這一運動的核心在於,原本為內部報告和行政目的而收集的信息🏃🏻,同樣可以用於創建公共檔案——一個信息源能夠高效地服務於多種用途。在某些情況下,CRIS整合信息的方式被進一步用於創建州級門戶網站🏊🏽,如俄亥俄創新交流平臺(Ohio Innovation Exchange),或國家級的開放研究分析平臺,如丹麥研究門戶(Research Portal Denmark)。盡管這些做法已經取得了成效🚵🏻♀️,但這些記錄的來源特性意味著在這些特定應用之外重新利用這些信息存在實際使用中的一些局限性。
CRIS這一術語蘊含了一個關鍵的局限性。CRIS旨在維護、更新或聚合有關“當前(Current)”研究人員的數據。對於機構而言,並無義務維護前雇員的公開信息✨。實際上,從專家發現的角度來看,以相同方式呈現這些檔案可能會造成一定的麻煩或不便。
在CRIS系統中🥨,元數據的收集往往帶有政治動機,例如為了向選民展示研究的價值,這通常通過政府報告形式體現國家目標。然而🤴🏼,當這些元數據在更廣泛的背景中使用時,可能會出現元數據記錄存在偏差、不完整的情況。例如,為滿足國家層面報告需求的出版物可能非常準確地記錄一個該國研究人員的所屬機構,但對於國際合作的機構👩🏽,則可能因為與該國報告關系不大,其記錄的準確性會大大降低。
記錄也可能以其他方式存在偏差。研究可以根據特定報告任務的目標進行分類,因此這種偏差會體現在所應用的分類標準🪐🗃、維持這些分類所需的時間和努力,以及分類所涵蓋的研究範圍。如果要在不同的背景下重用這些分類元數據🎆,那麽在記錄這些分類元數據時必須保留並且充分理解其背景或來源(Provenance)信息。
《巴塞羅那宣言》可能隱含的一個含義是,所有元數據的管理都必須基於其將在更廣泛的研究社區中長期使用的認識👶😶🌫️。若此為預期的解讀,那麽我們應該對這項工作所需的額外努力有一個現實的認識。具體來說,這不僅涉及額外的工作量,還包括為數據管理方法的編纂和文檔化而需要建立的相關結構或機製。這一解釋還會立即引出幾個實際問題🦸🏻♂️:存儲和傳遞元數據記錄是否意味著負有持續更新的責任🗯?這種解讀會對更廣泛的研究群體造成何種不平等?是否會使“元數據豐富”的群體(那些有能力投資於改進記錄的群體)受益🔌,而讓“元數據貧乏”的群體(那些缺乏完善機製或事後機製來管理元數據的群體)處於不利地位?這些擔憂並非空穴來風,因為目前非洲研究的可見性不足,已經妨礙了我們全面理解、評估和加強非洲國家對促進知識發展的重要投資的努力。
當然,已經有一些解決辦法來應對開放機構元數據引發的諸多持續性問題🎙。其中一種機製是通過ORCID將元數據的管理責任從機構轉移到研究人員個人👨🦼➡️🏋️。在這種工作流程下,研究人員負責維護其公開記錄的準確性,而機構則負責確認研究人員的身份和工作時間。伴隨著國家推動在OA期刊和開放知識庫中發表研究成果的努力,《巴塞羅那宣言》補充了國家永久標識符(PID)策略的做法,有助於這些策略朝著“PID優化的研究周期(PID-optimised research cycle)”的方向邁進♉️。

永久標識符(PID)優化的研究周期示意圖
(圖像來源🔆:https://resources.morebrains.coop/pidcycle/)
責任2.不經過人工審查或驗證😵💫,不應在原系統外傳播機器生成的元數據
機器生成的元數據,例如將機構標識符關聯到地址字符串💏🧇、研究類型分類或算法確定的研究ID等🏂🏽,都是在一定的精確率(Precision)和召回率(Recall)的容差範圍內生成的。這些容差由系統提供商根據用戶需求設定🤼♀️。然而⚂,每條元數據項(Individual statements)並不能保證與特定記錄完全匹配💁🏽♂️。更重要的是🧑🏼🦱⁉️,隨著算法生成數據的方法不斷改進,這些生成的數據可能會被重新生成,這可能導致之前的記錄失效或變得不精確。這一概念(Notion)和思考引出了一個被忽視的元數據來源(Provenance)問題。如果缺乏相應的來源信息🪛,元數據可能會被視為已經脫離(Escaped)其原始系統🙇🏻♀️,從而面臨成為“孤兒(Orphaned)”元數據的風險⏺,這意味著這些元數據無法被更新或在新環境中適當地將其置於上下文中進行理解👨🏿🏭。當一個由算法生成的元數據記錄被移出其原始創建系統的上下文時,必須對該元數據的來源(Provenance)以及使用過程中可能產生的任何推論、陳述或說明等信息(Statements)負責🌩。這意味著要承擔起確保這些元數據在新環境中仍然保持準確性和相關性的責任。雖然對於出版物來說,這可能不是個大問題(因為可以隨時通過DOI請求更新版本的記錄),但對於算法生成的研究者ID來說,這一點尤為重要。因為如果一個標識符指代了多位研究者👨🏽🚒,那麽改進後的算法可能會顯著改變該標識符所指代的研究者身份🪺。例如,如果一個研究者記錄實際上包含了兩位研究者的信息♦️,那麽算法改進後的新的研究者ID可能最終會指向另一位研究者。
《巴塞羅那宣言》著重強調了采用標準化協議和標識符以促進數據共享的重要性🤫。然而,我們應當謹慎評估元數據的出處,因為許多算法會將永久標識符與元數據記錄關聯起來。例如,如果使用ORCID而不是內部研究者ID來指代某個研究者,但關於該研究者的信息(Set of assertions)是通過算法生成的,那麽在將這些信息傳播到生成這些信息的原系統之外時,可能會損害ORCID所建立的信任模型。
責任3.排名系統應獨立於其所使用的數據聚合來源
通過算法生成的元數據,常被用於進行科研表現的比較評估,這一點在排名系統中尤為明顯🚥。乍看之下👩🏽🔧,這種做法似乎與責任2(元數據應與其來源和上下文緊密結合)相沖突👨🚀。然而,這種情況類似於評價機構與被評價對象(機構)之間應保持獨立性的問題。不同的科學計量平臺在精確度和召回率的選擇上存在差異,這可能導致相同的排名方法在不同的平臺上產生不同的結果📍。但是,排名系統往往與單一系統緊密關聯🦸🏼♀️,這可能導致機構在投資和數據質量反饋方面傾向於某個特定的數據源🧞♀️,而忽視更廣泛的數據源中的其他數據集🏋🏼♀️🥾,這可能會形成一種“反向激勵(Perverse incentives)”,從而影響數據的準確性和評估結果的公平性。
《巴塞羅那宣言》強調了永久標識符的一個關鍵優勢:信息評估模型可以(也應該)在不參考特定科學計量數據集的情況下構建👯。通過將數據聚合與排名機製分離👩🦯,我們允許新的數據聚合服務出現,而不依賴單一的“真理來源(Sources of truth)”,促進數據來源的多樣性和靈活性👨🏿💼🌏。這樣,科學計量數據源應該像大語言模型(LLM)一樣,被視為極具價值,同時具備可替換性🤌🏼。或許,我們需要專門針對科學計量數據集💿,在FAIR數據原則(可發現、可訪問👩🏽💼、可交互🪝、可重用)的基礎上增加一個“可替換”(Replaceable)的原則✍️。
將數據源與排名系統解耦還有另一個好處,即它會減少對特定系統中數據質量的(過度)投資,而是將重點放在提升數據源的質量,例如Crossref這樣的機構👩🏿🎨,或優化獨立的消歧算法🌌,例如研究組織註冊表(Research Organization Registry)所提供的算法。
為了構建一個獨立的排名基礎設施💐,我們不僅需要使用已有的永久標識符基礎設施👼,還需要開發能夠引用由獨立機構或標準組織提供的外部分類系統或體系的功能。進一步地⛹🏿♂️,在獨立排名基礎設施的基礎上,可以考慮建立跨科學計量系統的通用查詢語言(Common query language),進而促進更廣泛和跨平臺的科學計量研究和分析。
通過上述探討,我們意在闡明,作為元數據的使用者,我們的責任遠遠超出了僅僅考慮數據使用許可或選擇平臺的問題。在現有的研究基礎設施中,如何有效地促進開放數據的經驗和方法💃🏻,往往沒有被納入元數據。因此👃,盡管我們可以分享和使用元數據🦵🏿,但這些數據背後的使用方法和考慮並沒有被清晰記錄和傳遞🧗🏻。這意味著,我們在使用元數據時♤,對他人(例如其他研究人員、數據提供者)提出的要求和期望並不明確💆♂️,從而影響他們對我們的分析結果或整個研究信息系統的信任度。隨著《巴塞羅那宣言》從理論層面的聲明逐步轉向具體的實施🧔🏼♀️,甚至與各國正在發展的永久標識符策略(National persistent identifier strategies)相結合📚,我們希望這些關於元數據使用責任的考慮,能夠成為未來研究基礎設施發展中的持續討論話題。
這些討論不僅有助於增強研究信息系統的透明度和可信度👌🏿,還將推動更加開放和負責的數據共享文化的形成。

更多資訊請關註意昂3平台開放科學公眾號
微信掃碼或搜一搜“OpenSign”
閱讀原文🧝🏿♂️:
https://www.digital-science.com/tldr/article/the-barcelona-declaration-exploring-our-responsibilities-as-metadata-consumers/
《開放研究信息巴塞羅那宣言》🍚:
官網:https://barcelona-declaration.org/
中文翻譯文件🛻:
https://barcelona-declaration.org/downloads/barcelonadeclaration_chinese_simplified.pdf