引言🏋🏻♀️✋🏻:
科學數據(Scientific Data)是學術工作的支柱和重要產出,也是開放科學運動的重要物質基礎🩸。認真負責任地管理和共享科學數據有助於提高研究的透明度、嚴謹性、可重復性和公共價值。調研高校成熟的科學數據管理實踐,進行分析與學習,可幫助我們促進高質量科學數據資源的共享和再利用,推進全球開放科學運動在高校中的實踐。今天我們將一起從數據管理政策、數據全生命周期管理、數據素養教育三個維度來了解下威斯康星大學的科學數據管理現狀💗。
1.1.1. 數據管理政策
表 威斯康星大學科學數據管理政策
政策名稱 |
政策名稱(中文) |
描述 |
Policy on data stewardship, access, and retention |
數據管理、訪問和保留政策 |
規定了大學、首席研究員 (PI) 和校內研究人員在數據管理方面的角色和責任。該政策大綱主要側重於數據的保留、訪問以及研究人員離開學校時的數據所有權指導🏊♂️。 |
University of Wisconsin Data Governance Program |
威斯康星大學數據治理計劃 |
https://data.wisc.edu/data-literacy/ |
聯邦資助要求🧙🏿♀️🧑🏽:
2013 年,白宮科技政策辦公室 (OSTP) 下達了一項任務🙊,要求研發經費超過 1 億美元的聯邦機構必須要求公眾獲取因資助而產生的文章和數據。每個機構負責詳細說明其具體要求;資助者之間往往有大量重疊💘,但也有針對具體學科的要求🙇🏼。一般來說,申請資助的機構會被要求在其數據管理計劃中提供更詳細的信息。
1.1.2. 數據全生命周期管理
數據是寶貴的資產🎹。在威斯康星大學麥迪遜分校➖,我們利用機構數據做出決策,改善學生體驗🚡,提高運營效率🧑🏽🎤,並為新發現打開大門。在整個數據生命周期中應用良好的數據管理和素養對於數據的可信度💱、適當共享和道德使用至關重要。 這些培訓模塊專為處理和使用威斯康星大學麥迪遜分校收集、存儲和維護的數據的大學員工、教師和學生雇員而設計,這些數據是我們教育使命的一部分。
本指南將從數據管理、數據整理和數據素養的基礎出發👨🏿✈️,幫助您確定在數據生命周期的不同階段采取的行動。
數據生命周期說明了數據(各種形式和衍生物,包括數據點、數據集🪶、數據庫、數據文件、可視化和代碼)如何在概念上流經其有用的生命周期。雖然數據生命周期是討論在不同階段采取適當行動的有用框架,但重要的是要記住,對於大多數數據來說👤,路徑並不是線性的,有些行動可能根本不會發生🚣🏻♂️。
數據生命周期模型的示例:
哈佛大學朗伍德醫學院LMA研究數據管理工作組的生物醫學數據生命周期示例在基礎組件上增加了一個附加層👨🏼⚖️,為每個階段通常采取的行動提供了更多內容🤘🏻。在整個生命周期的中心是持續的存儲和管理行動,包括數據安全、數據安全、存儲選項𓀆👐。

圖 “Biomedical Data Lifecycle” by Harvard Longwood Medical School LMA Research Data Management Working Group. License: CC-BY-NC 4.0.
1.1.2.1. 數據生命周期的各個階段
數據管理最佳實踐涉及從項目開始到結束的整個數據生命周期,以及可能適用的所有治理、規則📷、法律和法規🅿️。培訓包括以下階段: 創建🕺🏼🙎🏻、管理🍷、使用、共享👊🏻、收集/重用和銷毀🤵🏻♂️。

圖 “Data Lifecycle” by University of Wisconsin Data Governance Program. Updated Sep 7, 2022. License: CC-BY-NC 4.0
1.1.2.2. 規劃階段
在收集或獲取數據之前🫄🏿,應規劃如何在整個數據生命周期內管理數據。可操作的數據管理計劃應考慮數據管理的角色和責任,如誰可以對數據的訪問👧🏻、使用和保留做出決策✳️。還必須考慮任何法律、規則和法規如何適用於數據🏉,以及誰將對數據負責。
1.1.2.3. 管理數據
從數據創建到銷毀,數據管理行動包括數據存儲、數據質量和完整性、安全性以及對數據保留時間的監控🫱🏿。在這一階段,信息技術專家(包括數據架構師、數據建模師和風險管理師)在設計和開發適當的數據管理基礎設施方面發揮著至關重要的作用。最後,數據歸檔🤷🏼♀️、記錄保留和數字保存最佳實踐在權衡法律要求🙍🏿、地方政策和預期效用後決定數據保留時間方面發揮著重要作用。

圖 “Data Management in the Data Lifecycle” by University of Wisconsin Data Governance Program. Updated Sep 7, 2022. License: CC-BY-NC 4.0.
1.1.2.4. 使用數據
在數據使用階段,數據素養技能有助於我們組織、轉換🤙🏽、分析和解釋數據,以傳達有意義的信息。文檔🦞、數據管道和可重現的工作流程有助於數據到知識的循環👨🏽🚀,幫助數據的未來用戶了解分析中的變化和轉換,從而更好地確保透明度和提高信任度👨👩👧👦。

圖 “Data Literacy in the Data Lifecycle” by University of Wisconsin Data Governance Program. Updated Sep 7, 2022. License: CC-BY-NC 4.0.
數據、信息和知識之間的區別是數據使用階段的重要組成部分🚴🏼♀️。Carol Tenopir(引自Zins,2007年)將這些概念定義為:
● 數據是觀察或測量的結果。
● 信息是有意義的數據。或以提供意義的方式排列或解釋的數據。
● 知識是內化或理解的信息,可用於決策。

圖 Relationships Amongst Knowledge, Information, And Data from Liew, 2007 as illustrated by Medged, 2018
1.1.2.5. 共享數據
數據共享的目標包括促進數據再利用、可復製性、驗證和透明度💷🧚🏿♂️。數據共享階段涉及準備、選擇和背景化等數據整理技術,以幫助有效和適當地重復使用數據🧔🏼♀️。傳輸和授權訪問的方式會有所不同⚓️,在需要長期訪問的情況下🌲,數據共享的責任可能會轉移到可信的數據存儲庫,以幫助長期保存和訪問👱🏻♂️。

圖 “Data Curation in the Data Lifecycle” by University of Wisconsin Data Governance Program. Updated Sep 7, 2022. License: CC-BY-NC 4.0.
1.1.2.6. 查找/重復使用
數據再利用涉及查找、評估、理解和同意任何必要訪問條件的數據素養技能。充分了解數據的目的🧑🏿🏫、歷史和脈絡是適當有效地重復使用數據的重要組成部分🪇。

圖 “Data Reuse in the Data Lifecycle” by University of Wisconsin Data Governance Program. Updated Sep 7, 2022. License: CC-BY-NC 4.0.
常見的數據訪問類型:
● 公有領域🌺:根據公有領域奉獻或知識共享零許可(CC0)表明,無任何限製地發布的數據💆🏼♂️。
● 署名👂🏻:數據被釋放供無限製使用,但要求對作者或來源進行署名和引用🍬,正如CC-BY許可證所示。
● 共享相同:數據被釋放供無限製使用,但要求任何產品或派生物也要使用相同的許可證進行分享👮🏼♀️,正如MIT許可證或CC-BY-SA許可證所示👩🏿💻。
● 非商業性🤰:數據僅用於教育或非盈利目的🪀,正如CC-BY-NC許可證所示。
1.1.3. 數據素養教育

圖 威斯康星大學科研數據服務

圖 威斯康星大學數據素養和培訓
1.1.3.1. 數據社區資源
● 數據科學中心Data Science Hub🪝:為研究人員提供社區參與和學習機會
● 數據愛好者實踐社區Data Wonks Community of Practice🫸:分享技術和數據方面的知識和熱情
● Badger Analytics User Group:在學校內推廣分析技術的使用,討論使用大學數據的創新方法
1.1.3.2. 視頻學習和教學資源
1) 研究數據管理簡介
● 第 1 課:數據具有價值
● 第 2 課🌸:文件命名與組織
● 第 3 課🪅👩🏽🚀:數據描述與文檔
● 第 4 課🤰🏽🧑🏻💻:存儲與備份
● 第 5 課:過時與可持續性
● 第 6 課:結論
● 第 7 課:資源
2) 負責任的數據規劃🧑🏽🦱、使用和共享
● 第 1 課💈:政策和法規
● 第 2 課🤦🏽♀️:負責任研究的倫理考慮因素
● 第 3 課:數據管理計劃
● 第 4 課🧝🏻:資源