原始數據
數據集應該以最完整的形式,最精細的尺度發佈,不應經過整合或修改。
該指標指出,數據應從主要來源收集,並以未經修改的原始形式發佈,而不進行匯總。開放數據的一個關鍵價值是提高政府透明度並追究其責任,因此它必須允許公眾根據原始數據而不是政府處理或篩選的二手資訊進行分析。除非出於隱私或安全考慮,否則不應匯總數據。
在不可避免的匯總情況下(例如人口普查),數據應按盡可能低的級別分類。可以按性別、年齡、收入和其他類別進行分類。
用戶可於網絡上無需提交請求或註冊登記的情況下,取得數據集。
當最廣泛的民眾可以於互聯網獲取數據時,才謂真正的公開數據。故此,該指標是下列其他指標的基石。有兩種典型做法會成為民眾獲取數據的障礙:1) 要求使用者提交請求,以及2)要求登記註冊。
許多地區也根據其《資訊自由法》而按使用者的請求披露資料,然而,大量的開放數據國際標準及評估工具都主張當局應主動披露數據,而非等待民眾提出請求,才算是「開放數據」。
另一個障礙是「要求登記註冊」。這常見於有關部門要求使用者登記個人資料才可取得數據。這樣的要求可能會使人擔心活動受到監視或遭報復,使其不願使用開放數據。
「不需註冊亦可取得數據」亦被稱為「非歧視」原則,因為它確保任何人都可以免於種族、國藉、專業崗位的歧視。
該數據集是免費提供的。
取得政府資訊有時需要付費,此做法卻會窒礙公眾使用有關資訊。各國政府以多種理由證明收費的合理性,例如2003年歐洲一項指令稱費用為覆蓋「收集、生產、複製和傳播成本」。但是,陽光基金會(Sunlight Foundation)於2010年發佈的《開放政府資訊的十項原則》(Ten Principles For Opening Up Government Information)指出「資料使用費與政府是否收集數據幾乎並沒關聯」。而歐盟於2017年委託進行的一項研究亦重新審視有關指令,並建議「逐步零收費」
數據集可批量下載,並在適用時提供應用程式介面(API)。
最常見的開放數據的方法為提供大量存取和應用程式介面(API),值得留意的是其優缺點取決於具體情況。
「批量下載」指將所有數據放入一個文件或一組文件中,以便可以通過幾次簡單的下載就可以獲取所有數據。相較於查詢語言(如SQL)或應用程式介面(API)等資訊科技從業人員的常用工具,「批量下載」更為方便。不需要編寫程式。
應用程式介面(API)是一項令應用程式相互以特定方式交換資訊的技術協議。 就「開放數據」而言,API允許用戶透過特定查詢方式來獲取部分數據,程式員亦可以自動化方式取得或更新數據。對於實時變化的數據,例如天氣溫度和交通狀況,API的自動化功能比批量下載更為高效。
數據集是在開放式授權下發布的,而有關授權是以明確的方式顯示。
「開放式授權」是一種版權使用授權方式,在較少或無任何限制下准許用戶獲取、再次使用或發放他人作品。幾乎所有現行的開放數據國際標準皆主張對公共數據採用開放式授權,而當中更有一些標準要求開放式授權以一目了然的方式向用戶標示其授權條件。
全球最為流行的開放式授權系統之一是「共享創意」(Creative Commons,縮寫CC)圖像標籤能讓用戶快速了解能如何使用相應作品/資料/數據。許多具影響力的國際機制,包括維基百科(Wikipedia)皆採用CC標準發放資料。
數據集以機器可讀的格式提供,並以結構化或標準化的方式編排數據。
談及「開放數據」就不得不提及「機器可讀」這一要求。「機器」(machine)即是電腦,也稱為「機器可處理」(machine-processable)。
「機器可讀」文檔必須滿足兩個條件。第一,文件格式必須是電腦可以「讀取」。圖像格式jpg和gif之類或pdf格式的掃描副本不符合此條件。第二,文檔中的數據必須結構化或標準化。 Xml是機器可讀文檔的一種典型格式,但是僅將資料從pdf轉換為xml格式未必能讓電腦作出分析。相反,具有明確定義的列標題和行標題的數字矩陣對計算機更有意義,稱之為結構化。標準化數據格式是一系列準則,這些準則定義收集或記錄數據的方式,從而支持數據集之間的兼容性和互操作性。
以「開放格式」提供的數據集,可以不局限於特定(收費)的應用程序所處理,而可使用於免費/開源的程式。
根據「開放知識基金會」(Open Knowledge Foundation) 的「開放定義」 (Open Definition),「開放格式」是指「使用時不受任何格式或金錢的限制,並且可以由至少一個免費/自由/開源軟件工具徹底處理」。 此定義的核心是任何人都不應擁有該格式的專有權,因此也稱為「非專有」(Non-proprietary)。
典型的專有格式是為商業軟件開發的格式,您必須付費才能使用,例如微軟(Microsoft)的xls和doc以及Adobe的pdf。專有格式會令不能承擔相應軟件費用的人無法使用該格式數據。為了符合開放格式原則,發佈數據時可以將xls替換為csv,將doc / pdf替換為odf / xml。
數據集應該以最完整的形式,最精細的尺度發佈,不應經過整合或修改。
該指標指出,數據應從主要來源收集,並以未經修改的原始形式發佈,而不進行匯總。開放數據的一個關鍵價值是提高政府透明度並追究其責任,因此它必須允許公眾根據原始數據而不是政府處理或篩選的二手資訊進行分析。除非出於隱私或安全考慮,否則不應匯總數據。
在不可避免的匯總情況下(例如人口普查),數據應按盡可能低的級別分類。可以按性別、年齡、收入和其他類別進行分類。
數據蒐集完畢後應儘快發佈,並在出現變化後及時更新。
及時性原則是兩層的:1)數據應該在收集和收集后立即發佈;2)數據集應定期更新。其目的是保護數據的價值,正如《國際開放數據憲章》(2015年)所闡述的那樣,"有效和及時地訪問數據有助於個人和組織開發新的見解和創新理念,從而產生社會和經濟效益,改善世界各地人們的生活。
及時性取決於數據的性質。例如,理想情況下,公共交通數據應該是即時的,經濟表現每月公佈一次,而人口普查每隔幾年進行一次。
數據集要有核心元數據(Core Metadata)以說明其性質,並附隨描述的文檔。
「元數據」最初用於圖書館分類目錄,目的是便於查找書籍。對於開放數據,元數據則提供數據集的定義和解釋數據集信息,以便用戶通過互聯網或數據平台輕鬆搜索特定類別的數據。
典型元數據乃是核心元數據(Core Metadata),它提供基礎的資料,包括數據集標題,來源,發布日期和格式,以及其他可有助發掘數據含意的元素。
某些開放數據標準亦主張將在核心元數據基礎上要另行提供說明文檔,以便用戶了解數據集的背景資料、分析限制和安全性要求,以及如何處理數據。
將已發佈的數據集保存於固定的網絡地址,作為歷史檔案。
此指標要求在互聯網上存檔已發布的數據集。
「永久」有三層含義:1)保留在網上所有已發布的數據集; 2) 格式統一並可回溯至過往版本;和3) 網絡地址固定。
前兩層含義可確保對歷年進行比較分析。而第三層意思要求的固定網址有助公眾直接與他人共享文檔,而無需另行檢索。
數據集內的關鍵元素附有統一認可的標識符(Identifier)。
標識符的要求源自萬維網(World Wide Web)的創始人蒂姆·伯納斯·李(Tim Berners-Lee)在提出的「連結數據」(linked data)概念,其中提倡使用統一資源標識符(Uniform Resource Identifier,URI)在網絡空間中識別事物並相互連結。
標識符可以是某個事物的編號,例如身份證號碼和車牌號碼,不同數據集中擁有同一識別符標註的紀錄可視作來自同一個體,因而相互關聯。對於不涉及私隱的數據(例如樹木、河流、街道)開放識別符有助於數據使用者作研究分析。
數據以通俗易懂的語言及形式編寫,普通大眾可以理解。
「人類可讀」是較新的原則。
2015年發佈的《國際開放數據憲章》(International Open Data Charter)將之與「機器可讀」並重。此原確保任何人,無論是否具有編寫計算機程式的技能,皆能取得和使用開放數據
另外,數據中的信息和數據集的隨附文檔均應使用簡明的語言編寫。