【明報】開放數據不應閉門造車

2020-02-15
Logo of Ming Pao, a Hong Kong based newspaper

(本文2020年2月15日刊登于《明報》D02版)

筆者因研究需要,經常瀏覽與數據有關的政府網站,留意到香港開放數據平台「資料一線通」出現兩大更新:一是以圖表實時展示天氣、交通等生活數據的「城市儀表板」;二是公布了2020 至2022 年度開放數據計劃。前者是全新功能,需時檢驗效果,後者是繼2019 年之後的第二份年度計劃,一年來公衆及傳媒對此已有所探討,筆者願在此與讀者分享初步觀察。

1個數據集分拆36個 「發水」求達標

政府制定及公布開放數據年度計劃的做法始於2018 年末,稱將在2019 年開放超過650 個新數據集,「資料一線通」的數據集將由3300個增至近4000 個,增長約兩成,可謂雄心勃勃。有傳媒點算,截至2019 年11 月已經開放695個數據集。其間雖有部門延遲發布,不過綜觀全年是「交到數」。能按進度落實計劃值得肯定,惟原因既可能是執行力強,亦可能是刻意選取較容易的目標所致,魔鬼總是藏於細節中。

翻查2019 年計劃清單,第一印象是龐雜,但略作瀏覽就不難發現規律乃至重複之處。以近月公衆較關心的區議會數據為例,計劃中列出的相關數據集多達40 餘項,僅選民登記資料就分18 個區公布(其實全由選舉事務處一個部門負責),然後分為「登記」和「新登記」兩類並再按年份列出,於是乎本應為一個數據集的資料被拆分為36 個甚至更多,有「發水」之嫌疑。作為對照,香港的長期參考對象新加坡就簡潔得多,從1955 至2015 年的各類選舉資料全部匯集於同一個數據集之中,其實亦是一種更便利公衆查閱及分析的安排,值得學習。將一個數據集拆分成多個發布可令當局「做靚盤數」,但用家就多了一重合併數據的工作(尤其是要做分析的研究人員),造成不便。不過,更重要的問題是公衆想要的數據當局又會否發布呢?

市民關心數據 未見蹤影

以熱門的房屋土地問題為例,2019 及2020年發布的計劃中分別有74 及53 項相關數據集,但遍查兩年計劃及現有「資料一線通」網站,都找不到市民經常提及的公屋輪候時間,只有房委會網站刊登過去1 年的輪候時間統計,至於過往數年的數據,除在一份房委會小組文件簡要提及外,幾乎無迹可尋(而且文件為PDF 格式,亦不符合開放數據標準)。而另一公衆焦點「棕地」數據,就要等到今年6月才會發布。以上例子,難免令人質疑政府各部門在制定開放數據計劃時是否閉門造車?

「資料一線通」目前有提出意見一欄,但限於針對現有資料庫,若市民想建議增加某個資料庫便無功而還。而亞太區的其他先進城市,就比香港「開放」得多,例如台北市的平台便設立「建議開放資料」討論區,市民可以公開建議,相應的政府部門亦須答覆。上海市就在2019 年度開放數據計劃中,明確要求各部門主動回應社會及企業的數據需求,「以需求為導向制定公共數據開放清單」,其平台亦設有與台北類似的公衆討論區,但暫時未見有上海政府在區內回覆。

特區政府近來重視開放數據,於1 年前引入公布開放數據計劃的做法,是好事一樁。不過,開放的不應只是數據本身,更重要的是開放心態,制定政策與計劃的過程要透明,按照市民需要開放數據集,而閉門造車可能會引致與政策「初心」背道而馳。這是一個在今日香港尤其值得深入探討的議題。

【明報】開放數據不應閉門造車

2020-02-15
Logo of Ming Pao, a Hong Kong based newspaper

(本文2020年2月15日刊登于《明報》D02版)

筆者因研究需要,經常瀏覽與數據有關的政府網站,留意到香港開放數據平台「資料一線通」出現兩大更新:一是以圖表實時展示天氣、交通等生活數據的「城市儀表板」;二是公布了2020 至2022 年度開放數據計劃。前者是全新功能,需時檢驗效果,後者是繼2019 年之後的第二份年度計劃,一年來公衆及傳媒對此已有所探討,筆者願在此與讀者分享初步觀察。

1個數據集分拆36個 「發水」求達標

政府制定及公布開放數據年度計劃的做法始於2018 年末,稱將在2019 年開放超過650 個新數據集,「資料一線通」的數據集將由3300個增至近4000 個,增長約兩成,可謂雄心勃勃。有傳媒點算,截至2019 年11 月已經開放695個數據集。其間雖有部門延遲發布,不過綜觀全年是「交到數」。能按進度落實計劃值得肯定,惟原因既可能是執行力強,亦可能是刻意選取較容易的目標所致,魔鬼總是藏於細節中。

翻查2019 年計劃清單,第一印象是龐雜,但略作瀏覽就不難發現規律乃至重複之處。以近月公衆較關心的區議會數據為例,計劃中列出的相關數據集多達40 餘項,僅選民登記資料就分18 個區公布(其實全由選舉事務處一個部門負責),然後分為「登記」和「新登記」兩類並再按年份列出,於是乎本應為一個數據集的資料被拆分為36 個甚至更多,有「發水」之嫌疑。作為對照,香港的長期參考對象新加坡就簡潔得多,從1955 至2015 年的各類選舉資料全部匯集於同一個數據集之中,其實亦是一種更便利公衆查閱及分析的安排,值得學習。將一個數據集拆分成多個發布可令當局「做靚盤數」,但用家就多了一重合併數據的工作(尤其是要做分析的研究人員),造成不便。不過,更重要的問題是公衆想要的數據當局又會否發布呢?

市民關心數據 未見蹤影

以熱門的房屋土地問題為例,2019 及2020年發布的計劃中分別有74 及53 項相關數據集,但遍查兩年計劃及現有「資料一線通」網站,都找不到市民經常提及的公屋輪候時間,只有房委會網站刊登過去1 年的輪候時間統計,至於過往數年的數據,除在一份房委會小組文件簡要提及外,幾乎無迹可尋(而且文件為PDF 格式,亦不符合開放數據標準)。而另一公衆焦點「棕地」數據,就要等到今年6月才會發布。以上例子,難免令人質疑政府各部門在制定開放數據計劃時是否閉門造車?

「資料一線通」目前有提出意見一欄,但限於針對現有資料庫,若市民想建議增加某個資料庫便無功而還。而亞太區的其他先進城市,就比香港「開放」得多,例如台北市的平台便設立「建議開放資料」討論區,市民可以公開建議,相應的政府部門亦須答覆。上海市就在2019 年度開放數據計劃中,明確要求各部門主動回應社會及企業的數據需求,「以需求為導向制定公共數據開放清單」,其平台亦設有與台北類似的公衆討論區,但暫時未見有上海政府在區內回覆。

特區政府近來重視開放數據,於1 年前引入公布開放數據計劃的做法,是好事一樁。不過,開放的不應只是數據本身,更重要的是開放心態,制定政策與計劃的過程要透明,按照市民需要開放數據集,而閉門造車可能會引致與政策「初心」背道而馳。這是一個在今日香港尤其值得深入探討的議題。

Read more

Logo of Ming Pao, a Hong Kong newspaper
香港的開放資料已落後,是少數尚未立法的地區,卻又以保護私隱之名進一步限制查冊,損害公衆知情權。
Read more
Clicking this image will lead to the article "Open Data Sovereignty? Lessons from Hong Kong"
Open Data and Data Sovereignty both seem desirable principles in data politics. But are they compatible?
Read more
View Open Data Index
View Index