私隱保障是收集數(shù)據(jù)(data collection)時要面對的一大難題,即使個人資料及數(shù)據(jù)本身經(jīng)過加密,用者包括在線行為等在內(nèi)的“元數(shù)據(jù)”(metadata)亦可能導(dǎo)致個人身分外泄。香港城市大學(xué)(香港城大)研究團隊最近研發(fā)了一套名為《Vizard》的“可隱藏元數(shù)據(jù)分析系統(tǒng)”(metadata-hiding analytic system),容許個人資料擁有人自訂有關(guān)數(shù)據(jù)的使用權(quán)限,相信在不同范疇、例如精準(zhǔn)醫(yī)學(xué)研究等領(lǐng)域都具有應(yīng)用潛力。
香港城大電腦科學(xué)系王聰教授帶領(lǐng)是次研究,他說:“想像你寄了一封信給你的朋友Alice,雖然信封封口密封,理應(yīng)無人知悉信件內(nèi)容,但從封面抬頭的資訊,他人會得知‘你寄了一封信給Alice’的這個事實。這就是我們所指的‘周邊信息’(side-information),即等同在虛擬世界內(nèi)的元數(shù)據(jù)。”
簡單而言,單是電腦文件的作者、建立日期、修改時間或檔案大小,都屬于基本的元數(shù)據(jù)示例。但許多其他數(shù)據(jù),由個人造訪網(wǎng)購平臺的次數(shù)、以至參與癌病研究的紀(jì)錄等,都可視之為元數(shù)據(jù)。王教授解釋說:“第三方未必得知你所購買的產(chǎn)品或研究的內(nèi)容,但足夠的元數(shù)據(jù)幾近等同隱去的資訊。”他續(xù)說:“舉例來說,若有一個人既參與癌病研究,又經(jīng)常造訪健康產(chǎn)品的網(wǎng)購平臺,就容易令人聯(lián)想——這名資料擁有人可能罹患癌癥或其他疾病。”
充足的元數(shù)據(jù)幾乎等同可追蹤個人信息
現(xiàn)時,私隱保障主要是依賴數(shù)據(jù)收集平臺的實務(wù)操作,資料擁有人在數(shù)據(jù)可能外泄的風(fēng)險下,只能相信平臺所訂定之守則。研究團隊嘗試尋找解決方案,透過新研發(fā)的系統(tǒng)Vizard改變固有“盲信”科技企業(yè)或數(shù)據(jù)收集平臺的機制,同時減低元數(shù)據(jù)外泄的憂慮。
為了讓Vizard成為可全面保護元數(shù)據(jù)的數(shù)據(jù)收集及分析平臺,王教授的研究團隊利用一款名為“分布式點函數(shù)”(Distributed Point Function,DPF)的加密工具。DPF 被視為一組可促進安全/加密計算的通用構(gòu)建組件,用于在電腦計算過程中匿名檢索數(shù)據(jù)信息。王教授的研究團隊以DPF作為基礎(chǔ),開發(fā)了具備串流特定預(yù)處理(stream-specific pre-processing)、加密和吞吐量增強技術(shù)的Vizard系統(tǒng)。
同時,Vizard是一個以資料擁有者為中心的控制方案。每個資料擁有人可透過輸入簡單操作鍵,包括“AND”、“OR”及“NOT”,自訂取用個人數(shù)據(jù)的要求及條件。舉例有一名資料擁有人只授權(quán)來自香港的醫(yī)院取用其個人數(shù)據(jù),相關(guān)操作鍵即為 “1)type= hospitals AND 2)region= HK”(意譯:類別等于醫(yī)院、地區(qū)等于香港)。

使用心率傳感器收集數(shù)據(jù)的處理流程示例(圖左),以及在訂定數(shù)據(jù)取用條件下的安全數(shù)據(jù)轉(zhuǎn)換(即數(shù)據(jù)取用要求,圖右)。Vizard在系統(tǒng)內(nèi)保留了部分公共元數(shù)據(jù)(包括這次例子中的年齡組別和國家),以促進不同數(shù)據(jù)流程的處理分組及過濾。
另外,團隊亦展示了新研發(fā)系統(tǒng)的運作效率。假設(shè)在Vizard內(nèi)存有一萬人的個人數(shù)據(jù)密文,當(dāng)中每名資料擁有人都自訂一項數(shù)據(jù)取用條件,而系統(tǒng)亦只需4.6秒即可處理外來的數(shù)據(jù)取用要求。
隱藏元數(shù)據(jù)有助促進以數(shù)據(jù)驅(qū)動的研究
這次的研發(fā)項目,建基于團隊先前所研發(fā)的實用數(shù)據(jù)分析系統(tǒng)。該系統(tǒng)可在無解密狀態(tài)下處理加密數(shù)據(jù),有別于現(xiàn)有的數(shù)據(jù)處理流程,令黑客無從入手盜取數(shù)據(jù)。
為進一步保障個人數(shù)據(jù),研究團隊建議在新系統(tǒng)Vizard加入一個“計算結(jié)果發(fā)放控制委員會”(Result Release Control Committee,RCC),并由不同持分者包括資料擁有人、政府機構(gòu)或組織所組成。此后,委員會跟資料擁有人可一同制定如何保護未經(jīng)發(fā)放的計算結(jié)果,例如可要求對計算結(jié)果的正確性進行驗證、提供私隱保障,甚至是付費取用等不同條件,這些計算結(jié)果發(fā)放規(guī)定將可透過去中心化的RCC委員會的認(rèn)證而得到保障。

Vizard主要由資料擁有者、數(shù)據(jù)取用者、安全數(shù)據(jù)處理流程及“計算結(jié)果發(fā)布控制委員會”(Result Release Control Committee)四個部分組成。
王教授說:“這套可隱藏元數(shù)據(jù)的共享加密數(shù)據(jù)系統(tǒng),可用于醫(yī)療保健、商業(yè)機構(gòu)或政府部門等需要大數(shù)據(jù)分析來制定更精準(zhǔn)決定的領(lǐng)域或行業(yè)。舉例來說,不同地區(qū)的醫(yī)院可安全地共享患者的醫(yī)學(xué)數(shù)據(jù),有助于疾病診斷和進行醫(yī)學(xué)研究。”
這項研究成果已經(jīng)在《ACM計算機和通信安全會議2022》(ACM Conference on Computer and Communications Security (CCS) 2022)發(fā)表,題為〈Vizard: A Metadata-hiding Data Analytic System with End-to-End Policy Controls〉。而ACM計算機和通信安全會議是一個云集國際信息安全研究人員的旗艦?zāi)甓却髸瑫习l(fā)布的研究均獲同行評審,接受發(fā)布率約22.5%。
這次研究的第一作者為蔡承均博士,他曾為王教授研究團隊的博士后,現(xiàn)時為香港城市大學(xué)(東莞)(籌)的研究員。王教授是通訊作者,其他合作研究員包括香港城大電腦科學(xué)系講座教授兼系主任賈小華教授、博士生臧懌晨先生,以及武漢大學(xué)國家網(wǎng)絡(luò)安全學(xué)院的王騫教授。
研究獲得香港研究資助局、InnoHK創(chuàng)新香港研發(fā)平臺及國家自然科學(xué)基金委員會撥款資助

香港城大電腦科學(xué)系王聰教授。(圖片來源:香港城市大學(xué))
?
來源:IT時代網(wǎng)
IT時代網(wǎng)(關(guān)注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創(chuàng)文章版權(quán)所有,未經(jīng)授權(quán),轉(zhuǎn)載必究。
創(chuàng)客100創(chuàng)投基金成立于2015年,直通硅谷,專注于TMT領(lǐng)域早期項目投資。LP均來自政府、互聯(lián)網(wǎng)IT、傳媒知名企業(yè)和個人。創(chuàng)客100創(chuàng)投基金對IT、通信、互聯(lián)網(wǎng)、IP等有著自己獨特眼光和豐富的資源。決策快、投資快是創(chuàng)客100基金最顯著的特點。
小何
小何
小何
來自: 【人物】滴滴創(chuàng)始人程維回顧與Uber競爭:中國互聯(lián)網(wǎng)從來沒有輸過--IT時代網(wǎng)
小何
來自: 少年頭條對壘中年騰訊:解局兩代互聯(lián)網(wǎng)公司商業(yè)之戰(zhàn)--IT時代網(wǎng)