讓大灣區(qū)成為數(shù)據(jù)安全使用典范

香港科技大學(xué)(廣州)信息樞紐院長、數(shù)據(jù)科學(xué)與分析學(xué)域講座教授、聯(lián)合實(shí)驗室專家陳雷
“在大模型訓(xùn)練過程中,數(shù)據(jù)質(zhì)量是最重要的一環(huán)”……香港科技大學(xué)(廣州)信息樞紐院長、數(shù)據(jù)科學(xué)與分析學(xué)域講座教授、聯(lián)合實(shí)驗室專家陳雷接受南都訪談時表示,人工智能發(fā)展到現(xiàn)在,最重要的是數(shù)據(jù)問題,期待粵港澳大灣區(qū)生成式人工智能安全發(fā)展聯(lián)合實(shí)驗室(簡稱“聯(lián)合實(shí)驗室”)把各高校研究力量整合起來,從政策、制度層面引導(dǎo)正確使用數(shù)據(jù)。
數(shù)據(jù)質(zhì)量
要通過聯(lián)合實(shí)驗室整合數(shù)據(jù)
南方都市報(以下簡稱“南都”):您是世界數(shù)據(jù)科學(xué)與分析領(lǐng)域的領(lǐng)軍學(xué)者,能否結(jié)合數(shù)據(jù)領(lǐng)域深入研究,談?wù)剬浉郯拇鬄硡^(qū)生成式人工智能安全發(fā)展聯(lián)合實(shí)驗室發(fā)揮自身優(yōu)勢,更好服務(wù)人工智能安全發(fā)展的期望?
陳雷:粵港澳大灣區(qū)制造業(yè)很強(qiáng),要把人工智能運(yùn)用到傳統(tǒng)行業(yè),數(shù)據(jù)非常重要。通過實(shí)驗室聯(lián)合大灣區(qū)各類高校,匯聚所有數(shù)據(jù),做成大數(shù)據(jù)平臺,供大家使用,做相應(yīng)大模型測試?;蛘哂陕?lián)合實(shí)驗室推出數(shù)據(jù)測試平臺,讓各類大模型通過平臺測試性能,找出不足,加以改進(jìn)。
南都:如何確保數(shù)據(jù)質(zhì)量,聯(lián)合實(shí)驗室能做些什么?
陳雷:數(shù)據(jù)質(zhì)量是全世界都想解決的問題,首要的問題是獲取到的數(shù)據(jù)是不是有用?而且數(shù)據(jù)量要大,量不大就沒有所謂數(shù)據(jù)質(zhì)量。
數(shù)據(jù)質(zhì)量包括無監(jiān)督、有監(jiān)督。無監(jiān)督的數(shù)據(jù)質(zhì)量就是通過無監(jiān)督的機(jī)器學(xué)習(xí),發(fā)現(xiàn)一些質(zhì)量偏差較大的數(shù)據(jù),或者叫異常數(shù)據(jù)分析。有監(jiān)督的數(shù)據(jù)質(zhì)量一般需要找專家或?qū)I(yè)人士對數(shù)據(jù)打標(biāo)簽,然后用機(jī)器學(xué)習(xí)的方法找出那些較差的數(shù)據(jù)。我覺得聯(lián)合實(shí)驗室可以嘗試新的方法,特別是從工業(yè)界獲取合作項目,整合大灣區(qū)人工智能人才以及研究團(tuán)隊,做一些能落地產(chǎn)品或者服務(wù)累積高質(zhì)量數(shù)據(jù)。期待聯(lián)合實(shí)驗室發(fā)揮紐帶作用,把各高校研究力量整合起來。單打獨(dú)斗已是過去式,一個人強(qiáng)沒用,一定通過聯(lián)合實(shí)驗室整合數(shù)據(jù)。
數(shù)據(jù)關(guān)聯(lián)
智能體要落地首先得涉及數(shù)據(jù)關(guān)聯(lián)
南都:在粵港澳三地制度差異背景下,在推動數(shù)據(jù)跨境流動過程中,您對建立大灣區(qū)數(shù)據(jù)安全、人工智能安全協(xié)同治理體系有哪些建議?
陳雷:數(shù)據(jù)安全是一個非常難的問題,既要把數(shù)據(jù)整合起來、用起來,又要保證數(shù)據(jù)安全,里面有很多技術(shù)方法手段,例如同態(tài)加密、隱私計算等,使用加密數(shù)據(jù)做相應(yīng)AI訓(xùn)練。
舉例而言,大灣區(qū)有很多好醫(yī)院,要做數(shù)據(jù)共享,才能做更好病理診斷醫(yī)療診斷。如果把病人名字、年齡、性別隱藏,數(shù)據(jù)是不是就沒問題了,可以安全使用?這是誤區(qū),很多時候通過病人其他信息還是可以轉(zhuǎn)換映射病人是誰。但是,假如隱去年齡、性別這些信息,可能對根據(jù)年齡和性別對病情診斷又失去價值。這是有意思的問題,建議聯(lián)合實(shí)驗室可以研究怎么建立數(shù)據(jù)安全的保護(hù)機(jī)制,不僅是通過技術(shù)手段解決,還需要從政策、制度層面,引導(dǎo)正確使用數(shù)據(jù),簽訂相應(yīng)數(shù)據(jù)共享、保密協(xié)議。
南都:在數(shù)據(jù)驅(qū)動跨學(xué)科研究方面,您曾帶領(lǐng)團(tuán)隊為港科大(廣州)實(shí)現(xiàn)許多第一的突破。如何通過數(shù)據(jù)驅(qū)動大模型,賦能產(chǎn)業(yè),構(gòu)建良性循環(huán)協(xié)同?
陳雷:大模型賦能產(chǎn)業(yè),最重要的是真正用起來。大模型的文字處理能力特別高,以保險業(yè)為例,假如出了一個理賠案,原來保險員要查所有文件、規(guī)章,通過匹配才知道要賠多少、誰的責(zé)任,其實(shí)這些可以使用大模型,通過大模型文件處理能力來操作。
大模型重要應(yīng)用就是智能體,垂直運(yùn)用到各行各業(yè)。但怎么讓人接受、讓人用起來,這是最大的問題。假如你休假,會讓智能體幫忙訂酒店、訂機(jī)票,預(yù)訂所有活動嗎?我發(fā)現(xiàn)主要還是手動搶便宜機(jī)票、便宜酒店,以及符合家人出行習(xí)慣的活動。為什么智能體做不到這點(diǎn),技術(shù)難題就是智能體之間沒有協(xié)同,數(shù)據(jù)沒有串通起來。要智能體垂直應(yīng)用落地,首先要設(shè)計好數(shù)據(jù)直接的互聯(lián),同時不要貪大貪多,要讓大家體會到具體使用的好處。
數(shù)據(jù)安全
讓大灣區(qū)成數(shù)據(jù)安全使用典范
南都:聯(lián)合實(shí)驗室確實(shí)可以在AI人才培養(yǎng)發(fā)揮資源整合作用。展望未來,您對實(shí)驗室建設(shè)運(yùn)行又有哪些期待?
陳雷:希望聯(lián)合實(shí)驗室成立更多聯(lián)盟,通過簽訂協(xié)議,助力數(shù)據(jù)安全使用。讓參與者獲取實(shí)實(shí)在在的好處,達(dá)到共贏,他們自然而然就會把數(shù)據(jù)安全使用起來,更加注重數(shù)據(jù)安全、隱私保護(hù)。積累安全的數(shù)據(jù)越來越多,通過開放共享,讓更多企業(yè)使用,實(shí)現(xiàn)良性循環(huán),讓粵港澳大灣區(qū)成為數(shù)據(jù)安全使用的典范。
南都:剛才您談的主要是數(shù)據(jù)安全,在人工智能安全發(fā)展方面,實(shí)驗室能發(fā)揮什么作用?
陳雷:大模型訓(xùn)練的時候,需要很多數(shù)據(jù),肯定會涉及很多商業(yè)或者個人隱私信息。這樣,我們就要設(shè)計模型的保護(hù)機(jī)制,對于一些敏感問題,我們怎么保證大模型回答的正確性。實(shí)際上,大模型面臨很多網(wǎng)絡(luò)攻擊新風(fēng)險,數(shù)據(jù)投毒危害值得警惕。我們需要想辦法保證大模型安全的輸出,而不是輸出內(nèi)容失當(dāng)或者不可控的東西,這也是我們經(jīng)常討論研究的模型安全問題,希望聯(lián)合實(shí)驗室聯(lián)合大灣區(qū)眾多高校,在這方面多做研究,起到樞紐作用,在賦予AI更多能力同時,將更多精力投入在AI安全之上,確保大模型可信、可靠、可控。
聚焦
聯(lián)合實(shí)驗室能發(fā)揮哪些獨(dú)特作用
香港科技大學(xué)(廣州)信息樞紐院長、數(shù)據(jù)科學(xué)與分析學(xué)域講座教授陳雷,主要研究數(shù)據(jù)驅(qū)動的人工智能、知識圖譜、區(qū)塊鏈、數(shù)據(jù)隱私、眾包、空間和時間數(shù)據(jù)庫,以及對大型圖形和概率數(shù)據(jù)庫的查詢優(yōu)化。
“人工智能發(fā)展到現(xiàn)在,最重要的不是算力、算法問題,而是數(shù)據(jù)問題,期待粵港澳大灣區(qū)生成式人工智能安全發(fā)展聯(lián)合實(shí)驗室與大灣區(qū)眾多高校合作,在數(shù)據(jù)方面發(fā)力,建設(shè)大數(shù)據(jù)平臺、數(shù)據(jù)測試平臺,讓各類大模型通過平臺測試性能,找出不足,加以改進(jìn)?!?/p>