
OpenAI開發(fā)的人工智能應(yīng)用ChatGPT自2022年11月發(fā)布以來,持續(xù)受到了全球的廣泛矚目,甚至被認為開啟了第四次工業(yè)革命。
而在2023年3月22日,ChatGPT卻被曝出存在用戶隱私漏洞,用戶能夠看到其他用戶對話歷史記錄的標題,引發(fā)了公眾對ChatGPT隱私泄露風(fēng)險的擔(dān)憂。3月31日,意大利個人數(shù)據(jù)保護局宣布禁止使用ChatGPT,德國等其他歐洲國家也陸續(xù)跟進發(fā)聲,表示會考慮禁止ChatGPT收集數(shù)據(jù)。

近年來,數(shù)據(jù)安全問題成為社會焦點,數(shù)據(jù)泄露、濫用等數(shù)據(jù)安全事件頻繁發(fā)生,人工智能技術(shù)在信息泄露等方面的社會性風(fēng)險,則因為其使用的龐大數(shù)據(jù)規(guī)模而被進一步放大。如何在人工智能模型訓(xùn)練、智能化應(yīng)用發(fā)展的同時兼顧數(shù)據(jù)安全,使得人工智能產(chǎn)品滿足安全合規(guī)要求,成為業(yè)界持續(xù)關(guān)注的熱點問題,隱私計算技術(shù)因其能夠提供隱私安全條件下的聯(lián)邦學(xué)習(xí)等機制而受到重點關(guān)注。
01人工智能模型訓(xùn)練面臨哪些隱私安全風(fēng)險?
人工智能模型訓(xùn)練需要經(jīng)過數(shù)據(jù)采集、存儲、共享、計算等階段,分別面臨不同的隱私安全風(fēng)險:

采集階段
主要面臨樣本數(shù)據(jù)隱私過度采集的風(fēng)險,按照信息安全法規(guī),企業(yè)在采集、保存、使用用戶數(shù)據(jù)時應(yīng)遵循“用戶自愿原則”和“最小化原則”,需要依法依規(guī)判定數(shù)據(jù)的隱私合規(guī)性,否則將面臨數(shù)據(jù)隱私違規(guī)過度采集的風(fēng)險;
存儲階段
隨著數(shù)據(jù)安全相關(guān)法律法規(guī)的完善,數(shù)據(jù)的分級安全管理等逐漸成為硬性要求,在樣本數(shù)據(jù)存儲時,“大匯聚”的數(shù)據(jù)集中存儲模式將承擔(dān)更大的數(shù)據(jù)安全管理責(zé)任,大規(guī)模樣本數(shù)據(jù)的分級、權(quán)限管理極其復(fù)雜,稍有不慎就會出現(xiàn)影響惡劣的隱私泄露事件,將極大地增加隱私數(shù)據(jù)安全合規(guī)風(fēng)險;
共享階段
由于模型訓(xùn)練對數(shù)據(jù)規(guī)模和質(zhì)量的較高要求,樣本數(shù)據(jù)往往需要跨多個數(shù)據(jù)所有者進行共享傳輸,隱私數(shù)據(jù)可能遭受的攻擊面擴大,存在數(shù)據(jù)越權(quán)訪問、數(shù)據(jù)泄露、數(shù)據(jù)濫用等風(fēng)險;
計算階段
不同類型的模型訓(xùn)練任務(wù)需要分別構(gòu)建標注樣本集,在執(zhí)行有監(jiān)督機器學(xué)習(xí)時需要由人參與樣本集的構(gòu)建等工作,樣本數(shù)據(jù)集的交叉使用過程中存在隱私數(shù)據(jù)濫用的風(fēng)險,最終訓(xùn)練完成的模型在面對模型萃取、成員推理等攻擊時,也存在隱私數(shù)據(jù)和模型成果泄露的風(fēng)險。
02利用隱私計算機為人工智能隱私安全保駕護航
國務(wù)院2022年1月印發(fā)的《“十四五”數(shù)字經(jīng)濟發(fā)展規(guī)劃》明確提出“鼓勵重點行業(yè)創(chuàng)新數(shù)據(jù)開發(fā)利用模式,在確保數(shù)據(jù)安全、保障用戶隱私的前提下,調(diào)動行業(yè)協(xié)會、科研院所、企業(yè)等多方參與數(shù)據(jù)價值開發(fā)”。隱私計算技術(shù)由于其既能促進數(shù)據(jù)流通又能保護隱私安全的特性,被廣泛認為是當前破解數(shù)據(jù)流通困境的最佳手段。
隱私計算技術(shù)融合了人工智能、密碼學(xué)、數(shù)據(jù)科學(xué)等眾多領(lǐng)域,通過結(jié)合安全多方計算、聯(lián)邦學(xué)習(xí)、同態(tài)加密、差分隱私和機密計算等為代表的現(xiàn)代密碼學(xué)和信息安全技術(shù),能夠在保護數(shù)據(jù)本身不對外泄露的前提下,實現(xiàn)對數(shù)據(jù)處于加密狀態(tài)或非透明狀態(tài)下的計算和分析,達到對數(shù)據(jù)“可用、不可見”的目的。

在應(yīng)用場景方面,隱私計算能夠在數(shù)據(jù)本體不動的條件下,以“數(shù)據(jù)不動,算法跑路”的方式,在各參與方“數(shù)據(jù)不出門”的條件下,充分利用多個數(shù)據(jù)所有方的數(shù)據(jù)進行人工智能模型訓(xùn)練,為多個數(shù)據(jù)所有方之間的計算過程提供隱私保護,從而使得既能夠有效釋放各方數(shù)據(jù)的潛在價值,又能夠規(guī)避數(shù)據(jù)傳輸相關(guān)的責(zé)任和風(fēng)險。所以,隱私計算非常適用于一些數(shù)據(jù)敏感度高、隱私要求的人工智能模型訓(xùn)練場景,比如制造業(yè)利用多方生產(chǎn)數(shù)據(jù)進行工藝優(yōu)化智能模型訓(xùn)練、醫(yī)院利用多機構(gòu)患者診療數(shù)據(jù)進行疾病智能預(yù)測模型訓(xùn)練、金融業(yè)利用多源信用數(shù)據(jù)進行風(fēng)控評級智能模型訓(xùn)練等,這些場景下各方數(shù)據(jù)都屬于不希望被他人獲取的敏感數(shù)據(jù),同時存在強烈的智能化模型計算需求。
在智能化模型訓(xùn)練方面,隱私計算技術(shù)已經(jīng)在金融、政務(wù)、醫(yī)療等行業(yè)的智能化模型訓(xùn)練中進行了廣泛應(yīng)用,比如在金融領(lǐng)域,隱私計算能夠在智能風(fēng)險控制應(yīng)用的模型訓(xùn)練過程中能夠發(fā)揮重要作用,在“數(shù)據(jù)不出門”的前提下實現(xiàn)了政府機構(gòu)、銀行、企業(yè)間的數(shù)據(jù)協(xié)同計算,將分布式模型計算應(yīng)用部署在各單位數(shù)據(jù)中心,智能化模型訓(xùn)練的全過程只交互模型計算結(jié)果,通過將個人和企業(yè)的稅務(wù)、水電繳費、征信、消費等多種維度的數(shù)據(jù)進行融合分析,能夠建立跨機構(gòu)聯(lián)合風(fēng)控模型,在各方數(shù)據(jù)“不出門”的前提下實現(xiàn)信用風(fēng)險評估畫像,有效規(guī)避人工智能模型訓(xùn)練過程中的隱私數(shù)據(jù)泄露和濫用風(fēng)險。目前,工商銀行、交通銀行、華夏銀行等金融機構(gòu)都在積極探索隱私計算技術(shù)在融資風(fēng)控、跨境結(jié)算、金融保險黑名單安全查詢、金融監(jiān)管等場景下的應(yīng)用。
03國內(nèi)人工智能模型訓(xùn)練領(lǐng)域的隱私計算應(yīng)用實踐
據(jù)IDC預(yù)測,2025年中國隱私計算市場規(guī)模將達到145.1億元,相比2021年的8.6億元,有超過十倍的增長空間,年復(fù)合增長率高達102.7%。據(jù)華經(jīng)產(chǎn)業(yè)研究院數(shù)據(jù)調(diào)研統(tǒng)計,隱私計算的應(yīng)用需求迫切,金融、通信、政務(wù)、醫(yī)療、互聯(lián)網(wǎng)、能源領(lǐng)域隱私計算需求分別占比53%、17%、13%、9%、5%、3%,當前國內(nèi)主要隱私計算廠商重點聚焦在金融、醫(yī)療、政務(wù)三大領(lǐng)域。
我們以八分量為浙江省玉環(huán)市建設(shè)的“智能閥門產(chǎn)業(yè)互聯(lián)網(wǎng)平臺”為例,從應(yīng)用實踐角度進一步加深對工智能模型訓(xùn)練領(lǐng)域隱私計算應(yīng)用的理解。
水暖閥門產(chǎn)業(yè)是玉環(huán)市第二大產(chǎn)業(yè)支柱,現(xiàn)有各類閥門加工企業(yè)900多家,產(chǎn)業(yè)產(chǎn)值接近350億元,為當?shù)靥峁┝舜罅烤蜆I(yè)崗位。然而,在市場多重挑戰(zhàn)下,玉環(huán)市的水暖閥門產(chǎn)業(yè)面臨銅棒等原材料價格波動大、小微企業(yè)融資難、數(shù)據(jù)共享信息化基礎(chǔ)薄弱等問題,使得產(chǎn)業(yè)鏈上的企業(yè)的采購議價能力弱、市場敏感度低、貸款融資不及時等問題,亟需打通整條產(chǎn)業(yè)鏈上下游的數(shù)據(jù)通路,運用數(shù)字化、智能化等手段實現(xiàn)產(chǎn)業(yè)賦能,為企業(yè)運營提供堅實的智能化數(shù)據(jù)和金融服務(wù)。
在此背景下,八分量針對玉環(huán)市水暖閥門產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型需求,建設(shè)了“智能閥門產(chǎn)業(yè)互聯(lián)網(wǎng)平臺”,運用隱私計算、區(qū)塊鏈、人工智能等技術(shù),在“數(shù)據(jù)不出域”的條件下實現(xiàn)了智能閥門產(chǎn)業(yè)互聯(lián)網(wǎng)平臺、智能閥門產(chǎn)業(yè)互聯(lián)網(wǎng)平臺、閥門產(chǎn)業(yè)大數(shù)據(jù)平臺等三方數(shù)據(jù)的融合計算,完成了多個智能化模型的協(xié)同訓(xùn)練。

其中,政府大數(shù)據(jù)平臺貫通了經(jīng)信、工商、稅務(wù)、商務(wù)等部門數(shù)據(jù),提供當?shù)厮y門、熔煉企業(yè)基礎(chǔ)數(shù)據(jù)信息庫,為實現(xiàn)水暖閥門產(chǎn)業(yè)鏈上資源整合、數(shù)據(jù)流通、對接等夯實基礎(chǔ);閥門產(chǎn)業(yè)大數(shù)據(jù)平臺提供不同時段“銅采選”“銅加工”“銅價格”“銅消費行業(yè)數(shù)據(jù)”“銅冶煉”等相關(guān)數(shù)據(jù),為閥門企業(yè)的生產(chǎn)銷售和前瞻性分析提供垂直產(chǎn)業(yè)信息資訊、上下游產(chǎn)品價格預(yù)警、國內(nèi)外產(chǎn)業(yè)輿情分析等數(shù)據(jù)支撐;智能閥門產(chǎn)業(yè)互聯(lián)網(wǎng)平臺提供產(chǎn)業(yè)要素流通過程中的訂單、倉單、運單、發(fā)票、銀行回單等數(shù)據(jù),同時通過區(qū)塊鏈對企業(yè)的靜態(tài)數(shù)據(jù)、動態(tài)數(shù)據(jù)、歷史數(shù)據(jù)等進行了可信存證。通過打通上述三大平臺的信息,在“數(shù)據(jù)不出域”的前提下完成了以下模型的計算:
智能企業(yè)畫像模型
建立了800多家水暖閥門、熔煉企業(yè)的智能企業(yè)畫像,為實現(xiàn)水暖閥門產(chǎn)業(yè)鏈上資源整合、對接等夯實了基礎(chǔ)。
采購需求預(yù)測模型
通過數(shù)據(jù)的融合,可對生產(chǎn)所需的上游生產(chǎn)材料、生產(chǎn)設(shè)備等進行預(yù)估測算,可由閥門協(xié)會牽頭,通過集體采購的方式來獲得更高的議價權(quán)。
企業(yè)信用評估模型
為金融機構(gòu)提供了真實可信的應(yīng)收賬款、預(yù)付款等供應(yīng)鏈數(shù)據(jù)作為企業(yè)資產(chǎn)信用背書,利用隱私計算技術(shù)融合多方數(shù)據(jù),建立了企業(yè)信用評估模型,降低小微企業(yè)貸款融資難度,促進普惠金融政策落實,提高了產(chǎn)業(yè)轉(zhuǎn)化效率。
通過隱私計算技術(shù)的應(yīng)用,確保了整個智能閥門產(chǎn)業(yè)互聯(lián)網(wǎng)平臺相關(guān)模型的訓(xùn)練過程中,原始明文數(shù)據(jù)都沒有出本地,真正保護了各方隱私數(shù)據(jù)。平臺通過隱私計算技術(shù)保護各個數(shù)據(jù)源提供的數(shù)據(jù)不會被其他方獲取,參與方只能使用數(shù)據(jù)而不能獲取原始數(shù)據(jù),避免了訓(xùn)練過程中各機構(gòu)間交互明文數(shù)據(jù),一勞永逸地解決了智能模型訓(xùn)練在數(shù)據(jù)采集、存儲、共享、計算各階段的隱私安全問題。
04隱私計算將成為數(shù)字化時代激發(fā)數(shù)據(jù)要素價值的利器
人工智能作為這個時代最具影響力的技術(shù)進步,已經(jīng)在逐步改變?nèi)蚪?jīng)濟的方方面面,隨著人工智能技術(shù)不斷取得突破,人類社會將逐漸邁入強人工智能階段,而隱私計算技術(shù)也將作為人工智能模型的重要安全訓(xùn)練手段快速成長并驅(qū)動人工智能應(yīng)用發(fā)展。

同時,我國數(shù)字經(jīng)濟“十四五”規(guī)劃強調(diào)強調(diào)了充分發(fā)揮數(shù)據(jù)要素價值的必要性,隱私計算技術(shù)能夠為充分發(fā)揮海量數(shù)據(jù)和豐富應(yīng)用場景優(yōu)勢,有力促進數(shù)字技術(shù)與經(jīng)濟社會發(fā)展各領(lǐng)域融合發(fā)展,加快實現(xiàn)數(shù)字化發(fā)展、建設(shè)數(shù)字中國的遠景目標提供重要技術(shù)基礎(chǔ),成為數(shù)字化時代激發(fā)數(shù)據(jù)要素價值的利器。






