新京報貝殼財經(jīng)訊(記者 許哲)盡管已經(jīng)離開講臺,李曉林身上仍留著些許象牙塔內(nèi)的痕跡。
之前,他是學界精英,佛羅里達大學終身教授;現(xiàn)在,他是同盾科技人工智能研究院的院長。平時與人交談時,他語言溫和,但一旦涉及專業(yè)問題時,立即進入學者氣場。
在談及知識聯(lián)邦相關(guān)話題時,這種轉(zhuǎn)變尤為明顯。
這是他帶領(lǐng)研究院伙伴們提出的理論體系,希望一種更安全的方式,利用好現(xiàn)有數(shù)據(jù),搭建一個開放的智能大腦,最終推動人工智能3.0時代的到來。
打破數(shù)據(jù)孤島
上世紀80年代,中國人工智能專家姚期智曾提出過“百萬富翁”假設(shè):兩個百萬富翁在街頭相遇,他們想知道誰更有錢,但是出于隱私,又不想讓對方知道自己到底擁有多少財富。
姚期智提出用“多方安全計算”方式來解決這一問題。如今的人工智能領(lǐng)域,正面臨類似的困境,人工智能的發(fā)展進步,離不開大數(shù)據(jù),但大家對數(shù)據(jù)邊界越發(fā)重視,又不愿數(shù)據(jù)離開本地。
在李曉林教授看來,這是AI 2.0時代必須要解決的困境。他認為,我們當下經(jīng)歷的人工智能熱潮,興起于21世紀第二個十年初期,屬于AI 2.0時代,依托于深度學習理論。
AI 2.0的快速發(fā)展,主要依靠三個因素:算法、算力和大數(shù)據(jù)。深度學習提供算法,CPU和GPU提供算力,信息社會則儲存和提供足夠的數(shù)據(jù)。
李曉林舉例,谷歌的AlphaGo之所以能實現(xiàn)快速進化,便在于它一共學習了3000萬盤已有的棋局,自己跟自己又下了3000萬盤。
這種依靠海量數(shù)據(jù)訓練的人工智能模式,經(jīng)過初期野蠻發(fā)展后,正面臨無數(shù)據(jù)可用的困境。
原來主要來自兩個方面,首先是數(shù)據(jù)不足,擁有海量數(shù)據(jù)的往往只有少數(shù)行業(yè),大多數(shù)領(lǐng)域的數(shù)據(jù)往往有限,或者數(shù)據(jù)質(zhì)量較差。其次則是“數(shù)據(jù)孤島”和數(shù)據(jù)安全使得數(shù)據(jù)共享越發(fā)困難。數(shù)據(jù)在不同公司間,甚至同一家公司內(nèi)部,都難以實現(xiàn)無障礙流動。
而數(shù)據(jù)帶來的隱私暴露或數(shù)據(jù)泄露,使得加強保護數(shù)據(jù)安全和隱私保護,成為各國政府的共同選擇。
2018年5月25日,歐盟《通用數(shù)據(jù)保護條例》(GDPR)正式生效,這個堪稱目前世界范圍內(nèi)最嚴格的用戶數(shù)據(jù)保護條款,允許用戶對自己數(shù)據(jù)擁有完全自主的權(quán)利。而美國和中國正在制定類似的隱私和安全法案。
這些現(xiàn)象都預示著,AI 2.0時代,似乎即將因為數(shù)據(jù)孤島與數(shù)據(jù)安全,陷入雙重困境。在同盾科技所在的金融科技領(lǐng)域,這一問題尤為重要。銀行等金融機構(gòu),迫切想要提高風控水平,卻又對數(shù)據(jù)安全極端看重,甚至將其作為立身之本。
2019年春天,李曉林加盟同盾科技后,出任合伙人、人工智能研究院院長,試圖通過“知識聯(lián)邦”技術(shù),來解決這一問題。
當年冬天的網(wǎng)易未來大會上,同盾首次提出知識聯(lián)邦概念,它不是單一技術(shù)方法,而是一套層次化技術(shù)框架體系:將散落于不同機構(gòu)或個人的數(shù)據(jù)聯(lián)合起來,轉(zhuǎn)換成有價值的知識,并在聯(lián)合過程中采用安全協(xié)議保護數(shù)據(jù)隱私。
這一理論提出后發(fā)展迅速,已經(jīng)成長為國內(nèi)聯(lián)邦學習五大代表流派之一。
搭建數(shù)字技術(shù)生態(tài)
2017年,為保障數(shù)據(jù)交換時的信息安全,保護個人隱私,谷歌公司的科學家在一篇文章里首次提出聯(lián)邦學習概念。理論提出后不久,國內(nèi)各互聯(lián)網(wǎng)公司紛紛搭建團隊,投入相關(guān)研究。
李曉林說,硅谷的競爭速度更像是古代戰(zhàn)場:你來一劍,我捅一刀,大家排兵布陣慢慢打。而在中國,“基本是赤膊角斗,相當激烈”。
根據(jù)國內(nèi)媒體統(tǒng)計,目前聯(lián)邦學習在國內(nèi)已經(jīng)形成“五大流派”,分別是微眾銀行主打的聯(lián)邦學習,螞蟻金服主攻的共享智能,平安科技的聯(lián)邦智能,京東數(shù)科開展的異步聯(lián)邦學習研究,以及同盾科技推出的知識聯(lián)邦理論體系。
要在多方競爭中占據(jù)一席之地,無疑需要具備獨特優(yōu)勢。李曉林指出,知識聯(lián)邦比聯(lián)邦學習的范疇更大、更系統(tǒng),更有層次,“聯(lián)邦學習是知識聯(lián)邦的一個子集?!?/span>
知識聯(lián)邦作為一套技術(shù)框架體系,與聯(lián)邦學習、區(qū)塊鏈、隱私計算、安全多方計算等其它技術(shù)領(lǐng)域都緊密相關(guān)。這些單一技術(shù),在知識聯(lián)邦的不同層面各自發(fā)揮作用,共同服務于數(shù)據(jù)“可用不可見”的大目標。
同盾發(fā)布的知識聯(lián)邦白皮書顯示,知識聯(lián)邦具有三大優(yōu)勢:第一是全樣本觸達。聯(lián)邦后機構(gòu)間的數(shù)據(jù),雖然各自為所有者控制,由于可以觸達更多的數(shù)據(jù),其性能甚至會超越維度有限數(shù)據(jù)的中心化聚集方式。
第二是數(shù)據(jù)不動模型動。聯(lián)邦后的原始數(shù)據(jù)保留在本地,計算和學習也發(fā)生在本地,中心節(jié)點僅對參與方模型知識進行安全的聚集。弱中心化模式達成了效率和安全之間的平衡,尤其適合在強監(jiān)管行業(yè)應用。對銀行等金融機構(gòu)來說,知識聯(lián)邦的應用前景尤為廣闊。
第三是知識也可以安全的共享融合。比如參與方通過NLP構(gòu)建本地的知識圖譜和各種網(wǎng)絡(luò)節(jié)點的關(guān)系,再通過知識聯(lián)邦來構(gòu)建更完整的虛擬圖譜,這樣既能幫助識別欺詐團伙,又能提升企業(yè)征信的風控模型。人工的知識也可以融入其中(human in the loop),自主自適應的構(gòu)建和融合多源知識,提煉出最有效的洞見來做智能分析與決策。
李曉林說:“在知識聯(lián)邦的模式下,模型訓練時每個銀行和金融機構(gòu),各自的數(shù)據(jù)不需對外輸出,甚至連模型的參數(shù)都不用給到對方,只需要將模型梯度的變化加密后在密文空間里安全的聚合。這樣攻擊者不能反推出源數(shù)據(jù)?!?/span>
基于知識聯(lián)邦理論體系,同盾科技推出了工業(yè)級應用產(chǎn)品智邦平臺(iBond),通過建立相應的任務聯(lián)盟,解決不同應用場景需求。
在2020年10月舉辦的全球人工智能大會智能金融高峰論壇上,同盾聯(lián)合浙江大學、復旦大學、百度大數(shù)據(jù)實驗室、360集團、平安科技等學界業(yè)界多家頂尖機構(gòu)成立“知識聯(lián)邦產(chǎn)學研聯(lián)盟”,旨在實現(xiàn)數(shù)據(jù)安全前提下,共同構(gòu)建優(yōu)質(zhì)數(shù)字技術(shù)生態(tài)。
李曉林認為,按照目前人工智能發(fā)展態(tài)勢,2040年前后,人工智能將步入3.0時代,除數(shù)據(jù)、算力、算法三要素之外,知識要素將成為第四要素。
開放智能大腦浮出水面
2020年11月,同盾人工智能研究院發(fā)布知識聯(lián)邦技術(shù)體系下的數(shù)據(jù)安全交換(FLEX)協(xié)議,并于12月將其開源。該協(xié)議中包含一系列的約定,只要遵守這些約定,參與方就可以安全地加入到聯(lián)邦,無需擔心數(shù)據(jù)隱私會有泄露風險,全面實現(xiàn)數(shù)據(jù)可用不可見。
協(xié)議背后,藏著李曉林和同盾對未來的野心。在李曉林看來,未來肯定不會只有知識聯(lián)邦一個聯(lián)邦平臺存在。
行業(yè)需要一套完整的聯(lián)邦數(shù)據(jù)安全交換標準,讓各個參與方在選擇使用聯(lián)邦平臺時有規(guī)可依,只要遵循相應標準,不同體系之間同樣可以實現(xiàn)數(shù)據(jù)交換,知識互通。
一旦參與機構(gòu)(數(shù)據(jù)提供者)足夠多,聯(lián)邦規(guī)模足夠大,數(shù)據(jù)多樣性就有保障,也就會有更多機構(gòu)(數(shù)據(jù)使用者)愿意來使用聯(lián)邦服務,也會有更多科技型機構(gòu)(模型和應用開發(fā)者)來提供豐富的算法、模型和應用。
屆時,知識聯(lián)邦可以充分發(fā)揮平臺作用,對參與機構(gòu)提供的數(shù)據(jù),以及科技機構(gòu)提供的模型和應用進行評估,將數(shù)據(jù)作為生產(chǎn)資料的價值發(fā)揮到最大。
李曉林將其稱之為電商式的平臺,參與方在數(shù)據(jù)可用不可見的安全環(huán)境中,進行數(shù)據(jù)、模型應用的交換,甚至可以在區(qū)塊鏈等技術(shù)的保障下進行自由交易。而知識聯(lián)邦作為平臺方,可以對參與方貢獻出的數(shù)據(jù)和模型評分。
良性循環(huán)就此建立,李曉林說,知識聯(lián)邦的應用范圍,也將不再局限于某一個行業(yè),而是有可能成為貫穿各行各業(yè)的開放的智能大腦。
上世紀90年代,李曉林在浙大讀書時,人工智能尚是冷門專業(yè)。機器學習課堂上只有五六個學生,圖書館里的資料大多是過期的油印本。如今的機器學習課堂,500人的教室常常坐滿,課上提出理論,課后甚至可以立刻做出樣品,一個學期的作業(yè)就可以做出自動駕駛的原型,行業(yè)應用不斷創(chuàng)新。
這一切都讓李曉林覺得,人工智能的下一個時代或許加速到來,在這其中,必然將有知識聯(lián)邦的身影。
新京報貝殼財經(jīng)記者 許哲 編輯 岳彩周 校對 李世輝