當(dāng)前位置:首頁  科學(xué)頭條

OpenKS知識計算引擎取得重大進展

讓人工智能更加智能

發(fā)布時間:2021-04-25來源:浙大新聞辦作者:吳雅蘭 柯溢能 盧紹慶4814

如果你輸入一段文字“我喜歡小米”,計算機能分析出小米指的是手機還是一個人嗎?

計算機能根據(jù)高中生歷年成績與特點,提供填報高考志愿的建議嗎?

計算機能提供購房、買車的建議,能幫人打官司嗎?

……

這些年來,人工智能的迅速發(fā)展深刻地改變著人類的社會生活,但是我們?nèi)匀粫r不時發(fā)現(xiàn)人工智能還有很多不夠“聰明”的地方,甚至?xí)行┌脨溃骸霸趺淳筒荒苊靼孜业囊馑寄兀吭趺淳偷貌坏轿蚁胍慕Y(jié)果呢?”

記者從424日浙江大學(xué)召開的OpenKS(知目)知識計算引擎開源項目發(fā)布會上獲悉,浙大與合作單位研發(fā)的OpenKS知識計算引擎取得重大進展,有望解決“人工智能不夠智能”的問題。

中國工程院院士、國家新一代人工智能戰(zhàn)略咨詢委員會組長、浙江大學(xué)計算機學(xué)院教授潘云鶴說,本次發(fā)布的OpenKS,作為知識計算引擎項目中的基礎(chǔ)軟件架構(gòu),定義并豐富了知識計算的內(nèi)涵,這種從跨領(lǐng)域知識自動歸納與遷移,到可泛化的知識演化與協(xié)同推理,再到永不停息的自主知識學(xué)習(xí)與計算服務(wù)的思路,將會加速眾多知識密集型行業(yè)向智能化過度的過程,是我國在大數(shù)據(jù)人工智能方向的又一次有益嘗試。

將大數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化信息

在學(xué)習(xí)工作中,我們常會接觸到表格和文檔兩種工具。比如,我們在錄入一些個人信息的時候,可以在表格中設(shè)計好表頭,按條目分別輸入姓名、年齡、出生地等信息,計算機能夠很容易地讀取這些信息并加以整合、應(yīng)用。而如果用一段文字“小A1982年出生在杭州”來描述的話,計算機讀取信息的時候可能就會懵圈。

為什么?因為表格是有結(jié)構(gòu)的,而文字是非結(jié)構(gòu)性的。對于目前的人工智能來說,非結(jié)構(gòu)性數(shù)據(jù)只是數(shù)據(jù),還不是知識,更不能被用于決策了。

其中關(guān)鍵的原因就是數(shù)據(jù)與知識之間的轉(zhuǎn)化還不是很順暢。在沒有“學(xué)習(xí)”之前,計算機不知道西湖區(qū)是杭州的一個城區(qū),無法判斷一個名詞是人名、產(chǎn)品名亦或是公司名,而視頻也只是一段數(shù)據(jù)流。

為了解決這個難題,201912月,以浙江大學(xué)計算機學(xué)院莊越挺教授作為首席科學(xué)家的科技創(chuàng)新2030“新一代人工智能”首批重大項目——“可泛化的領(lǐng)域知識學(xué)習(xí)與計算引擎”正式啟動。

該項目由浙江大學(xué)牽頭,聯(lián)合北京大學(xué)、北京航空航天大學(xué)、哈爾濱工業(yè)大學(xué)、西北工業(yè)大學(xué)、之江實驗室等頂尖學(xué)術(shù)機構(gòu),以及百度、??低暋⑼芸萍?、科大訊飛等行業(yè)領(lǐng)軍企業(yè),旨在建立一整套可服務(wù)于知識密集型行業(yè)共性需求的知識計算工具、算法與系統(tǒng),幫助這些行業(yè)快速地構(gòu)建行業(yè)知識圖譜,提供行業(yè)相關(guān)的智能規(guī)劃與決策支持。

目前,經(jīng)過各課題組的深入研究和課題間的緊密協(xié)作,基于百度飛槳深度學(xué)習(xí)框架,團隊共同研發(fā)了可用于支撐各行業(yè)知識服務(wù)系統(tǒng)構(gòu)建的OpenKS知識計算引擎算法庫,“目前OpenKS已基本支持知識學(xué)習(xí)與計算全流程主要任務(wù),涉及非結(jié)構(gòu)化數(shù)據(jù)集與知識圖譜載入、多模態(tài)數(shù)據(jù)知識抽取、知識表征、分布式知識學(xué)習(xí)與計算、知識服務(wù)與智能應(yīng)用等環(huán)節(jié)模塊。”莊越挺說。

OpenKS項目整體架構(gòu)


幫助行業(yè)快速建立知識圖譜

新一代人工智能中,知識圖譜作為最重要的知識表示方式,已成為研究熱點。知識的自動發(fā)現(xiàn),知識圖譜的構(gòu)建、演化和協(xié)同推理是知識計算的核心技術(shù),而融合數(shù)據(jù)、算法與人類智慧,協(xié)同一體的大規(guī)模分布式知識計算引擎則是實際應(yīng)用的關(guān)鍵。

簡單地說,知識圖譜就是對信息的結(jié)構(gòu)化表達,比如把一篇文章‘改成’一個表格?!?莊越挺說,從全社會來看,眾多知識密集型行業(yè),如安防、金融風(fēng)控、智慧城市、工程教育等均有著從海量數(shù)據(jù)中構(gòu)建知識圖譜并基于此進行快速決策的共性需求。然而,目前的人工智能技術(shù)在應(yīng)對上述共性需求時,并沒有通用、完整的解決方案,也無法同時解決數(shù)據(jù)不全、預(yù)測不準和計算不快等應(yīng)用挑戰(zhàn),“這極大地制約了知識密集型行業(yè)的智能化改造?!?/span>

團隊研發(fā)的OpenKS知識計算引擎算法庫的一個重要功能就是從數(shù)據(jù)中提煉出知識并在此基礎(chǔ)上做出決策。比如,在氣象預(yù)報系統(tǒng)中,搭建地名、氣象術(shù)語等知識庫,讓人工智能“學(xué)習(xí)”之后能夠讀取、檢索、推理。

項目主要參與人員、浙大計算機學(xué)院教授肖俊介紹說,OpenKS知識計算引擎算法庫集成了大量算法和解決方案,提供了一系列知識學(xué)習(xí)與計算的多層級接口標(biāo)準,可供各機構(gòu)研發(fā)人員以統(tǒng)一的形式進行算法模型研究成果的封裝、集成與服務(wù)。

OpenKS知識學(xué)習(xí)與計算的多層級接口標(biāo)準

以工程科技教育行業(yè)為例,目前我國存在很大的工程人才缺口,然而工程科技門類眾多、知識體系繁復(fù)、知識點之間關(guān)聯(lián)復(fù)雜,教材層次各異給自學(xué)帶來了門檻。另一方面,學(xué)生背景各異、學(xué)習(xí)目的各異,統(tǒng)一培訓(xùn)效率低下。OpenKS知識計算引擎包含的知識抽取算法API、知識表征學(xué)習(xí)API、分布式知識計算API、知識圖譜應(yīng)用API可為工程科教構(gòu)建工程科教知識圖譜,并基于圖譜為不同的學(xué)生設(shè)計個性化的教育路線,滿足差異化學(xué)習(xí)的需要。

第一階段我們的主要工作是算法庫和知識圖譜的搭建以及分布式計算。” 項目主要參與人員、浙大計算機學(xué)院副教授湯斯亮演示了一個簡單的小程序,當(dāng)我們輸入商品信息后,這套系統(tǒng)能自動識別、整理,最終生成一條商品推介。


開源式打造“木匠的工具間”

目前,這套系統(tǒng)已經(jīng)應(yīng)用到了多個行業(yè)領(lǐng)域。比如,在產(chǎn)業(yè)鏈的梳理中,系統(tǒng)幫助建立行業(yè)中上下游各企業(yè)的知識圖譜,尋找生產(chǎn)的薄弱環(huán)節(jié)或是缺少的零部件。

而且項目的研發(fā)過程采用了開源機制,支持企業(yè)和社區(qū)開發(fā)者根據(jù)不同的場景需求對接口服務(wù)進行調(diào)用和進一步開發(fā)。也就是說,各行各業(yè)可以選擇引擎中的算法,快速地搭建行業(yè)系統(tǒng)應(yīng)用,以應(yīng)對多變的決策需求。當(dāng)行業(yè)與需求發(fā)生變化,系統(tǒng)也能夠及時地提供算力、算法支撐,以縮短行業(yè)智能化改造的時間。這樣的計算引擎能源源不斷地產(chǎn)生各個行業(yè)的知識,進而碰撞產(chǎn)生新產(chǎn)業(yè)、新業(yè)態(tài)和新模式。

打一個比方,我們是打造了一個‘木匠的工具間’,里面有鋸子、刨子、榔頭、釘子等各種工具,桌子、柜子這些常用的家具,系統(tǒng)可以幫忙做,如果是個性化的需求,木匠也可以在工具間里利用我們提供的這些工具來自己做?!鼻f越挺說,項目的研發(fā)過程中,行業(yè)專家、算法開發(fā)者和用戶都發(fā)揮了各自作用,“達到越用越聰明的效果?!?/span>

如何運用大數(shù)據(jù)智能手段助力區(qū)域產(chǎn)業(yè)發(fā)展升級及科技創(chuàng)新決策? OpenKS給出了新路徑新方法。杭州量知數(shù)據(jù)科技有限公司以OpenKS知識計算引擎為內(nèi)核,研制了SuperMind智能計算平臺,借助大數(shù)據(jù)智能技術(shù)和人機協(xié)同方式,從資訊、研報、專利、企業(yè)信息等海量非結(jié)構(gòu)化數(shù)據(jù)中實現(xiàn)關(guān)鍵“知識”自動發(fā)現(xiàn)與抽取,相較于傳統(tǒng)人工方式,最快只需一周即可構(gòu)建完成高質(zhì)量的產(chǎn)業(yè)鏈及創(chuàng)新鏈知識圖譜,全方位展示關(guān)鍵要素,深入分析區(qū)域產(chǎn)業(yè)優(yōu)勢和短板,輔助推理決策,目前已服務(wù)于浙江省全球產(chǎn)業(yè)鏈精準合作招商平臺、浙江省產(chǎn)業(yè)鏈數(shù)據(jù)中心和浙江省三大科創(chuàng)高地關(guān)鍵核心技術(shù)攻關(guān)數(shù)字化平臺等項目,應(yīng)用效果良好。

目前OpenKS項目已經(jīng)并正在融合吸收來自跨媒體知識圖譜構(gòu)建、知識表征推理、可泛化協(xié)同求解、自適應(yīng)學(xué)習(xí)中間件等方面的優(yōu)秀成果,形成了一系列擁有自主知識產(chǎn)權(quán)的發(fā)明專利與軟件著作產(chǎn)權(quán),發(fā)表了一系列高水平學(xué)術(shù)論文。在后續(xù)項目的實施過程中,項目組將持續(xù)推動知識計算引擎的研發(fā),讓OpenKS知識計算引擎項目更好地為行業(yè)賦能,助力各類傳統(tǒng)行業(yè)基礎(chǔ)設(shè)施的智能化改造。

(文 吳雅蘭 柯溢能/攝影 盧紹慶)