知識圖譜: 數(shù)據(jù)挖礦的探照燈
文:黃正傑 2020-09-08
發(fā)布時間: 2020-09-04 16:59:00
複雜的疾病與藥物治療關(guān)係如何尋找? 模糊的老師傅維修經(jīng)驗怎麼萃取? 除了機器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)外,知識圖譜是新興的人工智慧方法。在知識圖譜的協(xié)助下,可事先指引大數(shù)據(jù)挖掘出的複雜關(guān)係、協(xié)助歸納模糊的語意關(guān)係等,與機器學(xué)習(xí)/深度學(xué)習(xí)方法相互合作。那麼,知識圖譜的概念是什麼呢? 如何協(xié)助大數(shù)據(jù)分析與人工智慧? 又有什麼企業(yè)應(yīng)用呢? 本文介紹知識圖譜源起、概念與商業(yè)應(yīng)用。
繼深度學(xué)習(xí)之後,知識圖譜(Knowledge Graph;KG)又成為熱搜的名詞。知識圖譜究竟是什麼? 與深度學(xué)習(xí)有何不同? 有何種應(yīng)用呢? 以下初步地探索知識圖譜的概念與應(yīng)用。
知識圖譜的源起
知識是人類獨有的產(chǎn)物。人類藉由知識得以傳承,讓世世代代可以累積方法與經(jīng)驗,進而促進社會進步與技術(shù)發(fā)展。人工智慧學(xué)者亦嘗試利用電腦科學(xué)協(xié)助模擬人類知識。
1970年代,學(xué)者發(fā)展專家系統(tǒng),認為模擬專家具備的知識或經(jīng)驗,可以發(fā)展人工智慧專家系統(tǒng)。而專家知識要形成什麼樣結(jié)構(gòu)呢? 又要如何萃取呢? 於是學(xué)者發(fā)展一系列知識表示法(knowledge representations),包含: IF THEN產(chǎn)生規(guī)則式方法、情境式框架語言等,並利用各種知識工程(knowledge engineering)方法進行專家知識萃取。但由於專家知識表示複雜,且有許多例外、模糊情況無法表達,使得專家系統(tǒng)無法滿足人類對於人工智慧的期望。於是,1980年代人工智慧研究因而沒落。
2000年代,人們透過各種網(wǎng)際網(wǎng)路服務(wù)的運用,儲存了許多事實描述知識庫;如: Google、百度藉由搜尋引擎不斷地累積百萬級知識庫;ConceptNet則透過網(wǎng)路眾包、遊戲及專家創(chuàng)建,建構(gòu)了百萬級知識庫。這些百萬級知識庫不但成了Siri等各項新興人工智慧服務(wù)進行機器學(xué)習(xí)、深度學(xué)習(xí)基礎(chǔ),亦是知識圖譜發(fā)展的基礎(chǔ)。
知識圖譜的概念
知識圖譜(KG, Kowledge Graph)於2012年由Google Amit Singhal提出,是一種用圖模型(Graph) 來描述真實世界萬物之間的關(guān)係的技術(shù)方法。Google 運用KG發(fā)展知識圖譜搜尋引擎服務(wù),提供使用者進行搜尋並發(fā)現(xiàn)相關(guān)資訊;Google 具有5億個物件、35億物件間的事實或關(guān)係。
知識圖譜利用圖模型來表示知識,相較於傳統(tǒng)專家系統(tǒng)常用的產(chǎn)生規(guī)則式、框架語言等,能夠建立更多樣與複雜關(guān)係,以容納大數(shù)據(jù)、深度學(xué)習(xí)等方法進行知識挖掘。例如:傳統(tǒng)產(chǎn)生規(guī)則式系統(tǒng),運用IF THEN 的因果關(guān)係來表示知識;知識圖譜則可以彈性的表示萬物之間多元關(guān)係,包含:屬性關(guān)係、從屬類別關(guān)係、因果關(guān)係、語意關(guān)係等。
此外,傳統(tǒng)產(chǎn)生規(guī)則式系統(tǒng)建構(gòu)專家「理想」規(guī)則式知識;知識圖譜則是建構(gòu)各種物件實例間關(guān)係的「事實」建構(gòu)。因此,我們常聽到知識圖譜是上百萬或億萬規(guī)模、規(guī)則式系統(tǒng)則是數(shù)萬或數(shù)千條等級規(guī)則。如下圖所示,該知識圖譜建立蒙娜麗莎微笑畫作與達文西、羅浮宮、巴黎以及LILY、JAMES各種實例物件間的各種關(guān)係的事實,包括:畫家、朋友、喜歡、居住、位置等。如果同樣建立其他數(shù)萬個文藝復(fù)興時期的畫作「實例」間知識圖譜事實關(guān)係,即可以進行類比或推論等。
圖、知識圖譜描述實例間的關(guān)係(資料來源: yashu seth, WordPress.com)
知識圖譜的商業(yè)應(yīng)用
知識圖譜最常用於Google、Wikipedia、Yahoo、百度、阿里(參閱下圖)等搜索或電商服務(wù)大量數(shù)據(jù)累積,進而優(yōu)化既有服務(wù)並延伸至新的領(lǐng)域服務(wù)。近來,有愈來愈多的垂直企業(yè)領(lǐng)域利用知識圖譜,如:醫(yī)療業(yè)、金融業(yè)、製造業(yè)等,以下說明幾個知識圖譜在企業(yè)領(lǐng)域的應(yīng)用方向:
1.協(xié)助搜索:協(xié)助搜索是知識圖譜最基礎(chǔ)的運用。Google、阿里雲(yún)均建構(gòu)數(shù)億萬級的物件、概念間關(guān)係,進而協(xié)助用戶進行搜索。在工業(yè)上,新進工程師可運用知識圖譜搜索老師傅過去解決設(shè)備、生產(chǎn)問題實際案例中問題與解決方法間關(guān)係;採購人員搜索供應(yīng)商的物料供應(yīng)及對映生產(chǎn)品質(zhì)數(shù)據(jù)關(guān)係,以尋找合適供應(yīng)商等。
圖、阿里巴巴建構(gòu)電商知識圖譜(資料來源: 阿里巴巴)
2.協(xié)助問答:知識圖譜可以建構(gòu)概念、語意間關(guān)係,協(xié)助人機交互問答,如: Siri、IBM Watson。IBM Watson for Ontology為全球首套AI癌癥輔助治療系統(tǒng),利用語音問答方式,協(xié)助醫(yī)生判斷病患罹患癌癥風(fēng)險與治療建議。IBM Watson for Ontology從電子病歷、醫(yī)療期刊及與專家合作建立的治療方案知識圖譜,以容易理解醫(yī)生問題與病患病徵關(guān)係,提出治療建議。
3.協(xié)助大數(shù)據(jù):知識圖譜可作為一種結(jié)構(gòu)化知識或先驗知識,輔助大數(shù)據(jù)進行學(xué)習(xí)與推理。例如:企業(yè)商情網(wǎng)站事先建構(gòu)上司公司、董事長、股東、股權(quán)結(jié)構(gòu)、借款、銷售等關(guān)係表示結(jié)構(gòu) (知識圖譜領(lǐng)域常稱為Schema),透過企業(yè)年報、招標文件、新聞、專利等大數(shù)據(jù)擷取數(shù)萬個公司關(guān)係事實,以進行企業(yè)風(fēng)險、信貸風(fēng)險分析與預(yù)測。
知識圖譜與大數(shù)據(jù)
知識圖譜發(fā)展與機器學(xué)習(xí)、深度學(xué)習(xí)同樣來自大數(shù)據(jù)累積產(chǎn)生。機器學(xué)習(xí)、深度學(xué)習(xí)從大數(shù)據(jù)中發(fā)現(xiàn)關(guān)係、知識圖譜儲存大數(shù)據(jù)關(guān)係。故知識圖譜與機器學(xué)習(xí)/深度學(xué)習(xí)相輔相成,可達成更有效率的人工智慧系統(tǒng)。
如以擷取與搜索老師傅在工廠解決設(shè)備問題的經(jīng)驗應(yīng)用為例。首先,可從維修紀錄、設(shè)備操作手冊等,透過人工智慧自然語言及機器學(xué)習(xí)技術(shù),辨識與萃取問題與解決方法初步關(guān)係;再來,透過知識圖譜手法建立與儲存各項設(shè)備問題與解決方法的邏輯關(guān)係;之後,透過機器學(xué)習(xí)或深度學(xué)習(xí)的方法來協(xié)助推論實際發(fā)生問題與可能解決方法機率與優(yōu)先排序,提供新進工程師進行搜索。此外,系統(tǒng)也可將新進工程師實際問題解決結(jié)果,透過機器學(xué)習(xí)、深度學(xué)習(xí)方法,不斷地累積與學(xué)習(xí)以優(yōu)化系統(tǒng)。
小結(jié)
知識圖譜雖來自於早期建構(gòu)知識表示的概念,但卻融入了現(xiàn)今數(shù)據(jù)驅(qū)動的思維,並結(jié)合機器學(xué)習(xí)/深度學(xué)習(xí)方法,以解決複雜關(guān)係、語意模糊、大數(shù)據(jù)挖掘關(guān)係不確定的問題。因此,如果說機器學(xué)習(xí)/深度學(xué)習(xí)是數(shù)據(jù)挖礦的圓鍬;那麼,知識圖譜就是最佳的探照燈。
黃正傑
你喜歡挑戰(zhàn)不斷隆起的技術(shù)高原、探索無限寬廣的創(chuàng)新領(lǐng)域嗎? 那麼我們是同路人。黃正傑,臺大資管博士,協(xié)助鼎新進行前瞻技術(shù)研究與應(yīng)用發(fā)展。歷經(jīng)IT架構(gòu)技術(shù)顧問、供應(yīng)鏈管理顧問、軟體產(chǎn)業(yè)分析師等多項職務(wù),並兼任文化大學(xué)助理教授。讓我們一起從創(chuàng)新與變革角度,探索新興技術(shù)!
更多案例