最近大家應該能夠看到,在我們的朋友圈中有一些高考機器人的文章被刷屏,也就是有很多的學霸被這些機器人所代替了,其實他們后面很大程度的用了知識圖譜相關(guān)的技術(shù)。
今天我的分享分為兩個部分:
第一個就是對知識圖譜及知識圖譜應用的技術(shù)做一個分享;然后是對我們應用知識圖譜在企業(yè)大數(shù)據(jù)方面的一些探索。
首先我們按照慣例,看一下什么是知識圖譜,我這里引用的是語義網(wǎng)之父的一句話:語義網(wǎng)它是一個面向數(shù)據(jù)的互聯(lián)網(wǎng),從某種含義上來說,它其實就是一個全局的數(shù)據(jù)庫。
什么是一個面向數(shù)據(jù)的互聯(lián)網(wǎng)?
我們都知道,現(xiàn)在我們看到的網(wǎng)站,可以說是面向文檔和網(wǎng)頁的一個互聯(lián)網(wǎng),在這個互聯(lián)網(wǎng)中間,它的主要信息是通過網(wǎng)頁來表達的,網(wǎng)頁方便之處是易于被人類所理解,所以平時我們查閱信息還是比較方便的,但是它有一個缺點,就是語義信息不足,所以機器理解起來比較困難,現(xiàn)在我們的互聯(lián)網(wǎng)正在轉(zhuǎn)變,它在轉(zhuǎn)變成為一種面向數(shù)據(jù)的互聯(lián)網(wǎng),在這種互聯(lián)網(wǎng)里面,它的信息和數(shù)據(jù)是可以被機器理解的。
我們看一下什么是面向數(shù)據(jù)的互聯(lián)網(wǎng),現(xiàn)在我們的互聯(lián)網(wǎng)中間,它不應該只是一個個的網(wǎng)頁,它應該更多的是一個個的事物,或者說是一個個的實體,就像我們這個圖中間看到的,互聯(lián)網(wǎng)里面包含的更多的是對這些具體事物的描述。這張圖里面包含了建筑、糖果、化學物,還有藝術(shù)作品等。
這就是面向數(shù)據(jù)的互聯(lián)網(wǎng)中具體的事物,這些事物本身并不是孤立的,它們相互關(guān)聯(lián),這就構(gòu)成了這些事物之間的各種各樣的關(guān)聯(lián)關(guān)系,這可以說是面向數(shù)據(jù)的互聯(lián)網(wǎng)的本質(zhì):首先有各種各樣的事物,然后是這些事物之間的關(guān)聯(lián)關(guān)系。
我們再來看一下,為什么會出現(xiàn)面向數(shù)據(jù)的互聯(lián)網(wǎng)這樣一個概念,從07年左右開始,我們可以看到,開放鏈接數(shù)據(jù)越來越多,這個圖從07年到現(xiàn)在,正好是10年左右的時間,我們可以看到它的發(fā)展是非?斓模@個網(wǎng)絡(luò)在不斷的增加。這些數(shù)據(jù)相對來說都是結(jié)構(gòu)化附有語義的,是一個個具體的事物。
在這一背景下面,Google在12年的時候,提出了“知識圖譜”的概念,剛剛漆老師提到,Google主要用它來構(gòu)建下一代的搜索引擎,Google提出知識圖譜的時候,用了這么一個短句:
Things, not strings!
也就是說,在互聯(lián)網(wǎng)中它不是一個個字符串,而是一個個真實存在的事物,事物之間還有相應的關(guān)聯(lián)關(guān)系,右下角圖我們可以看到,里面有人物,并且還有他們之間的關(guān)聯(lián)。
什么是知識圖譜?
其實定義是非常多的,我這里提供一個我們自己的理解:知識圖譜主要的目標是用來描述真實世界中間存在的各種實體和概念,以及它們之間的關(guān)聯(lián)關(guān)系。
我們最開始的時候也提到了,它是一個全局的數(shù)據(jù)庫,在這個全局的數(shù)據(jù)庫中間,更多的希望它所有的事物都有一個全局唯一確定的ID,就像網(wǎng)頁一樣,每個網(wǎng)頁都有一個唯一的url來標識,對每個實體和概念,我們也同樣的用這么一個ID去描述,稱之為標識符。
同時對于這些實體,它們的屬性,我們就用“屬性–值對“來刻畫它的內(nèi)在特性,比如說我們的人物,他有年齡、身高、體重屬性;同時我們還用關(guān)系來描述兩個實體之間的關(guān)聯(lián)。
下面這兩個圖,就體現(xiàn)了事物和它們之間的關(guān)系。
知識圖譜的概念還是比較明確的,但是有很多朋友還是會存在疑問。
知識圖譜和本體到底有什么關(guān)系?
知識圖譜并不是一個全新的東西,而是在以前的技術(shù)或理論上面,進行的一個重新的定義,引入了一個新的概念。
知識圖譜本身不是本體的一個替代品,是在本體的基礎(chǔ)上面做了一個豐富和擴充,這種擴充主要體現(xiàn)在實體層面。本體中突出的主要是概念和概念之間的關(guān)聯(lián)關(guān)系,而知識圖譜描述的主要是實體,對這些實體我們通常還會去描述它更加豐富的信息。用一句簡單的話來說就是:本體描述了知識圖譜的數(shù)據(jù)模式,本體的動態(tài)的特性賦予了知識圖譜動態(tài)數(shù)據(jù)模式支持的能力。
這一特性很重要,會用在我們很多的地方,比如說我們在Linked Open Data里面就用到了這種理念,同時我們提到了在后面企業(yè)大數(shù)據(jù)的應用里面,其實也會用到這個特性,它可以支持數(shù)據(jù)動態(tài)變遷的能力。
知識圖譜有哪些用途?
我們這里列舉了一些,主要是人工智能相關(guān)的,因為現(xiàn)在人工智能非;鸨。
第一個就是用來搜索,這也是Google提出知識圖譜的初衷;第二個就是聊天機器人,我相信在坐的各位或多或少都有用過,比如說微軟的小冰,王昊奮老師公司的公子小白;第三個就是用來做問答,有一個貢獻非常大的,就是IBM Watson,這在業(yè)內(nèi)非常有名;然后現(xiàn)在還有很多私人的助理,比如說我們蘋果手機里的Siri,還有微軟的小娜,百度的度秘;同時我們還有很多的穿戴設(shè)備,它里面也用到了知識圖譜相關(guān)的技術(shù),比如iWatch里面就用了;最后一個就是我們出行的助手,國內(nèi)做的非常好的“出門問問”,它也是用了相關(guān)的技術(shù)。
以上是對知識圖譜用途的一個簡單的介紹。
接下來我們來看知識圖譜的第一個應用,也就是知識圖譜提出的初衷——用來改善搜索。
如果我們現(xiàn)在去 Google 搜北京理工大學的時候,我們可以看到右邊有一個知識卡片,它里面包含了北理工的很多基本介紹,同時還有一些基本的屬性,這是知識圖譜用在搜索里面給我們帶來的第一個變化;
如果我們再用百度試一下,很多人搜的時候可能會想,如果要考北京理工大學,大概要多少分,正好這兩天也是高考的時間,現(xiàn)在我們搜的時候可以看到,在不同的區(qū)域,它會根據(jù)你的定位,自動把北理工在當前省份去年、前年和前幾年的一個分數(shù)展示出來,同時我們也可以看到一個地圖,地圖的作用是告訴你北理工在什么地方。
通過知識圖譜,我們在搜索引擎里面可以看到豐富的結(jié)果,在右邊我們可以看到和北理工相關(guān)的高校,以及和北理工相關(guān)的其他一些事物,這就是知識圖譜給我們帶來的搜索的改變。
同時我們還可以看到,在搜索結(jié)果里面,不僅僅是一些結(jié)構(gòu)化的信息,它還有很多關(guān)聯(lián)的關(guān)系。
比如我們?nèi)ニ裇uperCell這家公司,這是一個游戲公司,我們可以看到它的很多相關(guān)聯(lián)信息,比如CEO、母公司、創(chuàng)建地址,它是被騰訊收購的一家創(chuàng)建于荷蘭的公司。
除了在搜索引擎里面,在社交網(wǎng)絡(luò)中也用到了知識圖譜,如果用過Facebook,它就用了知識圖譜的技術(shù)去鏈接里面的人物、地點和事件,正如我們舉的兩個例子:如果去搜喜歡哈佛大學的人,它可以直接給你答案;第二個例子,搜去過哈佛大學的人,它同樣可以給你答案;
這就是在社交網(wǎng)絡(luò)里面的應用。
再看另外一個例子,這個例子更加復雜。
如果你去搜喜歡哈佛大學,喜歡籃球并且在Facebook工作的人,這其實是一個比較復雜的搜索,或者我們可以把它看作一個問答,這也是知識圖譜能夠給我們帶來的改變,也就是你搜的時候直接能夠給你答案。
以上是在通用知識圖譜或者社交網(wǎng)絡(luò)中有這些應用,在行業(yè)中也有類似的使用知識圖譜技術(shù)的產(chǎn)品。
比如金融領(lǐng)域的問財,如果在里面搜“萬科A”,它就會很明確的告訴你,搜索的是一個股票,股票最關(guān)注的就是它最近的波動,問財會自動的把萬科A最近股價波動的曲線給展示出來,同時還會告訴你萬科A是房地產(chǎn)行業(yè)的,并且在右下方推薦房地產(chǎn)相關(guān)行業(yè)的公司。
這是知識圖譜在行業(yè)里面的一些應用。
我們也做了一些探索,在創(chuàng)投知識圖譜,也就是對一些初創(chuàng)企業(yè)的投資信息。比如“嘀嘀打車”,它的公司名叫“北京小桔科技有限公司”,我們?nèi)ニ训臅r候,就會去猜測用戶最關(guān)心什么?
第一個關(guān)心的應該是它的融資事件和歷史,我們會用一個時序的圖把融資的歷史給體現(xiàn)出來;同時對一家初創(chuàng)企業(yè),我們還會關(guān)心它的創(chuàng)始人,創(chuàng)始人有哪些,背景如何?我們會一并展示出來;同時還有一些相關(guān)的熱點事件新聞,這些都是知識圖譜在搜索里面給我們帶來的一些變化。
搜索如果往后再延伸一步的話,就是問答,我們再來看知識圖譜下一個應用場景:
自動問答
自動問答目前也是一個非常熱門的方向,這可能是面向應用最直接的方式,目前不管是學術(shù)界還是工業(yè)界都在做相關(guān)的研究,這里有兩個例子,左邊是百度的度秘,右邊是蘋果的Siri,可以看到自然語言問答的結(jié)果。
現(xiàn)在還有一個比較火的領(lǐng)域就是兒童機器人,這是王昊奮老師上期PPT分享中的一個圖,我們可以看到聊天機器人從10年的時候開始流行,一直到現(xiàn)在已經(jīng)出現(xiàn)了很多具有代表性的產(chǎn)品,其中包含Siri,小冰,IBM Watson,公子小白等。
什么是智能問答?
智能問答是指用戶以自然語言提問的形式提出信息查詢需求,系統(tǒng)依據(jù)對問題的分析,從各種數(shù)據(jù)資源中自動找出準確的答案。
這就是自動問答要做的事情,它的應用可以分為以下幾類:
第一就是情感聊天,典型應用是微軟小冰,公子小白;然后是做私人秘書和個人助理,典型代表就是度秘和Google Allo;還有作為領(lǐng)域知識的問答,比如IBM Watson,在醫(yī)療以及很多其他的領(lǐng)域都有相應的應用;還有很多企業(yè)用來做智能客服,因為客服可能是一個比較枯燥的工作,利用智能客服來代替他們的工作可以省掉很多的人力成本。
我們對知識圖譜問答做一個分類可以分為:
開放領(lǐng)域自動問答,特定領(lǐng)域的自動問答,常用問題集自動問答,我們稱為FAQ。
FAQ在很多場景下面已經(jīng)達到了很好的效果,但是客觀的評價,在開放領(lǐng)域的自動問答還處于一個比較初級的階段,所以現(xiàn)在更多成功的用例是在特定領(lǐng)域里面,特定領(lǐng)域里面我們一般是基于行業(yè)去做,以上是智能問答的一個分類。
智能問答依賴于一些關(guān)鍵的基礎(chǔ)及技術(shù),一般需要大量高質(zhì)量的數(shù)據(jù)和知識庫,這就是我們今天分享的話題,知識圖譜;同時還依賴于強大的NLP技術(shù)的支撐,需要NLP技術(shù)對問題進行解析;同時如果擁有大規(guī)模訓練語料的話就更加好了,因為現(xiàn)在深度學習是一種趨勢。
如果你有大規(guī)模語料,尤其是問答對的話,就可以利用深度學習去提供這種端到端的智能問答。
接下來描繪一下自動問答的基本過程。
從用戶輸入開始,我們的輸入是自然語言,輸入進去以后,第一步會對你的問題進行解析;解析完以后就會去理解你的真實意圖,去猜測你要查的到底是什么東西;然后根據(jù)對你意圖的理解,去查詢和檢索;最后是對查詢和檢索的結(jié)果做一個候選答案的生成和排序;最終再通過一些排序的算法進行最終結(jié)果的輸出。
智能問答現(xiàn)在的方法主要有這么幾類:
第一個是基于信息檢索的方法,第二個是基于語義分析的方法,第三個是基于規(guī)則的專家系統(tǒng)方法,然后是現(xiàn)在研究的比較火的一個基于深度學習的方法。
接下來對幾種方法做一個介紹。
基于信息檢索的方法
這個方法更多的還是和傳統(tǒng)的檢索技術(shù)非常相似,首先利用分詞、命名實體識別等相關(guān)NLP工具去對問句進行解析,得到中間的關(guān)鍵詞,進一步得到實體,得到這些關(guān)鍵詞和實體之后,再去資源庫里進行檢索。
它有個缺點,如果我們做過檢索,或者在百度或Google中檢索過就會發(fā)現(xiàn)一個問題,它要求你的答案必須至少包含問句中的一個字或詞,所以查全率方面相對會比較低。
如果有了知識圖譜以后我們就可以進行改進,可以基于知識圖譜對它進行語義的擴充,當對問句進行分詞、命名實體識別之后,可以從知識圖譜里面去找其它的同義詞,或者實體其它的稱呼,就可以對其進行語義的擴充,去提高它的匹配率。
同時我們做搜索的朋友應該都會遇到一個問題就是消岐的問題,也就是同一個詞或字符串,它代表不同的含義。我們經(jīng)常的舉的一個例子,就是“蘋果”,它可能代表很多東西,可以代表水果,也可以是代表蘋果公司,也可以代表蘋果公司的一些產(chǎn)品,如果通過關(guān)鍵字檢索的話,那么很難對這些結(jié)果進行語義上的區(qū)分,所以有了知識圖譜之后,就可以從實體的角度去理解。
基于語義分析的方法
這個方法非常直觀,它和人的理解非常相似,就是把自然語言的一個問句,按照特定的語法或語言的規(guī)則去進行解析,形成一個語義的表達式,得到這個表達式以后,用這個表達式可以明確的去描繪你的意圖,然后就可以非常方便的轉(zhuǎn)換成為一種查詢語言,這種查詢語言可以是數(shù)據(jù)庫的查詢語言,也可以是其它的查詢語言。這取決于你的數(shù)據(jù),你的查詢目標是放在什么地方。
常用的方法就是利用組合范疇語法(CCG)的方式,這種語法最核心的就是詞匯,首先我們還是離不開自然語言處理去做映射得到詞匯,然后再用語法的規(guī)則把這些詞匯進行語義上的組合,最終得到語義表達式。
這里面是有一個難點的,也就是中文的自然語言分析尤其是語義分析的準確率,很難達到工業(yè)可用的級別,一般通常還是在50%以內(nèi),所以這是語義分析方法很難的一個問題,所以如果我們是面向通用的問答去做,它的準確率比較低,因此通用領(lǐng)域的智能問答還處于一個比較初級的階段。
怎么去改進?同樣可以利用知識圖譜。但是通用的知識圖譜的質(zhì)量并不能保證,所以它很難在通用的領(lǐng)域利用知識圖譜去做很大的改善,所以通常在做的時候,包括我們自己在探索的時候,會在特定的領(lǐng)域里去做。我們會基于知識圖譜里面的實體、屬性、概念去對問題里面的詞或?qū)嶓w進行解析和映射,然后再基于圖結(jié)構(gòu)做一個語法規(guī)則的匹配,這就相當于是圖里面的子圖查詢匹配問題,通過這種方式,我們就可以把語義解析的范圍范疇進行限定,限定范圍以后,因為里面知識足夠多,并且在領(lǐng)域里面,我們通常還是可以構(gòu)建相對可靠的知識圖譜,從而可以得到正確率比較高的解析,最后再去進行檢索,就可以大大改善自動問答的準確率。
基于規(guī)則的專家系統(tǒng)方法
第三種方法可以說是比較無腦的,也就是上世紀80年代用的比較多的。
這種方法它的好處非常明顯,如果你命中的話準確率非常高,基本上可以達到100%,但他的缺陷也很明顯,如果你的問題或應用的領(lǐng)域比較多的話,那么它肯定是不能支持的,因為專家系統(tǒng)的范圍一般比較窄,并且其可擴展性、可復用性也是比較差的,如果要構(gòu)建一個專家系統(tǒng),需要花費很大的精力,這種方式也通常不可復制。
所以缺點就是通用性比較差,不能覆蓋很多應用場景。
基于深度學習的方法
這種最近幾年非常熱的。深度學習,尤其是Alpha Go出來以后,把它推向了一個高峰。近幾年卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)這種相關(guān)的技術(shù)在NLP領(lǐng)域也得到了比較好的應用,并取得了比較好的成果。它主要用來做語言的表示,語言表示就可以擴展到問答里面,就是前面的每一個關(guān)鍵任務(wù),比如在做語言的語義解析的時候,在做問題和答案的匹配、生成的時候,都可以用到。簡單來說就是對用戶的輸入進行解析,對答案檢索查詢環(huán)節(jié)進行優(yōu)化,這是目前用的較多的一種方法。
還有一種使用的方式,就是前面提到的使用深度學習去訓練端到端的自動問答,把問題和答案均使用復雜的特征向量進行描述,然后用深度學習來計算問題和答案之間的相似度,最終給出答案。要實現(xiàn)端到端的自動問答,有一個前提就是需要有大規(guī)模的語料。
這是自動問答的四種方法,知識圖譜在所有的方法里面都是有用的,我們概括一下,知識圖譜可以算是自動問答里面的大腦:
它可以輔助去做用戶輸入的解析,進行語義的擴展;它可以輔助你去理解用戶的意圖,從“字符串”到“實體”,也就是到實體級別的去理解;然后再去進行知識的推理,知識推理之后你不僅可以得到表面的知識,而且可以得到深度的知識;然后它還可以輔助去做答案的生成。
知識推理可以說是問答系統(tǒng)提高“智力”的一個核心環(huán)節(jié),怎么去提高的,等會我們會介紹知識推理相關(guān)的一些技術(shù)。
這是我們在智能問答里面的一些探索,可以說是基于語義解析的一種自動問答,我們主要還是應用在行業(yè)里面,從用戶輸入開始,我們會基于知識圖譜對概念、實體、屬性以及一些相關(guān)的運算符,進行分詞匹配,然后把它與知識圖譜里面的元素進行映射;接下來一步就是做語義的解析和驗證,知識圖譜的結(jié)構(gòu)性特別強,所以我們在做語義理解解析的時候,可以用知識圖譜這種圖結(jié)構(gòu)去輔助進行理解。
在語義解析和驗證這個環(huán)節(jié)里面,我們應用了知識圖譜的結(jié)構(gòu),比如說實體和屬性的鏈接、實體和實體之間的鏈接,都是代表語義上面的一些含義。
做完語義解析以后,接下來就是做查詢的轉(zhuǎn)換,知識圖譜是存在相應的圖存儲里面,對其做相應的查詢轉(zhuǎn)換非常方便;最后再去數(shù)據(jù)的資源里面去進行查詢,最終返回結(jié)果。
右邊是我們在海洋知識圖譜里面做的一個應用的案例,這個例子是我們在查最大的三種魚,首先我們對問題進行實體的解析,其次再去進行語義的解析,然后再去進行查詢,最終給出答案。
以上我們自己在基于語義解析的自動問答系統(tǒng)里面做的一些探索。
剛剛把知識圖譜最常用的兩個應用場景做了一個簡單的描述:一個是搜索,一個是自動問答。
接下來我們對知識圖譜應用相關(guān)的一些技術(shù)做一個描述。
知識圖譜的應用技術(shù)今天主要分享三類:
圖挖掘和圖計算;可視化;知識推理。
知識圖譜之上的圖挖掘和計算
有這么一些算法:
第一個是圖遍歷,知識圖譜構(gòu)建完之后可以理解為是一張很大的圖,怎么去查詢遍歷這個圖,要根據(jù)圖的特點和應用的場景進行遍歷;第二個就是圖里面經(jīng)典的算法,最短路徑;第三個是路徑的探尋,即給定兩個實體或多個實體去發(fā)現(xiàn)他們之間的關(guān)系;第四個是權(quán)威節(jié)點的分析,這在社交網(wǎng)絡(luò)分析中用的比較多;第五個是族群分析;第六個是相似節(jié)點的發(fā)現(xiàn)。
圖的遍歷
圖的遍歷大家都知道有兩種方法,一個是廣度優(yōu)先遍歷,一個是深度優(yōu)先遍歷,這個我們就不詳細去說了。這里舉了一個例子,對于下面這個圖,分別用廣度優(yōu)先遍歷和深度優(yōu)先遍歷查詢的結(jié)果。
最短路徑
最短路徑分為幾個場景,第一個是單源最短路徑,簡單的解釋下就是從一個點出發(fā),去求它到其他所有節(jié)點的最短路徑。
Dijkstra是圖論里經(jīng)典的算法,算法雖然比較經(jīng)典,但是在現(xiàn)實中間應該說應用場景是比較少的,比如在社交網(wǎng)絡(luò)里面,我們很少去求一個人到其他所有人的最短路徑,這個應用的含義不大。
第二個就是每對節(jié)點之間的最短路徑,這同樣也有一個非常經(jīng)典的Floyd算法,這個應用場景也比較少,社交網(wǎng)絡(luò)中間也很少查任意兩個人之間的最短路徑。
我們舉一個最常見的應用場景,也就是給出兩個節(jié)點,找他們之間的最短路徑,這個應用場景就比較多了,在社交網(wǎng)絡(luò)中兩個人,你可能要計算通過幾步他們之間會有關(guān)聯(lián)。
在我們的應用場景中間也非常多,比如說在我們的企業(yè)知識圖譜里面,給定兩個公司,要去查他們之間到底有沒有關(guān)系?幾步里面有關(guān)系?這就是一個典型的應用場景。
路徑探尋
剛剛我們把這個圖用來做最短路徑,還可以給定兩個節(jié)點,去看他們之間不僅僅是最短路徑,可以查兩個企業(yè)之間5步以內(nèi)到底有哪些關(guān)系,這就是路徑探尋算法,也就是給定兩個或多個節(jié)點,探尋它們特定步驟里面到底有多少關(guān)系,有哪些路徑。
這是兩個節(jié)點,多個節(jié)點也是同樣的,比如說在我們的創(chuàng)投知識圖譜里面,我們?nèi)ゲ轵v訊、百度、阿里共同投資了哪些公司,這就可以把它轉(zhuǎn)換成一個路徑探尋的算法,也就是給定這三個公司,我們?nèi)タ纯刺囟ǖ牟襟E里面,它們有哪些路徑關(guān)系,不管是直接投資還是間接投資,到底有哪些共同的投資。
權(quán)威節(jié)點的分析
先看應用場景,做過社交網(wǎng)絡(luò)分析的人應該都知道,里面有個很常見的應用場景就是社交網(wǎng)絡(luò)里的權(quán)威人物分析,也就是在社交網(wǎng)絡(luò)里面哪些人是比較有權(quán)威的,有權(quán)威并不代表說他粉絲多就有權(quán)威,可能有些人,他在特定的領(lǐng)域里面有權(quán)威。
定義一下,在知識圖譜的網(wǎng)絡(luò)中間,怎么去分析節(jié)點的權(quán)威度,找到里面的權(quán)威節(jié)點,這里面算法就比較多,經(jīng)典的算法就是我們搜索里面的Page Rank,它簡單的說就是用一種相互投票的機制,最后去決定每個節(jié)點的權(quán)威度。
還有一種是基于節(jié)點的屬性以及節(jié)點之間關(guān)系的一種多特征方法,知識圖譜對每個節(jié)點既有自己的屬性,同時還有和其他節(jié)點之間的關(guān)聯(lián),我們可以把節(jié)點屬性和關(guān)系結(jié)合起來,形成一種多特征的評估方法。
在創(chuàng)投領(lǐng)域知識圖譜里面,一個應用場景就是去找到里面的權(quán)威投資機構(gòu),同時還會去找到哪些是有潛力的創(chuàng)新獨角獸公司。
族群的發(fā)現(xiàn)算法
還是先看應用場景,在社交網(wǎng)絡(luò)中,我們不僅僅是對個人感興趣,還會想知道在網(wǎng)絡(luò)中,有哪些小的群體。
在社交網(wǎng)絡(luò)中存在一些主題的社區(qū),存在對特定領(lǐng)域感興趣的群體,就像我們大家對知識圖譜感興趣一樣,我們要在社交網(wǎng)絡(luò)中找到對知識圖譜感興趣的這些人物,這就是族群發(fā)現(xiàn)算法的一個應用場景。
簡單描述一下,它就是從知識圖譜的網(wǎng)絡(luò)中間發(fā)現(xiàn)在一個或者多個角度相似節(jié)點的族群,做法也比較多,這里我們列出兩個算法,第一個是圖里面經(jīng)典的最大流算法,還有一個和剛剛在計算權(quán)威節(jié)點時使用的方法類似,就是基于節(jié)點的屬性和節(jié)點之間的關(guān)系形成多特征去進行聚類,從而找到里面的群體。
在企業(yè)知識圖譜里面,我們可以去找到全國幾千萬企業(yè)里面的阿里系、騰訊系,也就是哪些是阿里投資的,阿里感興趣的一些公司。
相似節(jié)點的發(fā)現(xiàn)算法
我們在做企業(yè)知識圖譜的時候,比如一家企業(yè)他已經(jīng)有一些客戶了,他可能還希望找到相似的客戶,那么我們就可以去找到和他現(xiàn)有客戶相似的一些客戶,這就是相似節(jié)點發(fā)現(xiàn)的一個應用場景。
從海量的知識圖譜中間去尋找和已知節(jié)點相似的節(jié)點,方法有三種:
第一個就是基于節(jié)點的屬性去查,比如說對于企業(yè),就可以根據(jù)企業(yè)產(chǎn)品的領(lǐng)域去找;我們還可以根據(jù)節(jié)點間的關(guān)系去計算,因為關(guān)系代表了一定的特征,所以我們可以通過這種關(guān)系,比如說兩個節(jié)點之間的關(guān)系圖非常相似,那么也代表一定程度的相似;還可以用混合的方式,把節(jié)點的屬性和節(jié)點的關(guān)系一起去使用。
我們做的一個應用場景,就是在專利知識圖譜里面去尋找相似的專利。
知識圖譜的可視化
可視化應該說很好理解,這里我引用了維基百科里的定義:可視化是利用計算機圖形學和圖像處理的相關(guān)技術(shù),將數(shù)據(jù)知識和信息變成圖形或圖像在屏幕上展示,同時還有一個概念就是要和用戶進行交互。
它里面包含了兩層含義,第一個就是要轉(zhuǎn)化成圖像,第二個就是交互,這個含義到現(xiàn)在說已經(jīng)有點過時了,現(xiàn)在不僅僅是計算機,很多其他移動化的設(shè)備都有可視化的需求。
可視化我們看下它的三大功能:
第一個是做信息的記錄,它不僅僅是做信息的呈現(xiàn),也可以做信息的記錄;同時它支持對信息的推理和分析,如果我們把可視化做的好,可以從數(shù)據(jù)的可視化里面找到很多關(guān)系規(guī)律,從而進行一定的推理和分析;最后可以做信息的傳播和協(xié)同,這是知識圖譜可視化的定義和功能。
我們知道有一個模型,叫DIKW,也就是數(shù)據(jù)、信息、知識,再到智慧。這個模型我們應該非常熟悉,從底層的數(shù)據(jù)開始進行一定的提煉,形成信息,然后再進行抽取形成知識,在知識上面可以做很多的應用,比如說推理,比如說現(xiàn)在的人工智能,這就是智慧。
定義到可視化里面,我們也可以這樣去分類,從數(shù)據(jù)的可視化,到信息的可視化,再到知識的可視化,當然最后面是智慧的可視化,這個就更加抽象,更加困難,這個我們今天就不去表述。
先看數(shù)據(jù)可視化,有哪些類型的數(shù)據(jù),第一個就是記錄型的數(shù)據(jù),使用過關(guān)系型數(shù)據(jù)庫就會很清楚,里面有很多記錄型的數(shù)據(jù);然后還有關(guān)系型的數(shù)據(jù),就像我們的知識圖譜,它是一種關(guān)系密集型的數(shù)據(jù);然后還有時態(tài)數(shù)據(jù)、空間數(shù)據(jù)。
什么是數(shù)據(jù)可視化,這個定義比較理論化,對于數(shù)據(jù)可視化不用我們?nèi)ミM行解釋,大家應該都知道,就是把數(shù)據(jù)里面的一些信息、含義,怎么去用一種形式去進行抽象、提取,形成信息然后用相應的屬性、變量去進行描繪,這是數(shù)據(jù)可視化。
數(shù)據(jù)可視化里面有很多理論的研究和技術(shù),今天由于時間關(guān)系,我不去詳細的介紹,大家感興趣的話可以去看浙大陳為教授的《數(shù)據(jù)可視化》,對整個可視化做了非常詳細的剖析。
然后是信息的可視化和知識的可視化,應該說信息和知識的可視化在一定程度上很難去進行直接的區(qū)分,因為信息和知識沒有嚴格的界限。信息可視化是研究大規(guī)模非數(shù)值信息資源的呈現(xiàn),這里面主要的目標就是幫助人去理解和分析數(shù)據(jù)。
知識可視化主要用來傳達和表示復雜知識的圖像,用圖像圖形的手段去表達,其主要目標是用來做知識的傳輸和傳遞,幫助其他人去正確的重構(gòu)、記憶和應用知識。
接下來我們看一下在做知識可視化的時候有哪些常見的形式,我這里列出來的只是一部分,比如說在知識圖譜里面我們有概念和概念的層次,一種直觀的方式就是用概念的層次圖去進行知識的可視化,第二種就是用思維導圖的形式,同時我們還可以去做認知的地圖,最后可以用語義網(wǎng)絡(luò)的方式,知識圖譜就是用這種原生態(tài)的語義網(wǎng)絡(luò)形式進行描述的。
責編:科普知識網(wǎng)