智能時(shí)代從基于明確規(guī)則與特定領(lǐng)域的“計(jì)算智能”,到語(yǔ)音、圖像、視頻識(shí)別預(yù)處理的“感知智能”,再到具備理解、推理和解釋的“認(rèn)知智能”,難度價(jià)值越來(lái)越大。而隨著數(shù)據(jù)紅利消耗殆盡,以深度學(xué)習(xí)為代表的感知智能遇到天花板,認(rèn)知智能將是未來(lái)一段時(shí)期內(nèi)AI發(fā)展的焦點(diǎn),是進(jìn)一步釋放AI產(chǎn)能的關(guān)鍵。認(rèn)知智能應(yīng)用需求廣泛多樣:精準(zhǔn)分析、智慧搜索、智能推薦、智能解釋、自然人機(jī)交互、深層關(guān)系推理等,需要對(duì)傳統(tǒng)信息化手段的全面而徹底的革新,以解放人類腦力,顯著提高機(jī)器生產(chǎn)力。知識(shí)圖譜是實(shí)現(xiàn)認(rèn)知智能的關(guān)鍵技術(shù), 是實(shí)現(xiàn)機(jī)器認(rèn)知智能的使能器 知識(shí)圖譜知識(shí)圖譜,作為一種語(yǔ)義網(wǎng)絡(luò),是大數(shù)據(jù)時(shí)代知識(shí)表示的重要方式之一;作為一種技術(shù)體系,是大數(shù)據(jù)時(shí)代知識(shí)工程的代表性進(jìn)展 機(jī)器理解數(shù)據(jù)的本質(zhì)是建立從數(shù)據(jù)到知識(shí)庫(kù)中實(shí)體、概念、關(guān)系的映射;機(jī)器解釋現(xiàn)象的本質(zhì)是利用知識(shí)庫(kù)中實(shí)體、概念、關(guān)系解釋現(xiàn)象的過(guò)程 知識(shí)是人類在認(rèn)識(shí)和改造客觀世界的過(guò)程中總結(jié)出的客觀事實(shí)、概 念、定理和公理的集合 起源與發(fā)展 知識(shí)圖譜始于20世紀(jì)50年代,至今大致分為三個(gè)發(fā)展階段
知識(shí)圖譜發(fā)展歷史 知識(shí)圖譜主要技術(shù) 知識(shí)圖譜技術(shù)架構(gòu)圖
知識(shí)獲取示意圖 通過(guò)知識(shí)抽取技術(shù)從不同來(lái)源、不同結(jié)構(gòu)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)的數(shù)據(jù)中提取計(jì)算機(jī)可理解和計(jì)算的結(jié)構(gòu)化數(shù)據(jù),形成知識(shí)存儲(chǔ)到知識(shí)圖譜中。當(dāng)前,獲取知識(shí)主要針對(duì)文本數(shù)據(jù)進(jìn)行,按照抽取對(duì)象的不同可分為:實(shí)體抽取、關(guān)系抽取、屬性抽取和事件抽取。通常有以下四種方式:眾包法、爬蟲(chóng)、機(jī)器學(xué)習(xí)、專家法
知識(shí)是人類在認(rèn)識(shí)和改造客觀世界的過(guò)程中總結(jié)出的客觀事實(shí)、概念、定理和公理的集合。知識(shí)表示是將現(xiàn)實(shí)世界中存在的知識(shí)轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別和處理的內(nèi)容,是一種描述知識(shí)的數(shù)據(jù)結(jié)構(gòu),用于對(duì)知識(shí)的一種描述或約定,也是知識(shí)圖譜研究中知識(shí)獲取、融合、建模、計(jì)算與應(yīng)用的基礎(chǔ)。知識(shí)表示方法主要分為
針對(duì)知識(shí)圖譜的知識(shí)表示形式設(shè)計(jì)底層存儲(chǔ)方式,完成各類知識(shí)的存儲(chǔ),以支持對(duì)大規(guī)模圖數(shù)據(jù)的有效管理和計(jì)算。知識(shí)存儲(chǔ)黨的對(duì)象包括:基本屬性知識(shí)、關(guān)聯(lián)知識(shí)、事件知識(shí)、時(shí)序知識(shí)和資源知識(shí)等。知識(shí)存儲(chǔ)方式的質(zhì)量直接影響到知識(shí)圖譜中知識(shí)查詢、知識(shí)計(jì)算及知識(shí)更新的效率 知識(shí)存儲(chǔ)方式 知識(shí)存儲(chǔ)方式和工具
知識(shí)建模是指建立知識(shí)圖譜的數(shù)據(jù)模型,即采用什么樣的方式來(lái)表達(dá)知識(shí),構(gòu)建一個(gè)本體模型對(duì)知識(shí)進(jìn)行描述。在本體模型中需要構(gòu)建本體的概念,屬性以及概念之間的關(guān)系。一般有自頂向下和自底向上兩種途徑 建模方法
手工建模方式 2.半自動(dòng)建模方式 半自動(dòng)建模方式先通過(guò)自動(dòng)方式獲取知識(shí)圖譜,然后進(jìn)行大量的人工干預(yù)過(guò)程。運(yùn)用自然語(yǔ)言處理技術(shù)先自動(dòng)建模的方法可以分為三大類:基于結(jié)構(gòu)化數(shù)據(jù)的知識(shí)建模方法,基于半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)建模方法和基于非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)建模方法 半自動(dòng)建模方式
知識(shí)融合是知識(shí)組織與信息融合的交叉學(xué)科,它面向需求和創(chuàng)新,通過(guò)對(duì)眾多分散、異構(gòu)資源上知識(shí)的獲取、匹配、集成、挖掘等處理,獲取隱含的或有價(jià)值的新知識(shí),同時(shí)優(yōu)化知識(shí)的結(jié)構(gòu)和內(nèi)涵,提供知識(shí)服務(wù) 知識(shí)融合概念分解
知識(shí)計(jì)算概念
知識(shí)運(yùn)維是指在知識(shí)圖譜初次構(gòu)建完成之后,根據(jù)用戶的使用反饋、不斷出現(xiàn)的同類型知識(shí)以及增加的新的知識(shí)來(lái)源進(jìn)行全量行業(yè)知識(shí)圖譜的演化和完善的過(guò)程,運(yùn)維過(guò)程中需要保證知識(shí)圖譜的質(zhì)量可控及逐步的豐富衍化。知識(shí)圖譜的運(yùn)維過(guò)程是個(gè)工程化的體系,覆蓋了知識(shí)圖譜的從知識(shí)獲取至知識(shí)計(jì)算等的整個(gè)生命周期。知識(shí)圖譜的運(yùn)維包括兩個(gè)方面的關(guān)注點(diǎn): 一個(gè)是從數(shù)據(jù)源方面的基于增量數(shù)據(jù)的知識(shí)圖譜的構(gòu)建過(guò)程監(jiān)控,另一個(gè)是通過(guò)知識(shí)圖譜的應(yīng)用層發(fā)現(xiàn)的知識(shí)錯(cuò)誤和新的業(yè)務(wù)需求 知識(shí)運(yùn)維 知識(shí)圖譜存在的挑戰(zhàn)1.數(shù)據(jù)相關(guān)的挑戰(zhàn) 數(shù)據(jù)是知識(shí)圖譜的基石,其數(shù)據(jù)來(lái)源主要有兩種:自有數(shù)據(jù)(自身采集或擁有)和外源數(shù)據(jù)(網(wǎng)絡(luò)爬蟲(chóng)、開(kāi)放共享或從數(shù)據(jù)交易所獲取)。在實(shí)際應(yīng)用中,多源數(shù)據(jù)的歧義、噪聲大、數(shù)據(jù)關(guān)聯(lián)性不明確等缺陷 2.算法相關(guān)的挑戰(zhàn) 知識(shí)圖譜系統(tǒng)從獲取、建模、融合、計(jì)算等各個(gè)環(huán)節(jié)均涉及不同的算法,目前個(gè)步驟所用到的算法根據(jù)現(xiàn)狀和需求不同存在不同挑戰(zhàn)。主要體現(xiàn)在:算法泛化能力差、算法魯棒性差、算法多樣化,缺乏統(tǒng)一的評(píng)測(cè)指標(biāo)、算法可解釋性、基礎(chǔ)知識(shí)庫(kù)融合挑戰(zhàn)、垂直領(lǐng)域知識(shí)庫(kù)構(gòu)建挑戰(zhàn)、基礎(chǔ)知識(shí)庫(kù)不愿開(kāi)放的挑戰(zhàn)、貫穿知識(shí)圖譜全生命周期的平臺(tái)缺失、基于文本的知識(shí)圖譜構(gòu)建工具性能弱、隱私安全和倫理相關(guān)的挑戰(zhàn)、測(cè)試評(píng)估及商業(yè)模式等方面的挑戰(zhàn) 小結(jié)從感知到認(rèn)知,是個(gè)必然事件,而知識(shí)圖譜相當(dāng)于計(jì)算機(jī)的大腦,是認(rèn)知計(jì)算的關(guān)鍵組成部分。智能認(rèn)知領(lǐng)域是下一個(gè)待突破的方向,前景可期 參考文獻(xiàn)《知識(shí)圖譜標(biāo)準(zhǔn)化白皮書(shū)2019》 |
|