一、深度學(xué)習(xí)和知識圖譜的缺陷
人工智能經(jīng)歷了幾番沉浮,迎來了第三次發(fā)展浪潮,當(dāng)前取得的進(jìn)展突出體現(xiàn)在:以知識圖譜為代表的知識工程和以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域的發(fā)展。
1、深度學(xué)習(xí)
深度學(xué)習(xí)作為一種結(jié)合了統(tǒng)計機(jī)器學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的新學(xué)習(xí)方法,其與傳統(tǒng)模式識別方法的最大不同在于,它能夠利用深度神經(jīng)網(wǎng)絡(luò)從海量數(shù)據(jù)中自動學(xué)習(xí)有效的層次化特征表示。得益于大規(guī)模標(biāo)注數(shù)據(jù),目前深度學(xué)習(xí)在語音識別、圖像識別等領(lǐng)域取得了優(yōu)異效果,然而在某些方面仍存在著局限性,主要表現(xiàn)在:
01 對數(shù)據(jù)的強(qiáng)依賴:—深度學(xué)習(xí)需要大量標(biāo)注數(shù)據(jù)來訓(xùn)練才能達(dá)到較好的泛化能力,數(shù)據(jù)量的大小直接影響深度學(xué)習(xí)模型的推理效果。但在很多實(shí)際應(yīng)用場景中,我們難以找到充足的高質(zhì)量訓(xùn)練數(shù)據(jù)。另一方面,用于訓(xùn)練深度學(xué)習(xí)模型的數(shù)據(jù)需要耗費(fèi)大量的人力進(jìn)行收集和標(biāo)注,且手動標(biāo)注的信息具有一定的局限性。
02 缺乏對常識的學(xué)習(xí):—人工智能的知識表示包括專業(yè)知識與常識知識。常識是指人類在生活中總結(jié)出來的科學(xué)知識,當(dāng)人類遇到新情況時,能夠通過既有的常識來推測和判斷。而神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的本質(zhì)是對相關(guān)性的挖掘和記憶,缺乏推理能力和抽象能力。這一缺陷使其在面對新情況時無法像人類一樣擁有“舉一反三”的能力。
03 缺乏可解釋性:—深度學(xué)習(xí)模型是一種端到端的學(xué)習(xí),輸入的是原始數(shù)據(jù)(始端),輸出的直接是最終目標(biāo)(末端),中間的學(xué)習(xí)和預(yù)測過程不可知。類似一個黑箱(Black Box)系統(tǒng),其推理效果很好,卻不知道為何好,這也大大制約了深度學(xué)習(xí)的應(yīng)用推廣。比如在投資領(lǐng)域,不可解釋的投資相當(dāng)于投機(jī)。
2、知識圖譜
知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),表達(dá)了各類實(shí)體、概念及其之間的語義關(guān)系。相對于傳統(tǒng)知識表示形式,知識圖譜具有實(shí)體/概念覆蓋率高、語義關(guān)系多樣、結(jié)構(gòu)友好以及質(zhì)量較高等優(yōu)勢,日益成為人工智能時代最為主要的知識表示方式。然而,目前的知識圖譜應(yīng)用還處在初期的階段,其落地難點(diǎn)主要有以下幾方面:
01 高質(zhì)量圖譜構(gòu)建難題:—知識圖譜的構(gòu)建是整個應(yīng)用鏈條的第一步,圖譜構(gòu)建的質(zhì)量直接決定了上層應(yīng)用的效果。由于各種原因,數(shù)據(jù)大部分以非結(jié)構(gòu)化形式存儲,而面向非結(jié)構(gòu)化數(shù)據(jù)的知識抽取在準(zhǔn)確度、完整度等方面面臨技術(shù)挑戰(zhàn)。
02 依賴專家經(jīng)驗:—知識圖譜本質(zhì)是一種知識的組織形式,本身不具備學(xué)習(xí)能力,圖譜的構(gòu)建涉及到了大量的人工設(shè)計和人力勞動,特別是行業(yè)知識圖譜尤其依賴領(lǐng)域從業(yè)人員對業(yè)務(wù)邏輯的精準(zhǔn)梳理。因此,知識的爆炸式增長對知識圖譜構(gòu)建的可移植性、可擴(kuò)展性均提出更高要求。
03 覆蓋率制約應(yīng)用表現(xiàn):—知識圖譜構(gòu)建的目的不僅在于數(shù)據(jù)的可視化,還需要賦予業(yè)務(wù)信息在實(shí)際應(yīng)用場景中的可計算能力,但當(dāng)前知識圖譜普遍存在覆蓋率低、數(shù)據(jù)稀疏和更新緩慢等問題,限制了知識圖譜分析挖掘優(yōu)勢的發(fā)揮和落地效果。 綜合來看,深度學(xué)習(xí)與知識圖譜在技術(shù)本身與應(yīng)用落地方面均存在一定缺陷,許多結(jié)合二者優(yōu)勢的新方法隨之而生。
二、認(rèn)知中臺在策略推演領(lǐng)域的應(yīng)用
中臺的核心價值在于對資源整合運(yùn)用效率的最大化。構(gòu)建中臺來支撐業(yè)務(wù)銜接,不僅能夠幫助實(shí)現(xiàn)AI技術(shù)的可落地方案,更能夠?qū)崿F(xiàn)能力的復(fù)用,取得規(guī)?;?yīng)。
在策略推演領(lǐng)域,以分布式圖存儲為基礎(chǔ),集成圖計算與可視化分析引擎的認(rèn)知中臺,能夠幫助挖掘、發(fā)現(xiàn)、推演出相關(guān)隱藏知識或跨領(lǐng)域新知識,促進(jìn)決策推薦的準(zhǔn)確性和及時性,提升對策略推演過程及結(jié)果的可解釋性。在金融營銷與風(fēng)控、金融量化投資、軍事兵棋推演等領(lǐng)域有廣闊的應(yīng)用前景。
1、金融營銷與風(fēng)控
眾所周知,金融行業(yè)兩大核心業(yè)務(wù)是:營銷和風(fēng)控,兩者的核心都是基于數(shù)據(jù)對客戶行為進(jìn)行分析和對未來場景變化進(jìn)行預(yù)判。傳統(tǒng)的數(shù)據(jù)分析技術(shù)建立在關(guān)系型數(shù)據(jù)庫基礎(chǔ)上,難以發(fā)現(xiàn)數(shù)據(jù)間的多層級的“隱性關(guān)系”。 利用知識圖譜可以將金融領(lǐng)域內(nèi)所有實(shí)體(包括:公司、人物、地名、產(chǎn)品、資訊、研報、事件等)和關(guān)系(股權(quán)關(guān)系、競爭關(guān)系、對外投資等)用圖的形式進(jìn)行表達(dá),形成一個“金融多關(guān)系圖”,從而幫助金融從業(yè)人員從事件、空間等多維度更好的分析客戶交易行為,有助于建立客戶畫像,進(jìn)行精準(zhǔn)營銷。 其次,圖數(shù)據(jù)庫、圖挖掘、圖計算模型等技術(shù)特別適用于復(fù)雜關(guān)系網(wǎng)絡(luò)下的賬戶關(guān)聯(lián)關(guān)系挖掘及資金交易流轉(zhuǎn)追蹤,能夠幫助發(fā)現(xiàn)傳統(tǒng)風(fēng)控場景下無法發(fā)現(xiàn)的包括信用卡套現(xiàn)、團(tuán)伙騙貸、跨境洗錢等復(fù)雜多變的欺詐風(fēng)險行為。
2、金融量化投資
近年來,以追求絕對收益為目標(biāo)的量化對沖投資策略以其風(fēng)險低、收益穩(wěn)定的特性,成為機(jī)構(gòu)投資者的主要投資策略之一。簡單來說,量化投資就是用機(jī)器構(gòu)建一個框架,在這個框架下做交易。運(yùn)用機(jī)器學(xué)習(xí)技術(shù)可以有效地找到數(shù)據(jù)之間的關(guān)系,并使用它來預(yù)測或分類新數(shù)據(jù),成為量化投資框架構(gòu)建的新的有效策略。 其次,利用知識圖譜對影響投資的事件進(jìn)行實(shí)體和關(guān)系抽取,比如公司與公司相關(guān)的股票信息等實(shí)體,比如可能影響股票交易價格行為(管理層變動、新品發(fā)布等)的事件,構(gòu)建金融量化投資知識圖譜,再通過大量表示學(xué)習(xí)方法,將知識圖譜中的實(shí)體和關(guān)系轉(zhuǎn)化為高維連續(xù)向量,輸入到深度學(xué)習(xí)模型中,使其學(xué)習(xí)每個事件在發(fā)生后給市場帶來的影響,能夠進(jìn)一步提升金融量化投資策略的實(shí)戰(zhàn)效果。
3、軍事兵棋推演
隨著信息化技術(shù)在現(xiàn)代戰(zhàn)爭中的應(yīng)用,一體化聯(lián)合作戰(zhàn)已經(jīng)成為現(xiàn)代戰(zhàn)爭的主要作戰(zhàn)樣式,戰(zhàn)場要素不斷增多,戰(zhàn)場范圍呈現(xiàn)出全球化的趨勢。這一背景下的兵棋推演系統(tǒng)面臨著推演要素不斷增多、推演范圍不斷擴(kuò)大的挑戰(zhàn)。 兵棋推演的核心是在人機(jī)協(xié)同環(huán)境中的不完全信息下的動態(tài)博弈和實(shí)時對抗,鑒于兵棋推演中規(guī)則和計算等方面的復(fù)雜性,運(yùn)用人工智能系統(tǒng),能夠更加快速準(zhǔn)確的進(jìn)行態(tài)勢分析和戰(zhàn)略決策,并最大程度的減少錯誤的發(fā)生。 在推演時,兵棋推演系統(tǒng)自動搜集戰(zhàn)場態(tài)勢數(shù)據(jù),記錄每個作戰(zhàn)單位的屬性,作戰(zhàn)半徑、攻擊力、前進(jìn)速度、掩護(hù)的使用情況、從屬關(guān)系等,并通過收集到的戰(zhàn)場態(tài)勢信息,在模擬對抗中學(xué)習(xí)戰(zhàn)術(shù)規(guī)則、獲取作戰(zhàn)經(jīng)驗并優(yōu)化策略,進(jìn)而進(jìn)行戰(zhàn)前態(tài)勢分析、科學(xué)化制定作戰(zhàn)方案以及提升作戰(zhàn)過程中的實(shí)時決策能力和突發(fā)情況應(yīng)急能力。
三、什么是兵棋推演
如果你清楚你的問題,你不需要兵棋推演;當(dāng)你不知道如何應(yīng)對不確定復(fù)雜局勢時,你可能需要兵棋推演。
——《海灣打擊》兵棋設(shè)計者,馬克.赫爾曼
兵馬未動,兵棋先行。利用戰(zhàn)爭模擬系統(tǒng)來推演戰(zhàn)爭,就是兵棋推演。從軍事游戲到沙盤模擬,再到錯綜復(fù)雜的計算機(jī)程序,兵棋推演在模擬真實(shí)戰(zhàn)爭、輔助指揮決策方面的作用日益突出,已經(jīng)發(fā)展成為現(xiàn)代戰(zhàn)爭的關(guān)鍵環(huán)節(jié)。
據(jù)悉,美軍在伊拉克戰(zhàn)爭中的作戰(zhàn)經(jīng)過與戰(zhàn)前的兵棋推演結(jié)果高度相似;擊斃本·拉登的過程也已在五角大樓的兵棋推演系統(tǒng)上演習(xí)過無數(shù)遍;以日本為藍(lán)軍進(jìn)行了數(shù)百次兵棋推演,也為美軍扭轉(zhuǎn)珍珠港事件后的不利局面奠定了基礎(chǔ)。
隨著現(xiàn)代戰(zhàn)爭的規(guī)模逐漸擴(kuò)大,陸、海、空、天、電磁等不同戰(zhàn)場相互混合交織,各軍兵種協(xié)同配合日益復(fù)雜,兵棋推演的重要性也越來越受到重視。美國陸軍指揮總參學(xué)院、Lemay中心、美國國防大學(xué)、美國研究生院、美國海軍軍事學(xué)院的章程中都或多或少明確了兵棋推演的這一用途。
另一方面,計算機(jī)技術(shù)的興起,將傳統(tǒng)沙盤上的兵棋推演進(jìn)一步轉(zhuǎn)化為嚴(yán)謹(jǐn)?shù)亩M(jìn)制計算并在屏幕上直觀呈現(xiàn)。結(jié)合科學(xué)技術(shù)的大型兵棋推演系統(tǒng)將在信息化戰(zhàn)爭模擬對抗中發(fā)揮著更加重要的作用。
四、 AlphaWar :一個同時具備常識、指揮藝術(shù)和實(shí)時智能的兵棋推演/作戰(zhàn)指揮平臺)
作戰(zhàn)指揮是一個集裝備體系、作戰(zhàn)環(huán)境、指揮藝術(shù)和智能研判等多學(xué)科多任務(wù)的綜合策略型活動,兵棋推演則是對戰(zhàn)爭全過程進(jìn)行仿真、模擬與推演,是一次微型版的作戰(zhàn)指揮過程。
許多大型即時策略游戲也具備類似的特性。以暴雪的《星際爭霸II》為例,其復(fù)雜度介于兵棋推演、實(shí)際戰(zhàn)場作戰(zhàn)指揮中間,具體比較如下:
雖然復(fù)雜度有所差異,但兵棋推演、實(shí)際戰(zhàn)場、星際爭霸II三者的核心本質(zhì)都是即時策略推演類型,都是先驗知識和即時智能的綜合應(yīng)用。 淵亭科技多年來一直致力于知識圖譜和自學(xué)習(xí)體系平臺的研究和應(yīng)用,特別是近幾年在國防、金融、安全等領(lǐng)域的多個大型實(shí)戰(zhàn)項目中抽象出多個通用認(rèn)知智能引擎和組件。
戰(zhàn)略推演平臺是淵亭科技關(guān)于常識、行業(yè)先驗圖譜、態(tài)勢感知、即時研判等綜合智能應(yīng)用自動化的探索思考,應(yīng)用場景包括國防作戰(zhàn)指揮、反恐怖、經(jīng)濟(jì)犯罪偵查、投資交易等。
我們以復(fù)雜度中等的《星際爭霸II》作為研究目標(biāo),利用知識圖譜和強(qiáng)化學(xué)習(xí)等技術(shù),設(shè)計一個可以設(shè)計擊敗對手策略AI的自動化平臺——AlphaWar。
今天,我們一起來揭開這個淵亭科技神秘在研產(chǎn)品的面紗。
AlphaWar以行業(yè)先驗圖譜為基礎(chǔ)、策略編輯器作為主體、多智能體策略網(wǎng)絡(luò)為核心思想,包含以下核心組件:
1、決策控制:—包含一些跨領(lǐng)域通用的決策控制組件,例如最優(yōu)路徑搜索、目標(biāo)識別等。
2、戰(zhàn)術(shù)體系:—可以是人類經(jīng)驗驗證過的戰(zhàn)術(shù)(類似指揮藝術(shù)),也可以是AI訓(xùn)練得到的模式(例如世界頂尖星際玩家的對戰(zhàn)訓(xùn)練結(jié)果)。戰(zhàn)術(shù)體系是一個完整的操作序列,涉及游戲中所有的單位及其行為,戰(zhàn)術(shù)體系對外只暴露戰(zhàn)術(shù)核心參數(shù)。
3、智能體:在本系統(tǒng)中,智能體的定義是:某個單位(可以是作戰(zhàn)單位、建筑等)在某個場景(也可以是所有場景)下面向特定目標(biāo)的最優(yōu)解。例如,星靈機(jī)械哨兵的力場時機(jī)和位置。這個是可以大量應(yīng)用強(qiáng)化學(xué)習(xí)訓(xùn)練的地方。
4、先驗圖譜:先驗圖譜是站在巨人肩膀上的關(guān)鍵,由于目前深度學(xué)習(xí)相關(guān)技術(shù)的局限性,完全零先驗比較天方夜譚。對于《星際爭霸II》或軍事實(shí)戰(zhàn)指揮來說,先驗圖譜包括戰(zhàn)場環(huán)境(基本信息)、敵我雙方裝備體系(不完備信息)、戰(zhàn)術(shù)體系等。
當(dāng)然,除了這些核心組件還有各種態(tài)勢感知、作戰(zhàn)控制(單兵、群體協(xié)作等)等組件,所有的組件都可以以知識表示、專家系統(tǒng)、AI模型的方式生成。 組件都是手腳,需要一個大腦來指揮控制。
在AlphaWar中,指標(biāo)控制中心有兩種實(shí)現(xiàn),第一種是策略編輯器,例如我方(蟲族)探測到對方(星靈)裸開雙礦,對于態(tài)勢感知來說可以得出一個可快速壓制的策略,這個時候只需要一個態(tài)勢分類器和一個快速壓制的智能體就足以完成整個指揮控制過程;第二種則比較復(fù)雜,也是實(shí)際戰(zhàn)爭中的常規(guī)情況,態(tài)勢瞬息萬變,這個時候需要一個基于LSTM的深度指控網(wǎng)絡(luò)。(這個是個很大的話題,后續(xù)有機(jī)會單獨(dú)展開)
以上是AlphaWar的基本組成,接下來我們用例子來說明它是怎么工作,一個一行代碼都不用寫實(shí)現(xiàn)一個擊敗《星際爭霸II》全種族最難級別的戰(zhàn)術(shù)機(jī)器人!
五、 案例演示:光影沐浴者
光影沐浴者,俗稱速隱刀戰(zhàn)術(shù)。利用星際爭霸II的反隱單位或建筑通常需要前置的科技建筑才能生產(chǎn),星靈在早期以最快速度(并欺騙對手)出黑暗圣堂武士,經(jīng)??梢云鸬揭慌e定輸贏的效果。
以下是光影沐浴者在系統(tǒng)中的搭建:
如圖所示,大多組件都是策略性的實(shí)現(xiàn),可以理解為指揮控制中的常規(guī)開局操作。跟知識圖譜、深度學(xué)習(xí)比較相關(guān),需要訓(xùn)練模型或知識推理的四個組件:
1、 偷水晶+機(jī)械臺:—偷水晶和機(jī)械臺的主要目的是加快進(jìn)攻的時間,進(jìn)攻越晚對手出反隱裝置的可能性越高。水晶和機(jī)械臺的需要用replay來訓(xùn)練最佳隱蔽位置,躲過對方農(nóng)民探路路線以及蟲族房子可能路線等。
2、 優(yōu)先解除反隱:—這是一個典型的知識圖譜+AI的智能體。首先,要從知識圖譜中查詢出對方種族反隱的實(shí)現(xiàn)裝置,并采用對應(yīng)的反制戰(zhàn)術(shù)。這個過程中有大量的可能性,需要用AI得到一個最優(yōu)解。例如,對方是人族,在這個時候一般已經(jīng)有偵測掃描了,如果所有黑暗圣堂武士一起空投有可能被一波吃掉。需要分批(一批1個)消耗對方的掃描次數(shù),等對方掃描次數(shù)(知識圖譜獲?。┯猛炅嗽俅笠?guī)模折躍黑暗圣堂武士,這個訓(xùn)練只需幾十個樣本就可以完美實(shí)現(xiàn)。
3、 折躍部隊:—這是一個態(tài)勢感知網(wǎng)絡(luò)和兵種相克圖譜相融合的策略。例如對方(蟲族)開始變眼蟲反隱,這個時候就要折躍追獵者來清除障礙。
4、 暗堂操作:—微操是勝敗的關(guān)鍵要素,著名的AlphaStar中有大量作戰(zhàn)單位微操智能體,同等條件下可以以最小損失殲滅對方主力部隊。 (關(guān)于如何訓(xùn)練戰(zhàn)術(shù)和智能體,后續(xù)有機(jī)會再單獨(dú)深入講解)
結(jié)果直接上圖:在對方(藍(lán)方)經(jīng)濟(jì)和部隊都有優(yōu)勢的情況下?lián)艨逅?/p>
未來的戰(zhàn)爭勝利將取決于認(rèn)知速度,即讓機(jī)器正確理解作戰(zhàn)態(tài)勢并做出決策。而認(rèn)知速度的快慢,極大程度上取決于智能技術(shù)的運(yùn)用。因此,智能體輔助是兵棋系統(tǒng)升級換代的關(guān)鍵。