關(guān) 閉

新聞中心

EEPW首頁(yè) > 安全與國(guó)防 > 設(shè)計(jì)應(yīng)用 > 基于合作博弈的多無(wú)人機(jī)任務(wù)研究

基于合作博弈的多無(wú)人機(jī)任務(wù)研究

作者:姚曉明 時(shí)間:2016-06-28 來(lái)源:電子產(chǎn)品世界 收藏
編者按:針對(duì)多無(wú)人機(jī)合作博弈問(wèn)題,對(duì)多無(wú)人機(jī)任務(wù)策略進(jìn)行研究。通過(guò)考慮合作聯(lián)盟的目標(biāo)價(jià)值指標(biāo)函數(shù)和代價(jià)指標(biāo)函數(shù),建立多無(wú)人機(jī)合作聯(lián)盟博弈模型,給出一種合作博弈的求解方法,最終得到多無(wú)人機(jī)最優(yōu)聯(lián)盟策略。仿真結(jié)果表明,該方法具有很好的可行性和有效性。

摘要:針對(duì)多問(wèn)題,對(duì)多任務(wù)策略進(jìn)行研究。通過(guò)考慮合作聯(lián)盟的目標(biāo)價(jià)值指標(biāo)函數(shù)和代價(jià)指標(biāo)函數(shù),建立多合作聯(lián)盟博弈模型,給出一種的求解方法,最終得到多無(wú)人機(jī)最優(yōu)聯(lián)盟策略。仿真結(jié)果表明,該方法具有很好的可行性和有效性。

本文引用地址:http://butianyuan.cn/article/201606/293260.htm

引言

  隨著當(dāng)今軍事技術(shù)的發(fā)展與需求,將博弈論應(yīng)用到軍事領(lǐng)域中己受到國(guó)內(nèi)外學(xué)者的廣泛關(guān)注與研究[1-2]。文獻(xiàn)[3]通過(guò)分析實(shí)際環(huán)境中信息的不確定性,提出了不確定信息情況下解決多無(wú)人機(jī)任務(wù)分配的問(wèn)題。文獻(xiàn)[4]提出一種分布式通信決策模型,利用卡爾曼濾波算法對(duì)無(wú)人機(jī)局部觀測(cè)信息進(jìn)行濾波處理,當(dāng)局部任務(wù)分配結(jié)果與當(dāng)前執(zhí)行的跟蹤任務(wù)產(chǎn)生沖突時(shí),無(wú)人機(jī)發(fā)出通信信息,實(shí)現(xiàn)局部信息共享,從而達(dá)到信息的一致;在不確定條件的環(huán)境中,實(shí)時(shí)有效的動(dòng)態(tài)任務(wù)分配是多無(wú)人機(jī)順利完成對(duì)地攻擊任務(wù)的關(guān)鍵點(diǎn)。文獻(xiàn)[5]基于拍賣(mài)機(jī)制原理提出了多無(wú)人機(jī)的動(dòng)態(tài)任務(wù)分配算法,同時(shí)也有文獻(xiàn)[6]基于動(dòng)態(tài)博弈理論提出了攻防雙方目標(biāo)武器分配方法。而以無(wú)人機(jī)攻防為背景,建立基于不完全信息的無(wú)人機(jī)攻防對(duì)抗動(dòng)態(tài)博弈模型,利用免疫進(jìn)化算法[7]求解出貝葉斯納什均衡,得到了無(wú)人機(jī)的最優(yōu)策略序列。文獻(xiàn)[8]建立了基于Agent協(xié)商的多無(wú)人機(jī)任務(wù)分配模型,構(gòu)建了無(wú)人機(jī)編隊(duì)中資源管理和任務(wù)管理等兩種Agent角色,并建立了兩種角色之間任務(wù)分配協(xié)商協(xié)議,既有效地保證了個(gè)體Agent的自主性,又最大限度地發(fā)揮了多Agent之間的合作性。文獻(xiàn)[9]針對(duì)異構(gòu)多無(wú)人機(jī)協(xié)同任務(wù)分配問(wèn)題,提出了一種基于改進(jìn)的遺傳算法的多UAV任務(wù)分配方法。

  需要指出的是,雖然國(guó)內(nèi)外在多無(wú)人機(jī)作戰(zhàn)博弈中已經(jīng)取得了一些很有價(jià)值和意義的研究成果,但目前已有的博弈方法大部分的研究集中于非問(wèn)題,沒(méi)有考慮到多無(wú)人機(jī)合作博弈問(wèn)題。而在實(shí)際網(wǎng)絡(luò)環(huán)境中,為了提高作戰(zhàn)效能,尤其是進(jìn)攻重要目標(biāo)的時(shí)候,需要考慮多無(wú)人機(jī)如何進(jìn)行聯(lián)盟合作問(wèn)題,以提高整體的作戰(zhàn)效益[10]。因此,如何在實(shí)際作戰(zhàn)中考慮我方多無(wú)人機(jī)合作博弈問(wèn)題,求解合作博弈的納什均衡值問(wèn)題,這是一個(gè)新的重要研究課題。

  基于此,本文將多無(wú)人機(jī)合作聯(lián)盟考慮為合作博弈問(wèn)題,實(shí)現(xiàn)整體聯(lián)盟收益最大化,提高多無(wú)人機(jī)整體執(zhí)行任務(wù)的收益。在實(shí)際情況中,無(wú)人機(jī)之間的通信常會(huì)受到傳輸速度、網(wǎng)絡(luò)擁塞等因素的影響而存在通信延遲。因此,本文將考慮存在通信延遲時(shí),根據(jù)多無(wú)人機(jī)信息傳輸?shù)倪^(guò)程,建立多無(wú)人機(jī)合作聯(lián)盟博弈模型,給出合作博弈的求解方法,并動(dòng)態(tài)分析聯(lián)盟結(jié)構(gòu)的變化情況。

1 無(wú)人機(jī)合作博弈模型的建立

1.1 合作聯(lián)盟的基本概念

  無(wú)線通信網(wǎng)絡(luò)中,聯(lián)盟中的無(wú)人機(jī)集合表示為N={1,2,...,n},對(duì)任意,稱(chēng)S為N的一個(gè)聯(lián)盟。為聯(lián)盟集合,其中聯(lián)盟集合元素的個(gè)數(shù)為2n,特殊情況,允許取,后一種情況稱(chēng)為一個(gè)大聯(lián)盟。對(duì)于無(wú)人機(jī)系統(tǒng),自主無(wú)人機(jī)之間能以通信的方式傳遞狀態(tài)信息,偵察無(wú)人機(jī)檢測(cè)到關(guān)于任務(wù)的信息后,選擇傳遞信息至周?chē)臒o(wú)人機(jī),形成聯(lián)盟,共同完成特定的任務(wù)。具體的多無(wú)人機(jī)合作聯(lián)盟模型如圖1所示。

1.2 合作聯(lián)盟作戰(zhàn)收益函數(shù)

  收益是指無(wú)人機(jī)在合作聯(lián)盟中最終所得或損失??紤]合作聯(lián)盟收益指標(biāo)為目標(biāo)價(jià)值和代價(jià)指標(biāo),建立多無(wú)人機(jī)合作聯(lián)盟的作戰(zhàn)收益函數(shù)。

  1)目標(biāo)價(jià)值指標(biāo)函數(shù)

  在多無(wú)人機(jī)作戰(zhàn)過(guò)程中,目標(biāo)價(jià)值是首先考慮的一個(gè)重要指標(biāo)。重點(diǎn)考慮偵察無(wú)人機(jī)的目標(biāo)價(jià)值,定義如下:

(1)

  其中,di(s)為偵查無(wú)人機(jī)的數(shù)據(jù)包傳送延時(shí),,為偵查無(wú)人機(jī)i單獨(dú)行動(dòng)時(shí)的數(shù)據(jù)包傳送延時(shí),為數(shù)據(jù)包的生存時(shí)間值,為聯(lián)盟s中無(wú)人機(jī)的數(shù)目。

  2)代價(jià)指標(biāo)函數(shù)

  代價(jià)指標(biāo)是指?jìng)刹闊o(wú)人機(jī)給執(zhí)行無(wú)人機(jī)的平均支付。偵查無(wú)人機(jī)i傳送數(shù)據(jù)包到同-聯(lián)盟中的執(zhí)行無(wú)人機(jī)j的平均成本Ci(S),定義如下:

(2)

  其中,為偵察無(wú)人機(jī)i傳送數(shù)據(jù)包到同-聯(lián)盟中執(zhí)行無(wú)人機(jī)j的平均成本,Pij為偵察無(wú)人機(jī)i與執(zhí)行無(wú)人機(jī)j的相遇概率。

  3)聯(lián)盟合作收益函數(shù)

  綜合上述模型,可以得到偵察無(wú)人機(jī)i的收益函數(shù)Ui(S)

(3)

  其中,a、β分別為目標(biāo)價(jià)值和代價(jià)的非負(fù)權(quán)重系數(shù)。

2 無(wú)人機(jī)合作聯(lián)盟求解

  在這里,我們首先介紹

  通過(guò)比較聯(lián)盟內(nèi)無(wú)人機(jī)的收益,根據(jù)Merge-Split-Rule形成聯(lián)盟。若無(wú)人機(jī)形成聯(lián)盟后收益提高,則自組織形成聯(lián)盟;反之無(wú)人機(jī)不參與聯(lián)盟形成。Merge-Split-Rule定義如下[11]

  Merge Rule-聯(lián)盟集合,當(dāng)無(wú)人機(jī)收益滿足時(shí),小聯(lián)盟合并為大聯(lián)盟,即:

(4)

  Split Rule-大聯(lián)盟,當(dāng)無(wú)人機(jī)收益滿足時(shí),大聯(lián)盟分裂為若干不相交小聯(lián)盟,即:

(5)

  無(wú)人機(jī)的通信距離為do,執(zhí)行無(wú)人機(jī)在偵察無(wú)人機(jī)的通信范圍內(nèi),稱(chēng)偵察無(wú)人機(jī)遇見(jiàn)執(zhí)行無(wú)人機(jī),任務(wù)在偵察無(wú)人機(jī)的通信范圍內(nèi),稱(chēng)偵察無(wú)人機(jī)發(fā)現(xiàn)任務(wù)。偵察無(wú)人機(jī)與執(zhí)行無(wú)人機(jī)形成聯(lián)盟來(lái)完成任務(wù)。

  假設(shè)仿真區(qū)域?yàn)?km×2km,任務(wù)均勻分布在區(qū)域內(nèi),水平間距和垂直間距均為400m,有4架無(wú)人機(jī),其中第1架偵察任務(wù),另3架執(zhí)行任務(wù),偵察無(wú)人機(jī)具有傳感器,執(zhí)行無(wú)人機(jī)具有相同的火力能力,以相同的10km高度和最大50km/h速度飛行。設(shè)定無(wú)人機(jī)的通信距離分別為50m、100m和200m,得出三種情況下偵察無(wú)人機(jī)發(fā)現(xiàn)任務(wù)和偵察無(wú)人機(jī)與執(zhí)行無(wú)人機(jī)的相遇概率,如表1所示。

  4架無(wú)人機(jī),其中,無(wú)人機(jī)1為偵察無(wú)人機(jī),無(wú)人機(jī)2、3和4為執(zhí)行無(wú)人機(jī),那么在網(wǎng)絡(luò)中可能存在7種聯(lián)盟結(jié)構(gòu):{1,2},{1,3},{1,4},{1,2,3},{1,2,4},{1,3,4},{1,2,3,4}。依據(jù)Merge-Split-Rule算法,無(wú)人機(jī)之間形成合作的聯(lián)盟。根據(jù)以上概率,分別計(jì)算在各種聯(lián)盟結(jié)構(gòu)下的收益,如表2所示。從中可以看到,大聯(lián)盟結(jié)構(gòu)收益最大,即在這種情況下,所有的無(wú)人機(jī)選擇形成{1,2,3,4}這種結(jié)構(gòu)來(lái)共同完成任務(wù)并且在這種結(jié)構(gòu)下獲得的收益最大。

3 系統(tǒng)性能分析

  當(dāng)變化偵察無(wú)人機(jī)傳送數(shù)據(jù)包到同-聯(lián)盟中執(zhí)行無(wú)人機(jī)的平均成本系數(shù)為時(shí),聯(lián)盟結(jié)構(gòu)進(jìn)行動(dòng)態(tài)調(diào)整,如圖2所示。當(dāng)代價(jià)在0~9范圍內(nèi)時(shí),大聯(lián)盟結(jié)構(gòu)一直是最佳聯(lián)盟結(jié)構(gòu),當(dāng)超過(guò)9時(shí),形成{1,3,4}這種結(jié)構(gòu)較好,也就是說(shuō),無(wú)人機(jī)綜合考慮合作的成本及獲得收益,會(huì)形成這種聯(lián)盟結(jié)構(gòu)。

4 總結(jié)

  本文通過(guò),分析多無(wú)人機(jī)執(zhí)行任務(wù),考慮偵察無(wú)人機(jī)傳遞信息到執(zhí)行無(wú)人機(jī)的代價(jià),以及無(wú)人機(jī)執(zhí)行任務(wù)的,建立多無(wú)人機(jī)合作博弈模型,得出最佳聯(lián)盟結(jié)構(gòu),獲得最小,并在代價(jià)變化的情況下分析了系統(tǒng)性能。

參考文獻(xiàn):

  [1]Poropudas J, Virtanen K. Game-theoretic validation and analysis of air combat simulation models[J]. Systems, Man and Cybernetics, Part A: Systems and Humans, IEEE Transactions on, 2010, 40(5): 1057-1070.

  [2]McGrew J S, How J P, Williams B, et al. Air-combat strategy using approximate dynamic programming[J]. Journal of guidance, control, and dynamics, 2010, 33(5): 1641-1654.

  [3]陳俠, 唐婷. 不確定環(huán)境下多無(wú)人機(jī)動(dòng)態(tài)任務(wù)分配方法[J]. 火力與指揮控制, 2013, 38(1): 45-49.

  [4]崔亞妮, 任佳, 杜文才. 多目標(biāo)跟蹤下的無(wú)人機(jī)分布式通信決策模型[J]. 計(jì)算機(jī)仿真, 2014, 31(7): 68-72.

  [5]周小程, 嚴(yán)建鋼, 謝宇鵬, 等. 多無(wú)人機(jī)對(duì)地攻擊任務(wù)分配算法[J]. 海軍航空工程學(xué)院學(xué)報(bào), 2012, 27(3): 308-312.

  [6]馬飛,曹澤陽(yáng),劉暉.基于納什均衡的動(dòng)態(tài)目標(biāo)分配策略研究[J].現(xiàn)代防御技術(shù),2010,38(6):81-84.

  [7]惠一楠, 朱華勇, 沈林成. 無(wú)人機(jī)攻防對(duì)抗不完全信息動(dòng)態(tài)博弈方法研究[J]. 兵工自動(dòng)化, 2009, 28(1): 4-7.

  [8]羅賀, 王國(guó)強(qiáng), 胡笑旋, 等. 基于 Agent 的多無(wú)人機(jī)任務(wù)分配模型[J]. 火力與指揮控制, 2014, 39(7): 22-26.

  [9]王婷, 符小衛(wèi), 高曉光. 基于改進(jìn)遺傳算法的異構(gòu)多無(wú)人機(jī)任務(wù)分配[J]. 火力與指揮控制, 2013, 38(5): 37-41.

  [10]Virtanen K, Karelahti J, Raivio T. Modeling air combat by a moving horizon influence diagram game[J]. Journal of guidance, control, and dynamics, 2006, 29(5): 1080-1091.

  [11]Zhang R, Song L, Han Z, et al. Distributed resource allocation for device-to-device communications underlaying cellular networks[C]//Communications (ICC), 2013 IEEE International Conference on. IEEE, 2013: 1889-1893.

本文來(lái)源于中國(guó)科技期刊《電子產(chǎn)品世界》2016年第6期第46頁(yè),歡迎您寫(xiě)論文時(shí)引用,并注明出處。



評(píng)論


相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉