认知通信对抗中的基于博弈论的深度强化学习原理如下:
1、认知对抗中的关键技术包括感知、决策和评估。其中,决策过程中可以使用基于博弈论的深度强化学习原理 。
2、基于强化学习的智能通信干扰决策技术可以用于认知通信对抗系统中的干扰策略学习。对于新目标,需要利用智能算法学习出一种有效的干扰策略,并
网络结构、超参数、激活函数等细节对于训练效果会产生很大的影响。
3-2、为了保证学习算法能够在学习后期突破每50次45次有效的壁垒,需要加入一个小的随机扰动来提高算法后期的探索能力。
3-3、在学习过程中,需要保持一个1%的随机探索概率来避免模型陷入局部最优。
4、在不完全信息的扩展式博弈中,强化学习中基于状态的值估计方法不再适用。解决不完全信息的扩展式博弈的难点主要有三个,包括子博弈之间相互关联、存在状态不可分的信息集以及博弈的求解规模比较大 。
5、在博弈论的角度出发,可以使用博弈理论来解决多智能体系统中智能体之间的相互关系和一些不存在最优解的实际问题。博弈强化学习可以用于解决共同利益博弈、不同利益博弈、完全信息博弈和不完全信息博弈等问题 。