葡萄牙欧洲杯冠军盾 澳门菠菜网上平台葡萄牙欧洲杯冠军盾_要在未来与技术先进的竞争对手的冲突中保持竞争力,就必须加快兵棋推演人工智能(AI)的研究与开发。更重要的是,利用机器学习进行智能作战行为开发将是有朝一日在这一领域实现超人性能的关键--提高在未来战争中的决策质量并加快决策速度。尽管深度强化学习(RL)在游戏中的智能体行为开发方面不断取得令人鼓舞的成果,但在战斗建模与仿真中常见的长视距复杂任务中,其表现尚未达到或超过人类水平。利用分层强化学习(HRL)已被证实的潜力和最近取得的成功,我们的研究
图片乐鱼现金网乐鱼现金网
澳门菠菜网上平台图片
多模型智能体为了构建我们的多模型智能体框架,我们借鉴并采用了专家混合(MoE)(Jacobs 等人,1991 年)、'多模型思想家'(Page,2018 年)、集合方法和 RL 的概念。尽管我们从 MoE 和集合文献中借鉴了采用各种专家网络的想法,但我们偏离了这些传统方法提出的中心思想。虽然我们仍然利用了许多不同的模型,但我们并没有采用纯粹的分而治之的方法(Jacobs 等人,1991 年)或模型输出的汇集(Page,2018 年),而是对模型进行了区分,以确定哪个特定的模型可以在每个行动选择步骤中最大化智能体的整体性能。换句话说,我们并不是将模型输出进行组合,而是简单地将它们作为一个评估函数的输入,然后由该函数决定在每个步骤中应使用哪个特定的行为模型。集合方法要求建模者考虑模型的偏差或缺陷,而我们的多模型方法则允许我们利用一组不同的模型(脚本模型或机器学习训练的模型),而无需考虑模型的平衡或验证。之所以能做到这一点,是因为我们不是将模型预测结合在一起,而是对模型预测进行区分,并采用能最大化特定目标的单一最佳策略。多模型框架如图 5 所示。在每个行动选择步骤中,多模型都会接收一个观察结果作为输入,并将其传递给每个得分预测模型。每个得分预测模型都会推导出一个预测的游戏得分,并将其输入评估函数。然后根据评估函数选择特定的行为模型。最后,原始观察结果被传递给选定的行为模型,由其产生一个动作。为了提供选择适当行为模型的评估函数,我们为资源库中的每个行为模型训练了一个单独的分数预测模型。该分数预测模型是一个卷积神经网络(CNN),可根据当前游戏状态推断出游戏分数。预测的游戏得分假定蓝方按照各自的行为模型继续游戏,红方按照特定的对手行为模型继续游戏。鉴于 Atlatl 是一款回合制游戏,而非时间步进模拟,我们将棋盘上实体被提示采取某项行动的每个实例都称为行动选择步骤。尽管迄今为止,我们一直在使用监督学习方法训练得分预测模型,并在游戏中使用了 '行动选择 '模型。数据来训练得分预测模型,但我们最近开发了一个单独版本的得分预测模型,并正在对其进行测试。图片
菠菜乐平台排名皇冠比分網在实验中评估了这种多模型方法相对于传统单模型方法(无论是脚本还是基于 RL 的)的有效性,发现多模型方法比表现最好的单模型提高了 62.6%。此外,我们还发现,由更多模型组成的多模型明显优于由较少模型组成的多模型,即使这些额外模型的整体性能较差。这表明,即使我们的某些单个模型在总体上表现不佳,但它们很可能在非常特殊的情况下取得了成功--我们的分数预测模型似乎准确地捕捉到了这一现象,而我们的评估函数也正确地用于为每个行动选择步骤选择最佳模型。更重要的是,使用这种方法,不必训练一个能够在所有可能情况下都有效执行任务的单一模型,而是可以开发或训练能够在特定情况下执行任务的非常专业的模型,然后在遇到这些特定情况(即游戏中的特定状态)时自动调用这些专业模型。此外,由于我们的多模型可以区分其嵌入的模型,因此我们可以根据需要加入新的模型,而无需考虑行为验证、平衡甚至偏差等问题--传统的集合建模方法通常需要将结果汇集在一起。状态空间的观测抽象即使使用 Atlatl 这样的简单环境,将其扩展到更大的场景也会导致性能不佳(Boron,2020;Cannon & Goericke,2020;Rood,2022)。部分原因在于,与人类不同,RL 的样本效率不高,需要大量的训练数据(Botvinick 等人,2019 年;Tsividis 等人,2017 年),而庞大的行动和观察空间则进一步加剧了这一问题。不过,Abel 等人指出,RL 中的抽象可以提高采样效率(Abel 等人,2020 年),从而有可能让我们扩展到处理非常复杂的环境。此外,学习和使用适当的世界抽象表征是任何智能体(无论是生物还是人工智能)都必须具备的基本技能(Abel,2020)。然而,由于抽象本质上会丢弃信息--这可能会损害基于这些抽象所做决策的有效性--我们必须在使学习变得更容易(或可操作)与保留足够信息以实现最优策略发现之间权衡利弊(Abel,2020)。我们对状态空间抽象得越多,丢失的信息就越多,就越难保证获得最优或接近最优的解决方案(L. Li 等人,2016 年)。不过,这也是一种权衡,因为尽管更粗略的抽象可能会导致次优行动,但它们确实可以更好地进行规划和价值迭代(李玲等人,2016 年)。为了克服在大型状态空间中进行训练时所面临的一些权衡挑战,同时保留足够的信息以找到最优或接近最优的解决方案,我们目前正在开发一种方法,其中包括根据层次结构的级别应用不同级别的抽象。在《模拟与兵棋推演》一书中,Tolk 和 Laderman 讨论了 '任务通常会驱动所需的抽象层级'(Turnitsa 等人,2021 年)。同样,正如我们在军事规划中通常看到的那样,高层次的抽象会更粗,而低层次的抽象会更细(FM 5-0 Planning and Orders Production, 2022;Joint Publication 5-0 Joint Planning, 2020;MCWP 5-10 Marine Corps Planning Process, 2020)。因此,我们的 HRL 框架涉及在较高层次的决策中应用较粗略的抽象层次,同时仍通过本地观测为较低层次的决策保留所有本地状态空间信息。我们认为,这种方法将使高层的长期规划更加有效,并使低层的计划在当地得到更有效的实时执行。为了说明这一概念,我们首先描述了一般的 Atlatl 观测空间。尽管观察空间在不断演变,但最近的一个观察空间由 n x m 网格的 17 个通道组成,其中网格的每个入口代表 n x m 大小棋盘的一个十六进制。这个观察空间被编码为张量。图 6 举例说明了每个通道所代表的信息。例如,每个通道编码的信息包括单元移动、单元类型、地形类型等。图片
皇冠博彩体育博彩网站赛事分析图 7 显示了一个 20 x 20 棋盘的状态空间表示示例,其中叠加了三个通道(蓝色部队、红色部队、城市六角形)。我们在下面所有图中叠加了三个通道,仅供参考;但在 Atlatl 中,这些通道将表示为 3 个独立通道(共 17 个通道),如图 6 所示。图片
专知便捷查看 本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。亚星三公网络彩票博彩_ 在娱乐圈这片看似五光十色,实则暗流汹涌、纷繁复杂的江湖之中,每天都在上演着无数起起落落的故事。名利诱惑如荆棘丛中闪烁的诱饵,稍不留神便会让人深陷其中;人情冷暖似六月天的骤变风云,前一刻还是笑脸相迎,下一秒或许就冷若冰霜。然而,就在这混沌喧嚣里,朱铁宛如一棵顽强破土的青松,任它疾风骤雨、霜寒雪冻澳门现金网,始终坚守着对演艺事业的赤诚初心...
2020最新平台菠菜澳门博彩业出老千 北京时间11月9日美高梅会员卡有啥用,NBA常规赛,以下是两场比赛的综述。 本届欧洲杯中,英格兰队最大黑马之一。然而,最近一场中,英格兰队主力后卫XXX受伤退出,带来不小困扰。不过,英格兰队其他球员表现出色,成功地完成任务,赢得一场胜利。 太阳114-113险胜独行侠 太阳(8-1):杜兰特26分5篮板4助攻2盖帽、奥尼...
太阳城正网澳门博彩电子游戏平台 提起抗日电视剧,《亮剑》绝对是绕不开的一部剧澳门银河官方网站,这部剧自开播至今已经重播了3000多遍。剧中主人公李云龙刻画的有血有肉,性格鲜明,从他身上看到了中国军人的刚毅、勇敢和血性,他带出来的部队深刻的体现出了狭路相逢勇者胜的亮剑精神。 澳门博彩电子游戏平台 正所谓强将手下无弱兵,在李云龙的领导下,他的部队中也出现了不少有...
皇冠a盘b盘c盘2024年菠菜跑分平台万赢体育app在哪里下载(www.crownbettingpro.com)网络赌博心得 乒乓球成都混团世界杯最新积分榜 韩国胜法国升第2 在2024年成都国际乒联混合团体世界杯第二阶段的紧张对决中,韩国队以8-1的压倒性优势击败法国队,成功跃升至积分榜第二位。这场比赛不仅展示了韩国队的强大实力,也为接下来的赛事增添了更多...
dota菠菜有哪些平台体育投注软件有哪些好用的_ 太平洋在线骰宝 山东泰山喜迎强援,中超亚冠核心下季来投,球迷乐开花! 皇冠客服不回消息 嘿,各位老铁们,今儿个小编得给大家伙儿带来个振奋人心的消息!咱山东泰山队,那可是咱中超的扛把子,亚冠的常客,这回又整了个大动作——下赛季,中超亚冠的核心球员要加盟咱泰山队了,合同都签好了,板上钉钉的事儿! 2024年11月...