皇室战争吧 关注:1,394,309贴子:18,439,615

AlphaCR!用AI打皇室!第28届国际人工智能联合会议上发表论文…

只看楼主收藏回复

北京大学五位学生发布了《机器学习玩即时战略卡牌游戏》,其中游戏都以“皇室战争”为样板。

原文:https://www.ijcai.org/Proceedings/2019/0631.pdf
上面^发了个链接,不知道有没有被吞。
全文是英文,文章结构……也有一些紊乱……所以下面我来讲讲吧。


IP属地:北京1楼2021-02-01 19:28回复
    二楼自留


    IP属地:北京2楼2021-02-01 19:29
    收起回复
      2025-05-21 04:43:44
      广告


      IP属地:陕西来自Android客户端3楼2021-02-01 19:38
      收起回复
        一、简化的皇室战争
        论文将皇室战争做了一写简化,以方便研究。在这里,双方有完全相同的初始卡组和完全随机的牌序。卡牌的伤害和血量都被简化。伤害分为“高伤害”和“低伤害”两种。血量则为1~10的整数。
        卡组如下:



        IP属地:北京7楼2021-02-01 19:55
        收起回复
          二、《皇室战争》对战的数字化
          如何描述《皇室战争》的战场?论文将任意时刻的战场,用一系列“游戏状态函数”来表示。“游戏状态”共包含四个函数:
          1. 位置。论文将竞技场分为18000*32000像素的画面(即18*32个格子,每个格子里1000*1000像素),用坐标 Pi(xi, yi) 来表示单位 i 的位置。其中xi和yi以一像素为单位。
          2. 生命值。不同的单位有不同的血量。论文用1~10的整数来表示单位 i 的血量,记为 Hi 。
          3. 特性。用 Ci 来表示单位 i 的特性。Ci 的范围也是1~10的整数。特性用来表示单位的类别(军队、建筑……)和特征(高攻击、范围伤害、只攻击建筑……)。
          4. 派别。用 Fi 表示部队的派别。Fi 的范围是0和1,分别表示“己方”和“敌方”。


          IP属地:北京8楼2021-02-01 19:55
          回复
            三、游戏进程的数字化
            用 i (1~4) 来表示玩家的手牌。用 mi 表示第 i 张牌的圣水花费。
            记 t 时刻玩家打出第 i 张牌的概率为 Ui,t,放置在 Pi,t 的位置。
            其中,Ui,t ∈ [0, 1],Pi,t = (x, y)。 (i = {1, 2, 3, 4})


            IP属地:北京9楼2021-02-01 20:01
            回复
              插眼


              IP属地:中国香港10楼2021-02-01 20:01
              收起回复
                四、SEAT模型概述。
                论文的关键即在于给出的SEAT模型。该模型由以下几个部分组成。其顺序为:
                1. 卡牌选择部分
                2. 关注点部分
                3. 回馈部分
                我下面先介绍“回馈部分”。


                IP属地:北京11楼2021-02-01 20:06
                收起回复
                  2025-05-21 04:37:44
                  广告
                  Cy


                  IP属地:山东来自Android客户端12楼2021-02-01 20:07
                  收起回复
                    插眼


                    IP属地:广东来自Android客户端13楼2021-02-01 20:09
                    收起回复
                      插眼


                      IP属地:美国来自Android客户端14楼2021-02-01 20:11
                      收起回复
                        插眼


                        15楼2021-02-01 20:15
                        收起回复
                          啊这


                          IP属地:黑龙江16楼2021-02-01 20:15
                          收起回复
                            4.1. SEAT模型的回馈部分
                            论文用 Rt 来表示 t-1 时刻~ t 时刻获得的总收益。其中,总收益由三部分组成,分别为:卡牌收益、军队收益、皇家塔收益。总收益为三者之和,可以表示为:Rt = rt(卡牌) + rt(军队) + rt(皇家塔)。下面分别介绍。
                            1. 军队收益。军队收益是用来衡量场上敌方单位数量的变化的。t-1 时刻到 t 时刻,每消灭一个敌方单位带来 +2 的军队收益。如果敌方单位没有减少,则军队收益为 0 。
                            2. 卡牌收益。卡牌收益是用来衡量我方使用卡牌的数量的。t-1 时刻到 t 时刻,我方每使用一张卡牌带来 -3 的卡牌收益。
                            3. 皇家塔收益。皇家塔收益是用来衡量破塔情况的。t-1 时刻到 t 时刻,每摧毁一个敌方皇家塔带来 +20 的收益,每损失一个己方皇家塔带来 -30 的收益。


                            IP属地:北京17楼2021-02-01 20:17
                            收起回复
                              2025-05-21 04:31:44
                              广告
                              下面的部分就稍有复杂了。lz累了,过会儿再更。


                              IP属地:北京18楼2021-02-01 20:18
                              回复