deepmind做了很多种AI玩游戏的,openai也在做,例如dota,这类游戏,他们的做法,基本思想都是深度卷积结构强化学习为主,以连续几帧游戏画面的组合压缩成灰度为例如4*80*80的画面,再以此画面为一个状态,这样状态的多个序列都有一个关系,即前一状态按某一策略采取有限动作中的一种,会紧接着或过一会儿后产生新的关联状态及回报,只要按累积最大回报的评估原则去求解出每种状态下的最佳动作,就能让智能强化学习出对应画面对应最佳或次佳策略得到总体最佳或次佳的表现。
简单点场景单一的游戏,一般的笔记本算力训练十来天,就用图像帧作输入,类似于玩家可操作的动作为输出(例如玩家可以上下左右、发射、什么都不做、开始,那机器的动作也可通过接口作此类操作),反复强化学习,就能超过普通人。复杂的游戏,得高算力,仍以图像帧作输入,动作为输出,中间除了强化学习,可能会引入更复杂的策略,例如围棋用了蒙特卡罗搜索树。现在听说dota电脑打白金玩家没问题,战胜所有人只是个时间问题。
简单点场景单一的游戏,一般的笔记本算力训练十来天,就用图像帧作输入,类似于玩家可操作的动作为输出(例如玩家可以上下左右、发射、什么都不做、开始,那机器的动作也可通过接口作此类操作),反复强化学习,就能超过普通人。复杂的游戏,得高算力,仍以图像帧作输入,动作为输出,中间除了强化学习,可能会引入更复杂的策略,例如围棋用了蒙特卡罗搜索树。现在听说dota电脑打白金玩家没问题,战胜所有人只是个时间问题。