AI如何在DOTA2中战胜职业选手?

OpenAI利用循环神经网络(RNN)中的长短期记忆(LSTM)来构建了AI的大脑核心。它精通长时间的信息储存记忆以及会自动根据序列进行分类处理和预测数据。其实简单来说本质就和家长教自己的孩子如何做一些简单的事情一样,你得教他们分清楚不同事物的好坏,而且你还得学着怎么教才能让他们牢牢的记住。

每一个AI的神经网络都包含着一个单层1024单元的LSTM,可以记录游戏的状态并且做出适当的动作。比如执行一个释放技能的操作,AI需要4个指标去判断(移动、攻击、释放技能、使用道具),然后AI还需要捕捉到目标的单位然后判断和自己的距离(在AI看来这些都是映射在X、Y上的坐标),然后再去判断技能释放的操作和时间最后释放该技能。OpenAI最终将整个游戏离散化为每个英雄大约170000次可能的动作(相比国际象棋的35点简直是天文数字,不比较就不会有伤害)

时至今日,最终新一代的AI开始从自我游戏中去学习而免去了人类的手把手教学。而为了避免可能会导致AI的训练循环的BUG,AI在80%的时间都是在和自己相同的AI对战,而另外20%的时间则是在和上个版本的自身对战。这些AI指令在128000个CPU内核和256个GPU上每天无休的反复运行,平摊到每天游戏中的训练量累计大约为正常时间上的180年左右。正是因为机器人不断地自我学习,自我对抗,他们才能逐渐的打败人类职业选手。

猜你喜欢

转载自blog.csdn.net/weixin_43850934/article/details/84644268