“阿法星”在“星际争霸”中比肩顶尖人类玩家----中国科学院

首页 > 每日科学

“深度思维”推出主体增强学习算法

“阿法星”在“星际争霸”中比肩顶尖人类玩家

2019-10-31 科技日报张梦然

【字体：大中小】

语音播报

“阿法星”的训练设置。图片来源：《自然》网站

　　著名的人工智能公司英国“深度思维”（DeepMind）最新推出了一款主体增强学习算法“阿法星”（AlphaStar）。目前，这款人工智能程序已进入战略游戏《星际争霸II》前0.2%排名的人类玩家之列。根据英国《自然》杂志30日发表的一篇论文，该算法代表了机器学习的一大重要成就，经过改造，将有助于解决其他应用领域的复杂问题。

　　《星际争霸II》游戏已经成为人工智能研究领域的一项巨大挑战。据介绍，这是一款科幻主题的策略游戏，有全球性的专业比赛，也是全球最赚钱的专业电子竞技之一。该游戏中有三个特征和能力截然不同的种族，玩家控制其中一个种族，相互对抗。

　　而在之前的比赛中，即使简化了游戏规则，人工编制特定动作序列或依赖超人类的功能（如每分钟执行上万次动作），人工智能体也无法与顶尖人类玩家抗衡。

　　此次，“深度思维”公司奥里奥·维亚尔斯及同事，展现了最新的多主体增强学习算法——“阿法星”。在该算法中，若干深度神经网络主体相互竞争，生成大量的持续适应性策略和对策。之后，“阿法星”在一系列在线游戏中与人类玩家比赛，无论玩《星际争霸II》的哪一个种族，“阿法星”都达到了大师级水平。这标志着人工智能体首次在没有简化游戏的情况下，在专业电子竞技中达到了顶尖人类玩家的水平。

　　“深度思维”公司2016年凭借“阿法狗”程序与人类围棋世界冠军之战大获全胜而成名；其后该程序升级为“阿法元”（AlphaGo Zero），能够从空白状态起，不需要任何人类棋谱输入的条件下自学围棋；下一代“阿法零”（AlphaZero）则接连击败了国际象棋、将棋、围棋三个世界冠军级的电脑程序，成了全能棋王。随后，公司宣布这一程序不再主攻棋法，而是“投身”医疗、能源以及新材料等领域。

　　“阿法星”的训练设置。图片来源：《自然》网站
　　著名的人工智能公司英国“深度思维”（DeepMind）最新推出了一款主体增强学习算法“阿法星”（AlphaStar）。目前，这款人工智能程序已进入战略游戏《星际争霸II》前0.2%排名的人类玩家之列。根据英国《自然》杂志30日发表的一篇论文，该算法代表了机器学习的一大重要成就，经过改造，将有助于解决其他应用领域的复杂问题。
　　《星际争霸II》游戏已经成为人工智能研究领域的一项巨大挑战。据介绍，这是一款科幻主题的策略游戏，有全球性的专业比赛，也是全球最赚钱的专业电子竞技之一。该游戏中有三个特征和能力截然不同的种族，玩家控制其中一个种族，相互对抗。
　　而在之前的比赛中，即使简化了游戏规则，人工编制特定动作序列或依赖超人类的功能（如每分钟执行上万次动作），人工智能体也无法与顶尖人类玩家抗衡。
　　此次，“深度思维”公司奥里奥·维亚尔斯及同事，展现了最新的多主体增强学习算法——“阿法星”。在该算法中，若干深度神经网络主体相互竞争，生成大量的持续适应性策略和对策。之后，“阿法星”在一系列在线游戏中与人类玩家比赛，无论玩《星际争霸II》的哪一个种族，“阿法星”都达到了大师级水平。这标志着人工智能体首次在没有简化游戏的情况下，在专业电子竞技中达到了顶尖人类玩家的水平。
　　“深度思维”公司2016年凭借“阿法狗”程序与人类围棋世界冠军之战大获全胜而成名；其后该程序升级为“阿法元”（AlphaGo Zero），能够从空白状态起，不需要任何人类棋谱输入的条件下自学围棋；下一代“阿法零”（AlphaZero）则接连击败了国际象棋、将棋、围棋三个世界冠军级的电脑程序，成了全能棋王。随后，公司宣布这一程序不再主攻棋法，而是“投身”医疗、能源以及新材料等领域。
　　

打印

责任编辑：侯茜

扫一扫在手机打开当前页

加快打造原始创新策源地，加快突破关键核心技术，努力抢占科技制高点，为把我国建设成为世界科技强国作出新的更大的贡献。

面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康，率先实现科学技术跨越发展，率先建成国家创新人才高地，率先建成国家高水平科技智库，率先建设国际一流科研机构。

院机关

派驻机构

分院

院属机构

“深度思维”推出主体增强学习算法

“阿法星”在“星际争霸”中比肩顶尖人类玩家