国内首家决策智能公司,启元世界给你一个会

跟AI比起来,我才是猪队友……坐等AIcarry。

撰文

高静宜

年3月,AlphaGo横空出世,以4:1的比分打败李世石。一年后,升级版AlphaGo卷土重来,以3:0的比分完胜中国棋手柯洁,再次刷新了战绩。

在围棋领域打遍天下无敌手之后,AlphaGo背后的谷歌AI子公司DeepMind并没有停止在竞技游戏领域探索的脚步,开始把目光瞄向了新的任务——《星际争霸II》。

这是一款经典的即时战略游戏,由于其游戏的深度、平衡性及近乎完美的设计、瞬息万变的局势变化,近年来一直被认为是人工智能在解决围棋问题后的下一个终极挑战。DeepMind团队的核心成员如AlphaGo的幕后推手黄士杰、AlphaGo项目主要负责人DavidSilver,以及西班牙《星际争霸II》世界冠军、DeepMind研究科学家OriolVinyals等均把精力投入于此。

而在国内,一家同样基于《星际争霸II》探索AI潜力创业公司浮出水面。

游戏里遇上AI,谁输谁赢?

在第42届ACM-ICPC国际大学生程序设计竞赛全球总决赛上,以认知决策智能技术为核心的创业公司启元世界首次亮相,并举办了基于《星际争霸II》的AI人机协作挑战赛,以推动人机相互理解、相互协作等决策智能技术的研究。

具体来说,这场AI人机协作挑战赛有两项赛题。

两项赛题:Human+AIVSAI+AI,以及HumanVSAI

第一项挑战为水晶采集赛,是人机协作与机机协作的比拼。

在规定时间内,分为A、B两队,每队两个单位分别收集地图上的蓝色水晶。A队为1个玩家加上1个具备协作能力的AI智能体;B队为两个具备协作能力的AI智能体。比赛的关键在于A队中的人和AI能否实时观察、理解对方的意图与行动,并能采取有效的行为进行合理分工,采集到更多的水晶。

据统计,全天比赛一共收集场有效数据,其中A队获胜局,胜率48.8%,B队获胜83局,胜率39.7%,平局24局,平手率11.5%。

在现场,机器之能也上手体验了与AI智能体配合采集水晶的过程。可以发现,友方的AI智能体不仅会配合人类玩家的走位、分头采集,还能对敌方AI展开干扰和阻挡。

启元世界创始人兼CEO袁泉告诉机器之能,相较于机机协作,人机协作的重点在于AI要实时地感知、理解人的意图,「这比机器理解机器更难,缺少一个实时的信道是个重要因素。」在此基础上,AI还要针对博弈的对手进行建模,才能做出最优的决策方案。

现场引来各国选手驻足围观、尝试,两位ACM决赛同学一直在揣摩与AI协作的最优策略

第二项挑战为Reaper争霸赛,是人机对抗。

人类玩家与AI分别操控10个星际争霸II中独具特色一类角色——Reaper,在广袤的场地上进行对抗博弈。Reaper可发射一般子弹,也可以扔出手雷。选手需要根据不同的游戏场景,采取灵活的协作博弈策略,操控己方的单位对AI一方进行攻击,取得比赛的胜利。

在机器之能观察现场工作人员与AI一方展开PK的大约十分钟里,人类玩家没有一次能够战胜机器。相较于人类玩家,AI看起来似乎更懂得「审时度势」,能够借助场地地形等最大程度发挥自己的攻势。

而当AI具备了超越人类的个体能力之后,如何更好地区理解AI、理解AI和人之间的联系,从而让AI帮助到人类自身就成为了一个新的问题。

对此,启元世界给出的答案是决策智能,这场人机协作挑战赛就是公司在这个方向上的第一次尝试。

以世界级难题决策智能为核心

袁泉告诉机器之能,之所以选择决策智能这个方向,与公司创始团队的基因密不可分。

在创业之前,袁泉曾担任阿里认知计算实验室负责人、资深总监,是手机淘宝天猫推荐算法团队缔造者。在过去的十余年里,袁泉一直从事互联网中重要的辅助决策系统——个性化推荐算法的研究,并在淘宝天猫的上亿用户场景中,进行了一系列成功的落地应用,包括在、16年双11中上线的基于在线学习的实时推荐。袁泉表示,这应该是辅助决策智能在国内乃至世界范围内最大规模的一次应用。

公司的联合创始人兼CTO龙海涛曾在阿里巴巴负责搜索广告业务的架构设计,主导了其核心的离线系统、在线引擎和索引内核的升级换代,并完成了对阿里妈妈搜索广告的重构,为架构下一代智能决策系统积累了经验。

年8月,二人联合创立了启元世界,同年,公司获得来自高榕资本的数千万元人民币天使轮融资。

「过去,我们在经典的互联网电商场景中积累了较多的经验。在搜索、广告、推荐等背景下,大数据和机器学习技术的结合就能产生很好的效果,但智能的体现还不够充分。」袁泉说道,「我们希望通过新一代的决策智能技术,让具体的应用场景可以有一个大幅度、成倍的商业价值的提升。」

袁泉表示,任何需要精准营销、信用评级的场景都是决策智能的应用场景。除了游戏领域,还包括工业机器人的生产与操控、自动化农业、智能交通、物联网等各个领域。

在过去的几年里,人工智能的发展速度肉眼可见。伴随着计算机视觉、语音识别等技术的迭代优化,从感知智能到认知智能技术的发展都有着显著的飞跃,而这些都是决策智能发展的先决条件。

不过,目前决策智能仍是一个世界级的难题。

首先,决策是主观与客观、理智与情感相融合的过程,目前计算机擅于处理的是理性可计算部分,因此需要更好的建模和逼近路径;

其次,影响决策的因素非常多,人是在多源信息密布的环境中进行决策,需要有效甄别和提取有效信息,同时对未知信息进行推理和假设。

另外,各个行业运用决策智能的场景往往是要求实时决策,甚至是高并发决策,如互联网中通常需要在毫秒级返回给用户的推荐结果,因此对系统架构上挑战也很大。

《星际争霸II》与深度强化学习

在启元世界看来,《星际争霸II》是训练和验证决策智能技术的绝佳平台。

「游戏领域有自己的特点,它是一个非常干净、纯粹的研究平台。」袁泉解释道,由于游戏平台的链条短,迭代快,算法的有效性可以在不受真实环境干扰的情况下训练、展现出来。

而《星际争霸II》这款游戏本身存在的一些特质也使它成为了各家公司展开AI研究的不二选择,例如游戏不能完全看到所有地图,需要在不确定的情况下进行智能决策;实时对抗性对算法的性能、效率、工程上都存在很大考验等;需要长期的规划和时间空间上的推理等。

事实上,早在年就有研究人员针对这款游戏中的AI展开研究,但是当时主要还是基于预编程的规则,算法还无法战胜真正的人类。

年11月,DeepMind与暴雪娱乐达成协议,将基于《星际争霸II》开发一个界面以便让AI研究人员将机器学习软件与游戏对接。

此外,Facebook和微软的研究人员也曾发表相关论文,展示了AI在这款游戏上的研究成果。

今年1月,DeepMind研究科学家OriolVinyals在演讲中透露了公司在这款游戏上的最新进展:尽管AI还不能完成整局游戏,但可以实现相对简单的操作,但在建造建筑、收集资源等任务上和专业的玩家还有一段距离。

袁泉告诉机器之能表示,在实现这一切的背后,最关键的技术就是深度强化学习。「深度强化学习能够让AI具备快速迭代学习的能力,包括协作中合作和竞争下的博弈。」

简单理解起来,深度强化学习就是深度学习与强化学习的结合。深度学习给出了表征问题和解决问题的方式,强化学习定义了优化的目标,因此二者的结合能够解决很多复杂的问题,接近所谓的通用智能。

目前,世界范围内深度强化学习的效果性能主要集中在游戏领域。近年来,伯克利大学和DeepMind等在这方面也有不少进展,并试图把虚拟游戏场景中训练好的数据应用到实体场景中去。

不过,由于这项技术的发展仍处于早期阶段,成功案例较少,因此业内出现过「深度强化学习劝退」的声音。

对此,袁泉表示:「现在深度强化学习所处的阶段就像年之于深度学习,技术的发展路径是一步步前进的。从我们自己的实践经验来看,这是一个很重要的方向。」

而在眼下,《星际争霸II》就是一个蕴含了丰富通用人工智能及决策智能的研究场景,袁泉告诉机器之能,希望能有更多感兴趣的朋友加入启元世界一起进行研究。

「十多年前,我们上学的时候,星际争霸是最Popular的游戏。在这个游戏上研究AI可以让我们把个人爱好和工作结合起来。」袁泉笑着说道。




转载请注明:http://www.qianghanzy.com/sgtg/sgtg/122229.html