所在的位置：网站推广 >> 搜狗推广 >> 国内首家决策智能公司,启元世界给你一个会

国内首家决策智能公司,启元世界给你一个会

跟AI比起来，我才是猪队友……坐等AIcarry。

撰文

高静宜

年3月，AlphaGo横空出世，以4:1的比分打败李世石。一年后，升级版AlphaGo卷土重来，以3:0的比分完胜中国棋手柯洁，再次刷新了战绩。

在围棋领域打遍天下无敌手之后，AlphaGo背后的谷歌AI子公司DeepMind并没有停止在竞技游戏领域探索的脚步，开始把目光瞄向了新的任务——《星际争霸II》。

这是一款经典的即时战略游戏，由于其游戏的深度、平衡性及近乎完美的设计、瞬息万变的局势变化，近年来一直被认为是人工智能在解决围棋问题后的下一个终极挑战。DeepMind团队的核心成员如AlphaGo的幕后推手黄士杰、AlphaGo项目主要负责人DavidSilver，以及西班牙《星际争霸II》世界冠军、DeepMind研究科学家OriolVinyals等均把精力投入于此。

而在国内，一家同样基于《星际争霸II》探索AI潜力创业公司浮出水面。

游戏里遇上AI，谁输谁赢？

在第42届ACM-ICPC国际大学生程序设计竞赛全球总决赛上，以认知决策智能技术为核心的创业公司启元世界首次亮相，并举办了基于《星际争霸II》的AI人机协作挑战赛，以推动人机相互理解、相互协作等决策智能技术的研究。

具体来说，这场AI人机协作挑战赛有两项赛题。

两项赛题：Human+AIVSAI+AI，以及HumanVSAI

第一项挑战为水晶采集赛，是人机协作与机机协作的比拼。

在规定时间内，分为A、B两队，每队两个单位分别收集地图上的蓝色水晶。A队为1个玩家加上1个具备协作能力的AI智能体；B队为两个具备协作能力的AI智能体。比赛的关键在于A队中的人和AI能否实时观察、理解对方的意图与行动，并能采取有效的行为进行合理分工，采集到更多的水晶。

据统计，全天比赛一共收集场有效数据，其中A队获胜局，胜率48.8%，B队获胜83局，胜率39.7%，平局24局，平手率11.5%。

在现场，机器之能也上手体验了与AI智能体配合采集水晶的过程。可以发现，友方的AI智能体不仅会配合人类玩家的走位、分头采集，还能对敌方AI展开干扰和阻挡。

启元世界创始人兼CEO袁泉告诉机器之能，相较于机机协作，人机协作的重点在于AI要实时地感知、理解人的意图，「这比机器理解机器更难，缺少一个实时的信道是个重要因素。」在此基础上，AI还要针对博弈的对手进行建模，才能做出最优的决策方案。

现场引来各国选手驻足围观、尝试，两位ACM决赛同学一直在揣摩与AI协作的最优策略

第二项挑战为Reaper争霸赛，是人机对抗。

人类玩家与AI分别操控10个星际争霸II中独具特色一类角色——Reaper，在广袤的场地上进行对抗博弈。Reaper可发射一般子弹，也可以扔出手雷。选手需要根据不同的游戏场景，采取灵活的协作博弈策略，操控己方的单位对AI一方进行攻击，取得比赛的胜利。

在机器之能观察现场工作人员与AI一方展开PK的大约十分钟里，人类玩家没有一次能够战胜机器。相较于人类玩家，AI看起来似乎更懂得「审时度势」，能够借助场地地形等最大程度发挥自己的攻势。

而当AI具备了超越人类的个体能力之后，如何更好地区理解AI、理解AI和人之间的联系，从而让AI帮助到人类自身就成为了一个新的问题。

对此，启元世界给出的答案是决策智能，这场人机协作挑战赛就是公司在这个方向上的第一次尝试。

以世界级难题决策智能为核心

袁泉告诉机器之能，之所以选择决策智能这个方向，与公司创始团队的基因密不可分。

在创业之前，袁泉曾担任阿里认知计算实验室负责人、资深总监，是手机淘宝天猫推荐算法团队缔造者。在过去的十余年里，袁泉一直从事互联网中重要的辅助决策系统——个性化推荐算法的研究，并在淘宝天猫的上亿用户场景中，进行了一系列成功的落地应用，包括在、16年双11中上线的基于在线学习的实时推荐。袁泉表示，这应该是辅助决策智能在国内乃至世界范围内最大规模的一次应用。

公司的联合创始人兼CTO龙海涛曾在阿里巴巴负责搜索广告业务的架构设计，主导了其核心的离线系统、在线引擎和索引内核的升级换代，并完成了对阿里妈妈搜索广告的重构，为架构下一代智能决策系统积累了经验。

年8月，二人联合创立了启元世界，同年，公司获得来自高榕资本的数千万元人民币天使轮融资。

「过去，我们在经典的互联网电商场景中积累了较多的经验。在搜索、广告、推荐等背景下，大数据和机器学习技术的结合就能产生很好的效果，但智能的体现还不够充分。」袁泉说道，「我们希望通过新一代的决策智能技术，让具体的应用场景可以有一个大幅度、成倍的商业价值的提升。」

袁泉表示，任何需要精准营销、信用评级的场景都是决策智能的应用场景。除了游戏领域，还包括工业机器人的生产与操控、自动化农业、智能交通、物联网等各个领域。

在过去的几年里，人工智能的发展速度肉眼可见。伴随着计算机视觉、语音识别等技术的迭代优化，从感知智能到认知智能技术的发展都有着显著的飞跃，而这些都是决策智能发展的先决条件。

不过，目前决策智能仍是一个世界级的难题。

首先，决策是主观与客观、理智与情感相融合的过程，目前计算机擅于处理的是理性可计算部分，因此需要更好的建模和逼近路径；

其次，影响决策的因素非常多，人是在多源信息密布的环境中进行决策，需要有效甄别和提取有效信息，同时对未知信息进行推理和假设。

另外，各个行业运用决策智能的场景往往是要求实时决策，甚至是高并发决策，如互联网中通常需要在毫秒级返回给用户的推荐结果，因此对系统架构上挑战也很大。

《星际争霸II》与深度强化学习

在启元世界看来，《星际争霸II》是训练和验证决策智能技术的绝佳平台。

「游戏领域有自己的特点，它是一个非常干净、纯粹的研究平台。」袁泉解释道，由于游戏平台的链条短，迭代快，算法的有效性可以在不受真实环境干扰的情况下训练、展现出来。

而《星际争霸II》这款游戏本身存在的一些特质也使它成为了各家公司展开AI研究的不二选择，例如游戏不能完全看到所有地图，需要在不确定的情况下进行智能决策；实时对抗性对算法的性能、效率、工程上都存在很大考验等；需要长期的规划和时间空间上的推理等。

事实上，早在年就有研究人员针对这款游戏中的AI展开研究，但是当时主要还是基于预编程的规则，算法还无法战胜真正的人类。

年11月，DeepMind与暴雪娱乐达成协议，将基于《星际争霸II》开发一个界面以便让AI研究人员将机器学习软件与游戏对接。

此外，Facebook和微软的研究人员也曾发表相关论文，展示了AI在这款游戏上的研究成果。

今年1月，DeepMind研究科学家OriolVinyals在演讲中透露了公司在这款游戏上的最新进展：尽管AI还不能完成整局游戏，但可以实现相对简单的操作，但在建造建筑、收集资源等任务上和专业的玩家还有一段距离。

袁泉告诉机器之能表示，在实现这一切的背后，最关键的技术就是深度强化学习。「深度强化学习能够让AI具备快速迭代学习的能力，包括协作中合作和竞争下的博弈。」

简单理解起来，深度强化学习就是深度学习与强化学习的结合。深度学习给出了表征问题和解决问题的方式，强化学习定义了优化的目标，因此二者的结合能够解决很多复杂的问题，接近所谓的通用智能。

目前，世界范围内深度强化学习的效果性能主要集中在游戏领域。近年来，伯克利大学和DeepMind等在这方面也有不少进展，并试图把虚拟游戏场景中训练好的数据应用到实体场景中去。

不过，由于这项技术的发展仍处于早期阶段，成功案例较少，因此业内出现过「深度强化学习劝退」的声音。

对此，袁泉表示：「现在深度强化学习所处的阶段就像年之于深度学习，技术的发展路径是一步步前进的。从我们自己的实践经验来看，这是一个很重要的方向。」

而在眼下，《星际争霸II》就是一个蕴含了丰富通用人工智能及决策智能的研究场景，袁泉告诉机器之能，希望能有更多感兴趣的朋友加入启元世界一起进行研究。

「十多年前，我们上学的时候，星际争霸是最Popular的游戏。在这个游戏上研究AI可以让我们把个人爱好和工作结合起来。」袁泉笑着说道。

转载请注明：http://www.qianghanzy.com/sgtg/sgtg/122229.html

上一篇文章：国网瑞安市供电公司推广新型防水智能电表防

下一篇文章：国外CPA联盟挖掘移动端当前最大的印钞机