从阿尔法狗想到中科天巡
来源: | 作者:刘浩 | 发布时间: 2021-10-20 | 1168 次浏览 | 分享到:

阿尔法狗(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人,由谷歌(Google)旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发。2016年3月,AlphaGo和围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获得胜利。

谷歌在2014年用4亿美元收购了DeepMind,从而使这家一直在「烧钱」,而没有找到好的商业模式的科技创业企业得以延续,并帮助谷歌在AI领域保持领先优势。这里列举了DeepMind发展过程中的几个里程碑,总能震惊世界。

DeepMindNIPS 2013上发表的 Playing Atari with Deep Reinforcement Learning 一文,在该文中第一次提出Deep Reinforcement Learning 这个名称,并且提出DQNDeep Q-Network)算法,实现从纯图像输入完全通过学习来玩Atari游戏的成果。之后DeepMindNature上发表了改进版的DQN文章Human-level Control through Deep Reinforcement Learning,引起了广泛的关注,Deep Reinfocement Learning 从此成为深度学习领域的前沿研究方向。

Deepmind2017Nature发布了这篇论文——在这篇名为《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋)的论文中,Deepmind展示了他们更强大的新版本围棋程序“AlphaGo Zero”,验证了即使在像围棋这样最具挑战性的领域,也可以通过纯强化学习的方法自我完善达到目的。

DeepMind在2019年有关AlphaStar的论文发表在了《Nature》杂志上,这是人工智能算法AlphaStar的最新研究进展,展示了AI在没有任何游戏限制的情况下已经达到星际争霸2人类对战天梯的顶级水平,在Battle.net上的排名已超越99.8%的活跃玩家,相关的录像资料也已放出。

Google的DeepMind团队2021年官宣了一篇神经网络(Neural Networks)求解混合整数规划(MIP)的论文。一石激起千层浪,吃瓜群众感觉人工智能攻破运筹学只是时间问题


阿尔法狗用到了很多新技术,如神经网络、深度学习、蒙特卡洛树搜索法等,使其实力有了实质性飞跃。美国脸书公司“黑暗森林”围棋软件的开发者田渊栋在网上发表分析文章说,阿尔法围棋系统主要由几个部分组成:一、策略网络(Policy Network),给定当前局面,预测并采样下一步的走棋;二、快速走子(Fast rollout),目标和策略网络一样,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍;三、价值网络(Value Network),给定当前局面,估计是白胜概率大还是黑胜概率大;四、蒙特卡洛树搜索(Monte Carlo Tree Search),把以上这四个部分连起来,形成一个完整的系统。

阿尔法围棋(AlphaGo)是通过两个不同神经网络“大脑”合作来改进下棋。这些“大脑”是多层神经网络,跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

第一大脑:落子选择器 Move Picker)

阿尔法围棋(AlphaGo)的第一个神经网络大脑是“监督学习的策略网络(Policy Network)” ,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。

第二大脑:棋局评估器 Position Evaluator)

阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是回答另一个问题,它不是去猜测具体下一步,而是在给定棋子位置情况下,预测每一个棋手赢棋的概率。这“局面评估器”就是“价值网络(Value Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分析归类潜在的未来局面的“好”与“坏”,阿尔法围棋能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么AI就跳过阅读。

这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。

阿尔法围棋(AlphaGo)为了应对围棋的复杂性,结合了监督学习和强化学习的优势。它通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络(value network)对自我对弈进行预测,以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而阿尔法围棋将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。新版的阿尔法围棋产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。

在获取棋局信息后,阿尔法围棋会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为阿尔法围棋的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,阿尔法围棋的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

       阿尔法狗以领先的深度学习和强化学习技术,从“玩”开始来改变世界。我们中科天巡这个还处于起步阶段的高科技公司,初心却落在了通过算法改变物流和生产的运转过程,从港口起步提供离散作业全局优化解决方案。我们还不敢对标阿尔法狗,但我们敢于以对方为榜样。

棋局和游戏,场景环境和对战规则是设定好的,但离散作业场景的数字化首先要对作业环境和过程建模,作业环境中有场地、设施、设备、人员、物料等,过程主要是人员和设备的排程、设备预防性维护、异常和应急处理等。大家都会想到用数字孪生技术。数字孪生大概是有三个层析的:可视、仿真和共智,我们的目标在于优化,所以必须实现人机共智的孪生水平,这就需要首先在精准时空框架下做环境建模,为此我们开发了工业级的地理信息系统,实现了实时数据库和实时响应,在这个新一代的GIS基础上再延伸到能融合VR/AR以及传统工业自动化的组态建模,实现时空和逻辑的完整融合,其次我们整合伙伴资源开发了一个工业互联网平台,可以快速方便地实现各种设备和感知数据接入,然后就是结合具体场景的过程建模和优化算法精炼,这个算法精炼过程是天才设计和机器学习永续互动进化的过程。

 


在做散杂货和集装箱港口作业优化的实践中,我们曾迷信增强学习,想到过对港口的设备和人员做智能体的属性和动作建模,依靠作业效率设计奖励函数,然后靠并行狂算,穷举各种可能的作业路线,是否就能实现调度优化?稍微深想一下,就知道这个想法太天真了。最简单的问题,离散作业都涉及到路径,比如传统的旅行家问题,从某个节点出发,经过所有其它节点再回到出发节点,找到最短的路线,这本质上就是一个全排列问题,计算复杂度是输入数据体量的阶乘,比如一共20个节点,除去出发节点,这是19个节点的全排列问题,有19的阶乘种可能,19的阶乘等于1.21645100408832e+17,这就已经是一个难以承受的计算量了。离散作业优化的很多问题远比这个问题复杂,都是属于NP问题,即非多项式级别的计算量问题,再强大的计算机也受不了,笨算是肯定不行的。

解决离散作业优化问题,我们需要数学家,需要数学天才,我们需要像阿尔法狗一样,设计精妙的决策网络、价值网络、快速求解算法、全局搜索算法等,深度学习和强化学习只是一般性的工具。离散作业的过程建模又是一个持续的过程,需要对传统经验做数字化建模和适配,也需要通过机器学习获得新的认知,因此这是一个不断淬炼的过程。

我们在实践中还是获得了初步的惊喜,当我们给客户做了时空建模,基于我们具有优势的时空大数据分析技术,初步的计算就能产生一些洞见,为客户解决一些困扰多年的问题,简单归纳有三类:原来没法观测的,可以看到了;原来没法监测的,可以看清了;原来没法预测的,可以大概有数了。

路漫漫其修远兮,吾将上下而求索。天巡矩阵已经启动了,我们不会停歇,我们还不是一个伟大的公司,但我们敢于提出一个伟大的想法:用算法优化这个世界的运转!

 




天巡要闻

行业动态

备案号:粤ICP备2021045597号      © 2021 中科天巡版权所有

公司简介

发展历程

核心团队

合作伙伴

联系我们

天巡简介

业务场景

产品服务

解决方案

联系我们