一手创造史上最强围棋人工智能 AlphaGo 的 DeepMind 团队,又教会了人工智能在迷宫中“抄近路”。
北京时间 5 月 10 日凌晨 1 时,该英国团队在世界顶级学术杂志《自然》上发表论文称,其最新研发出的一个人工智能程序具有类似哺乳动物一样的寻路能力,非常类似大脑中网格细胞的工作原理。
神秘的网格细胞:大脑内置 GPS
从家出发到新的地点,再原路返回,从中选择尽可能的捷径,这是绝大多数动物都能胜任的简单任务。然而,大脑这种本能的导航机制尚未被完全理解。
科学家们在动物和人类大脑中找到了三种跟认路相关的细胞,分别是位置细胞、方向细胞和网格细胞。
位置细胞能在主体到达特定地点时放电,从而赋予对过往地点的记忆;方向细胞能感应前进的方向;网格细胞则是最神秘的一种:它们能将整个空间环境划分成蜂窝状的六边形网格,仿佛地图上的坐标系。
发现网格细胞的的莫索尔夫妇因此获得了 2014 年的诺贝尔生理学或医学奖。不过,网格细胞仅仅是在空间环境中提供 GPS 定位服务吗?一些科学家猜测,它们也会参与矢量计算,辅助动物规划路径。
人工神经网络中自动出现类似结构
DeepMind 团队决定用人工神经网络检验上述猜想。人工神经网络是一种利用多层处理模拟大脑神经网络的运算结构。团队首先用深度学习算法训练神经网络学习哺乳动物的觅食运动路径,利用线速度、角速度等信号在视觉环境中进行定位。
研究人员随后发现,一种类似于网格细胞活动特征的结构自动诞生了!在此前的训练中,研究人员并未刻意引导神经网络产生此种结构。
这再次显示了深度学习的可喜又可畏之处:这是一种通过大量匹配的输入和输出值训练机器自我摸索的算法,最后得到的机器逻辑是不为人知的黑匣子。正如 AlphaGo 自动领悟了人类千年棋史上从所未见的“天外飞仙”棋招,这次的神经网络也自动出现了令人惊喜的结构。
迷宫寻路
DeepMind 团队随后利用强化学习检验这种网格结构是否能够进行矢量导航。强化学习被普遍用于训练游戏 AI,人类告诉 AI 一种游戏的得分奖惩机制,但却不教授游戏方法,由 AI 在反复进行游戏、努力争取更高分的过程中自我进化。后期的 AlphaGo 就完全摈弃了人类棋谱经验,在纯粹的自我对弈中从零进化到更强版本。
研究人员将之前自动出现的网格结构与一个更大型的神经网络架构结合成了人工智能体,置于虚拟现实的游戏环境中。经历强化学习后,该人工智能在游戏迷宫中向目的地前进的导航能力超越了一般人,达到了职业游戏玩家水平。它能像哺乳动物一样寻找新路线和抄近路。
最关键的是,当研究人员“静默”原来的网格结构后,人工智能体的导航能力就会变弱,判断目标的距离和方向都更不准确了。
论文作者之一 Dharshan Kumaran 说道:“我们证明了网格细胞远不只是给我们提供 GPS 定位信号,也是一种大脑赖以计算两个地点间的最短距离的核心导航机制。”
用人工智能代替小白鼠做实验
与一直强调“人工智能不是仿生学”的 Facebook 人工智能首席科学家杨立昆(Yann Lecun)不同,天才创始人戴密斯·哈萨比斯(Demis Hassabis)执掌的 DeepMind 热衷探索人工智能与脑科学的相辅相成。这项研究再一次体现了他们的科学理念:脑科学启发下的人工智能算法能反过来帮助人类探索大脑运行机制,从而也更好地理解人工智能的内在逻辑。
哈萨比斯评价道:“我们相信人工智能和神经科学是相互启发的。这项工作就是很好的证明:通过研发出一个能在复杂环境中导航的人工智能体,我们对网格细胞在哺乳动物导航中的重要性有了更深的理解。”
DeepMind 团队相信,类似的研究方法还可以用来探索大脑听觉和控制四肢的机制。在更远的将来,神经科学家们甚至可以用人工智能代替小白鼠来做实验。