No menu items!

    研究强化AI学习 76岁巴托、67岁萨顿师徒获图灵奖

    麻州大学退休教授巴托(左)、加拿大亚伯塔大学终身教授萨顿(右)。(美联社)

    强化学习(reinforcement learning)领域的两位AI人工智能开发先驱、计算机科学家巴托(Andrew Barto)和萨顿(Richard Sutton),5日荣获被视为科技界的诺贝尔奖的「图灵奖」(A.M. Turing Award)。全球最大电脑相关学会「电脑协会」(Association for Computing Machinery,ACM)5日宣布今年度「图灵奖」得主,100万元奖金则由谷歌赞助。

    76岁的巴托和67岁的萨顿是师生关系,这对师徒1970年代末期开始进行强化学习研究,为过去十年AI部分发展舖路。他们的研究内核采用类似驯犬师或驯马师的训练行为作法,引导所谓「享乐」(hedonistic)机器,让机器根据接收到的正面信号,不断调整行为。

    googletag.cmd.push(function() { googletag.display(‘div-gpt-ad-1694617103692-0’); });

    强化学习让Google电脑程序在2016年和2017年击败围棋界人类顶尖高手,也是改善ChatGPT等流行AI工具、优化金融交易、协助机械手解决魔术方块的关键技术。

    巴托向美联社表示,他和萨顿刚开始在阿默斯特麻州大学研究理论和算法时,强化学习领域「并不时髦」;「当时就像在荒野中开路,现在这块领域越来越被认可,还被认为是很有趣的事;和早期情况大不同。所以,获得这个奖令我深感欣慰。」

    巴托已从麻州大学退休14年,萨顿现在是加拿大亚伯塔大学终身教授。

    图灵是英国数学家,在二次大战期间设计出破解德军无线电密码的机器,协助盟军拦截击沉无数德国潜艇,1947年提出「机器能从经验中学习」的假说,被誉为AI先锋。

    巴托和萨顿的研究就是以图灵的学说为基础。萨顿称之为「强化学习的基本思想」。

    巴托和萨顿的强化学习研究,借用心理学和神经科学有关寻求快乐的神经元会对奖惩作出反应的构想,两人在1980年代初发表过一篇具有里程碑意义的论文,将其研究方法应用于仿真世界特定任务:平衡移动推车上的杆子,防止其倒下。两人后来共同编写了一本强化学习教科书,广受各方使用。

    热点

    发表评论