与超级马里奥共舞，强化学习新境界等你来探！

时间：2024-08-29 16:04:35 来源：商学院杂志作者：朱天宇编辑：瑞雪 发表评论无障碍通道

强化学习技术的发展旨在实现有效的应用，但目前还相对有限。

想象一台电脑如同儿时的我们，紧盯屏幕中灵活的马里奥，在游戏世界上下探索，通过不断学习和尝试，电脑更快地掌握了通关秘诀，逐渐碾压我们并成为游戏中的常胜将军。这就是在“强化学习”的帮助下，机器在现实世界已然达成的目标。

强化学习像是一个从零开始学习的机器人，它通过与环境的交互，不断积累经验，逐渐成为某个领域的专家。其包含智能体、环境、状态、动作、奖励值、状态转移、轨迹、回报8个基本概念。以超级马里奥游戏为例，智能体是马里奥；环境是游戏程序；状态是当前屏幕或最近几帧的画面；动作是马里奥向左、向右走或向上跳等；吃到金币可定义为奖励值“+1”，通关可定义为奖励值“+1000”，在数学上，我们通常用Rt表示第t时刻获得的奖励值；状态转移是指基于当前状态，如果马里奥向上跳一步，环境会重新计算新状态和画面；轨迹指在一个回合游戏中智能体观测到的所有状态、动作和奖励；回报指从当前时刻到回合结束的所有奖励值总和，用数学公式表示，Ut等于从第t时刻到游戏结束前可能拿到的回报值，也即Rt一直加到Rn的累积求和，其中n表示游戏的结束轮次。智能体希望获得最大化回报，即Ut越大越好。

在象棋、围棋等体育比赛中，强化学习软件不仅能提高运动员的竞技水平，还能提升观众对比赛的观赏体验。例如，在网络直播中，象棋或围棋软件具备实时分析功能，即时告知观众当前局势是黑方还是白方占优，它还能判断每一步棋是好棋还是坏棋。

强化学习另一个重要应用领域是自动驾驶。通过实时获取其他物体的位置和速度数据，强化学习使系统自主判断当前车辆是否处于危险状态，并在发现危险后，协助驾驶员迅速做出调整，保证安全行驶。

医疗自动诊断是强化学习的一个热门应用方向。基于强化学习的医疗软件发挥了辅助诊断作用。在线平台通过对病人进行一系列提问，并根据病人的回答动态调整问诊方式，经过多轮问诊，强化学习软件能够逐渐优化其提问顺序和内容，更准确地了解病人的症状和病史，为医生提供更全面的信息。

强化学习的目标是寻找一个策略，使回报的期望值最大化，这个策略称为“最优策略”。需要强调的是，一个好的策略应该关注最大化整体回报值，而不仅仅是当前时刻的奖励值。比如下棋，最终目标是赢得整局比赛，而不仅仅关注每一步棋的得失。

强化学习技术的发展旨在实现有效的应用，但目前还相对有限。展望未来，下面四个关键方向值得深入研究：一、提升样本效率。在强化学习领域，这一直是个关键目标。通过研究和开发新的算法和技术，可以实现在有限的样本数据下更有效地训练智能体；二、不确定场景下的奖励函数设计。在一些实际场景中，奖励函数可能并不明确或难以确定。未来的研究可致力于设计更为合理的奖励函数，以便智能体能够在不确定的环境中学到有效的策略；三、在线学习思想在离线数据中的应用。虽然大量数据以离线方式存在，但强化学习的核心在于交互和在线学习。未来的突破口可能在于如何将在线学习的思想应用到离线数据上，以更好地训练强化学习模型；四、多智能体决策的研究。在真实世界中，智能体通常通过分布式决策系统进行交互。未来的发展方向之一是如何将单一智能体学习策略的思想扩展到多个智能体学习策略的场景，实现更复杂的协同决策。

作者 | 方冠华，系复旦大学管理学院统计与数据科学系青年副研究员

SUNSOFT社日前宣布，经典日恐名作《钟楼复刻版》将于10月31日登陆Nintendo Switch、PS5、PS4主机平台，PC版（Steam）发售日期未定，本作预定参展今年的东京电玩展，敬请期待后续消息…

这种通过融合不同文化、元素以打造复合体验与恐怖氛围的游戏风格在《哥里：可爱大灭绝》中将得到更加极致的展现，期待玩家们能在这部作品中度过一段难忘的经历！《哥里：可爱大灭绝》是一款充满黑色幽默的快节奏滑板战斗游…

在“规定时间内争取到最多民众支持的人可以成为下一任国王”这一“选举魔法”的发动之下，王国迎来了任何人都能成为国王候选人这一前所未闻的混乱局面。他是为了支援福登才参加了竞选，自己似乎并不打算成为国王，但对主角…

世嘉股份有限公司现正举办“SEGA九月精选促销”活动，在PlayStation™Store和NintendoeShop内销售的部分PlayStation®5／PlayStation®4／Nintendo S…

WBG与BLG有着一段差距，在上一次交手中，WBG还惨遭BLG零封。双人路则是因为其他路的发挥受到了不同的影响，但最终还是BLG更胜一筹。在此前的分组赛中，WBG与BLG的双人路出现过一人爆一把的有趣场景…

“游戏解压包、全套教程、可开外挂的游戏修改器，”在某二手平台上，一位商家将官方售价268元的《黑神话：悟空》打折卖到1元钱，并赠送了很多游戏福利，该平台显示商品想要人数超百人。老家在山西的旅行博主橘子表示，…

8月29日，PlayStation中国官方在微博发布了一篇文章，着重讲述了《宇宙机器人》的角色设计演变过程，一起来看下，角色设计演进文章：《宇宙机器人》将于9月6日登陆PS5平台。和ASTRO开启超大…

育碧官方今日释出了一段《刺客信条：影》中弥助踢人的战斗场景。不过，就像此前一样，育碧这条推文下依然充斥着玩家的不满和谩骂。其次，弥助作为所谓的“武士”，击败敌人用的居然不是武士刀而是飞踢。当然，嘲讽最…

在Reddit评论区，大量玩家都认同浮屠界非常坑爹。有人表示自己终于打到上层看到Boss后简直喜极而泣，也有人吐槽，之前的地图存在大量空气墙，到了浮屠界反而没了，非常容易误判跌落悬崖，制作组简直就是在恶作剧…

日前，CDPR的CFO Piotr Nielubowicz在公司最近的季度财务简报中透露，工作室正在努力制作下一款《巫师》游戏，目前已取得了实质性的进展，即将进入全面制作阶段。CDPR官方的这则更新消息点燃了…

《黑神话：悟空》开头便标明“本作改编自中国神魔小说《西游记》”，而经过广大玩家的挖掘后，发现《西游记》对本作的帮助不仅是剧情大纲，还有各种各样的细节。比如，最近就有一位玩家在使用修改器获得巨量经验后，发现…

周杰伦和杰威尔音乐有限公司曾以不正当竞争为由起诉网易旗下游戏《天下3》。图源：封面新闻 2023年4月17日，杰威尔以不正当竞争为由起诉《天下3》相关三家主体公司案件，在杭州滨江区人民法院一审公开审理，法院…

在这其中，游戏出海成为博瑞传播增长的“新引擎”，过去几年来博瑞传播加速国际化布局，其核心游戏产品在东南亚市场取得了显著成绩。具体来看，上半年，博瑞传播旗下经典IP游戏《全民主公II》系列实现了约2.6亿元…

哪怕西方主流媒体正对你进行通常带有偏见的报道，让你深受其害，但只要你拥有像《黑神话：悟空》这种每个人都想要的东西，外国粉丝就会争先恐后地为你辩护。前三天就有1000万人购买了这款游戏——据说是行业历史上最快的…

据介绍，国航引进的C919为延程型(ER)，是目前三大航中唯一选择该子机型的公司。国航在C919采用了三大航当中最宽敞、舒适的客舱布局。此外，国航C919在每个座椅上都配备了高功率的USB-C充电口，…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
合作咨询QQ：642361(微信同号) 争议稿件处理QQ：42503264
中国（山东）自由贸易试验区 · 齐鲁软件园鲁ICP备11015305号-1
Copyright © 小熊科技资讯 2007-2021 ITBEAR.COM.CN All rights reserved.