强化学习 Reinforcement Learning 简介

thphd · 2021年3月12日 2047前站长

RL是机器学习的一个分支。

机器学习最常见的套路是【监督学习】Supervised Learning，给定数据和标签，让计算机程序根据数据和标签的对应关系，拟合出一个函数，该函数可以将数据输入映射到标签输出。

例如有一堆宠物的照片，分别贴好标签【猫】或【狗】，送进机器学习程序，拟合（又称训练、学习）出一个【猫狗分类器】函数，该函数可以将输入的任意宠物照片映射到【猫】或【狗】。学习目标是降低拟合误差，提高输出精度。例如对于猫狗分类器，学习目标是提高分类的准确度。

提供的数据量越大，涵盖的各种不同情况越多，【训练】出来的机器学习模型（通常为人工神经网络）的泛化（正确处理训练时没有遇到的数据的能力）效果越好。

当模型在学习过程中犯错误的时候，通过与输入数据及标签比对，可以马上发现错误并进行纠正，好似旁边有人监督一样，故称【监督学习】。

强化学习 Reinforcement Learning 与监督学习不同，强化学习把机器学习模型的输出作为【行动】，【行动】会产生【后果】，然后通过某种方式对后果进行打分，将分数作为待学习的标签。学习的最终目标是提高一段时间内获得的分数。

例如下围棋的AlphaGo模型，输入是棋盘局面，输出是落子位置，后果是一局棋最终的输赢，打分方式是赢则+1，输则-1.

让模型自己与自己对战，随机落子，经过一段时间，可以积累大量的落子与输赢记录。

将所有获胜棋局的所有落子都记+1分，所有失败棋局的所有落子都记-1分，再进行监督学习，模型就可以掌握【在某个特定的局面下，在不同地方落子所值的分数（正比于最终获胜的概率）】。根据这个分数选取落子位置继续对战，会得到更多落子与输赢记录，通过这些数据继续学习，便可不断提高棋力。

强化学习的特点是：最开始没有足够的数据供学习；让模型作随机探索，积累经验；将积累的实战经验作为数据用作学习并逐渐提高，而非根据人类事先指定的数据（如棋谱等）学习。

强化学习的优点是，无需准备实际例子（数据、标签），只需准备【环境】、设定【评分机制（即目标）】，让机器学习模型在【环境】中自由探索，逐渐寻找到最大化评分（即达成【目标】）的方式。

当评分机制（目标）设置不当的时候，强化学习算法往往会因为过度短视地追求分数，而学习到一些违背目标设置者初衷的行为。因此强化学习是用来验证【如何设定目标/评分机制才能最大化学习效果？】的各种假设的完美工具/框架。

今天在推特上看到一个段子，两个学生在讨论强化学习实验，在实验中他莽撞地设定了一个评分机制，而实验结果所揭示的规律，与人类认识世界的局限性及造成的悲剧形成强烈共鸣。

所以我建议各位有机会一定要接触、了解、最好是实操强化学习（推荐David Silver的课程）。了解强化学习的基本规律，对于定性、定量研究人类、其他生物乃至一切具有学习功能的系统在学习过程中遵循的规律有极大帮助。

自由騎士

MasterChief 先知指引的騎士.The prophecy is uncertain, there's always hope.

强化学习需要可识别的输入，和明确的可评价的指标，机器即可自己去大量试错，主动产生数据（不依赖人类提供），分析数据，发现其中的规律或模式。许多研究者选择了游戏作为平台，比如星际争霸2。

AI vs Mana（人类） https://www.youtube.com/watch?v=HAiraWpkLAo

AI有优势主要是在大规模精确控兵，基于数据的决策优势、反应速度，也有劣势，灵活性，创造性比人类还是不行。很多专家认为未来的关键在于人机协作、分工，人机组合可以最大限度发挥人、机各自的优势。

2021年3月12日 /p/130346

菜单
三眼花翎

France_Mauro 我只是来学习前端设计的

我觉得图片中是那两个人水平不高，犯了低级错误，明明上网问问或者自己思考思考就能解决，但是他们并没有。而是在这里基于错误的事实发表自己对AI的看法。

而且我觉得这张图还会被不懂强化学习的人到处乱传，用来证明AI所谓的“缺陷”。

2021年3月12日 /p/130400

菜单
沉默的广场

这就是天朝效率至上不注重公平的危害，少数玩家能获得最大收益和稳固的阶级地位，其它人逆水行舟，不进则退。最后大家发现追羊浪费很多时间，还得不到羊，不如一开始就撞死。

中国出生人口下降15% 破1949年以来纪录

2021年3月12日 /p/130402

菜单
rebecca 我不是品葱的神，但是后来发生了一些事情

@France_Mauro #130400 其实它只要把每秒钟罚0.1分的设定取消，这个系统就可以正常工作了。

@沉默的广场 #130402 同上。证明只有UBI才是真正的公平。

2021年3月12日 /p/130403

菜单
沉默的广场

@rebecca #130403

说来我发现UBI是个必要条件，人们追求的除了基本的生活条件，还有一项是下一代阶级地位的稳固。教育焦虑是很多中产焦虑的来源。

所以社会适度的阶级固化倒未必是坏事。阶级流动性强不仅意味着上升机会，还意味着阶级地位随时会下滑，从人口比例看，下滑比起上升的机会还更大一点。

假设收入结构合理，且社会可以提供充分的发展选择和最低保障，所谓的“阶级流动性差”也是可以接受的，一如欧洲很多国家。

2021年3月12日 /p/130408

菜单
thphd 2047前站长

@沉默的广场 #130408

假设收入结构合理，且社会可以提供充分的发展选择和最低保障，所谓的“阶级流动性差”也是可以接受的，一如欧洲很多国家。

如果确保所有人都能吃饱喝足生小孩，阶级之间就没有互相争夺利益的动机，大家也就不会像今天这样盯着阶级流动性不放。

可惜人性贪婪，确保其他人不能吃饱喝足生小孩是一种顽固的本能。产生善良的动机需要极为强大的共识，这一点我记得vitalik作过报告：如何利用分布式机制，鼓励public good，避免tragedy of the commons。

https://vitalik.ca/general/2019/12/07/quadratic.html

不过我国还远不到这一步，当务之急恐怕仍然是拆墙。

2021年3月12日 /p/130439

菜单
自由騎士

MasterChief 先知指引的騎士.The prophecy is uncertain, there's always hope.

@France_Mauro #130400 那俩个是游戏解说，当然不懂技术细节，仅从当时AI测试表现而言的评论。什么是智能，现在还是不可解释的黑盒，如何定义如何量化，智能学界还没有诞生自己的牛顿。AI目前还是只能擅长某单一领域范围的任务，否则就要重新训练（专家团队的人类智慧去调教）。通用AI还很远。况且除了软的理论限制，还有硬件的限制，摩尔定律也走到头了。

2021年3月13日 /p/130450

菜单
守序善良

Neko 人类社会永远在变化。

@France_Mauro #130400 确实。从ai设计上，就是参数不合理而已。物本无情，人投射了自己的非理性的东西上去，产生“情感共鸣”，甚至算是艺术。反差与荒诞，足够Neko在黄沙的上午咂摸出一个短篇了。

2021年3月16日 /p/131126

菜单