SuperMemoGuru 探索性学习算法

  • 好奇心驱动学习,大脑通过评估知识价值,选择最有趣的信息探索,最大化知识获取。
  • 目标设置常有限制,应让目标在学习中自然涌现,激发热情,促进知识的深入。
  • 学校强制学习扼杀智力,应尊重个体选择,激发学习兴趣,拥抱开放式教育。

这篇由 Piotr Wozniak 博士撰写的文章是 SuperMemo Guru 系列中关于记忆、学习、创造力和问题解决的一部分。

好奇心是无价的

人工智能研究者会花大价钱来深入理解人类好奇心的机制:即学习驱动力。大脑通过好奇心,用廉价而简单的方法构建了智能。这些方法简单到可以向一年级学生解释清楚。然而,很少有人真正理解好奇心是如何运作的。整个学校体系都建立在忽视人类智能驱动力的原则之上。这表明选择和知识评估的重要性未被充分认识。

好奇心是人脑中最未被赏识的价值之一。

好奇心驱动学习

大脑用来探索环境的算法基于好奇心。该算法可以服务于简单的目标,例如寻找食物。它也使得我们文明的建立成为可能。该算法平衡了权变目标(例如寻找食物)与发散性的、开放式的价值追求

基于好奇心的探索性算法如下所示:

  • 在所有可用的环境中,选择那些能提供最佳平均学习体验(最大化学习熵)的环境。
  • 在所有可用的信息渠道中,选择那些能最大化知识增益的渠道。
  • 在所有可用的信息片段中,挑选并探索那些最有趣的。
  • 在评估知识价值时,使用大脑概念网络中的概念评估(参见:知识评估网络)。

所有这些选择都试图最大化长期收益,并涉及多臂老虎机策略的变体。探索性算法奖励所有能够最大化长期有价值知识流入的行为和举动(参见:知识评估)。

学习是基于好奇心的,并在朝向目标的过程中发生。

知识探索

我们可以在蠕虫身上找到探索性算法的初步实现。它们会转向能最大化回报(例如食物)的环境。然而,人脑已经完善了一整套最大化知识的系统。对知识的追求是决定人类行为的最强大驱动力之一。人类的学习驱动力利用大脑的整个概念网络来确定哪些信息片段提供最高的价值。大脑将信息与先验知识相匹配。当它能检测到意外、惊奇、新颖性时,它会奖励导致学习的行动。它驱动了在同一领域、同一背景下进一步学习的动力。每一条知识都以增量方式添加到概念网络中(参见:拼图隐喻)。

图示: 秀丽隐杆线虫(C. elegans)的神经系统仅由 302 个神经元组成。然而,这足以实现一个探索性算法,让人联想到人类的好奇心创造力问题解决能力。当蠕虫找到一片食物时,它会探索它。但是,它偶尔会出乎意料地朝随机方向冲刺,以寻找新的食物区(细菌)。在其他动物中也可以找到类似的算法,然而,人类的学习驱动力要复杂得多。它基于知识评估,并且探索性的中断仅限于学习熵远低于预期值的时期。人类的创造力也基于知识,而在蠕虫中,其唯一的方面是随机选择方向。对蠕虫来说,一片新的细菌区就是一个已解决的问题;对人类来说,这可能是一个改造火星的新想法。最后但同样重要的是,在原始动物中诱导习得性无助(标记为“学校”)的隐喻工具,更可能只具有驱动力习惯化的形式。尽管如此,这条小蠕虫可能比智能导弹隐喻更能令人信服地说明,这种机制更为普遍,也可能与原始神经系统相关。关于学习驱动力普遍性的更多信息,请参见:好奇心的心理学和神经科学

知识评估

概念网络中的所有概念都有其设定的价值。在我的大脑中,我的祖母可能比我朋友的祖母具有更高的价值。我热爱生物化学书籍,却无法忍受波兰经典文学。这些书籍概念在我的大脑中具有不同的价值。每当一个有价值的概念被激活时,我们可能会体验到微量的奖励和微小的动机提升,以执行增强这种激活的行为。

当我想起生物化学时,该领域的其他概念可能会被随机激活。我可能会想到氨基酸,因为它们是我五十年前在一本生物化学书中学到的最早的东西之一。这可能会产生一种冲动,想在渐进阅读中复习一些氨基酸材料,或者观看一些关于该主题的视频讲座。我可能会好奇地想,氨基酸在最佳饮食中扮演什么角色。这种求知欲被称为学习驱动力(或简称好奇心)。

每次我们学习时,新的知识片段会与先验知识相匹配,如果发现了新颖的关联,我们会体验到愉悦、热情,甚至欣快感。这一切都取决于在新形成的关联中连接的概念的价值。如果我学习了关于氨基酸的知识,并发现它们在限时进食中起着重要作用,我会立刻对我的饮食习惯如何影响我的健康产生热情的思考(价值是高度主观的,与自身相关)。被激活的概念是(1)氨基酸(AA)和(2)限时进食(TRF)。新知识带来了联系:AA + TRF => 健康!大脑喜欢这样!我体验到学习的乐趣,并且非常有动力去学习更多。

先验知识中的高价值概念关联成新价值的新知识,会在学习中提供高回报。

目标与热情

在学习中设定目标通常是抑制性的。目标可能在学习过程中自然产生。如果是这样,所有通向目标的知识都会成为热情滋生的土壤。

概念网络而言,目标是代表未来期望状态的概念。这类状态概念被赋予了异常高的价值。在探索的初期,即生命早期,目标可能像伸手去拿一个球一样简单。渐渐地,一个关于未来可能状态的概念网络会逐渐形成。一些目标会获得更高的价值评估。成为一名外科医生可能成为一个目标。这些价值目标成为热情的驱动力。知识为目标的价值提供养分,而目标则决定了知识的价值,这是一个自上而下和自下而上的价值信号传递与巩固的相互反馈过程。

在 10 岁时就决定成为一名伟大的律师(例如,仅仅因为律师赚钱多)是一个严重的错误。如果这个目标是由父母强加的,那就是一种罪恶的错误。然而,如果生活中的事件(例如观看大量犯罪剧或法律惊悚片)使人对某个职业产生敬佩,那么由此产生的目标很可能会提供一套健康的、高价值的知识评估。学校课程是一系列目标,这些目标有效地摧毁了几乎所有学习领域的学习乐趣(除非自然的热情超越了课程本身)。

开放性和发散性对人类智能是必需的。然而,这些确实会建立起自发的目标,这些目标随后成为未来热情活动的价值锚点。

只有当目标是自发产生时,它们在学习中才是受欢迎的。

改进人工智能

如果人工智能能够有效利用学习驱动力,它就能更有根据地寻求新知识。它不再是吞噬半个互联网,而是去寻找能够提升其建模质量的“金块”。人工智能不再固守政治正确和科学“共识”,而是可以通过在人类已知的基础上进行创造性扩展,真正迈向创新(参见:创造力)。创造力无非是一种随机搜索,其结果源于大脑在创造模式下随机激活所产生的学习。沉思带来新知识。这个过程成本低廉。它所需要的只是高价值激活(植根于先验知识)与可能带来新的高价值关联的新的随机激活之间的匹配。参见:创造力

人工智能将从学习驱动力创造力的简单实现中受益。

学校的灾难

学校的强制学习智能是水火不容的。大脑本应自行选择以最大化学习熵,但却有人试图在错误的形式错误的时间、针对错误的激活状态以及不正确的先验知识状态下向大脑灌输知识。

我今天的主要兴奋点是学习最佳饮食,但在学校,我可能需要记住美墨战争始于 1846 年。也许一个机智的老师可能会将 1846 年美国的行动与今天普京的行动相比较。这会立刻提高知识的价值。然而,如果大脑正热情地思考着个人的饮食习惯,那么所有与该领域相关的知识都会变得最“黏性”(易于记忆)。由热情驱动的知识获得高价值评估,得到良好巩固,并在概念网络的状态中提供一系列语义桥梁。相反,学校学习通常是极其非语义化的。

学校里枯燥的学习导致注意力不集中和教师权威的丧失。这是对纳税人资金的可怕浪费。参见:自由学习法案 (Lex Libertas)

义务教育已经发展成为我们期望的智能教育的对立面。

学校的迷思

教师游说团体培养并传播一系列迷思,使得遵循上述处方变得更加困难。迷思的数量太多,无法一一列举(参见:神经神话学)。然而,我可以列出一些,以便标记这些谬误:

  • 迷思:大脑选择便利的东西。事实:大脑选择令人愉悦且富有成效的东西。
  • 迷思:选择快乐不会带来任何好处。事实:学习的乐趣是良好学习的最佳指标(参见:学习的乐趣)。
  • 迷思:老师很重要。事实:老师只是信息渠道之一。
  • 迷思:学习的有效性受限于知识。事实:该算法在蠕虫、猴子、儿童和爱因斯坦身上同样有效。
  • 迷思:孩子们太不成熟,无法预测未来。事实:他们不必预测。
  • 迷思:孩子们太不成熟,无法自己做选择。事实:探索性算法不随年龄改变。它只是使用不断增长的先验知识集。
  • 迷思:学习的艺术应该在学校教授。事实:关于学习的元知识在学习过程中得到改善。
  • 迷思:需要向孩子们展示有趣的事物。否则,他们可能永远不会发现。事实:在 2024 年,没有什么能躲过一个好奇的孩子的眼睛。
  • 迷思:没有指导的孩子会浪费他们的生命。事实:自主学习(Unschooling)总是培养出快乐且富有成效的个体。
  • 迷思:没有学校,孩子们最终会成为罪犯。事实:自主学习(Unschooling)总是培养出快乐且富有成效的个体。
  • 迷思:老师需要向孩子展示她的才能。事实:才能是回报丰厚且能自我增强的。不需要帮助。
  • 迷思:YouTube 推荐激进的、负面的和伪科学的内容。事实:YouTube 由好奇心驱动。它最大化富有成效的学习。
  • 迷思:我们已在中世纪尝试过自由算法。事实:在 1800 年,学校尚能与农场和工厂竞争。如今,它无法与网络竞争。
  • 迷思:暑假期间孩子们停止学习。事实:自由的孩子从不停止学习。对许多在校学生来说,假期是追随他们热情(而非课程)的最佳时间。

更多信息请参见:孩子永远是对的

进一步阅读