你的位置：| 老婆偷情 > 酒店偷拍 > 小表妹强化学习之父Sutton最新万字采访：炮轰深度学习只是瞬时学习，执续学习才是智能冲破的要津

小表妹强化学习之父Sutton最新万字采访：炮轰深度学习只是瞬时学习，执续学习才是智能冲破的要津

发布日期：2024-11-30 03:10 点击次数：137

小表妹

来源 |图灵东谈主工智能，管千里着沉稳慧

商榷配合| 13699120588

著作仅代表作家本东谈主不雅点

前两周加拿大阿尔伯塔大学（University of Alberta）机器智能筹议所与强化学习别传东谈主物 Rich Sutton 录了期播客，也即是 AI Scaling Law 信仰之文《苦涩的教悔》的作家！Sutton 耕种十分低调，很少罗致采访，但这一次他共享了终点挑升旨的对 AI 行业的看法：AI 筹议需要再行关注 "执续学习" 才气，而不是只是追求在固定数据集上的性能。咱们会在改日几十年内完全瓦解智能的实质，这将从根底上改变东谈主类对自身的瓦解，并带来深远的时间和社会影响

Rich Sutton 是一位加拿大狡计机科学家。他是阿尔伯塔大学狡计科学耕种和 Keen Technologies 的筹议科学家。被认为是当代狡计强化学习的创举东谈主之一，对该领域作念出了多项紧要孝敬，包括时刻各异学习和战略梯度才略。Rich Sutton于2019年在其个东谈主博客上发表了一篇闻明著作《Bitter Lesson》（苦涩的教悔）。这篇著作是东谈主工智能领域的遑急不雅点总结。著作的中枢内容是探讨东谈主工智能发展的历史和改日所在，强调一个遑急的教悔：浅易、通用的才略（举例诈欺更多狡计资源的学习算法）最终会比东谈主类遐想的复杂、领域特定的才略更凯旋

照例先给Rich Sutton耕种采访内容划个重心（无缺采访附在文后）

执续学习与深度学习

深度学习过于关注"瞬时学习"（transient learning），在厂里学成后就固定下来了；这种才略固然在非线性映射方面取得了凯旋，但捐躯了执续学习的才气；刻下 AI 领域过于关注"咱们能作念什么"，而不是"咱们还不行作念什么"

1986 年反向传播的发现带来了非线性学习才气，但反向传播只是梯度着落，而梯度着落中莫得任何东西能驱使学习系统找到能很好泛化的特征，它只是找到能很好处治现存问题的特征；这个量度在其时是不错罗致的，但刻下需要改变

Sutton 认为信得过的冲破应该来自于对学习主张的再行想考，而不是浅易地革命现存的优化才略

主张与心智

Sutton 信托奖励假说，即系数的主张追求都不错被瓦解为最大化一个单一的、外部吸收到的标量信号

为了已毕这个"总体主张"，咱们为我方设立许多子问题，比如我有个子问题是怎样提起茶杯并凯旋送到嘴边而不洒出来，系数这些都是对处治总体主张有用的子问题

复杂的高级次主张，如得回博士学位、开荒家庭等都是为了优化这个基础的主张奖励

这种不雅点可能让东谈主感到不适，但 Sutton 认为这正巧标明咱们正在接近真相 - 从眇小的事物也不错产生终点详细的东西，刻下的 LLM 不即是很好的例子么？（《苦涩的教悔》建议多读几遍😂）

要是你能霸术，能通过试错学习，这即是 Sutton 认为的"心智"；

这一切都波及到模子，咱们通过试错学习，开荒寰宇模子，并能够使用该模子进行霸术，这并不是过分的条目，是以 Sutton 照旧挺赈济 LeCun 的筹议的

对筹议才略的建议

要保执日常写稿民风，记载并发展我方的想法；

要中立对待流行趋势，遴选信得过遑急且有后劲的问题；

筹议者专注于未处治的问题，而不是也曾凯旋的领域；

无缺采访汉文笔墨版（英文华访视频请自行搜索Rich Sutton’s new path for AI）

东谈主工智能新谈路：与Rich Sutton的对话

主执东谈主A: Rich，终点感谢你作客咱们的播客"约莫正确"。咱们一直想邀请你，今天终于已毕了，确实太好了！

Rich Sutton: 谢谢Scott，很侥幸来到这里。

主执东谈主B: 咱们之前在播客中筹谋过几次强化学习，但咱们很想知谈强化学习的哪些方面诱导了你？你为什么运行筹议这个领域？

Rich Sutton: 我一直对与寰宇互动并从中学习的系统很感好奇钦慕，而强化学习恰是如斯。它需要一个主张，咱们将其样式化为奖励。但令东谈主诧异的是，回溯东谈主工智能的发展，从我70年代运行筹议东谈主工智能以来，很少有筹议关注系统与寰宇互动、从中学习并已毕主张。即使在早期截至论、模式识别和监督学习中，这些系统也莫得主张，它们只是试图识别模式。模式识别是智能的遑急构成部分，但它并不会为了主张而与寰宇互动。是以，这方面一直让我合计有所缺失。当我运行筹议时，并莫得强化学习这个领域，是咱们创造了它，因为其时莫得东谈主作念这方面的筹议。

主执东谈主A: 你是否牢记某个时刻，让你眨眼间遒劲到"啊，我想筹议这个以主张为导向的所在"？

Rich Sutton: 这是一个平缓形成的想法。咱们筹议了东谈主们筹议过的系数不同领域，比如模式识别、截至表面等等，一直在寻找"在那里不错找到一个系统，它试图作念某事并从中学习"。那时有老虎机问题（Bandits），你不错反复扩张某个算作直到得回最大奖励，但这也曾是最接近的了，它们并莫得类似"我牢记在这种情况下我应该这样作念，在那种情况下我应该那样作念，以便已毕我的主张"的机制。

主执东谈主B: 老虎机问题实质上是无状况的，对吧？你只是反复作念合并件事。

Rich Sutton: 是的，它是无状况的。

主执东谈主A: 你认为为什么东谈主工智能会从展望运行？

Rich Sutton: 把柄我对历史的瓦解，它并不是信得过从展望运行的。我认为早期筹议者一运行就想让系统通过互动来已毕主张。其后他们倒璧还模式识别，因为模式识别更澄莹、更浅易。然后他们逐淡健忘了一些最早期的筹议，比如1954年Farley和Clark的筹议，他们筹谋了试错学习。其后，试错学习平缓变成了监督学习，成了一条更澄莹的前进谈路。

主执东谈主B: 这是一种简化。

Rich Sutton: 是的，一直以来都是如斯。很对不起从这样早的历史运行。

执续学习与深度学习

主执东谈主A: 不要紧，这很真谛，打好基础很遑急。而且邀请你的平允之一即是你还牢记这些事情。让咱们回到刻下，你刻下在强化学习领域想考哪些问题？哪些方面让你感好奇钦慕？

Rich Sutton: 我只可通过评论系数东谈主工智能领域来形色它，谈谈东谈主工智能中正在发生什么、莫得发生什么以及需要发生什么。我仍然认为东谈主工智能是与寰宇互动以已毕主张。我想这意味着咱们在评论强化学习。但要是你只是为了已毕主张而与寰宇互动，那么你就必须开荒一个寰宇模子，你必须有一个主张，你必须在多个时刻圭臬上对寰宇进行建模，你必须学习瓦解寰宇的正确结构、特征和主张。我还没提到你必须尝试不同的事情，望望哪些灵验，这即是强化学习的来源。我想说，多年来，咱们也曾开发出了很好的线性映射才略。要是你需要学习线性关系，那么咱们作念得很好，咱们不错在线学习，不错执续学习。

主执东谈主B: 你能举一个线性关系的例子吗？哪些情况下线性关系很灵验？

Rich Sutton: 系数算法执行上都是为线脾气况界说的，对于非线脾气况，你会得到线性TD Lambda、非线性TD Lambda、Q学习，它们都有线性版块。线性版块学习速率很快，况兼不错跟着寰宇的变化而适当，但它们无法学习非线性映射，无法学习异或，无法学习新的特征。1986年咱们发现了反向传播算法，咱们运行能够学习非线性映射。但这就像一个恶魔的遴选，当咱们想学习非线性事物时，咱们不得不毁灭快速变化和执续学习的才气。

主执东谈主A: 你必须毁灭吗？我的道理是，我不认为你应该毁灭。

Rich Sutton: 率先发现的才略无法执续学习。它们能够学习非线性事物，这太令东谈主快活和遒劲了，以至于咱们为了学习非线性映射而毁灭执续学习的才气，这是一个很好的量度。

主执东谈主B: 这是一个很好的量度，但咱们坚执得太深远。

Rich Sutton: 而且，不知缘何，我合计这个领域的好意思学也曾改变了，这个领域想要专注于他们能作念什么，而不是留意到他们不行作念什么。

主执东谈主A: 你认为这是什么原因变成的？

Rich Sutton: 原因很浅易，咱们能作念某些事情，是以咱们就会去作念这些事情。系数的深度学习都是对于"咱们能用数据集作念什么？咱们从中学习，然后冻结咱们学习到的系统，然后辞寰宇上运行它"。ChatGPT根底不学习，但构建它需要宽广的学习。咱们在话语方面取得了惊东谈主的设置，但咱们不得不毁灭执续学习的才气。在泛泛使用流程中，ChatGPT并不会学习。这是对筹议东谈主员的磨真金不怕火：他是想望望咱们不行作念什么并起劲处治这个问题，照旧想望望咱们能作念什么并不竭深入筹议？这就像在街灯下找钥匙的问题：我丢了钥匙，我会在街灯下找，因为那里是我能看到的地方，尽管那可能不是钥匙所在的地方。我认为作念系数不同的事情都没问题，但我认为遑急的不雅察是，这个领域绝大多数都朝着一个所在发展，朝着……

主执东谈主A: 是以以至于要是你想说"咱们有一些事情作念不到"，你会受到激烈反对。他们会说："是的，但咱们不错作念系数这些其他事情，是以不要品评咱们。"

Rich Sutton: 是的，我认为这是一个很大的影响。在早期，机器学习愈加怒放，"这是一个真谛的问题，让咱们试试"。然后，在某个时候，深度学习……这个领域参加了一个阶段，除非你作念一些复杂的事情，比如Atari游戏，不然你无法发表论文。你有一些新想法？它在大问题上是怎样职责的？我认为这种情况正在平逐步解，东谈主们对咱们不行作念什么更感好奇钦慕了，对于执续学习的系数事情恰是刻下更容易被罗致的筹议所在。

主执东谈主B: 你能界说一下什么是执续学习吗？

Rich Sutton: 执续学习即是执续学习，而不是在工场里学习，然后当你参加寰宇时就被冻结。有时我会尝试寻找，要是咱们有执续学习，这简直是泛泛的，那么什么应该是不泛泛的呢？不泛泛的，我试着称之为"顷然学习"（transient learning）。深度学习所作念的即是顷然学习，你在一个特等的阶段学习，然后学习就扫尾了，你再也不会学习了。这即是顷然学习，这是不寻常的

主执东谈主A: 片断式学习（episodic learning）？小表妹

Rich Sutton: 我不行用这个词，因为强化学习以一种终点特等的方法使用"片断"这个词。

主执东谈主B: 这确乎让我合计很合理。我的道理是，想想咱们是怎样学习的，我不会每天回家后就健无私所作念的一切。每当我得回新信息时……

主执东谈主A: 也许不好的日子会健忘。

主执东谈主B: 是以我很想知谈，为什么这莫得成为默许的学习方法？

Rich Sutton: 它从一运行即是默许的，只是在最近几十年里，咱们堕入了这种群体想维，咱们都以一种特定的方法想考。我可爱这样想：咱们试图创造什么？咱们试图创造一个固定且阐发终点好的系统吗？咱们的最终居品会是能够跟着遭受新事物而不竭学习的东西吗？当你每天来上班时，你会想"我真的很棒，我只需要作念相同的事情"吗？照旧你会想"他们付我钱是因为我不错适当发生的事情，我不错纯真地学习新事物"？

主执东谈主A: 大多数时候，我不知谈。两者都很遑急。

Rich Sutton: 但适当性对我来说似乎老是很遑急。硬性智能……智能是一种战略，照旧一种适当任何情况的才气？

主执东谈主B: 当咱们试图构建这些不错执续学习的系统时，濒临哪些挑战？

Rich Sutton: 这是你问我的第一个问题，你问我"刻下最令东谈主快活的事情是什么？"，然后我运行言反正传……这个领域也曾作念出了这种量度：他们不错作念非线性的事情，但前提是他们毁灭执续学习。这是该领域终点激烈的趋势，它取得了纷乱的凯旋，我对此无所畏惮。我顾惜的是，他们莫得给筹议其他所在留住空间。但我是一个凯旋的学者，而且我老了，我不错作念我想作念的任何事情。是以我要去作念我信得过认为最遑急的事情，即使莫得其他东谈主认为它遑急。我认为是时候……早就应该有东谈主弄澄莹怎样进行执续的非线性学习了。在我看来，这些根底不应该互相对立。我正在以一种特定的方法进行筹议，专注于在线学习和单一任务，就像寰宇在平缓变化，你必须不停地侍从它，并在这种环境中学习。我只是想填补这个空缺，咱们应该能够进行非线性学习，况兼仍然完全执续学习。

主执东谈主B: 为什么咱们不行？是什么绝交了咱们？

Rich Sutton: 咱们创造了系数这些专门的东西来使顷然学习职责得很好，比如回放缓冲区，咱们进行归一化的方法，以及像提前罢手。咱们也曾开发了宽广的时间和手段来使顷然学习职责，是以这绝交了对网罗进行执续学习，因为……你不会在ImageNet上作念得很好，因为ImageNet是圭表基准测试，它是为顷然情况遐想的。你不会立地在Atari游戏上作念得很好，因为咱们开发了系数这些定制才略，使Atari游戏在顷然学习才略下职责得很好。才略不同，问题也不同。你不行只是介入并在圭表问题上作念得更好，因为系数圭表问题都是为顷然情况遐想的。

主执东谈主A: 是以听起来你好像在说，是时候退一步，望望更大的图景，而不是这些短促的处治决议了。

Rich Sutton: 皆备是这样。你也不错从另一个角度说，东谈主们莫得遒劲到这有多遑急，这意味着当它被处治时，它将是一个更大、更遑急的效果。要是你能包袱得起，作念一个反向者是件功德。就像我说的，我很行运，我不错作念我想作念的职责。让我告诉你我对它的着实感受……我原以为我在说真话，我原以为其他东谈主会作念这件事。当我照旧博士生时，我的同学Charles Anderson，亦然Van Bardo的学生，他作念了非线性部分，我要作念强化学习的特定部分，然后咱们会把它们放在系数，这会很好。然后我很失望，40年昔日了，这些东谈主还莫得处治这个问题。违反，非线性学习转向了离线顷然学习，他们莫得给我提供我不错用来学习战略、学习价值函数、学习寰宇模子、学习寰宇改动模子的才略。他们莫得弄澄莹表征学习，他们莫得弄澄莹"让咱们弄澄莹什么是寰宇的正确表征，那些能够很好地泛化的表征，让我刻下就能快速学习"。这皆备是强化学习，我想说亦然东谈主工智能前进的瓶颈。咱们莫得能够执续学习的才略，除了线脾气况。咱们莫得找到好的表征的才略……咱们老是要与自大作斗殴，因为自大会挫伤你看到真相的才气。但我所说的有点自大，我说"我给了这些东谈主40年的时刻来处治这个问题，他们莫得作念到，刻下我不得不我方作念"。这大致上即是我所说的，这终点自大，至少第二部分是这样，我就能在几年内作念好。我的道理是，我也曾想考了很万古刻，我真的但愿我不必作念这件事，这太缺憾了。

主执东谈主A: 我的道理是，他们也曾奠定了一些基础，对吧？他们所作念的职责并非完全无谓，它会匡助你。

Rich Sutton: 也许你只是出于圭表，但我嗅觉它不是基础，它执行上是偏离处治决议的。它使得作念正确的事情变得愈加艰巨，因为他们莫得说"这是一个咱们需要处治的问题"，他们说咱们也曾完成了对于学习表征的反向传播论文，他们认为这是怎样学习表征的处治决议。可是，表征不应该是一般的，况兼在许厚情况下都有用吗？然后不论你需要作念什么，你都在它上头学习一个线性映射。

主执东谈主B: 我愉快这极少。

Rich Sutton: 我认为他们认为反向传播不错学习到好的表征。

主执东谈主B: 啊，好吧，我愉快你，我不这样认为。

Rich Sutton: 啊，好吧，真谛。或者他们说这使得其他东谈主更难说"这是一个未处治的问题，我要筹议它"。他们说："不，不，反向传播也曾处治了这个问题，要是你要筹议它，你最佳在反向传播隔壁职责，并证据你比它更好。"

主执东谈主B: 那么表征有什么问题呢？他们莫得作念什么？

Rich Sutton: 反向传播只是梯度着落，梯度着落中莫得任何东西会驱动学习系统找到能够很好地泛化的特征。它只是找到处治现存问题的特征。

主执东谈主B: 是以这不是反向传播的问题，而是反向传播试图处治的主张的问题，亏蚀函数的问题。

Rich Sutton: 是以听起来只是在劝服东谈主们咱们莫得正确的处治决议。

Rich Sutton: 你不错这样作念，这是一种失败的才略。你说："莫得东谈主筹议这个，我必须起先劝服东谈主们这是正确的事情，然后我再筹议它。" 可是，你会把系数时刻都花在劝服别东谈主上，你历久不会信得过地筹议它，是以你历久不会信得过地凯旋。其他东谈主会说："看，他说咱们需要作念这件事，但他莫得取得任何进展。" 耗损时刻试图劝服其他东谈主去作念你认为遑急的事情是一个很好的失败才略。

主执东谈主B: 那么有什么替代决议呢？

Rich Sutton: 你必须是一个反向者，况兼信得昔日作念。你不错花一些时刻试图劝服其他东谈主，要是你但愿发表论文，你必须这样作念。

主执东谈主A: 但在某种进度上，这即是咱们在非线性环境中的一又友们所作念的，对吧？他们忽略了系数东谈主长达十年傍边的时刻，而系数东谈主都告诉他们，他们所作念的事情莫得任何原则。每个东谈主都宠爱他们有原则的统计机器学习，而他们一直在踏知道实。

Rich Sutton: 是的，但他们老是有好的绝交，他们总有一些不错指出的逾越。

主执东谈主A: "老是"这个词说得太皆备了。我牢记在我筹议生早期，深度学习周围校服有许多杂音

主执东谈主B: 是的，而且东谈主们仍然认为这很愚蠢。

主执东谈主A: 是以，不论怎样，也许应该赞美他们坚执了下来。

Rich Sutton: 这是对于田园的故事。神经网罗在田园中渡过了它们的十年，是以莫得东谈主认为它好。是以我想我说的是，执续学习在田园中渡过了它的十年，刻下它运行被罗致了

主执东谈主A: 这很好。

Rich Sutton: 一切都会追思，科学中的系数这些问题都是自我改良的。

主执东谈主A: 但它们真的是这样吗？这需要有东谈主来决定，对吧？科学本人即是其中的东谈主，是以只须当有东谈主作念出决定时，它才会自我改良，而且这可能需要很万古刻。

Rich Sutton: 好吧，我认为咱们应该争取在2030年之前

主执东谈主A: 知谈咱们可能不会凯旋，但你必须尝试。

Rich Sutton: 当咱们说"凯旋"时，指的是什么？瓦解大脑怎样职责？

主执东谈主A: 瓦解一个系统怎样通过试错，通过尝试不同的事情来学习，开荒一个寰宇模子，以便咱们能够瓦解寰宇，它不错找到决策的支点。我应该去参加这个演讲照旧阿谁演讲？我应该去洗手间吗？我应该喝一口茶吗？系数这些……你知谈，你必须找到这些遴选，生计中存在着初级的遴选，但你必须找到生计中 meaningful 的遴选。系数这些都波及到一个模子。是以条目咱们通过试错来学习，并开荒一个咱们寰宇的模子，并能够使用该模子进行蓄意，这并不外分。这即是我认为构有益智的一系列事情。

主执东谈主B: 我认为东谈主类独到的特质是能够同期领有多个主张。我有许多事情要作念，我不错把你烦死，告诉你我刻下正在作念的系数事情。你知谈，咱们都有咱们正在作念的事情，咱们有家庭，咱们有行状，咱们有一又友，咱们有爱好，系数这些事情都互相近似。每天咱们都决定咱们的主张是什么，咱们今天要作念什么。有时它会让咱们朝着更大的主张前进，有时只是星期天，不要紧。

主执东谈主A: 是的。你必须找到均衡点才能保执……有时就像纸牌屋一样。

主执东谈主B: 但我猜度像动物，动物的主张是什么？也许它们主张的复杂性更低。

Rich Sutton: 它们也更少地与某种里面奖励联系，对吧？

主执东谈主B: 我不反对你的不雅点。

Rich Sutton: 但我认为，只须一个主张和有许多主张都是正确的。我信托奖励假定，即系数主张寻求都不错被很好地瓦解为最大化单个标量外部吸收信号

主执东谈主B: 是的。

Rich Sutton: 这是已毕主张的一部分……咱们为我方提议了许多子问题，比如我有一个子问题：我怎样提起我的茶并凯旋地把它送到我的嘴里而不洒出来？系数这些都是对咱们处治举座主张信得过有用的子问题。是以我认为子任务、子问题是处治单个总体问题的处治才略。是以这让我两者兼得，我有一个主张，但我的大脑里充满了"这会让我作念到吗？那会让我作念到吗？我必须学习系数这些独处的事情，并学习每个问题的处治决议，然后……然后我的生计将充满‘我决定暂时戮力于阿谁主张’，这将驱使我最终到达某个地方，然后我不错戮力于另一个主张。"

主执东谈主B: 是以你把主张看作是子问题，系数这些不同的主张，有点像创造这些子主张

Rich Sutton: 创造它们，皆备是提议它们。博士学位，我想得回博士学位，我想得回毕生教职，我想xx

主执东谈主B: 在这种情况下，什么是系数这些子主张的单一主张？

Rich Sutton: 单一主张将是奖励。咱们并不信得过知谈东谈主们的奖励是什么，但它就像欢喜和恶运，也许还有东谈主们对你的作风，来自其他东谈主的尊重。奖励假定的惊东谈主之处在于，有一个眇小的标量值，你正试图最大化它，它是一个初级的东西，它就像一个数字在每个时刻参加你的大脑，它鄙人丘脑上钩算，然后从中产生了"我想组建家庭，我想领有一个凯旋的筹议科学家作事"等等。从一个不详细的东西中产生了终点详细的主张和终点详细的主张。也曾有一段时刻，这太不可想议了，以至于说出来会很窘态。但刻下这应该很直白了，咱们也曾屡次看到这种情况发生。你知谈，AlphaGo学会了下围棋，它领有系数围棋中需要的详细主张。学会了下国外象棋，它领有国外象棋中系数需要的详细主张。或者像话语模子，它让我大吃一惊，它从这个浅易得多的问题中学到了什么。"哦，我的天哪，下一个词"。

主执东谈主B: 是的，从眇小的事物中不错产生终点详细的东西。

Rich Sutton: 是的

主执东谈主B: 好吧，这是一个令东谈主信服的故事。我得承认，当你这样说的时候，我也合计有点热沈上不惬意。

主执东谈主A: 我承认，这让你合计我方莫得你遐想的那么复杂。

Rich Sutton: 是的。在这几十年里，咱们将要学习，咱们将要更好地瓦解心智，我认为这不会都是惬意的。我认为不惬意的事实执行上让我合计咱们正在取得进展，咱们正在更好地瓦解事物。

主执东谈主A: 咱们不单是是在寻找咱们想要信托的真相，而是在寻找信得过的真相。

Rich Sutton: 你想想，要创造一个想要作念某事的东谈主，比如成为又名筹议科学家，是不可能的。进化是怎样让你领有这个主张的？这是不可遐想的，而且行欠亨。它必须给你一个它不错感知的主张，一个具体的主张

主执东谈主A: 这让咱们回到了热沈上的不适。

Rich Sutton: 将会出现其他智能体，咱们将瓦解它们是怎样职责的，它们只是试图让这个数字更高，这很真谛

主执东谈主B: 是以你说你认为咱们会在改日六年内瓦解这极少？

Rich Sutton: 不，我有一个展望，到2030年有四分之一的可能性咱们会瓦解，这将是拖沓的，但基本上咱们会瓦解智能。这并不料味着咱们将瓦解东谈主类的心智，这将需要更长的时刻。咱们将瓦解怎样通过试错学习来已毕主张，怎样开荒一个寰宇模子，使你能够在多个详细档次上进行蓄意，况兼作念到这极少莫得紧要差距。你知谈，它将学习好的表征，学习很好地泛化。它将是一个神经网罗，只是某种不同的算法。

主执东谈主A: 它将有一个奖励。寰宇是什么？

Rich Sutton: 寰宇是咱们与之互动的东西。咱们向它发送比特，它向咱们的眼睛等发送比特。

主执东谈主A: 但你指的是系数这一切，照旧指某个构建的寰宇？

Rich Sutton: 我认为寰宇是被构建的，尽管……咱们向寰宇发送比特，它向咱们发送比特。咱们从这个咱们向其发送比特并从中吸收比特的东西中瓦解寰宇

主执东谈主A: 是以你说的是任何寰宇？

Rich Sutton: 任何寰宇，是的。

主执东谈主A: 能够开荒模子，改动模子，这样你就能蓄意

Rich Sutton: 要是你能蓄意，况兼你也能通过试错学习，这即是我认为的心智。

主执东谈主A: 要是你的展望是真的，就像你说的，我认为你说的是到2030年有四分之一的契机。

Rich Sutton: 到2040年有二分之一的契机。

主执东谈主A: 那意味着什么？这将怎样改变近况？

Rich Sutton: 咱们将瓦解心智是怎样职责的。这将匡助咱们瓦解咱们我方的心智。东谈主工智能筹议东谈主员将在更详实的层面上瓦解它，它将平缓渗入到社会，渗入到寰宇的遒劲中。咱们会感到不惬意，然后会平缓适当。这将带来时间变革，它将改变经济。我不细目哪一个更遑急，社会学上的照旧时间上的。不论怎样都会有许多时间变革，即使莫得瓦解心智亦然如斯。但我认为这将信得过改变咱们，因为它将……咱们将更好地瓦解咱们我方，这也许是重心。是以我认为这将黑白常深刻的，完全独处于它对经济的影响，它对地缘政事的影响。

主执东谈主A: 你认为要是咱们更好地瓦解它，它会影响咱们教训的方法，咱们耕种东谈主们的方法吗？

Rich Sutton: 是的，完全会。一个很大的变化将是增强。要是咱们瓦解咱们的大脑是怎样职责的，那么咱们应该能够添加比如更好的纪念力。我想被增强，我想更好地想考，我想数字基质相对于生物基质有许多上风。是以咱们不错变得更好，有许多事情因为咱们不知谈我方是怎样职责的而被绝交了。正如我所说，瓦解心智与瓦解东谈主类心智不同，与瓦解东谈主类大脑不同，那将需要更长的时刻。

主执东谈主A: 你是热沈学家，你处于神经科学的边际，你怎样看待像Neuralink这样的脑机接口？

Rich Sutton:: 我的道理是，我看到了许多它们不错提供匡助的地方。我认为咱们离大多数东谈主合计这是他们想要的东西还很远。我认为这可能不是2040年的事情。

筹议建议

主执东谈主A: 我想这是咱们给你的临了一个问题：你对学生或其他崭露头角的筹议东谈主员有什么对于筹议的建议吗？怎样遴选筹议所在，怎样取得精熟的进展？

Rich Sutton: 是的，我想我有一些。准备一个筹议条记本，每天都写，写下你的想法，并想考你的想法，试着挑战它们，让它们变得更好。要是你想让其他东谈主对你所想的感好奇钦慕，那么你应该起先我方关注它，你应该至少关注到把它写下来，挑战它，发展它，鼓励它。这是最遑急的。我随机发现了这个战略，它改变了我的系数轨迹。这真的很难作念到，因为它是一张白纸，你知谈，你有什么要说的？也许你对你正在想的事情谊到困惑。一个有匡助的想法是，庸碌情况下，写下你的想法的价值与它们的拖沓和零乱进度成正比。

主执东谈主A: 价值与写下它们的难度成正比。

Rich Sutton: 要是你说："我甚而不知谈怎样……我同期在想六件事，我不可能把这些写下来。" 这即是当你写下一些东西时，它将超等有价值的时候。

主执东谈主A: 这是你知谈你真的想追求一个想法的方法吗？这是一个绚丽吗？

Rich Sutton: 不，这将是可怕的。你正试图向我方解释澄莹你在想什么。要是你想不出其他要写的东西，就写下"我认为我脑子里盘旋着的六个真谛的想法是什么？" 然后把它们写下来，一到六。然后说："好吧，这即是全部吗？还有第七个吗？" "这六个中，有两个真的是一样的吗？" 或者对这六件事中的每一件再写一段，解释你是什么道理，向我方解释你的想法是什么。只是通过这样作念，你就会说："刻下，当我试图解释它时，这个想法就消散了。你知谈，也许它什么都不是。" 或者，也许它在你写下它的时候成长和改变了。系数这些事情都会发生，是以遑急的是坚执写下去。试着每天写一页，不要太 stressed，但要如期写下去。这是我的建议。

第二个建议是，你应该尽量对流行的东西保执中立。你知谈，要是它流行或不流行，那不应该影响你，因为要是它流行，那么筹议它会更容易，因为东谈主们会瓦解它，但它的价值会更低，因为每个东谈主都在作念。是以你应该保执中立，遴选你认为遑急且可能富灵验果的问题。

主执东谈主A: 你有什么建议来决定我接下来应该作念什么吗？

Rich Sutton: 是的，是以就像我写下这六件事，"我认为这六件事很真谛"，然后解释它们。然后我回偏激来说："好吧，刻下让咱们试着说，我刻下不错筹议哪一件？"

主执东谈主A: 要是有三件呢？

Rich Sutton: 把它们写下来，不竭下去，直到只剩下一件……

主执东谈主A: 哦，不，不

Rich Sutton: 这是一个好问题。我并不是说你找到一件事就去作念，你必须作念一些事情，因为这是筹议，大多数事情不会立地凯旋。

主执东谈主A: 听起来你可能用过许多条记本。

Rich Sutton: 我大略有25本，在我罢手使用实体条记本的时候。刻下我只是在我的MacBook上写。

主执东谈主A: 你有莫得且归重温它们？

Rich Sutton: 不像你想的那么常常。

主执东谈主A: 是的