在推理阶段修改模型权重的这种范式的前景如何呢？

qzero · 2026 年1 月 8 日 02:27

如题，大概就是像人脑一样在推理的过程中更新自身的神经元连接结构（也就是模型权重），从而可以把上下文信息编码到模型权重里面。

目前上下文管理是Agent领域的一大难题，如果这一能力能够普及，再结合大模型的推理能力，我们应该有机会能够像教一个小孩子一样，首先教会他应该记住什么东西，然后就可以让大模型在和我们的交互过程中自主地学会上下文管理。

前段时间看到Google有一篇工作《Nested Learning: The Illusion of Deep Learning Architectures》是和这一想法比较接近的，这个大方向的关键词应该是Test Time Training。

目前很好奇的一点是：这一范式真的有落地成产品的可能性吗？想了解一下大佬们的看法

lsamc · 2026 年1 月 11 日 11:00

其实我觉得这方向是真promising吧. 想想觉得与其等人开这种课题我想直接自己空余实践研究下, 独立开个课题搞搞. 有想法来多多交流

Nansea · 2026 年1 月 11 日 12:04

非大佬，但我很认同也很喜欢这个方向。如果能够把 Test-Time Training 做到真的有效，意味着大模型不再需要每隔一段时间就重新训练，而是可以随着和现实的交互持续学习。有机会的话我之后也想探索一下TTT。另外，End-to-End Test-Time Training也是一篇相关的工作（虽然我还没读）

qzero · 2026 年1 月 12 日 01:33

最近又想了下，在实践层面一个比较尴尬的问题是：用什么方法来指导参数更新？

在预训练的时候可以用真实标签来计算loss，然后反向传播更新，这个是很成熟的了；但是在推理阶段的话，这个真实的label如何定义是个问题。

（以下是未经过文献调研的脑洞）
更激进一点的，也许我们需要不同于反向传播的一种新范式。直觉上来讲，人脑这么复杂的系统不太可能是用反向传播这种“牵一发而动全身”的方法来更新神经元连接的，因为这会导致整个系统太不稳定了。
个人感觉人脑的参数更新方式更有可能是一种简单的微观结构涌现的结果，比如对于某个神经元只有2个规则，第一个是如果连接强度大于某个值就切断，第二个是随机和周围的神经元建立连接。

这个可以用原胞自动机来类比，原胞自动机可以涌现出飞机，自我复制等形状，并且还是图灵完备的，这说明了简单的微观规则其实是有能力涌现出智慧这样复杂的能力的。

当然，如果不是人类手动在原胞自动机的棋盘上搭建出飞机的造型，那仅靠它自然演化是很难自发的出现飞机的。这也许就是预训练的作用：即让整个神经元系统已经“预制”了学习的能力，就是相当于在原胞自动机的棋盘上摆出了一个形状，这个形状在接收输入之后会自我更新自身的形状，使得自己记住了本次的输入。

Nansea · 2026 年1 月 12 日 10:19

同意，我不认为人脑中会存在“反向传播”这种机制，我觉得更有可能是依靠进化产生的某种在前向传播时就同时调整权重的规则（此处也许应该看看脑科学？）去决定神经元的连接方式。

lsamc · 2026 年1 月 12 日 10:44

有理! 不过我还有另一个(可能的)思路

我昨天也在思考这个问题, 有一篇文章叫Agent Learning via Early Experience

他的核心思想是世界发生变化本身就是一种值得学习的东西

我们人类生活时也没有哪个超自然系统告诉我们什么是对什么是错, 而我们主要通过观察发现世界的transition来自我更新认识. 然而这当然会导致个体认识的误解,于是这里有两个能文明对齐的地方

预训练(上学, 小时候看书, 监管者指导)能告诉人们基本的”世界观”(自行判断新事物怎么样的依据)
人在持有某些信念时也会和身边人分享看法, 从而在讨论中与他人看法对齐; 人也会做一些事, 做的事情会产生一些后果导致获得他人评价, 这也是一种对齐

lsamc · 2026 年1 月 12 日 10:48

em, 我认为前向传播本身并不应该能学到什么, 但是我觉得人在重复经历某些pattern时会加深印象; 在重复做某些事情时会变得熟练, 所以简单来说这应该是同一件事情发生时同时被激活的两个神经元可能会加强联系, “用进废退”

而更高级的”自我进化”还有自我反思, 他人评价后反思

以及社会的”选择”(如高考)将学习得更好的模型进行集中, 这个有点像, 可以参考演化算法(?

Nansea · 2026 年1 月 12 日 11:00

我说的前向传播中修改参数其实也是用进废退这个思路。

我觉得用进废退不是在第二次经历时突然的醒悟，而更倾向于每一次经历时都强化一次这种经历相关的权重，也就是每次前向传播时都以某种规则强化这次前向传播激活的连接，积累起来就表现为用进废退。

至于更高级的自我进化，我觉得应该认为是“人类”这个模型后天“涌现”出的一种能力。这种进化方式本身也是“用进废退“的结果。

lsamc · 2026 年1 月 12 日 11:02

对对对, 有道理

qzero · 2026 年1 月 13 日 01:25

话说这个有办法通过算法来模拟吗？神经元之间的连接可以通过现有的神经网络来建模，但是外部刺激怎么建模是个问题。

如果能用这种范式（也就是非反向传播训练的方式）来训练出一个小的神经网络，并且能在ImageNet上取得不错的成果，那说不定真能发个paper然后推动工业界去用更大的算力去研究这个方向。
（不过在实现层面困难应该不少就是了）

qzero · 2026 年1 月 13 日 01:37

确实，直接和世界交互是个更符合第一性原理的方法。

仔细想来的话，其实人类本身也是有reward的，就是内啡肽，多巴胺之类的化学物质。但是和现在RL不同的是，这个reward是智能体内部产生的，而不是外部赋予的（也许可以这样认为？）

lsamc · 2026 年1 月 13 日 07:02

好思路，可以研究一下

我这几天看到的文章，好像CV那边是有在做类似的事情的

SnowwolfSky · 2026 年4 月 2 日 16:33

楼主你好！我想知道，你提出的这个问题，究竟是想问在应用领域的前景如何？还是在学术和工程实现层面的前景如何呢？我觉得在推理阶段修改模型权重的方式，本身应当有着非常好的实现性，例如通过预测编码结合RNN一类架构，或许能在语言和感知层面发挥很大作用。

rijuyuezhu · 2026 年4 月 3 日 03:32

给一篇有趣的文章：Test-time-training + RL

大幅提升了 test time 的生成质量。挺有意思的。

TTT 可能确实是一个很 promising 的方向