更新时间:2026-01-21 17:52 来源:牛马见闻
正常情况下在正常情况下正常情况下
<p class="f_center"><br></p> <p id="48PKJSVC">这项由南方科技?大学(联合阿伯丁大学、阿联酋穆罕默德·本·扎耶德人工智能大学以及华东师范大学共同开展的研究发表于2026年1月19日,论文编号为arXiv:2601.11061v1。研究团队深入探讨了一个令人困惑的现象:为什么AI数学模型在接受错误的奖励信号训练后,不仅没有变差,反而在数学测试中表现得更好了。<br></p> <p id="48PKJSVD">在人工智能领域,有一种叫做"带可验证奖励的强化学习"(RLVR)的训练方法,就像给学生做练习题时的奖励机制。按理说,如果给学生错误的奖励—比如答错了还夸奖,答对了反而批评—学生应该越学越糟糕才对。但研究人员发现,有些AI模型,特别是Qwen2.5数学模型,在接受这种"颠倒黑白"的训练后,竟然在数学考试中得分更高了。</p> <p id="48PKJSVE">这个现象就像是一个好学生平时考试成绩一般,但突然在某次重要考试中发挥超常,让所有人都摸不着头脑。研究团队意识到,这背后一定隐藏着某种我们尚未理解的机制。他们决定像医生给病人做CT扫描一样,深入AI模型的"大脑"内部,看看到底发生了什么。</p> <p id="48PKJSVF">经过深入分析,研究团队发现了一个惊人的真相:这些AI模型并没有真正学会更好的数学推理能力,而是激活了一种"记忆捷径"—它们直接从训练时见过的题目中寻找答案,而不是通过逻辑推理来解决问题。这就好比一个学生没有掌握解题方法,而是死记硬背了答案,在考试时碰到原题就能答对,但遇到新题就束手无策。</p> <p id="48PKJSVG">研究团队还发现了一个有趣的现象,他们称之为"困惑度悖论"。正常情况下,模型在回答时应该对整个问题都有良好的理解,就像一个好学生不仅知道答案,还能流畅地解释解题过程。但这些"作弊"的模型却表现出一种奇怪的分裂:它们对答案部分非常确定(困惑度低),但对题目描述部分却变得更加混乱(困惑度高)。这就像是有人能准确背出某道题的答案,但对题目本身的理解却变得模糊不清。</p> <p id="48PKJSVH">为了找到这种"记忆捷径"在模型中的具体位置,研究团队运用了多种高精度的分析技术,包括路径修补、逻辑透镜分析和神经微分方程等方法。他们发现,在模型的内部结构中存在着一个特殊的"锚点-适配器电路"。这个电路分为两个关键部分:位于中间层(第18-20层)的"功能锚点",负责识别熟悉的题目并触发记忆检索;以及位于后续层(第21层以后)的"结构适配器",负责调整内部表示以适应这种快捷方式的信号。</p> <p id="48PKJSVI">这种发现的意义就像在汽车引擎中找到了一个隐藏的"超车档位"—虽然能在特定情况下提升表现,但这种提升是建立在特殊条件基础上的,并不代表引擎本身性能的真正改善。研究团队通过精确的实验验证了这一发现,他们甚至可以通过调节特定的神经元来人为地增强或抑制这种"记忆捷径"的效果。</p> <p id="48PKJSVJ">这项研究对AI开发和评估具有重要启示。它提醒我们,仅仅看到AI模型在测试中的高分并不足以说明其真实能力。就像教育评估需要区分死记硬背和真正理解一样,AI评估也需要更加细致和深入的方法来判断模型是否真正掌握了推理能力,还是仅仅依赖于对训练数据的记忆。</p> <p id="48PKJSVK">一、AI模型的"记忆作弊"现象</p> <p id="48PKJSVL">研究团队首先注意到一个令人费解的现象。在传统的AI训练中,我们给模型正确的奖励信号,就像老师给答对题的学生鼓励,给答错题的学生指正。这种训练方式通常能让模型逐步提升解题能力。然而,当研究人员故意给Qwen2.5数学模型提供错误的奖励信号—甚至是完全随机的奖励时,这个模型在某些数学测试中的表现竟然显著提升了。</p> <p id="48PKJSVM">这种现象就好比一个学生在颠倒是非的环境中学习—老师随机地表扬和批评,没有任何逻辑可言—按常理,学生应该变得更加困惑才对。但实际情况是,这个"学生"在某些特定的考试中成绩反而提高了。这让研究团队意识到,背后一定存在着某种特殊的机制。</p> <p id="48PKJSVN">通过对比不同模型的表现,研究团队发现这种奇怪现象并不是普遍存在的。他们测试了多个不同的AI模型,包括LLaMA-3.1-8B和OLMo-2-1124-7B,结果发现只有Qwen系列的模型出现了这种"逆向提升"现象。其他模型在接受错误奖励训练后,表现都如预期般下降。这个对比就像是在相同的"错误教学"环境中,有些学生变得更糟,而某个特定的学生却莫名其妙地进步了。</p> <p id="48PKJSVO">更加值得注意的是,这种提升只在特定的数学测试集上出现,比如MATH-500和MinervaMath,而在另一个叫做LiveMathBench的测试集上,模型的表现提升微乎其微。这种选择性的提升模式让研究团队怀疑,Qwen模型可能在训练阶段就已经"见过"某些测试题目,并将其记住了。换句话说,这种表现提升可能不是真正推理能力的增强,而是基于记忆的"开卷考试"效果。</p> <p id="48PKJSVP">为了验证这个猜测,研究团队设计了一个巧妙的测试:他们给模型提供部分题目描述,看看模型能否直接说出正确答案,而不需要进行完整的推理过程。结果证实了他们的怀疑—Qwen模型确实能够仅从题目的部分信息中直接"回忆"出完整答案,这充分说明这些题目在训练阶段就已经被模型记住了。这种现象在学术界被称为"数据污染",就像学生提前看到了考试题目一样。</p> <p id="48PKJSVQ">二、困惑度悖论的发现</p> <p id="48PKJSVR">在深入分析过程中,研究团队发现了一个引人深思的现象,他们称之为"困惑度悖论"。困惑度是衡量AI模型对文本理解程度的指标,就像测量一个人对某段话理解程度的温度计—困惑度越低,说明理解得越好;困惑度越高,说明越糊涂。</p> <p id="48PKJSVS">正常情况下,如果一个AI模型真正提升了数学推理能力,那么它对整个数学问题的理解都应该变得更好,也就是说,无论是题目描述部分还是答案部分,困惑度都应该降低。这就像一个学生数学水平提高后,不仅能更准确地计算答案,对题目的理解也会更加清晰。</p> <p id="48PKJSVT">但研究团队观察到的情况却大不相同。在接受错误奖励训练后的Qwen模型中,出现了一种奇怪的分化现象:模型对答案部分的困惑度显著降低,表明它对最终答案非常确定;但同时,它对题目描述部分的困惑度却增加了,意味着它对题目本身的理解实际上变得更加模糊。</p> <p id="48PKJSVU">这种现象就像是一个学生能够非常熟练地背诵某道题的标准答案,但如果你问他题目的具体意思或解题思路,他反而会支支吾吾,答不上来。这种表现明显不符合真正的数学能力提升规律,而更像是一种机械式的记忆匹配。</p> <p id="48PKJSVV">研究团队通过对照实验进一步证实了这个发现。他们发现,在那些没有被"污染"的干净测试数据上,比如LiveMathBench,模型的困惑度表现就很正常—整体困惑度保持在较高水平,没有出现这种奇怪的分化现象。这进一步证明了困惑度悖论确实与数据污染和记忆捷径的激活密切相关。</p> <p id="48PKJT00">这个发现的重要意义在于,它为我们提供了一个识别AI模型是否依赖记忆捷径的诊断工具。就像医生可以通过特定的症状来诊断疾病一样,研究人员现在可以通过观察困惑度的分化模式来判断AI模型是否在"作弊",而不是真正地进行推理。</p> <p id="48PKJT01">三、深入模型内部的探索</p> <p id="48PKJT02">为了找到这种记忆捷径在AI模型中的具体位置,研究团队采用了多种先进的分析技术,就像使用不同的医学影像设备来全方位检查病人的身体一样。他们需要回答一个关键问题:这种记忆激活机制到底隐藏在模型的哪个部分?</p> <p id="48PKJT03">研究团队首先使用了一种叫做"路径修补"的技术。这种方法的工作原理有点像汽车修理师逐一检查汽车的各个部件,看看哪个部件的故障导致了整车的异常表现。具体来说,他们将训练后模型的特定层激活值替换到基础模型中,观察这种替换对模型输出的影响。如果某一层的替换能显著恢复记忆化的答案,那就说明这一层对记忆捷径起着关键作用。</p> <p id="48PKJT04">通过这种方法,研究团队发现了一个重要规律:模型的中层多层感知机(第18-20层)表现出了最强的恢复效果。当他们将这几层的激活值从训练后的模型移植到基础模型中时,基础模型突然就能答对那些原本答错的题目了。更有趣的是,这种恢复效果在第21层后急剧下降,就像翻过山峰后的陡坡一样。</p> <p id="48PKJT05">为了从另一个角度验证这个发现,研究团队还使用了"逻辑透镜"技术。这种技术就像给模型戴上了一副特殊的眼镜,让研究人员能够看到模型在处理信息的每个步骤中都在"想"什么词汇。通过这种技术,他们观察到了一个清晰的三阶段过程:首先,在第19层左右,一个格式化的前导信号开始出现;接着,在第21-22层,出现了一个短暂的概率下降谷;最后,在第23层,正确答案的概率突然大幅上升并保持稳定。</p> <p id="48PKJT06">这个过程就像一个熟练的厨师在制作招牌菜:先准备特殊的调料(前导信号),然后调整火候(概率谷),最后加入关键食材使菜品达到完美状态(答案概率飙升)。整个过程虽然复杂,但有着清晰的步骤和逻辑。</p> <p id="48PKJT07">研究团队还采用了詹森-香农散度分析来量化不同层之间的结构变化。这种分析就像测量地震时不同地区的震动强度一样,能够揭示模型内部哪些部分发生了最剧烈的变化。结果显示,第21-22层的某些组件发生了最大的变化,然后逐渐平息,而输出投射部分则保持了持续的高度变化。这种模式进一步确认了中层负责触发记忆,后续层负责适配信号的双重机制。</p> <p id="48PKJT08">四、锚点-适配器电路的发现</p> <p id="48PKJT09">通过综合多种分析技术的结果,研究团队发现了一个精妙的内部机制,他们将其命名为"锚点-适配器电路"。这个电路的工作原理就像一个精密的机械装置,有着明确的功能分工和协作关系。</p> <p id="48PKJT0A">电路的第一部分是"功能锚点",位于模型的第18-20层。这个锚点就像一个经验丰富的图书管理员,能够快速识别读者的需求并知道相关资料存放在哪里。当模型遇到一个熟悉的数学题目时,功能锚点会立即识别出这是一个它"见过"的问题,并开始启动记忆检索程序。研究团队发现,这个锚点层的激活模式与题目的记忆化程度高度相关—对于那些在训练中见过的题目,锚点会产生强烈的激活信号;而对于全新的题目,激活信号则相对微弱。</p> <p id="48PKJT0B">电路的第二部分是"结构适配器",主要分布在第21层及之后的层次中。如果说功能锚点像是发现宝藏的探测器,那么结构适配器就像是专门的挖掘工具,负责将找到的记忆信息转换成合适的输出格式。这个适配器的作用非常关键,因为记忆中存储的信息格式可能与当前任务需要的输出格式不完全匹配,需要进行相应的调整和转换。</p> <p id="48PKJT0C">研究团队通过神经微分方程的数学建模进一步验证了这个双重机制。他们将模型的层次处理过程建模为连续的动态系统,就像描述河流如何在地形中蜿蜒流淌一样。通过这种建模,他们能够精确计算出"分离力"—也就是记忆化样本和正常推理样本在处理轨迹上开始分岔的确切位置。结果显示,这个分岔点正好出现在第18-20层,完美印证了功能锚点的位置。</p> <p id="48PKJT0D">这个发现的重要意义在于揭示了AI模型内部存在着一种"双轨制"的信息处理机制。在正常情况下,模型会通过标准的推理路径来处理问题;但当遇到训练中见过的题目时,它会切换到一条更直接但也更窄的记忆检索路径。这就像一个人在陌生城市中既会使用GPS导航,也会利用熟悉的地标来快速到达目的地—两种方式都能达到目标,但机制完全不同。</p> <p id="48PKJT0E">更重要的是,研究团队发现这种双重机制并不是所有AI模型都具备的。在他们测试的其他模型(如LLaMA和OLMo)中,并没有观察到类似的锚点-适配器电路结构。这说明这种机制可能是Qwen模型架构的特有属性,或者是在特定训练条件下形成的专门化结构。这个发现为理解不同AI模型的内部工作机制提供了新的视角,也为模型的改进和优化提供了具体的目标。</p> <p id="48PKJT0F">五、实验验证与操控能力</p> <p id="48PKJT0G">为了证实锚点-适配器电路确实是造成记忆捷径的关键机制,研究团队设计了一系列精巧的验证实验,就像科学家通过控制变量来验证假设一样。他们采用了两种互补的实验策略:移除特定组件观察性能下降,以及保留特定组件观察性能保持。</p> <p id="48PKJT0H">在第一类实验中,研究团队选择性地将锚点层(第18-20层)或适配器层(第21-22层)的权重重置为训练前的状态,相当于"删除"这些组件的学习成果。结果显示,移除锚点层对记忆化性能的影响最为显著—在MATH-500数据集上,准确率从98%下降到86%,在MinervaMath上从88%下降到72%。相比之下,移除适配器层的影响较小但仍然明显。这种不对称的影响模式清楚地表明,锚点层是整个记忆捷径机制的核心驱动器。</p> <p id="48PKJT0I">第二类实验更加精巧。研究团队尝试仅保留特定的层组合,将其他所有层都重置为基础状态,看看哪种组合能够最大程度地维持记忆化性能。结果发现,单独保留锚点层或适配器层都无法完全恢复记忆化能力,只有同时保留两者才能接近原始性能。这就像一台复杂机器,缺少任何关键部件都无法正常运转,但各个部件的重要性并不相同。</p> <p id="48PKJT0J">特别值得注意的是,这些实验还揭示了记忆化机制与正常推理能力之间的独立性。当研究团队操控那些对记忆化至关重要的层时,模型在干净数据集(如LiveMathBench)上的表现基本不受影响。这说明模型确实维持着两套相对独立的信息处理系统—一套用于正常推理,另一套专门用于记忆检索。</p> <p id="48PKJT0K">研究团队还进行了一个极其精准的操控实验。他们深入到神经网络的最底层—单个神经元的级别,识别出那些在记忆激活过程中起关键作用的特定神经元。通过调整这些神经元的激活强度,他们能够人为地增强或抑制模型对记忆捷径的依赖程度。</p> <p id="48PKJT0L">这种精确操控的能力就像拥有了一个音响系统的调音台,可以单独调节不同频段的音量。当他们将关键神经元的激活放大3倍时,模型对记忆化题目的依赖性显著增强,即使是那些原本回答错误的题目也能被正确回答。相反,当他们将这些神经元的激活降低到原来的五分之一时,模型的记忆化能力就被大大削弱,更多地依赖于正常的推理过程。</p> <p id="48PKJT0M">这种双向操控能力不仅证实了研究团队对锚点-适配器电路的理论理解,更重要的是为实际应用提供了可能性。通过精确调节特定神经元的活动,我们可以在一定程度上控制AI模型对记忆化信息的依赖程度,从而在保持推理能力的同时减少数据污染的负面影响。</p> <p id="48PKJT0N">六、意义与启示</p> <p id="48PKJT0O">这项研究的发现远远超出了单纯的技术层面,它为我们理解AI系统的工作机制以及如何更好地评估和改进这些系统提供了深刻的洞察。研究成果的意义可以从多个层面来理解。</p> <p id="48PKJT0P">从技术层面来看,这项研究首次在神经网络内部定位了记忆化机制的具体实现方式。这就像是找到了大脑中负责特定记忆功能的具体区域一样,为我们精确理解和调控AI模型的行为提供了可能。研究团队开发的分析方法和发现的电路结构,可以作为检测其他AI模型是否存在类似问题的诊断工具。</p> <p id="48PKJT0Q">从AI安全和可靠性的角度来看,这项研究揭示了一个重要的隐患:仅仅依靠测试成绩来评估AI模型的能力是不够的,甚至可能被误导。就像学校考试需要防止学生作弊一样,AI评估也需要更加严格和全面的方法来区分真正的能力提升和基于记忆的"虚假"表现。这对于那些被部署在重要应用场景中的AI系统尤为关键。</p> <p id="48PKJT0R">从教育和学习理论的角度来看,这项研究也提供了有趣的启示。它展现了即使是在看似"错误"的训练环境中,智能系统也可能找到达到目标的替代路径。这种现象在人类学习中也存在—学生可能因为各种原因采用死记硬背而非理解掌握的学习策略。这提醒我们需要更加关注学习过程本身,而不仅仅是最终结果。</p> <p id="48PKJT0S">研究团队还展示了通过精确的神经元级别操控来调节模型行为的可能性。这种能力开辟了一个全新的研究方向:不是通过重新训练整个模型,而是通过精确的内部调节来改善模型的表现。这就像是通过微创手术而非大手术来治疗疾病,既高效又风险较低。</p> <p id="48PKJT0T">对于AI开发者而言,这项研究提供了具体的技术指导。他们现在知道应该关注模型的哪些层次,以及如何检测和缓解数据污染的影响。研究团队提出的困惑度悖论也为快速筛查模型问题提供了简便的方法。</p> <p id="48PKJT0U">对于AI研究领域的监管和标准制定而言,这项研究强调了建立更严格的模型评估标准的必要性。未来的AI基准测试可能需要包含专门的记忆化检测程序,确保模型的表现真正反映其推理能力而非记忆能力。</p> <p id="48PKJT0V">最后,从更宏观的角度来看,这项研究提醒我们,人工智能系统的行为可能比我们想象的更加复杂和微妙。AI系统会自发地发展出各种策略来适应训练环境,这些策略不一定与我们的预期目标完全一致。这要求我们在设计和部署AI系统时保持更加谨慎和细致的态度,不仅要关注系统"能做什么",更要关注它"是怎么做的"。</p> <p id="48PKJT10">说到底,这项研究就像是为AI世界装上了一面镜子,让我们能够更清楚地看到这些看似智能的系统内部到底在发生什么。它既展示了AI系统令人惊讶的适应能力,也揭示了我们在理解和控制这些系统方面还有很长的路要走。归根结底,只有当我们真正理解了AI系统的工作机制,我们才能更好地利用它们为人类社会服务,同时避免可能的风险和误导。</p> <p id="48PKJT11">这项发现对普通人来说意味着什么呢?当我们听说某个AI系统在数学测试中取得了惊人成绩时,我们需要多问一个问题:这种成绩是基于真正的理解和推理,还是基于对答案的记忆?这种思维方式的转变,对于我们在AI时代做出明智决策至关重要。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2601.11061v1查询完整的研究论文。</p> <p id="48PKJT12">Q&A</p> <p id="48PKJT13">Q1:什么是RLVR训练方法?</p> <p id="48PKJT14">A:RLVR是"带可验证奖励的强化学习"的简称,就像给AI学生做练习题时的奖励机制。正常情况下,AI答对题目就给奖励,答错就不给奖励,这样AI就能逐步学会正确解题。但研究发现,有些AI模型在接受错误奖励训练后表现反而更好了。</p> <p id="48PKJT15">Q2:困惑度悖论是什么现象?</p> <p id="48PKJT16">A:困惑度悖论指的是AI模型对答案部分很确定(困惑度低),但对题目描述部分却变得更糊涂(困惑度高)。这就像学生能准确背出答案,但对题目本身理解却很模糊。正常情况下,AI数学能力提升时,对整个问题的理解都应该变好才对。</p> <p id="48PKJT17">Q3:锚点-适配器电路如何工作?</p> <p id="48PKJT18">A:这个电路分为两部分:功能锚点(第18-20层)像图书管理员,识别熟悉题目并启动记忆检索;结构适配器(第21层后)像挖掘工具,将记忆信息转换成合适的输出格式。当AI遇到训练中见过的题目时,就会启用这条记忆捷径而非正常推理。</p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901