[论文推荐]超越语义:无意义中间标记的惊人有效性
talkingdev • 2025-05-23
5313 views
近期大型推理模型的显著成果常被归功于思维链(CoT)技术,尤其是通过从基础大语言模型(LLM)中采样CoT进行训练以发现新推理模式的过程。然而,一项最新研究对这种解释提出了质疑。该研究通过系统性地调查中间标记(常被拟人化为“思考”或推理痕迹)的语义如何真正影响模型性能,得出了颠覆性结论。研究人员在可形式化验证的推理痕迹和解决方案上训练Transformer模型,约束中间步骤和最终输出与形式化求解器(如A*搜索)保持一致。通过构建问题语义和预期算法的形式化解释器,他们不仅评估了解决方案的准确性,还评估了中间痕迹的正确性。研究发现,即使在完全正确的痕迹上训练的模型,在得出正确解决方案时仍会产生无效的推理痕迹。更令人惊讶的是,当在噪声、被破坏的痕迹(与特定问题无关)上训练模型时,性能不仅与在正确数据上训练的模型基本一致,在某些情况下甚至有所提升,并在分布外任务上表现出更强的泛化能力。这些发现挑战了中间标记或“思维链”能诱导可预测推理行为的假设,并警示人们不要过度拟人化这些输出或将其过度解读为语言模型中类人或算法行为的证据。
核心要点
- 研究质疑思维链(CoT)技术的传统解释,发现中间标记的语义与模型性能关联有限
- 在噪声痕迹上训练的模型表现与正确数据训练的模型相当,甚至有时更优
- 成果警示不要过度拟人化语言模型的中间输出或将其视为类人推理证据