未命名
Efficient reasoning
[TOC]
《Efficient Reasoning Models: A Survey》
主要方向
Shorter:使推理链更短
强化学习
L1
O1-Pruner
DAST
- DAST (Shen et al., 2025b): 提出Token Length Budget(TLB),动态调整计算资源,为复杂问题分配更多推理步骤,简单问题则减少。
THINKPRUNE
- THINKPRUNE (Hou et al., 2025): 设计长度感知的奖励函数,只有在指定的token预算内生成正确答案时才给予奖励。
SFT
TokenSkip
- TokenSkip (Xia et al., 2025): 识别并跳过对最终答案语义贡献较小的token,从而缩短推理链。
Distill2-tp-1
- Distill2-to-1 (Yu et al., 2024): 通过一致性过滤丢弃整个推理步骤,只保留高质量的(输入,答案)对。
C3oT
- C3oT (Kang et al., 2024): 利用GPT-4作为压缩器,通过保留关键推理细节来缩短链长度。
SPIRIT
- SPIRIT (Cui et al., 2025): 使用困惑度评估步骤的重要性,从而选择性地压缩推理路径。
基于提示(prompt工程)
- Concise CoT (Renze & Guven, 2024): 在提示中添加“Be concise”来缩短推理链。
- Break the Chain (Ding et al., 2024): 利用精心设计的指令触发模型利用捷径并跳过不必要的步骤。
- TALE-EP (Han et al., 2024): 使用LLM基础的估计器预测每个问题所需的最小token预算,并将其纳入提示中以指导高效推理。
潜在空间推理(latent reasoning)
- Implicit-KD (Deng et al., 2023): 提出一种基于蒸馏的框架,学生模型通过模仿显式CoT教师的不同层的隐藏状态来学习隐式推理。
- SI (Deng et al., 2024): 通过SFT逐步移除中间推理步骤,使模型能够内化推理而无需显式链。
- CODI (Shen et al., 2025c): 引入一种新颖的自蒸馏框架,其中共享模型同时作为教师和学生,通过对齐token前的隐藏激活来学习隐式CoT。
Smaller:使模型更小
Faster:使解码过程更快
《L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning》
《O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning》
《TokenSkip: Controllable Chain-of-Thought Compression in LLMs》
CoT输出中不同token对推理的贡献程度不相同,可以在推理过程中选择性的跳过不重要的token
token重要度的研究:
- 基于LLM的困惑度
- LLMLingua-2
Token Pruning
- 计算token的重要性:使用LLMLingua-2作为工具,计算每个token的语义重要性,然后定义一个阈值γ,低于这个阈值的token被剪切掉,利用这样的方式构造出数据集,用这个数据集做finetune训练。
- 构造的训练集形状
LLMLingua-2,即使用GPT4来给cot片段做重要性标注,然后用标注后的数据去训练一个分类器。
**IDEA:**使用sae来代替做这个重要性评估!
《Distilling System 2 into System 1》
简而言之就是,使用基于CoT机制的LLM来生成思考过程和最终回答,然后构造出只包含问题和最终回答的数据集,用这个数据集去微调LLM,命令其模仿这种经历了COT思考过程的最终回答。