未命名

发表于 2025-04-21

Efficient reasoning

[TOC]

《Efficient Reasoning Models: A Survey》

主要方向

Shorter：使推理链更短

强化学习

L1

O1-Pruner

DAST

DAST (Shen et al., 2025b): 提出Token Length Budget（TLB），动态调整计算资源，为复杂问题分配更多推理步骤，简单问题则减少。

THINKPRUNE

THINKPRUNE (Hou et al., 2025): 设计长度感知的奖励函数，只有在指定的token预算内生成正确答案时才给予奖励。

SFT

TokenSkip

TokenSkip (Xia et al., 2025): 识别并跳过对最终答案语义贡献较小的token，从而缩短推理链。

Distill2-tp-1

Distill2-to-1 (Yu et al., 2024): 通过一致性过滤丢弃整个推理步骤，只保留高质量的（输入，答案）对。

C3oT

C3oT (Kang et al., 2024): 利用GPT-4作为压缩器，通过保留关键推理细节来缩短链长度。

SPIRIT

SPIRIT (Cui et al., 2025): 使用困惑度评估步骤的重要性，从而选择性地压缩推理路径。

基于提示（prompt工程）

Concise CoT (Renze & Guven, 2024): 在提示中添加“Be concise”来缩短推理链。
Break the Chain (Ding et al., 2024): 利用精心设计的指令触发模型利用捷径并跳过不必要的步骤。
TALE-EP (Han et al., 2024): 使用LLM基础的估计器预测每个问题所需的最小token预算，并将其纳入提示中以指导高效推理。

潜在空间推理（latent reasoning）

Implicit-KD (Deng et al., 2023): 提出一种基于蒸馏的框架，学生模型通过模仿显式CoT教师的不同层的隐藏状态来学习隐式推理。
SI (Deng et al., 2024): 通过SFT逐步移除中间推理步骤，使模型能够内化推理而无需显式链。
CODI (Shen et al., 2025c): 引入一种新颖的自蒸馏框架，其中共享模型同时作为教师和学生，通过对齐token前的隐藏激活来学习隐式CoT。

Smaller：使模型更小

Faster：使解码过程更快

《L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning》

《O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning》

《TokenSkip: Controllable Chain-of-Thought Compression in LLMs》

CoT输出中不同token对推理的贡献程度不相同，可以在推理过程中选择性的跳过不重要的token

token重要度的研究：

基于LLM的困惑度
LLMLingua-2

Token Pruning

计算token的重要性：使用LLMLingua-2作为工具，计算每个token的语义重要性，然后定义一个阈值γ，低于这个阈值的token被剪切掉，利用这样的方式构造出数据集，用这个数据集做finetune训练。
构造的训练集形状

LLMLingua-2，即使用GPT4来给cot片段做重要性标注，然后用标注后的数据去训练一个分类器。

IDEA：使用sae来代替做这个重要性评估！

《Distilling System 2 into System 1》

简而言之就是，使用基于CoT机制的LLM来生成思考过程和最终回答，然后构造出只包含问题和最终回答的数据集，用这个数据集去微调LLM，命令其模仿这种经历了COT思考过程的最终回答。

hello world

发表于 2025-04-16

1.由来

自从接触计算机以来对搭建“个人网站”一直有着兴趣，苦于动手能力太弱且讨厌麻烦。近年来察觉到理清新事物的逻辑和创造东西两件事能给我带来特别的愉悦感，于是出于后者的推动，产生了要一鼓作气把博客搭建好的念头。

记录的意义

人生天地之间，若白驹之过隙。记录所见所闻所思，倒不是为了留作纪念，只是希望能提醒自己积极增加生活的厚度。另外，自认为自己是个思维活络的人，时常有一些“观点”，若是放任其消失在无人在意的社交聊天中，倒不如记录下来，算是“敝帚自珍”吧。

0%