type
status
date
slug
summary
tags
category
icon
password
 
SFT 和 RL 相比大家都非常熟悉,LLM post training 的两把斧。目前大家的普遍共识是 SFT 容易训练,但泛化性差,RL 泛化性好,但难训练。近期有篇文章从持续学习角度讨论了为什么 RL 的泛化性要比 SFT 更好,虽然理论推导很唬人,但结论确非常简单。
这篇文章可能是要投ICLR的,元数据之后再更新
 
这篇论文没有提出新方法,单纯分析为什么 RL 的泛化性要比 SFT 更好,并且理论推导也只推导了一半。笔者完全没有 RL 基础,等学习后再做这方面评论。这次单纯讨论下论文的一个 highlight
When fine-tuning a model π on a new task τ, the degree of forgetting is accurately predicted by
 
仔细一看,这不就是 LwF 嘛。论文说 RL 之所以比 SFT 好,是因为 RL 训练后的模型,在新数据上的输出分布与旧模型更接近,而 LwF 的优化策略就是拉进这两者间的距离
另外一点也很有意思,论文给出了模型训练时一些指标与遗忘的关联度
notion image
Fisher Weighted L2 是 EWC 的参考标准,早期的 MAS, SI, SCP 等 regularization-based 都是基于参数的 L2 惩罚。Distribution L2 则被 DEP 系列,TWF,XDER 等 rehearsal-based 广泛采用。Sparsity of weight change 则可以对应到 Powerpropagation 方法。