type
Post
status
Published
date
Feb 12, 2026
slug
paper-GDDSG
summary
将 class label 预测的遗忘问题弱化成 class group 预测的遗忘问题,通过减少预测的类别数和训练时能回顾之前的类别,提升模型抗遗忘性。
tags
continual learning
CVPR
category
paper
icon
password
notion image

亮点

用图着色做“类分组”

  • 节点(Vertices):代表不同的类别(classes)。
  • 边(Edges):代表两个类别之间相似度很高、容易混淆(因此需要“分开”)。
  • 颜色(Colors):代表把类别分到的不同“组”(groups)。
图着色要解决的是:给图上每个节点赋颜色,并且相邻节点颜色不同,同时希望用到的颜色数尽可能少(最小着色/近似求解)。
直觉上:如果两类很相似(有边相连),它们就不能落在同一组里;因此同组内的类别应该尽量“不相似/差异更大”,相似类被迫分到不同组。

用 class group 代替 label 做预测

将 class label 预测的遗忘问题弱化成 class group 预测的遗忘问题,通过减少预测的类别数和训练时能回顾之前的类别,提升模型抗遗忘性。class group 的设计思想很有借鉴意义。

弱点

Class group 预测可能成为瓶颈

论文的推理流程可以概括为两步:
  1. 对一个样本,模型先判断它属于哪个类别组(group identification)。
  1. 再在该组内部做具体类别预测(in-group classification)。
第 2 步通常相对稳,因为同组内的类别被图着色机制刻意“隔开”,差异更大、可分性更强。真正可能影响性能的是第 1 步:组识别
尽管论文在分析部分强调组识别可以做到“相当准确”(并且指出组内分类往往接近饱和),但:
  • 当类别组数量较少时,组识别看起来会很容易;但这不一定能外推到组数显著增加、类别更细粒度或相似簇更密集的设置。
  • 从任务本质看,一个样本可能会同时与多个“相似簇”里的类别靠得很近。由于相似类别被分散到了不同组里,推理时就可能出现: 多个组都“看起来有候选类很像它” → 组识别成为更敏感的前置决策,一旦选错组,后续组内分类再强也救不回来。

训练流程

class-incremental learning 场景下,对当前任务数据集 ,其中

1) 类相似性度量定义

  • 在论文定义的特征空间中计算类别中心(centroid):
    • 计算类别 的类内平均距离(可理解为“类半径”):
      • 对任意两类 ,定义自适应阈值:
        • 两类被判为 不相似(dissimilar) 当且仅当:
          • ,则视为 相似(similar)

        2) 将新类分配到已有 class groups

        维护已有 class groups 列表
        对每个新类
        • 对每个已有 group ,只有当 与该组内 所有类 都满足不相似,才允许加入:
          • 若存在多个可加入 groups,则选择 平均距离最小 的那个:
            • 并将 加入
          • 若没有任何 可加入,则将该类放入未分配集合

          3) 用 SimGraph 为未分配类构造新 groups

          中的类构图 SimGraph:
          • 节点:类(更准确是其 centroid)
          • 若两类 相似(即不满足 ),则连边
          对该图做图着色(论文示例为贪心 Welsh–Powell,确保相邻节点颜色不同):
          • 同色节点 构成一个新的 class group
          • 从而保证同一 group 内任意两类之间都 没有边,等价于:

            4) 组内分类器:随机投影 + 岭回归(闭式解 + 增量统计量)

            • 冻结预训练编码器
            • 引入随机投影矩阵 与非线性 ,定义扩展特征:
              • (论文表述为 trainable random projections,可能有误)
            对每个 class group ,在任务 的组内数据上构造:
            • 特征矩阵 (按样本堆叠
            • one-hot 标签矩阵
            优化岭回归:
            闭式解:

            增量更新(无需保存旧样本)

            只维护充分统计量:
            • Gram 矩阵:
              • 矩阵(等价于累积 ;新类出现时需对列扩展补零):
                正则 从候选集合 在校准集上选择,论文这里过于面向验证集优化

                5) class-group 预测(

                构造距离向量元特征:
                构造 group 识别训练集:
                训练 group 预测模型 M_g:
                (论文实现示例为 soft voting:RandomForest + KNN + LightGBM)

                推理流程

                对测试样本
                1. 计算 ,预测所属 group:
                  1. 在该 group 内用岭回归形式打分并取最大(选分数最高的类):