新闻动态
持续语义分割:理论、挑战、方法与应用的全景式探索
发布日期:2025-05-23 23:57    点击次数:128
 

在人工智能飞速发展的今天,持续学习如同人类记忆般神奇:既能保留旧知识,又能吸纳新信息。持续语义分割(CSS)作为其重要分支,正悄然改变我们的视觉计算世界。想象一下,一个系统能够不断学习识别新类别的物体,同时不忘记已学过的内容,它如同拥有持久记忆的人类大脑,在自动驾驶、医疗辅助和遥感观测等领域展现出惊人潜力。然而,"灾难性遗忘"和"语义漂移"这两大难题如同拦路虎,阻碍着CSS的广泛应用。本文将揭开这一技术的神秘面纱,带您探索从理论到实践的全景图景。

从记忆到遗忘

持续学习作为一种不断获取知识的方法,在过去十年间得到了迅猛发展。它打破了传统机器学习的一次性学习限制,使模型能够不断适应新数据和新任务。这种技术最早源于认知神经科学对记忆和遗忘机制的研究,可以追溯到20世纪80年代。当时,McCloskey等研究者首次发现了神经网络在学习新任务时会"忘记"旧任务的现象。

传统的机器学习通常建立在封闭集上,只能处理固定数量的预定义类别,所有数据需要在单步训练中一次性呈现给模型。而在实际应用场景中,模型经常面临不断增加的数据挑战。持续学习的主要目标是在有限的计算和存储资源约束下,在稳定性与可塑性之间取得最佳平衡。这里的稳定性指保留先前知识的能力,可塑性则指整合新知识的能力。

持续语义分割作为密集预测任务的一种,因其特殊性成为一项具有挑战性且蓬勃发展的任务。要理解CSS,我们需要先明确其基本问题定义。设D = (xi, yi)表示训练数据集,其中xi∈RCHW表示训练图像,yi∈RHW表示相应的真实标签。Dt表示t步的训练数据集。在t步,C0:t−1表示先前学习的类别,Ct表示当前学习的类别。在训练Dt时,旧类别的训练数据,即{D0, D1, …, Dt−1}是不可访问的,而Dt中的真实标签仅覆盖Ct。完整的训练过程包括{Step-0, Step-1, …, Step-T}步。

CSS面临两大主要挑战:灾难性遗忘和语义漂移。灾难性遗忘是指模型在学习新知识时会遗忘先前学到的知识。这个问题早在20世纪80年代就被发现并讨论过,当时研究表明使用反向传播训练的算法会遭受严重的知识遗忘,就像人类会逐渐忘记先前学习的任务一样。简单地从头开始重新训练模型可能导致类似阿尔茨海默症的问题,即模型由于参数更新而失去其过去的能力。

语义漂移则是CSS中另一个关键挑战,指的是随着新类别的增量学习,背景语义内容的逐渐变化或演变。从根本上说,它源于真实背景、旧类别和未来类别的混合语义。由于缺乏历史数据,模型在持续学习步骤中容易遇到类别混淆和分类器偏差。此外,由于在每个增量步骤中只标记当前类别,背景像素的语义会发生漂移,因为它们的内涵会变化,即已知类别和未来类别被混合为单一背景类别。

根据持续学习的设定,CSS任务可以分为四种类型:任务增量CSS、域增量CSS、类别增量CSS和模态增量CSS。任务增量学习中,模型会被逐渐训练以执行新任务,每个新任务可能涉及不同类型的预测或目标;域增量学习涉及将模型适应新的领域或环境;类别增量学习强调将新类别逐步纳入模型的分类能力;模态增量学习则处理将新数据模态纳入模型范围的问题。这些CSS任务并非严格隔离,在许多情况下,多个CSS任务会相互交织。

关于CSS的研究在最近三年尤为活跃。从2016年的初步探索到2023年的深入研究,CSS方法已发展出两大类:基于数据重放的方法和免数据方法。前者涉及存储部分过去训练数据作为范例记忆,后者则使用知识蒸馏等迁移学习技术继承旧模型的能力。

技术路线探索

在理想情况下,持续学习模型不需要存储旧数据。但是,一些研究建议存储一小部分旧数据作为样本记忆或辅助数据来帮助模型减轻灾难性遗忘。样本重放方法直接将旧图像存储为样本记忆。iCaRL作为类别增量学习中的第一个样本重放方法,提出了两种重放方法:固定所有类别的总数目和为每个学习的类别固定数目。这两种重放方式为后续CSS方法提供了原型。此外,样本选择也是多种多样的,包括类别平衡选择、基于损失的选择、基于熵的选择、基于梯度的选择和基于表示的选择等。当前的样本重放方法着重于减少内存存储,同时保留最具代表性的样本。

特征重放方法则摒弃了直接存储原始数据的沉重负担,而是保留特征或逻辑并使用它们来优化新模型。该路线可以根据重放形式分为特征映射和原型对齐两种方法。ALIFE提出了一种特征重放方案,它记忆特征而不是直接记忆图像,以减少内存需求。SDR在批次级原型上应用原型匹配,并在潜在表示上使用对比学习。

除了直接存储旧数据或特征外,引入辅助数据也有助于减轻灾难性遗忘。此类方法通常从其他领域获取大量未监督或弱监督的数据,比如使用网络爬虫从互联网上获取大量数据。例如,RECALL-Web从在线源检索训练示例。假设在t步训练过程中可以访问属于C0:t−1的每个学习类别标签,RECALL-Web会搜索网站以检索标记为类别t的图像,这些图像会被输入到CL训练过程中。

生成式重放是另一种重要方法。在实际应用中,样本重放通常受到存储负担和隐私问题的限制。因此,生成式重放方法生成重放图像或特征,并使用先前步骤的模型提供相应的伪标签。先前的工作引入了生成式图像重放,它涉及从预训练的GAN或扩散模型中生成合成的旧类别样本进行重放。此外,也有研究者提出了生成式特征重放方法,提议重放样本必须导致与真实样本相同的隐藏特征来训练分类器。

免数据方法在不存储任何旧数据的情况下进行CSS,旨在保留有关现有类别的信息,同时使分类器逐步学习新类别。这种方法丢弃了繁重的记忆库或从网络获取旧数据的额外方式。免数据方法可分为自监督方式、基于正则化方式和动态架构方式。

自监督方式在CSS背景下变得特别相关,因为它能够使用有限的标记数据适应新类别或任务。自监督CSS方法通常涉及辅助任务,如预测缺失像素、上下文重建和图像旋转。这些任务引导模型从可用数据中学习有用的特征,使其能够适应新的语义类别,同时保留从早期任务中获得的知识。该方向可以进一步分为三个子方向:对比学习、伪标记和基于基础模型的方法。

对比学习的典型范式是引入带有目标函数的代理任务。例如,可以在特征或逻辑对齐中设置对比学习。关于内部特征分布,SDR、PIFS保存特定类别的原型作为对比学习的辅助监督。IDEC提出了一种无记忆的对比学习方法,名为非对称区域对比学习。它从旧模型中提取可靠的锚定嵌入,同时从新模型中提取正面和负面嵌入,通过三元组损失进行优化。

伪标记利用旧模型的预测作为训练新模型阶段的监督补充。由于CSS情境中标记数据的稀缺,这是一种流行且有效的方式,可以减轻灾难性遗忘。在CSS情境中,伪标记的主要努力方向是避免旧模型对新模型的错误预测带来的负面优化问题。为了实现这一目的,出现了各种伪标签生成方法,如基于类别的方法(PLOP、IDEC、REMINDER)和基于像素的方法(ProCA、ST-CISS)。前者为不同类别设置不同的置信度阈值,后者则着眼于测量像素级不确定性以提高伪标签的置信度。

基于基础模型的方法则是另一种自监督方式。作为一个快速增长的热点,基础模型如视觉-语言预训练模型和自监督预训练模型在多模态研究中发挥着重要作用。CLIP系列就是一个代表性的视觉-语言预训练工作,它在4亿图像-文本对上联合训练图像和文本编码器,实现了零样本性能。在CSS中,使用强大的预训练模型(覆盖大量语义类别)可以帮助解决下游任务中未见过的语义类别。

基于正则化的方式引入显式正则化项,在CL步骤中平衡旧任务和新任务。根据优化目标,基于正则化的方式可分为权重正则化和约束正则化两种方法。当前CSS方法通常冻结模型参数的一部分以保留旧能力,这可以有效限制神经网络权重在CL步骤中的突然漂移。约束正则化通常在旧模型和新模型之间的逻辑或中间特征上建立约束函数。

知识蒸馏是一种非常流行的策略,用于将知识从一个模型(教师)转移到另一个模型(学生)。在CSS情境中,知识蒸馏已被证明是一种有效的方法,可以在CL步骤中保留分类旧类别的能力,而不需要存储过去的数据。一种典型的基于知识蒸馏的CSS方法是使用来自旧模型(通常参数被冻结)的输出通过定制的蒸馏损失函数指导新模型(可训练的)的中间表示和逻辑。

动态架构方式则通过动态扩展网络结构来适应持续学习任务。根据模型参数利用方式,动态架构方式可分为三个子类别:参数分配、架构分解和模块化网络。参数分配方法为每个增量任务分配单独的参数空间;架构分解将模型或参数分解为特定任务和共享任务的组件;模块化网络则利用并行子网络或子模块以差异化方式学习增量任务,没有预定义的任务共享或特定任务组件。

除了上述方法,还有一些基于生物机制的CSS方法。在持续学习中,生物神经网络通常优于人工神经网络,这促使了对类脑网络的研究。Caucheteux等人将深度语言模型映射到脑活动中,定量研究输入内容相同时深度语言模型与大脑的相似性。这些研究为构建脑驱动的CSS方法提供了宝贵见解。

跨学科研究也在CSS中发挥着重要作用。作为一个前沿研究领域,CSS不仅在理论发展方面迅速推进,而且逐渐凸显其在跨领域和跨模态研究中的重要价值。Ven等人首次明确总结了三种类型的增量学习。Dong等人将CSS扩展到联邦环境。除了2D图像之外,还有研究将CSS扩展到3D点云环境中,这些技术为自动驾驶领域提供了重要启发和推动。

性能比拼与剖析

评估一个持续语义分割(CSS)模型的好坏,主要看两点:准确性和遗忘程度。准确性是指模型在所有持续学习步骤后对所有已学任务的测试精度,用公式表示为At = (1/t)∑(i=1到t)ai,其中At表示模型在t步时对所有已见任务C0:t的性能,ai表示在i步的准确率。遗忘程度则衡量模型在所有持续学习步骤后平均性能下降的程度,计算方式为Ft = (1/t)∑(i=1到t)(|a0 - ai|/a0),其中Ft是t步时的平均遗忘度,a0是初始学习步骤的准确率。

在密集预测任务中,最常用的评估指标是平均交并比(mIoU),计算公式为IoU = TP/(TP + FP + FN),其中TP、FP和FN分别是真阳性、假阳性和假阴性像素的数量。在CSS任务中,通常会同时报告旧任务、新任务和所有任务(或领域、类别)的平均mIoU。另一个指标是Dice系数,公式为Dice = 2TP/(TP + 2FP + FN)。

从2017年EWC首次提出克服神经网络中的灾难性遗忘,到2023年的最新方法,CSS技术已经取得了显著进步。早期的研究主要集中在分类器扩展(如LwF)和表示学习(如iCaRL)上,这些方法为CSS的发展奠定了基础并提供了明确的方向。

现代CSS方法大致分为两大类:依赖旧数据和不依赖旧数据的方法。为了解决灾难性遗忘和分类器失效问题,ILT、MiB、PLOP、DFD-LM等方法使用多层知识蒸馏,涵盖中间表示和输出逻辑。后续方法继续探索内部分布,以实现更扎实的知识继承。例如,RCIL和DKD强调解决CSS中语义漂移的重要性。IDEC、UCD和ACD引入对比学习来缓解旧类和新类之间的语义漂移。

一个有趣的问题是:语义分割模型本身是否影响CSS性能?研究表明,确实如此。Kalb等人研究了神经网络架构选择如何影响类别和领域增量CSS任务中的灾难性遗忘。Yuan等人讨论了各种语义模型和骨干网络对领域增量CSS的影响,并提出了一种名为归一化适应性度量(NAM)的新指标来评估CSS性能的提升。Zhao等人通过使用CNN和Transformer架构研究了CSS性能。这些研究表明,更强大的语义分割模型可以帮助实现更出色的CSS性能。

对于基于重放的方法,核心思想可以总结为"如何选择最佳样本进行重放?"RECALL、SSUL-M和AMSS提出了各种样本选择方法来存储旧数据。该方向的未来趋势是存储更少的数据以减少内存消耗。Kalb等人在类别增量和领域增量设置下研究了各种重放策略对CSS的影响。ALIFE提出了一种特征重放方案,记忆旧类别的特征。而SPPA和SDR则将原型对齐引入CSS中。这些方法不是直接重放旧样本,而是保存高级特征作为旧知识的指导,以减轻内存负担,同时利用旧数据的知识。

除了最小化对旧数据的依赖,减少对标记增量数据的依赖也是CSS中一个新兴方向。EHNet、FSCILSS和SRAA等方法将少样本语义分割设置引入CSS中。少样本CSS的主要挑战在于旧类上的特征漂移和新类上的过拟合问题。因此,通常使用超类表示嵌入、跨图像关系建模和伪标记来实现尽可能好的性能。

在具体的数据集上,我们可以看到各种CSS方法的表现差异。在Pascal VOC 2012数据集上,对于15-5(2步)、15-1(6步)、5-3(6步)和10-1(11步)等设置进行了评估。例如,15-5表示最初学习15个类别,然后在另一步学习额外的5个类别。15-1表示最初学习15个类别,然后在另外5个步骤中每步学习额外的1个类别。

总体而言,基于重放的方法在旧类别和新类别上都获得了比免数据方法更高的IoU,这符合客观预期,因为基于重放的方法除了旧模型外还引入了样本旧数据。例如,SSUL-M在VOC 10-1上达到了65.45%的所有类别mIoU,大幅超过了SSUL(58.23%)。

知识蒸馏是CSS中不可或缺的方式,负责从旧模型继承知识。ILT和MiB率先在中间表示和输出逻辑中使用知识蒸馏,在多步少类任务上带来了前景。PLOP和IDEC提出了在每个中间层上的多层蒸馏策略,有效地提升了CSS性能。例如,PLOP在VOC 10-1任务上达到了30.45%的mIoU,证明了多层知识蒸馏与MiB(12.65%)相比的有效性。

为了更好地理解CSS模型的行为,可视化技术也被广泛应用。由于持续适应新添加的数据而不改变网络结构,CSS模型需要不断调整参数。因此,分析模型参数的变化是实现可解释性的前提。可解释性分析可以帮助研究人员和利益相关者理解模型如何适应新数据,从而增强对模型的信任。例如,类簇在类别增量CSS场景中会发生变化。因此,可视化高维特征空间中的特征分布可以帮助揭示灾难性遗忘的核心原因。

T-SNE是一种将高维特征映射到低维空间的技术,适用于研究增量步骤后的内部特征分布。在VOC 15-1任务中,我们可以看到UCD+PLOP和IDEC等代表性CSS方法在初始步骤和最终步骤的TSNE可视化效果。TSNE图直观地显示了灾难性遗忘,体现在初始学习类别的聚类中心在CL步骤后发生了偏移。它也揭示了增量学习能力,因为增量类别在特征空间中被聚类成新的簇。

落地应用展望

持续语义分割技术已经开始在多个领域展现其实际价值。在自动驾驶领域,类别增量和领域增量CSS方法使模型能够随着时间的推移学习新类别和新领域,这在自动驾驶场景中至关重要,因为新的物体或道路条件可能会出现。如知识蒸馏和特征重放等技术被探索用于自动驾驶中的CSS。例如,Barbato等人在2022年提出了一种多模态增量方法用于多模态3D语义分割,该方法处理激光雷达和RGB数据进行道路场景语义分割,将PMF扩展到持续学习方式。Kalb等人探索了恶劣天气条件下领域增量CSS中灾难性遗忘的原因。

考虑到RGB、激光雷达等多模态数据的联合解释,CSS模型需要解决与无监督领域增量适应、多模态数据对齐和多任务学习相关的挑战。例如,在2022年的研究中,多模态数据融合被用于提高自动驾驶系统中的障碍物检测和道路分割性能,特别是在夜间或恶劣天气条件下,通过结合RGB相机和激光雷达的互补优势。

在遥感观测领域,遥感卫星不断提供大量时间序列增量数据,如土地覆盖变化和气象观测。CSS可以帮助在轨系统在不断到来的数据条件下智能监测和分析这些数据,包括大气污染、土壤质量、森林健康等。当出现新的监测需求或任务时,系统可以自适应地调整其监测方法。

考虑到在轨观测计算和存储资源的限制,边缘计算和有限数据存储条件下的在轨持续解释和模型自演进也将成为研究重点。特别是在2023年的一项研究中,研究人员开发了一种轻量级CSS模型,可以部署在卫星上的边缘设备上,仅使用很小的存储空间就能适应新的地表特征分类任务,如识别新出现的城市扩张区域或因气候变化而改变的植被模式。

在医疗辅助诊断方面,CSS可以提供更准确的图像分析、更早的疾病检测、个性化医疗护理和更高效的医疗实践。例如,它可以用来辨别新添加的病变位置或疾病类型,根据患者的具体情况生成定制化的诊断和治疗计划,这对提高患者存活率和治疗效果至关重要。

在2023年的一项研究中,研究者开发了一种用于内窥镜检查的持续语义分割系统(EndoCSS),可以随着时间的推移学习识别新类型的消化道病变,而不会忘记之前学习过的病变类型。该系统在临床试验中表现出色,有助于医生更早期发现早期胃癌和炎症性肠病的迹象。

不过,在医学成像中,最关键的性能方面之一是实现最准确的诊断。因此,对模型的抗遗忘能力和学习新知识的能力的要求异常严格。目前的困境在于,维护单独的模型会导致计算资源成本增加,而保留统一模型则面临着与准确性和固有隐私风险相关的挑战。

在2023年发表的另一项医学影像CSS研究中,研究者提出了一种隐私保护的CSS框架,通过联邦学习技术使多家医院能够在不直接共享患者数据的情况下协作训练模型,同时模型能够随着新疾病类型的出现而不断适应和学习。

展望未来,CSS研究还有很长的路要走,从算法到应用都面临着众多困难和挑战。以下是CSS技术挑战和未来研究趋势的一些观点:

类脑建模将成为重要方向。人脑能够有效积累知识,快速处理多模态信息,并表现出高度知识关联能力,同时能量消耗低。相比之下,人工神经网络通常需要大量计算资源和存储容量来处理大规模数据和任务。因此,基于类脑机制的CSS模型研究有望解决灾难性遗忘问题并实现扎实的知识积累。

可解释性建模也需要加强。将可解释性技术扩展到持续学习设置中,在这些设置中,模型必须适应新数据而不忘记旧知识。理解模型更新和适应对于模型的可信度至关重要。

人机协作将是发展方向之一。探索促进AI模型与人类专家之间协作的CSS方法,允许用户提供反馈和纠正以提高模型的可解释性。例如,在2023年的一项研究中,研究者开发了一个交互式CSS系统,允许医生在系统错误分类时提供实时反馈,系统能够从这些反馈中学习并改进其分割性能。

跨模态增量适应在开放世界理解和跨模型解释方面具有强大的应用前景。技术挑战在于在任务变化大和多模态数据特征差异显著的情况下实现新旧知识的兼容与共存。比如在自动驾驶场景中,如何让系统同时处理来自摄像头、激光雷达和雷达的数据,并在新型传感器加入时无缝适应。

在线学习和主动学习将成为未来CSS方法的重点,使模型能够从实际应用中主动获取数据并不断演进。主动学习技术将有助于为增量学习选择最具信息量的数据。在2022年的一项研究中,研究者提出了一种主动学习框架,使自动驾驶系统能够识别并请求标注那些包含未知或难以分类的物体的数据样本,从而更有效地学习新类别。

硬件加速和边缘计算也是必不可少的。为了满足嵌入式设备和边缘计算应用(如自动驾驶和在轨智能解释)的需求,未来的CSS方法将需要高效的硬件加速和模型压缩技术,以满足实时和资源受限的要求。例如,在2023年的一项研究中,研究者开发了一种针对FPGA的优化CSS实现,能够在边缘设备上实时处理高分辨率视频流,同时保持低功耗。

参考资料

Yuan, B., &; Zhao, D. (2023). A Survey on Continual Semantic Segmentation: Theory, Challenge, Method and Application. arXiv:2310.14277v1.Douillard, A., et al. (2021). PLOP: Learning without Forgetting for Continual Semantic Segmentation. CVPR 2021.Cermelli, C., et al. (2020). Modeling the Background for Incremental Learning in Semantic Segmentation. CVPR 2020.Cha, S., et al. (2021). SSUL: Semantic Segmentation with Unknown Label for Exemplar-based Class-Incremental Learning. NeurIPS 2021.Zhao, D., et al. (2023). IDEC: An Improved Domain-Specific Continual Semantic Segmentation. TPAMI 2023.