type
status
date
slug
summary
tags
category
icon
password
在医学领域,人工智能(AI)正以前所未有的速度发展。尤其是在病理学诊断中,AI模型已经能够在特定任务上达到甚至超越人类专家的水平,例如前列腺癌分级或淋巴结转移检测。然而,这些模型通常像一个训练有素的“专科医生”,精通某一领域,但面对新病种时就束手无策。每当需要诊断一种新的癌症亚型时,我们都必须重新收集成千上万份标注好的数据,从头开始训练一个新模型。这种“一事一训”的模式,在面对世界卫生组织分类系统中成百上千种肿瘤类型时,显得力不从心且成本高昂。
最近,一篇名为《Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images》的论文,提出了一种名为MI-Zero的全新框架,试图打破这一困境。它旨在打造一位“全科AI病理学家”,使其能够仅通过文本描述,就能识别从未见过的疾病类型,真正实现“举一反三”。
CVPR Poster Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images
Contrastive visual language pretraining has emerged as a powerful method for either training new language-aware image encoders or augmenting existing pretrained models with zero-shot visual recognition capabilities. However, existing works typically train on large datasets of image-text pairs and have been designed to perform downstream tasks involving only small to medium sized-images, neither of which are applicable to the emerging field of computational pathology where there are limited publicly available paired image-text datasets and each image can span up to 100,000 x 100,000 pixels in dimensions. In this paper we present MI-Zero, a simple and intuitive framework for unleashing the zero-shot transfer capabilities of contrastively aligned image and text models to gigapixel histopathology whole slide images, enabling multiple downstream diagnostic tasks to be carried out by pretrained encoders without requiring any additional labels. MI-Zero reformulates zero-shot transfer under the framework of multiple instance learning to overcome the computational challenge of inference on extremely large images. We used over 550k pathology reports and other available in-domain text corpora to pretrain our text encoder. By effectively leveraging strong pretrained encoders, our best model pretrained on over 33k histopathology image-caption pairs achieves an average median zero-shot accuracy of 70.2% across three different real-world cancer subtyping tasks. Our code is available at: https://github.com/mahmoodlab/MI-Zero.
MI-Zero
mahmoodlabUpdated Oct 21, 2025

核心问题:打破“一事一训”的病理学AI困境

传统的计算病理学模型开发遵循一个固定的流程:为特定任务(如A癌症亚型分类)收集大量带标签的图像数据,然后训练一个专门的模型。这种方法的瓶颈显而易见:
  1. 数据瓶颈:对于许多罕见病,根本无法收集到足够的数据来训练一个稳健的模型。
  1. 计算挑战:病理学中的全切片图像(Whole Slide Image, WSI)尺寸巨大,单张图像可达10万x10万像素,无法直接输入常规的神经网络。
MI-Zero的目标是构建一个任务无关(task-agnostic)的基础模型。这个模型不为任何特定疾病训练,而是学习图像(形态特征)和语言(诊断描述)之间的深刻关联。在部署时,我们只需用自然语言“提示”这个模型,它就能在全新的、从未见过的分类任务上执行零样本(Zero-Shot)诊断。

MI-Zero方法详解

MI-Zero的巧妙之处在于,它将视觉-语言预训练(Visual Language Pretraining)和处理巨大图像的多示例学习(Multiple Instance Learning, MIL)框架无缝结合。我们可以将其核心流程拆解为两个阶段:模型预训练和零样本推理
阶段一:模型基础能力构建(预训练)
notion image
这个阶段的目标是训练两个编码器——一个图像编码器和一个文本编码器,让它们在同一个高维空间(我们称之为“潜在空间”)中理解病理学知识。
  1. 数据准备:研究团队首先构建了一个大规模的病理学图文对数据集,包含了超过33,000张病理图像及其对应的文字描述(caption),这些数据源自教科书和在线教育资源。此外,他们还收集了超过55万份病理报告文本,用于单独训练文本编码器。
  1. 单模态预训练 (Unimodal Pretraining):为了让模型具备强大的领域知识,研究者们首先对两个编码器分别进行预训练。
      • 文本编码器 (HistPathGPT):使用收集到的海量病理报告,训练一个GPT风格的自回归语言模型。这使得文本编码器对病理学领域的术语、语法和上下文有着深刻的理解。
      • 图像编码器 (CTransPath):使用大量无标签的病理图像切片,通过自监督学习(SSL)进行训练。这让图像编码器学会识别病理学中的基础视觉模式,如细胞核、基质、淋巴细胞等。
  1. 视觉-语言对齐 (Vision-Language Alignment):这是最关键的一步。使用图文对数据集,通过对比学习(Contrastive Learning)来对齐两个编码器的潜在空间。其核心思想可以用一个简单的目标函数来概括:
    1. 这里的 是第 张图像的特征向量, 是其对应文本的特征向量。该公式的目标是:对于任意一个图像-文本对 ,模型要使其相似度 尽可能高,同时使其与其他所有不匹配的文本(或图像) 的相似度尽可能低。通过这种方式,模型学会了将“乳腺导管原位癌”的图像和“乳腺导管原位癌”的文字描述映射到潜在空间中的相近位置。
阶段二:在新任务上进行零样本推理
notion image
当模型训练完成后,它就具备了理解病理学图文关联的能力。现在,我们可以在一个全新的诊断任务上使用它,例如区分“肺腺癌”和“肺鳞癌”,即使模型在训练中从未见过这两个标签。
  1. 构建文本分类器:我们通过“提示工程(Prompt Engineering)”来创建分类器。例如,为两个类别分别创建文本提示:“一张肺腺癌的图片”和“一张肺鳞癌的图片”。然后,将这些提示输入到预训练好的文本编码器中,得到每个类别的分类权重向量
  1. 处理巨大WSI图像:将一张巨大的WSI图像分割成数千个不重叠的小图块(patches),每个图块大小为256x256像素。这符合多示例学习的范式:整张WSI是一个“包(bag)”,每个小图块是一个“实例(instance)”。我们知道整个包的标签(例如,这张WSI是肺腺癌),但不知道每个小图块的具体情况。
  1. 计算逐图块相似度:将每个小图块 输入到图像编码器中,得到其特征向量 。然后,计算该图块与所有类别提示的相似度分数,形成一个分数向量:
    1. 这个向量 直观地表示了第 个图块“看起来有多像”肺腺癌或肺鳞癌。
  1. 聚合实例信息:这是MI-Zero的核心创新。我们现在拥有了整张WSI中所有图块的分数向量集合 。如何从这些局部信息中得到一个全局的诊断结论?MI-Zero采用了无需学习参数的池化操作,其中效果最好的是Top-K池化
      • 对于“肺腺癌”这个类别,在所有图块的分数中,找到最高的 个分数并取平均值。
      • 对于“肺鳞癌”这个类别,也执行同样的操作。
      • 最终,哪个类别的平均分数更高,就将WSI诊断为哪个类别。
      这种方法的直觉非常符合病理学诊断:诊断结论往往取决于最典型的、最具诊断价值的几个区域(即得分最高的图块),而不是整张切片的平均表象。
  1. (可选)空间平滑:在聚合之前,可以对每个图块的分数向量与其空间上最邻近的几个图块的分数向量进行平均。这一步可以引入局部空间上下文,使得预测结果更加平滑和鲁棒。

结论

MI-Zero为计算病理学领域推开了一扇通往“通用模型”的大门。它通过巧妙地融合多示例学习和视觉-语言预训练,证明了在无需为每个新任务进行监督训练的前提下,构建一个可扩展、高效率的AI诊断系统是完全可行的。尽管它还存在一些局限性,但MI-Zero无疑为我们描绘了一个激动人心的未来:AI不再仅仅是执行重复性任务的工具,而是能够不断学习、触类旁通,成为病理学家身边不可或缺的“全科智能助手”。