MICCAI

RedDino：用于红细胞分析的基础模型

RedDino analyzes red blood cell images with unprecedented accuracy, paving the way for faster disease diagnosis.

研究领域 Representation Learning

Article Type Research analysis

Authors Zedda et al.

Original Paper Published 2026

ISOM Posted 2026-03-13 01:01 UTC

Read Time 8M

Open PDF Open Source Page

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

背景与学术渊源

自动化红细胞（RBC）分析问题的出现，源于临床对标准化血液学诊断的迫切需求。传统的血液学诊断极易受到人为误差和高变异性的影响。从历史上看，血涂片分析依赖于人工显微镜检查，这一过程深受染色方案和物理载玻片制备的影响。这些因素引入了“批次效应”（batch effects）——即图像外观的差异，使得AI模型难以在不同实验室或患者群体间进行泛化。尽管基础模型（foundation models）彻底改变了通用计算机视觉领域，但其在红细胞分析中的应用仍受限，原因在于现有模型并未针对区分健康细胞与病理细胞所需的细微形态学差异进行专门的调优。

作者所解决的核心“痛点”在于，由于上述批次效应以及缺乏专门针对红细胞的大规模基础模型，以往的模型往往无法在多样化的数据源之间实现泛化。此外，自然图像模型中常用的标准正则化技术（如Koleo regularizer）在此处反而适得其反，因为它们强制执行的均匀性抑制了临床医生需要检测的形态学异常（如疟疾感染细胞或棘红细胞）。

直观领域术语

基础模型 (Foundation Model)： 可将其视为一种“通用专家”，通过在海量数据上进行训练以理解图像的基本构成要素，随后可通过“微调”（fine-tuning）成为特定任务（如识别血液疾病）的专家。
自监督学习 (Self-Supervised Learning)： 想象一下，通过给学生一堆未标记的拼图来教授他们。学生不是由老师告知每一块是什么，而是通过自行摸索拼图如何组合来学习。这使得模型无需昂贵的人工标注数据即可学习特征。
批次效应 (Batch Effect)： 这类似于试图比较在不同相机、不同光照和不同滤镜下拍摄的照片。这种“效应”是由设备或处理过程引起的图像人工差异，而非红细胞的实际内容，从而干扰了AI的判断。
线性探测 (Linear Probing)： 这是一种简单的测试，用于评估模型内部表征的“智能”程度。通过冻结模型主体，仅在其顶层训练一个非常简单、浅层的网络。如果该简单层表现良好，则证明模型已经学习到了高质量、有用的特征。

符号表

变量/参数	描述
$wF1$	加权F1分数，一种平衡不均衡类别精确率与召回率的指标。
$bAcc$	平衡准确率，通过对各类别召回率取平均值来处理类别不均衡问题。
$Acc$	标准准确率，正确预测数与总样本数的比值。
$N$	训练或测试中使用的图像或切片数量。
$d$	模型嵌入空间的特征维度（例如 384, 768 或 1024）。

数学诠释

作者通过适配 DINOv2 框架解决了红细胞特征表征的问题。核心挑战在于摆脱依赖 Koleo regularizer 来防止“特征坍塌”（feature collapse，即模型将所有输入映射到同一点）的标准自然图像训练范式。作者发现，对于红细胞而言，这种正则化是有害的。

他们用 Sinkhorn-Knopp 算法 取代了标准的移动平均中心化（moving average centering）。从数学上讲，这涉及求解一个最优传输（optimal transport）问题，将特征分布映射到批次内的均匀分布，从而确保模型为不同细胞类型保持独特的聚类，而非将其坍塌。通过移除 Koleo regularizer 并实施这种特定的中心化方法，他们使模型能够保留临床诊断所需的细微形态学变异。

模型架构被扩展为三个版本：
1. RedDino Small: $d=384$，2200万参数。
2. RedDino Base: $d=768$，8600万参数。
3. RedDino Large: $d=1024$，3.04亿参数。

通过在超过125万个切片上进行训练，作者构建了一个鲁棒的主干网络，在多个独立测试数据集上持续获得更高的 $wF1$ 和 $bAcc$ 分数，从而超越了现有的 SOTA 模型。这证实了他们采用的“基于切片”（patch-based）训练方法，相较于单个细胞分割，能更好地捕捉准确血液学分析所需的上下文信息。

问题定义与约束

核心问题表述与困境

本研究的主要目标是开发一种鲁棒、通用的红细胞（RBC）分析“基础模型”，能够在不同的临床环境下准确分类细胞形态。起点（输入）是来自各种实验室、成像模态和染色方案的海量异构原始血涂片图像。期望的终点（输出）是一种高质量、通用的特征表征（embedding），它对“批次效应”——即由不同显微镜或制备方法引入的技术噪声——保持不变性，同时对细微的、具有临床意义的形态学变异保持敏感。

根本困境在于 特征不变性 与 判别能力 之间的权衡。在标准的自监督学习（如原始 DINOv2）中，模型通常使用旨在防止“特征坍塌”的正则化器（如 Koleo regularizer），通过强制嵌入的均匀分布来实现。然而，作者发现对于红细胞而言，这种均匀性是一种负担。由于健康的红细胞在形状和颜色上天然具有均匀性，强制执行严格均匀性的模型最终会抑制定义病理或异常细胞的特征。

解决方案的数学诠释

为了弥合原始噪声数据与鲁棒特征空间之间的鸿沟，作者通过两项关键干预措施改进了 DINOv2 框架：

移除 Koleo Regularizer： 通过移除 Koleo regularizer，作者使模型避免了对异常细胞特征的“过度抑制”。从数学上讲，这允许嵌入空间保留更高的方差，这对于区分偏离“正常”聚类的病理细胞至关重要。
Sinkhorn-Knopp 中心化： 作者用 Sinkhorn-Knopp 算法取代了标准的移动平均中心化。这是求解 最优传输 问题的经典方法。在此背景下，它作为一种归一化技术，以更稳定且更适合红细胞数据特定几何结构的方式，将特征分布映射到目标分布（通常为均匀分布）。

作者还将训练策略从单个细胞裁剪转向了 涂片图像切片（patched smear images）。这使得模型能够学习上下文——例如细胞与背景之间的关系——这对于区分真实的生物结构与伪影至关重要。

方法论依据

RedDino 的开发代表了从通用计算机视觉向血液学领域专用基础模型的战略性转变。作者指出，尽管 DINOv2 等模型功能强大，但它们并未针对红细胞（RBC）特定的形态学细微差别进行本质优化。

方法逻辑

作者认定传统的“SOTA”方法不足，因为它们通常依赖于正则化器——特别是 Koleo regularizer——这些正则化器旨在通过强制特征的均匀分布来防止自然图像中的特征坍塌。在红细胞的背景下，这适得其反。由于红细胞在形状和颜色上表现出高度的自然均匀性，强制均匀性的正则化器有效地抑制了临床诊断至关重要的特征（病理或异常变异）。通过移除该正则化器，作者使模型能够保留区分健康细胞与病变细胞的细微、非均匀形态学标记。

比较优势与结构优势

Sinkhorn-Knopp 中心化： 作者用 Sinkhorn-Knopp 算法取代了 DINOv2 中使用的标准移动平均中心化。这一改变提供了一种更鲁棒的方法来处理特征分布的中心化，在存在医学成像典型的高维噪声的情况下，直接提高了所学表征的质量。
自定义增强： 通过用 Albumentations 库中 32 种像素级增强组成的专门流水线取代标准的像素级增强，模型对血涂片物理制备过程中引入的伪影表现出显著更强的韧性。

Figure 4. Different classes show distinct clusters in the UMAP projection of the feature embeddings from the Elsafty dataset source 1. On the left, we show the subject distri- bution across the UMAP space (each patient identified by a unique identifier), while on the right, we show the class distribution

数学与逻辑机制

RedDino 的数学引擎

RedDino 将 DINOv2 自监督学习框架适配至红细胞（RBC）形态学领域。其核心依赖于 无标签自蒸馏（Self-Distillation with No Labels, DINO） 机制，该机制作为教师-学生架构运行。

主方程

RedDino 学生网络 $g_{\theta_s}$ 的训练目标函数是匹配教师网络 $g_{\theta_t}$ 的输出分布。其核心机制是最小化教师的软概率分布与学生预测之间的交叉熵损失：

$$ \mathcal{L} = - \sum_{x \in \{x_1, x_2\}} P_t(x) \log P_s(x) $$

其中：
1. $P_t(x) = \text{softmax}\left(\frac{f_{\theta_t}(x)}{T_t}\right)$ 为教师的输出分布。
2. $P_s(x) = \text{softmax}\left(\frac{f_{\theta_s}(x)}{T_s}\right)$ 为学生的输出分布。

优化动力学

模型通过导航由红细胞特征相似性定义的损失景观进行学习。通过移除通常强制特征均匀分布的 Koleo regularizer，作者允许模型保留红细胞的自然聚类。Sinkhorn-Knopp 算法取代了标准的移动平均中心化，作为一种约束条件，强制模型将输入映射到特征空间中的平衡分布，有效防止模型“坍塌”为单一的平凡解。

结果、局限性与结论

RedDino 分析：一种红细胞分析基础模型

本文介绍了 RedDino，这是一种专门设计的用于解决红细胞（RBC）形态学分析挑战的基础模型。

实验验证

作者通过将该模型与 ResNet50、DINOv2（通用版本）以及 DinoBloom（当前血液学领域的 SOTA）进行对比来测试其性能。他们采用了“跨源”评估策略：在一个数据源上训练模型，并在完全不同的、未见过的源上进行测试。RedDino 始终优于基准模型，在线性探测指标上平均提升超过 2%，在 K-NN 指标上提升超过 3%。

讨论与未来演进

RedDino 的成功为未来的研究开辟了几个引人入胜的方向：
* 多模态数据集成： 未来的迭代可以将临床元数据（如患者年龄、血红蛋白水平）整合到嵌入空间中。
* 针对罕见病理的主动学习： 由于该模型在识别异常值方面表现出色，它可用于主动学习循环中，自动标记罕见的、未确诊的血液状况，供人类病理学家审查。

Table 1. RedDino models outperform ResNet50, DINOv2, and DinoBloom by over 2.1% in linear probing evaluation, and over 3.0% in 1-NN and 20-NN evaluation on the Elsafty dataset using a five-fold cross-validation strategy, where one source is fixed for training and the others are used for testing. "Avg Improvement" shows the average performance gain over baselines, while "Improvement" represents the performance gain compared to non-RedDino models

Table 2. RedDino outperforms baseline models in linear probing evaluations, with the only exception of the bAcc on the DSE dataset, in a five-fold cross-validation approach. "Avg Improvement" shows the average performance gain over baselines, while "Improvement" represents the performance gain compared to non-RedDino models

与其他领域的同构性

结构骨架

本工作的核心是一个自监督学习框架，它通过用基于最优传输的中心化技术取代标准正则化技术，将高维、异构的视觉数据映射到鲁棒的低维特征空间，从而保留细微的形态学变异。