RedDino: Foundation-модель для анализа эритроцитов
Контекст и академическая преемственность
Проблема автоматизированного анализа эритроцитов (RBC) возникла из клинической необходимости стандартизации гематологической диагностики, которая традиционно подвержена человеческим ошибкам и высокой вариативности. Исторически анализ мазков крови основывался на ручном микроскопическом исследовании — процессе, на который существенно влияют протоколы окрашивания и физическая подготовка предметных стекол. Эти факторы порождают «batch effects» (эффекты партии) — вариации в визуальном представлении изображений, затрудняющие обобщение AI-моделей при работе с данными из разных лабораторий или от разных пациентов. Несмотря на то что foundation-модели произвели революцию в области компьютерного зрения, их применение к эритроцитам оставалось ограниченным, поскольку существующие модели не были специально адаптированы к тонким морфологическим различиям, необходимым для дифференциации здоровых и патологических клеток.
Основная проблема, которую решают авторы, заключается в том, что предыдущие модели часто не могли обеспечить обобщающую способность на разнообразных источниках данных из-за упомянутых «batch effects» и отсутствия специализированной крупномасштабной foundation-модели для эритроцитов. Более того, стандартные методы регуляризации, используемые в моделях для естественных изображений (например, Koleo regularizer), в данном случае оказались контрпродуктивными, так как они навязывали единообразие, подавляющее именно те морфологические аномалии (например, клетки, пораженные малярией, или эхиноциты), которые необходимо выявлять клиницистам.
Интуитивные доменные термины
- Foundation Model: «Универсальный эксперт», обученный на колоссальном объеме данных для понимания фундаментальных структурных элементов изображений, который может быть легко подвергнут «fine-tuning» для решения узкоспециализированных задач, таких как идентификация заболеваний крови.
- Self-Supervised Learning: Метод обучения, при котором модель самостоятельно извлекает признаки из неразмеченных данных, подобно студенту, собирающему пазл без подсказок учителя. Это позволяет модели обучаться без дорогостоящей ручной разметки.
- Batch Effect: Искусственные различия в изображениях, вызванные особенностями оборудования, освещения или процесса подготовки, а не содержанием самих клеток, что дезориентирует AI.
- Linear Probing: Простой тест для оценки качества внутреннего представления модели. Веса модели «замораживаются», а поверх них обучается простой линейный классификатор. Высокая точность такого классификатора подтверждает, что модель уже выучила высококачественные и полезные признаки.
Таблица обозначений
| Переменная/Параметр | Описание |
|---|---|
| $wF1$ | Взвешенная F1-мера, метрика, балансирующая precision и recall для несбалансированных классов. |
| $bAcc$ | Сбалансированная точность (Balanced accuracy), учитывающая дисбаланс классов через усреднение recall по каждому классу. |
| $Acc$ | Стандартная точность (Accuracy), отношение верных предсказаний к общему числу образцов. |
| $N$ | Количество изображений или патчей, используемых при обучении или тестировании. |
| $d$ | Размерность признакового пространства (embedding space) модели (например, 384, 768 или 1024). |
Математическая интерпретация
Авторы решили задачу представления признаков эритроцитов путем адаптации фреймворка DINOv2. Ключевая сложность заключалась в отходе от стандартного обучения на естественных изображениях, которое опирается на Koleo regularizer для предотвращения «feature collapse» (коллапса признаков, при котором модель отображает все входные данные в одну точку). Авторы установили, что для эритроцитов этот регуляризатор является вредным.
Они заменили стандартное центрирование по скользящему среднему на алгоритм Sinkhorn-Knopp. Математически это сводится к решению задачи оптимального транспорта (optimal transport) для отображения распределения признаков в равномерное распределение по батчу, что гарантирует сохранение моделью четких кластеров для различных типов клеток. Отказ от Koleo regularizer и внедрение этого метода центрирования позволили модели сохранить тонкие морфологические вариации, необходимые для клинической диагностики.
Архитектура модели была масштабирована в трех версиях:
1. RedDino Small: $d=384$, 22 миллиона параметров.
2. RedDino Base: $d=768$, 86 миллионов параметров.
3. RedDino Large: $d=1024$, 304 миллиона параметров.
Обучившись на более чем 1,25 миллионах патчей, авторы создали надежный бэкбон, который превосходит существующие SOTA-модели, стабильно достигая более высоких показателей $wF1$ и $bAcc$ на различных независимых тестовых наборах данных. Это подтверждает, что их подход «patch-based» обучения, в отличие от сегментации отдельных клеток, лучше улавливает контекст, необходимый для точного гематологического анализа.
Определение проблемы и ограничения
Формулировка основной проблемы и дилемма
Основная цель исследования — разработка надежной, обобщенной foundation-модели для анализа эритроцитов, способной точно классифицировать морфологию клеток в различных клинических условиях. Исходными данными (Input) является массивный гетерогенный набор сырых изображений мазков крови, полученных из различных лабораторий с использованием разных методов визуализации и протоколов окрашивания. Желаемый результат (Output) — высококачественное универсальное представление признаков (embedding), инвариантное к «batch effect» и чувствительное к тонким, клинически значимым морфологическим вариациям.
Фундаментальная дилемма заключается в компромиссе между инвариантностью признаков и дискриминационной способностью. В стандартном self-supervised learning (например, оригинальный DINOv2) модели часто обучаются с регуляризаторами, предназначенными для предотвращения «feature collapse» путем принудительного обеспечения равномерного распределения эмбеддингов. Однако авторы обнаружили, что для эритроцитов это единообразие является помехой. Поскольку здоровые эритроциты естественным образом однородны по форме и цвету, модель, навязывающая строгое единообразие, подавляет именно те признаки, которые определяют патологические или аномальные клетки.
Математическая интерпретация решения
Для преодоления разрыва между «сырыми» зашумленными данными и надежным признаковым пространством авторы внесли два критических изменения в фреймворк DINOv2:
- Удаление Koleo regularizer: Это позволило модели избежать «сверхподавления» признаков аномальных клеток. Математически это дает возможность пространству эмбеддингов сохранять более высокую дисперсию, что необходимо для выделения патологических клеток, отклоняющихся от «нормального» кластера.
- Центрирование Sinkhorn-Knopp: Замена стандартного центрирования по скользящему среднему на алгоритм Sinkhorn-Knopp. Это классический подход к решению задачи Optimal Transport. В данном контексте он выступает как метод нормализации, отображающий распределение признаков в целевое (часто равномерное) распределение способом, который более стабилен и лучше соответствует специфической геометрии данных эритроцитов.
Авторы также изменили стратегию обучения, перейдя от кропов отдельных клеток к патчам изображений мазков. Это позволяет модели изучать контекст — например, взаимосвязь между клетками и фоном, — что критически важно для различения истинных биологических структур и артефактов.
Обоснование подхода
Разработка RedDino представляет собой стратегический переход от универсального компьютерного зрения к доменно-специфичной foundation-модели для гематологии. Авторы установили, что, несмотря на мощность моделей типа DINOv2, они не оптимизированы для специфических морфологических нюансов эритроцитов.
Логика подхода
Авторы пришли к выводу, что традиционные «SOTA»-методы недостаточны, так как они часто полагаются на регуляризаторы (в частности, Koleo regularizer), предназначенные для предотвращения коллапса признаков в естественных изображениях путем обеспечения их равномерного распределения. В контексте эритроцитов это контрпродуктивно. Поскольку эритроциты обладают высокой степенью естественной однородности, регуляризатор, навязывающий единообразие, эффективно подавляет признаки (патологические или аномальные вариации), критически важные для клинической диагностики. Удалив этот регуляризатор, авторы позволили модели сохранить тонкие неоднородные морфологические маркеры.
Сравнительное превосходство и структурные преимущества
- Центрирование Sinkhorn-Knopp: Замена стандартного центрирования по скользящему среднему на алгоритм Sinkhorn-Knopp обеспечивает более надежный способ обработки центрирования распределений признаков, что напрямую повышает качество выученных представлений в условиях высокоразмерного шума, типичного для медицинской визуализации.
- Кастомная аугментация: Замена стандартных пиксельных аугментаций на специализированный конвейер из 32 пиксельных аугментаций из библиотеки Albumentations делает модель значительно более устойчивой к артефактам, возникающим при физической подготовке мазков крови.
Figure 4. Different classes show distinct clusters in the UMAP projection of the feature embeddings from the Elsafty dataset source 1. On the left, we show the subject distri- bution across the UMAP space (each patient identified by a unique identifier), while on the right, we show the class distribution
Математический и логический механизм
Математический движок RedDino
RedDino адаптирует фреймворк self-supervised learning DINO к домену морфологии эритроцитов. В основе модели лежит механизм Self-Distillation with No Labels (DINO), функционирующий как архитектура «учитель-ученик».
Основное уравнение
Целевая функция, управляющая обучением сети-ученика $g_{\theta_s}$, заключается в согласовании выходного распределения с сетью-учителем $g_{\theta_t}$. Основной механизм — минимизация функции потерь кросс-энтропии между мягким распределением вероятностей учителя и предсказанием ученика:
$$ \mathcal{L} = - \sum_{x \in \{x_1, x_2\}} P_t(x) \log P_s(x) $$
Где:
1. $P_t(x) = \text{softmax}\left(\frac{f_{\theta_t}(x)}{T_t}\right)$ — выходное распределение учителя.
2. $P_s(x) = \text{softmax}\left(\frac{f_{\theta_s}(x)}{T_s}\right)$ — выходное распределение ученика.
Динамика оптимизации
Модель обучается, навигируя по ландшафту функции потерь, определяемому сходством признаков эритроцитов. Удалив Koleo regularizer, авторы позволили модели сохранить естественную кластеризацию эритроцитов. Алгоритм Sinkhorn-Knopp заменяет стандартное центрирование по скользящему среднему, выступая в качестве ограничения, которое заставляет модель отображать входные данные в сбалансированное распределение в признаковом пространстве, эффективно предотвращая «коллапс» модели в тривиальное решение.
Результаты, ограничения и заключение
Анализ RedDino: Foundation-модель для анализа эритроцитов
В статье представлена RedDino — специализированная foundation-модель, разработанная для решения задач морфологического анализа эритроцитов.
Экспериментальное подтверждение
Авторы протестировали модель, сравнив ее с ResNet50, DINOv2 (универсальная версия) и DinoBloom (текущий SOTA в гематологии). Использовалась стратегия кросс-источниковой оценки: модель обучалась на одном источнике данных и тестировалась на совершенно других, не виденных ранее источниках. RedDino стабильно превосходила базовые модели, демонстрируя среднее улучшение более чем на 2% в метриках линейного зондирования (linear probing) и более чем на 3% в метриках K-NN.
Дискуссия и перспективы развития
Успех RedDino открывает несколько перспективных направлений для будущих исследований:
* Интеграция с мультимодальными данными: Будущие итерации могут включать клинические метаданные (например, возраст пациента, уровень гемоглобина) в пространство эмбеддингов.
* Активное обучение для редких патологий: Поскольку модель превосходно идентифицирует выбросы, она может быть использована в цикле активного обучения для автоматической пометки редких, недиагностированных состояний крови для последующего анализа патологами.
Table 1. RedDino models outperform ResNet50, DINOv2, and DinoBloom by over 2.1% in linear probing evaluation, and over 3.0% in 1-NN and 20-NN evaluation on the Elsafty dataset using a five-fold cross-validation strategy, where one source is fixed for training and the others are used for testing. "Avg Improvement" shows the average performance gain over baselines, while "Improvement" represents the performance gain compared to non-RedDino models
Table 2. RedDino outperforms baseline models in linear probing evaluations, with the only exception of the bAcc on the DSE dataset, in a five-fold cross-validation approach. "Avg Improvement" shows the average performance gain over baselines, while "Improvement" represents the performance gain compared to non-RedDino models
Изоморфизмы с другими областями
Структурный каркас
Основой данной работы является фреймворк self-supervised learning, который отображает высокоразмерные гетерогенные визуальные данные в надежное низкоразмерное признаковое пространство путем замены стандартных методов регуляризации на центрирование на основе оптимального транспорта для сохранения тонких морфологических вариаций.
«Дальние родственники»
- Целевая область: Макроэкономика (Рыночная динамика)
- Связь: В экономике «batch effect» (вариативность протоколов визуализации) является зеркальным отражением «структурных сдвигов» (structural breaks) во временных рядах. Подобно тому, как RedDino использует self-supervised learning для извлечения инвариантных признаков вопреки вариациям окрашивания, экономисты стремятся извлечь «истинные» экономические сигналы из зашумленных нестационарных данных разных стран или фискальных периодов.
- Целевая область: Астрофизика (Морфология галактик)
- Связь: Астрономы сталкиваются с той же проблемой, что и гематологи: классификация объектов (галактик), существующих в континууме форм и часто скрытых «шумом» (атмосферные помехи или артефакты сенсоров). Подход RedDino к идентификации нюансов морфологии эритроцитов является прямым аналогом обучения моделей классификации типов галактик по снимкам телескопов, где «batch effect» представлен различным качеством захвата света в разных обсерваториях.