Paper Analysis

Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow

अनुसंधान क्षेत्र Generative Modeling

Article Type Research analysis

Authors Liu∗ et al.

Original Paper Published 2023

ISOM Posted 2026-03-13 04:10 UTC

Read Time 2M

Open PDF

Editorial Disclosure

ISOM follows an editorial workflow that structures the source paper into a readable analysis, then publishes the summary, source links, and metadata shown on this page so readers can verify the original work.

The goal of this page is to help readers understand the paper's core question, method, evidence, and implications before opening the original publication.

Background & Academic Lineage

The Origin & Academic Lineage

एक प्रायिकता वितरण (probability distribution) को दूसरे में स्थानांतरित करने की समस्या—जिसे अक्सर "transport mapping problem" कहा जाता है—मशीन लर्निंग और सांख्यिकी में एक मूलभूत चुनौती है। ऐतिहासिक रूप से, यह समस्या Optimal Transport (OT) के क्षेत्र से उभरी है, जो वितरणों के बीच द्रव्यमान (mass) को स्थानांतरित करने का सबसे कुशल तरीका खोजने का प्रयास करता है। यद्यपि OT एक कठोर गणितीय ढांचा प्रदान करता है, लेकिन आधुनिक इमेज जनरेशन या डोमेन ट्रांसफर कार्यों में आने वाले उच्च-आयामी (high-dimensional) स्थानों में इसे हल करना अत्यंत कठिन है।

पूर्व के दृष्टिकोण, विशेष रूप से Generative Adversarial Networks (GANs) और Variational Autoencoders (VAEs) जैसे जनरेटिव मॉडल, ने डेटा और लेटेंट स्पेस (latent space) के बीच मैपिंग सीखकर इसे हल करने का प्रयास किया। हालाँकि, ये मॉडल अक्सर महत्वपूर्ण समस्याओं से ग्रस्त रहते हैं: GANs संख्यात्मक अस्थिरता (numerical instability) और मोड कोलैप्स (mode collapse) से जूझते हैं, जबकि VAEs और अन्य संभावना-आधारित मॉडल अक्सर जटिल और गणनात्मक रूप से महंगी अनुमान प्रक्रियाओं (inference procedures) की मांग करते हैं। हाल ही में, डिफ्यूजन मॉडल और न्यूरल ऑर्डिनरी डिफरेंशियल इक्वेशन (ODEs) जैसे निरंतर-समय (continuous-time) मॉडल ने लोकप्रियता हासिल की है। शक्तिशाली होने के बावजूद, ये मॉडल अनिवार्य रूप से "infinite-step" प्रक्रियाएं हैं; इन्हें बार-बार एक महंगे न्यूरल नेटवर्क को कॉल करके जटिल डिफरेंशियल इक्वेशन को हल करने की आवश्यकता होती है, जो वास्तविक समय के अनुप्रयोग या तेज़ इन्फेरेंस को अत्यधिक धीमा बना देता है। इस शोध पत्र के लेखकों ने पहचाना कि इन निरंतर-समय मॉडलों की मुख्य सीमा उनकी घुमावदार, गैर-सीधी प्रक्षेपवक्रों (non-straight trajectories) पर निर्भरता है, जिसके लिए सटीक सिमुलेशन हेतु कई डिस्क्रेटाइजेशन स्टेप्स की आवश्यकता होती है।

Intuitive Domain Terms

Rectified Flow: इसे "राजमार्ग को सीधा करना" समझें। डेटा कणों को दो वितरणों के बीच घुमावदार और अक्षम रास्तों पर चलने देने के बजाय, यह विधि उन्हें सबसे छोटे संभव सीधे रास्ते पर चलने के लिए मजबूर करती है, जिससे यात्रा बहुत तेज़ और गणना में आसान हो जाती है।
Reflow: एक डिलीवरी ड्राइवर की कल्पना करें जो अपने पहले दिन एक घुमावदार रास्ता अपनाता है। ट्रैफिक का अवलोकन करने के बाद, वह अपने रास्ते को पूरी तरह से सीधी रेखा में "reflow" करता है। पिछले मॉडल द्वारा उत्पन्न रास्तों पर पुनरावृत्त रूप से प्रशिक्षण (iteratively training) करके, सिस्टम अपने स्वयं के प्रक्षेपवक्रों को "सीधा" करता है, जिससे बहुत कम स्टेप्स में उच्च-गुणवत्ता वाले परिणाम प्राप्त होते हैं।
Coupling: यह केवल एक "पेयरिंग प्लान" है। यदि आपके पास रेत का ढेर (वितरण $\pi_0$) है और आप इसे एक विशिष्ट आकार (वितरण $\pi_1$) में बदलना चाहते हैं, तो कपलिंग उन निर्देशों का समूह है जो रेत के प्रत्येक कण को बताता है कि उसे कहाँ जाना है।
Drift Force: ODEs के संदर्भ में, यह मॉडल का "स्टीयरिंग व्हील" है। यह एक न्यूरल नेटवर्क है जो डेटा पॉइंट्स को बताता है कि किसी भी समय $t$ पर किस दिशा में जाना है ताकि वे अपने गंतव्य तक पहुँच सकें।
Discretization Step: इसे वीडियो की "फ्रेम रेट" समझें। निरंतर गति का अनुकरण करने के लिए, हम इसे छोटे टुकड़ों में तोड़ते हैं। स्टेप्स की अधिक संख्या का अर्थ है एक सहज लेकिन धीमी प्रक्रिया; लेखक बहुत कम स्टेप्स (यहाँ तक कि केवल एक) के साथ उच्च गुणवत्ता प्राप्त करना चाहते हैं।

Notation Table

Notation	Description
$\pi_0, \pi_1$	दो प्रायिकता वितरण (स्रोत और लक्ष्य) जिन्हें जोड़ा जा रहा है।
$X_0, X_1$	क्रमशः $\pi_0$ और $\pi_1$ से लिए गए रैंडम वेरिएबल्स।
$Z_t$	समय $t \in [0, 1]$ पर फ्लो की स्थिति।
$v(Z_t, t)$	वेग क्षेत्र (velocity field/drift) जो फ्लो की गति निर्धारित करता है।
$X_t$	$X_0$ और $X_1$ के बीच रैखिक प्रक्षेप (linear interpolation), जिसे $tX_1 + (1-t)X_0$ के रूप में परिभाषित किया गया है।
$S(\mathbf{Z})$	फ्लो के "सीधेपन" का एक माप; कम मान सीधे रास्तों को इंगित करते हैं।
$N$	संख्यात्मक सिमुलेशन के लिए उपयोग किए जाने वाले डिस्क्रेटाइजेशन स्टेप्स की संख्या।
$\theta$	वेग क्षेत्र का अनुमान लगाने के लिए उपयोग किए जाने वाले न्यूरल नेटवर्क के पैरामीटर्स।

Problem Definition & Constraints

Core Problem Formulation & The Dilemma

यह शोध पत्र उच्च-आयामी स्थानों में दो अनुभवजन्य रूप से देखे गए डेटा वितरणों, $\pi_0$ और $\pi_1$, के बीच एक ट्रांसपोर्ट मैप सीखने की मूलभूत समस्या को संबोधित करता है। यह विभिन्न मशीन लर्निंग अनुप्रयोगों के लिए एक महत्वपूर्ण कार्य है, जिसमें जनरेटिव मॉडलिंग (जैसे, गॉसियन नॉइज़ को इमेज में मैप करना) और डोमेन ट्रांसफर (जैसे, एक शैली से दूसरी शैली में इमेज का अनुवाद) शामिल हैं।

Input/Current State: शुरुआती बिंदु दो वितरणों, $\pi_0$ और $\pi_1$ से अनुभवजन्य अवलोकन (सैंपल्स) प्राप्त करना है, जो आमतौर पर $\mathbb{R}^d$ में होते हैं। इस समस्या का एक महत्वपूर्ण पहलू युग्मित इनपुट/आउटपुट डेटा का अभाव है। अर्थात, प्रत्येक सैंपल $X_0 \sim \pi_0$ के लिए, कोई संबंधित $X_1 \sim \pi_1$ नहीं है जिसे उसका "सही" अनुवाद या जनरेशन लक्ष्य माना जा सके। इसके बजाय, हमारे पास केवल प्रत्येक वितरण से स्वतंत्र सैंपल्स के सेट होते हैं।

Output/Goal State: वांछित अंतिम बिंदु एक ट्रांसपोर्ट मैप $T: \mathbb{R}^d \to \mathbb{R}^d$ सीखना है ताकि, अनंत डेटा सीमा में, यदि $Z_0 \sim \pi_0$ हो, तो $Z_1 := T(Z_0) \sim \pi_1$ हो। अधिक विशेष रूप से, शोध पत्र का उद्देश्य एक न्यूरल ऑर्डिनरी डिफरेंशियल इक्वेशन (ODE) मॉडल, $dZ_t = v(Z_t, t)dt$ सीखना है, जो $\pi_0$ से $\pi_1$ तक सैंपल्स को उन रास्तों का अनुसरण करते हुए स्थानांतरित कर सके जो यथासंभव "सीधे" हों। इस ODE को नए डेटा उत्पन्न करने या डोमेन ट्रांसफर करने के लिए फॉरवर्ड सिमुलेट किया जाना चाहिए।

Missing Link/Mathematical Gap: सटीक लापता कड़ी यह है कि कैसे अनपेयर्ड डेटा से एक कारणात्मक (causal) और गणनात्मक रूप से कुशल ट्रांसपोर्ट मैप का निर्माण किया जाए जो जनरेटिव मॉडलिंग और डोमेन ट्रांसफर को एकीकृत करे, साथ ही मौजूदा तरीकों की सीमाओं को पार करे।

इस अंतर को पाटने के पिछले प्रयासों को कई समस्याओं का सामना करना पड़ा:
1. Naive Linear Interpolation: एक सरल रैखिक प्रक्षेप $X_t = tX_1 + (1-t)X_0$ सीधे रास्ते प्रदान करता है लेकिन यह "गैर-कारणात्मक (या प्रत्याशित)" है। इसके लिए $X_t$ निर्धारित करने हेतु अंतिम बिंदु $X_1$ को जानने की आवश्यकता होती है, जिससे नए डेटा उत्पन्न करने के लिए इसे फॉरवर्ड सिमुलेट करना असंभव हो जाता है।
2. Optimal Transport (OT): यद्यपि OT ट्रांसपोर्ट लागत को कम करने वाले मैपिंग खोजने के लिए सैद्धांतिक रूप से सुदृढ़ ढांचा प्रदान करता है, लेकिन यह उच्च-आयामी निरंतर उपायों के लिए "गणनात्मक रूप से अत्यधिक चुनौतीपूर्ण" है और अक्सर कई मशीन लर्निंग कार्यों के विशिष्ट उद्देश्यों के लिए "सीधे हित का नहीं" होता है।
3. Continuous-Time Generative Models (ODEs/SDEs): स्कोर-आधारित जनरेटिव मॉडल और डीनोइजिंग डिफ्यूजन प्रोबेबिलिस्टिक मॉडल (DDPM) जैसे मॉडलों में हालिया प्रगति ने प्रभावशाली परिणाम दिखाए हैं। हालाँकि, ये मॉडल "प्रभावी रूप से 'infinite-step'" हैं और "इन्फेरेंस समय में उच्च गणनात्मक लागत" उठाते हैं क्योंकि उन्हें ODE/SDE को सिमुलेट करने के लिए बड़ी संख्या में एक महंगे न्यूरल फोर्स फील्ड को बार-बार कॉल करने की आवश्यकता होती है।

शोध पत्र समस्या को एक सीधे नॉन-लीनियर लीस्ट स्क्वायर्स ऑप्टिमाइज़ेशन के रूप में तैयार करके इस अंतर को पाटने का प्रयास करता है। यह एक वेग क्षेत्र $v(Z_t, t)$ सीखने का प्रयास करता है जो ODE $dZ_t = v(Z_t, t)dt$ को रैखिक रास्तों $(X_1 - X_0)$ की दिशा का यथासंभव बारीकी से पालन करने के लिए प्रेरित करता है, जहाँ $X_t = tX_1 + (1-t)X_0$ अनुभवजन्य रूप से नमूने लिए गए बिंदुओं के बीच रैखिक प्रक्षेप है। इसे इस प्रकार व्यक्त किया गया है:
$$ \min_v \mathbb{E} \left[ \int_0^1 \|(X_1 - X_0) - v(X_t, t)\|^2 dt \right] $$
यह फॉर्मूलेशन सीधे रास्तों को "कारणात्मक" बनाने का लक्ष्य रखता है, जिससे वे सिमुलेट करने योग्य हो जाते हैं।

Constraints & Failure Modes

वितरणों के बीच ट्रांसपोर्ट मैप सीखने की समस्या कई कठोर, यथार्थवादी बाधाओं से घिरी है:

Physical, Computational, or Data-driven Constraints:
* Unpaired Data: सबसे महत्वपूर्ण डेटा-संचालित बाधा अनसुपरवाइज्ड लर्निंग सेटिंग्स में "युग्मित इनपुट/आउटपुट डेटा का अभाव" है। इसका मतलब है कि मॉडल $X_0$ से $X_1$ तक सीधे रिग्रेशन को आसानी से नहीं सीख सकता।
* High-Dimensionality of Data: वास्तविक दुनिया का डेटा, विशेष रूप से इमेज, बहुत उच्च-आयामी स्थानों ($\mathbb{R}^d$ जहाँ $d$ लाखों में हो सकता है) में मौजूद होता है। यह प्रत्यक्ष ऑप्टिमल ट्रांसपोर्ट गणनाओं को कठिन बना देता है और संख्यात्मक ODE/SDE सॉल्वर की गणनात्मक लागत को बढ़ा देता है।
* Computational Cost of ODE/SDE Solvers: मौजूदा निरंतर-समय मॉडलों को इन्फेरेंस के दौरान "बड़ी संख्या में महंगे न्यूरल फोर्स फील्ड को बार-बार कॉल करने" की आवश्यकता होती है। यह कई अनुप्रयोगों में सख्त वास्तविक समय विलंबता (latency) आवश्यकताओं में तब्दील हो जाता है, जहाँ सैकड़ों या हजारों स्टेप्स में इमेज उत्पन्न करना बहुत धीमा है।
* Non-Crossing Property of ODEs: एक अच्छी तरह से परिभाषित ODE के लिए, इसका समाधान अद्वितीय होना चाहिए, जिसका अर्थ है कि अलग-अलग रास्ते एक-दूसरे को पार नहीं कर सकते। यह एक मूलभूत गणितीय बाधा है जिसे किसी भी सीखे गए फ्लो को पूरा करना चाहिए, जो कि सरल रैखिक प्रक्षेपों के विपरीत है जो प्रतिच्छेद (intersect) कर सकते हैं।

Why This Approach

The Inevitability of the Choice

लेखकों ने पहचाना कि पारंपरिक जनरेटिव मॉडल—विशेष रूप से GANs और डिफ्यूजन मॉडल—इन्फेरेंस गति के संबंध में एक मूलभूत "गणनात्मक दीवार" से टकराते हैं। GANs, तेज़ होने के बावजूद, कुख्यात प्रशिक्षण अस्थिरता और मोड कोलैप्स से ग्रस्त हैं। इसके विपरीत, डिफ्यूजन मॉडल (और उनके ODE-आधारित वेरिएंट जैसे PF-ODEs) गणितीय रूप से मजबूत हैं लेकिन गणनात्मक रूप से महंगे हैं क्योंकि उन्हें जटिल, घुमावदार प्रक्षेपवक्रों को हल करने की आवश्यकता होती है जिन्हें सटीकता बनाए रखने के लिए कई डिस्क्रेटाइजेशन स्टेप्स की आवश्यकता होती है। लेखकों ने महसूस किया कि इन प्रक्षेपवक्रों की "घुमावदार" प्रकृति मुख्य बाधा थी; यदि दो वितरणों के बीच ट्रांसपोर्ट पथ को "सीधा" बनाया जा सके, तो ODE को न्यूनतम डिस्क्रेटाइजेशन के साथ हल किया जा सकता है, संभवतः केवल एक स्टेप में। इस अहसास ने ध्यान को केवल वितरणों के मिलान से हटाकर उनके बीच सबसे छोटे, सीधे रास्ते को खोजने पर केंद्रित कर दिया।

Comparative Superiority

Rectified flow गुणात्मक रूप से बेहतर है क्योंकि यह ट्रांसपोर्ट समस्या को एक सरल, स्केलेबल, अनकन्स्ट्रेंड लीस्ट स्क्वायर्स ऑप्टिमाइज़ेशन में बदल देता है। GANs के विपरीत, जिन्हें नाजुक मिनिमैक्स संतुलन की आवश्यकता होती है, या डिफ्यूजन मॉडल, जो जटिल SDE/ODE सॉल्वर पर निर्भर करते हैं, Rectified flow एक "reflow" प्रक्रिया का उपयोग करता है। यह प्रक्रिया फ्लो के प्रक्षेपवक्रों को पुनरावृत्त रूप से सीधा करती है। संरचनात्मक रूप से, यह डिस्क्रेटाइजेशन त्रुटि को काफी कम कर देता है। जबकि मानक डिफ्यूजन मॉडल को उच्च-गुणवत्ता वाली इमेज उत्पन्न करने के लिए सैकड़ों फंक्शन इवैल्यूएशन (NFE) की आवश्यकता हो सकती है, Rectified flow—विशेष रूप से reflow के बाद—एक ही यूलर स्टेप (Euler step) के साथ तुलनीय या बेहतर परिणाम उत्पन्न कर सकता है। यह प्रभावी रूप से वन-स्टेप मॉडल (जैसे VAEs) और निरंतर-समय मॉडल के बीच की खाई को पाटता है, जो बाद वाले की उच्च गुणवत्ता को पूर्व वाले की गति के साथ प्रदान करता है।

Alignment with Constraints

समस्या की बाधाओं के लिए एक ऐसे मॉडल की आवश्यकता थी जो GANs की अस्थिरता या डिफ्यूजन की निषेधात्मक इन्फेरेंस लागत के बिना उच्च-आयामी डेटा (जैसे इमेज) को संभाल सके। Rectified flow ट्रांसपोर्ट पथ के अपने "कारणात्मककरण (causalization)" के माध्यम से इन बाधाओं के साथ संरेखित होता है। ड्रिफ्ट फोर्स $v$ को रैखिक प्रक्षेप $X_t = tX_1 + (1-t)X_0$ का पालन करने के लिए प्रशिक्षित करके, मॉडल एक मायोपिक, नॉन-क्रॉसिंग और नियतात्मक (deterministic) तरीके से द्रव्यमान को स्थानांतरित करना सीखता है। ODE ढांचे के साथ इस सीधे-रेखा उद्देश्य का "विवाह" यह सुनिश्चित करता है कि मॉडल गणनात्मक रूप से कुशल (सीधे रास्तों के कारण) और सैद्धांतिक रूप से सुदृढ़ (क्योंकि यह सीमांत वितरणों को संरक्षित करता है और ट्रांसपोर्ट लागत को कम करता है) दोनों है।

Mathematical & Logical Mechanism

The Master Equation

Rectified Flow का मुख्य तंत्र एक वेग क्षेत्र $v(z, t)$ सीखना है जो एक स्रोत वितरण $\pi_0$ को एक लक्ष्य वितरण $\pi_1$ में सीधे-रेखा रास्तों का पालन करके बदल देता है। इस वेग क्षेत्र को प्रशिक्षित करने के लिए उपयोग किया जाने वाला उद्देश्य फलन है:

$$\min_{v} \int_{0}^{1} \mathbb{E} \left[ \left\| (X_1 - X_0) - v(X_t, t) \right\|^2 \right] dt, \quad \text{with } X_t = tX_1 + (1 - t)X_0$$

Step-by-Step Flow

Initialization: डेटा वितरणों से एक जोड़ी $(X_0, X_1)$ का नमूना लिया जाता है।
Interpolation: सिस्टम यादृच्छिक रूप से नमूने लिए गए समय $t$ पर मध्यवर्ती बिंदु $X_t$ की गणना करता है।
Velocity Prediction: न्यूरल नेटवर्क $v$ इनपुट के रूप में वर्तमान स्थिति $X_t$ और समय $t$ को लेता है और एक अनुमानित वेग वेक्टर आउटपुट करता है।
Regression: मॉडल अपने अनुमानित वेग की तुलना लक्ष्य दिशा $(X_1 - X_0)$ से करता है।
Update: नेटवर्क पैरामीटर्स को अंतर को कम करने के लिए ग्रेडिएंट डिसेंट के माध्यम से अपडेट किया जाता है।
Inference: सैंपलिंग के दौरान, मॉडल $Z_0 \sim \pi_0$ से शुरू होता है और $Z_1 \sim \pi_1$ तक पहुँचने के लिए एक संख्यात्मक सॉल्वर (जैसे यूलर विधि) का उपयोग करके ODE $dZ_t = v(Z_t, t)dt$ को हल करता है।

Optimization Dynamics

यह तंत्र रैखिक प्रक्षेप को "कारणात्मक" बनाकर सीखता है। जबकि सरल पथ $X_t$ को भविष्य ($X_1$) के ज्ञान की आवश्यकता होती है, सीखा गया वेग क्षेत्र $v(Z_t, t)$ केवल वर्तमान स्थिति और समय का एक फलन है, जो इसे एक वैध, कारणात्मक ODE बनाता है।

"Reflow" प्रक्रिया एक महत्वपूर्ण ऑप्टिमाइज़ेशन डायनेमिक है: एक प्रारंभिक मॉडल को प्रशिक्षित करने के बाद, मॉडल का उपयोग सीखे गए फ्लो को सिमुलेट करके नई जोड़ियाँ $(Z_0, Z_1)$ उत्पन्न करने के लिए किया जाता है। इन नई जोड़ियों का उपयोग मॉडल को फिर से प्रशिक्षित करने के लिए किया जाता है। चूंकि पहले मॉडल द्वारा उत्पन्न फ्लो कच्चे डेटा कपलिंग की तुलना में पहले से ही "सीधा" होता है, इसलिए दूसरा पुनरावृत्ति और भी सीधे रास्ते उत्पन्न करता है। यह पुनरावृत्त प्रक्रिया प्रभावी रूप से फ्लो को "सीधा" करती है, जिससे संख्यात्मक सॉल्वर की डिस्क्रेटाइजेशन त्रुटि कम हो जाती है। परिणामस्वरूप, लॉस लैंडस्केप तेजी से सुचारू हो जाता है, जिससे मॉडल एक ऐसी स्थिति में परिवर्तित हो जाता है जहाँ बहुत कम (या केवल एक) यूलर स्टेप्स के साथ उच्च-गुणवत्ता वाले सैंपल्स उत्पन्न किए जा सकते हैं।

Results, Limitations & Conclusion

Experimental Design & Baselines

लेखक CIFAR-10 डेटासेट और उच्च-रिज़ॉल्यूशन डेटासेट (LSUN, CelebA-HQ, AFHQ) पर बिना शर्त इमेज जनरेशन पर Rectified Flow का मूल्यांकन करते हैं। एक कठोर बेसलाइन स्थापित करने के लिए, वे DDPM++ ढांचे (Song et al., 2020b) से U-Net आर्किटेक्चर का उपयोग करते हैं। प्रयोगात्मक डिज़ाइन को "reflow" प्रक्रिया की प्रभावकारिता और सीखे गए ODE प्रक्षेपवक्रों के परिणामी "सीधेपन" का परीक्षण करने के लिए संरचित किया गया है।

What the Evidence Proves

प्रदान किए गए प्रमाण सम्मोहक हैं, विशेष रूप से reflow प्रक्रिया के "सीधा करने" के प्रभाव के संबंध में। लेखक प्रदर्शित करते हैं कि यद्यपि प्रारंभिक (1-rectified) फ्लो प्रभावी है, लेकिन यह पूरी तरह से सीधा नहीं है। Reflow प्रक्रिया को लागू करके—जहाँ मॉडल को पिछले फ्लो द्वारा उत्पन्न डेटा पर फिर से प्रशिक्षित किया जाता है—प्रक्षेपवक्र तेजी से रैखिक हो जाते हैं।

इस तंत्र के लिए निश्चित प्रमाण दो गुना हैं:
* Quantitative: CIFAR-10 पर, डिस्टिल्ड 2-rectified फ्लो 4.85 का FID प्राप्त करता है, जो सबसे प्रसिद्ध वन-स्टेप जनरेटिव मॉडल (TDPM, FID 8.91) से काफी बेहतर है। इसके अलावा, 0.51 का रिकॉल StyleGAN2+ADA (0.49) से अधिक है, जो यह साबित करता है कि विधि उच्च विविधता बनाए रखती है।
* Visual/Geometric: चित्र 4 और चित्र 18 दृश्य प्रमाण प्रदान करते हैं कि 2-rectified फ्लो के प्रक्षेपवक्र लगभग सीधी रेखाएं हैं। एक्सट्रपलेशन $\hat{z}_1^t = z_t + (1-t)v(z_t, t)$ $t$ की परवाह किए बिना लगभग स्थिर रहता है, जो एक सीधी-रेखा ODE की पहचान है। यह पुष्टि करता है कि मॉडल ने ट्रांसपोर्ट प्रक्रिया को सफलतापूर्वक "कारणात्मक" बना दिया है, जिससे न्यूनतम डिस्क्रेटाइजेशन स्टेप्स के साथ सटीक सिमुलेशन संभव हो गया है।

Limitations & Future Directions

इस शोध के लिए भविष्य की दिशाओं में शामिल हो सकते हैं:
* Theoretical Refinement: यह पता लगाना कि क्या reflow स्टेप्स की संख्या की कोई सैद्धांतिक सीमा है, जिसके बाद संख्यात्मक त्रुटि का संचय प्रक्षेपवक्र को सीधा करने के लाभों से अधिक हो जाता है।
* Broader Applications: यह जांचना कि क्या "सीधा करने" की संपत्ति का लाभ गैर-जनरेटिव कार्यों में लिया जा सकता है, जैसे कि भौतिक प्रणाली मॉडलिंग या टाइम-सीरीज फोरकास्टिंग।
* Optimal Transport Integration: जैसा कि लेखक उल्लेख करते हैं, Rectified flow सख्ती से एक विशिष्ट लागत फलन $c$ के लिए $c$-optimal transport की गारंटी नहीं देता है। भविष्य का कार्य वेग क्षेत्र $v$ को ग्रेडिएंट क्षेत्र (जैसे, $v = \nabla f$) होने के लिए प्रतिबंधित करने पर केंद्रित हो सकता है ताकि स्पष्ट रूप से ऑप्टिमलिटी को लागू किया जा सके।

ये निष्कर्ष जनरेटिव मॉडलिंग में एक प्रतिमान बदलाव (paradigm shift) का सुझाव देते हैं: "नॉइज़-टू-डेटा" डिफ्यूजन प्रतिमान से दूर एक "सीधी-रेखा" ट्रांसपोर्ट प्रतिमान की ओर बढ़ना, जो गणनात्मक रूप से अधिक कुशल और सैद्धांतिक रूप से अधिक पारदर्शी है।