English 中文

基于 Cola DLM 的统一多模态 Flow Matching

摘要

最近,统一多模态预训练模型已从早期的单一自回归序列建模,发展为由 Reasoner Tower 与 Generator Tower 组成的双塔范式,包括 MLLM-to-Diffusion 的串联桥接结构,以及基于 Mixture-of-Transformer(MoT)的双塔并联结构。本文探索一种新的基于 Cola DLM(连续潜变量扩散语言模型)[1] 的统一建模方案:将文本与视觉信号映射到连续潜变量空间,并使用共享块因果 MMDiT 参数化潜变量生成分布,在统一接口下同时学习理解(text output)与生成(pixel output)。本方法将理解与生成视为同一多模态联合分布的不同条件视角,并通过多任务联合预训练在共享生成分布中同时学习语义表示、跨模态对齐与生成动力学,增强不同模态之间的互信息约束,从而为理解与生成任务提供一种协同机制。本文系统阐述该架构及其关键设计,并展示 文本→文本文本→图像图像×文本→文本 三类预训练任务的定性结果。


1. 动机:为什么需要新的统一建模路线?

近年来,统一多模态预训练建模的研究重点已从「能否用单一系统同时支持理解与生成」,转向「理解路径与生成路径应如何交互和协同」。从架构角度看,现有方法可概括为三类路线。

路线一:统一自回归序列建模。 Chameleon [2] 将文本与图像均离散化为 token,并在同一 Transformer 中进行预测;Janus / Janus-Pro [3,4] 进一步解耦视觉理解编码器(如 SigLIP [5])与离散图像 tokenizer(VQ-VAE [6]),但其生成路径仍主要依赖离散视觉 token 的自回归建模。该路线与语言模型范式最为一致,能够以统一序列形式支持交错形式的输入输出;其局限在于图像生成质量和采样效率通常受制于离散 tokenizer 与长序列自回归生成。

路线二:Reasoner–Generator 双塔并联交互。 Transfusion [7] 在同一多模态模型中联合训练文本 next-token prediction 与图像 diffusion 目标;BAGEL [8] 采用 MoT 架构,使理解专家与生成专家在同一多模态序列上工作,并通过共享 self-attention 实现长上下文交互。Show-o / Show-o2 [9,10] 进一步探索在单一 Transformer 中结合自回归文本建模与离散 diffusion 视觉生成;Tuna / Tuna-2 [11,12] 则从统一视觉表示出发,分别探索连续视觉表示与 pixel embedding 的端到端统一建模。此类方法保留文本侧的 AR 建模,同时在视觉侧引入 diffusion head,相比纯 AR 架构更适合高保真视觉生成;相应地,它需要在表征学习、任务配比以及生成/理解目标之间处理更复杂的优化耦合。

路线三:Reasoner-to-Generator 串联桥接。 MetaQueries [13] 使用可学习 query 从预训练 MLLM 中提取生成条件,并经由 connector 输入 MMDiT;Qwen-Image [14] 使用 Qwen2.5-VL 提供语义条件,并结合 VAE 与 MMDiT 完成图像生成与编辑;UniWorld-V1 [15]、OmniGen2 [16] 和 UniVideo [17] 同样采用类似的思路,将 MLLM 的理解能力转化为 MMDiT 的条件信号,并扩展至图像编辑、in-context 生成以及视频生成与编辑。该路线具有较强工程可扩展性,能够充分复用已有 MLLM 与 MMDiT 基座。理解与生成通常通过 hidden states、query、connector 或双流条件进行连接,其统一性更多体现为系统级组合,而非由单一模型直接建模多模态联合分布。

上述研究表明,「统一」既不能简单等同于共享一个 Transformer,也不能仅理解为在语言模型之后接入扩散生成模块。即使视觉生成已经发生在 VAE latent 上,大多数现有方法中的跨模态学习仍更接近条件建模,即以一种模态作为另一种模态的条件,而非显式刻画多模态潜变量的联合分布。 基于上述观察,本文旨在构建一种区别于双塔并联或串联桥接的统一训练范式:文本与视觉信号经由 VAE 映射到连续 latent space,并由单一共享的块因果 MMDiT [18,19] 建模

\[p_\psi\big(z_0^{\text{text}}, z_0^{\text{pixel}}\big).\]

在该视角下,理解(text output)和生成(pixel output)对应同一多模态联合分布的不同条件视角。多任务联合训练从多个条件方向约束 $p_\psi(z_0^{\text{text}}, z_0^{\text{pixel}})$,促使模型捕获 $Z^{\text{text}}$ 与 $Z^{\text{pixel}}$ 之间的互信息,并在统一接口下共享语义表示、跨模态对齐与生成动力学。 Cola DLM 为文本生成提供了完善的连续潜变量建模方案。本文进一步说明,该方案可自然扩展至其他模态,并为上述统一训练范式提供基础。

Cola DLM 回顾

Cola DLM 是一种连续潜变量扩散语言模型。其核心是不在 token 层面执行去噪,而是:

  1. Text VAE 学习稳定的 文本 ↔ 连续潜变量 映射;
  2. 块因果 DiT 在连续潜空间建模全局语义先验
  3. 通过条件解码器流式生成文本。

扩散过程用于潜变量先验传输

\[z_1 \sim p_1,\qquad z_0 = \Phi^{\psi}_{0\leftarrow 1}(z_1),\qquad x \sim p_\theta(x \mid z_0).\]

该分解显式区分了全局语义组织(连续潜空间)与局部文本实现(解码器)。在扩展至其他模态时,这种分工同样关键。


2. 连续潜变量上的联合分布

统一建模不应只依赖共享骨干网络,也不应把不同模态强行压到同一表征空间。更自然的做法是先把文本和视觉信号分别映射到连续潜变量,再让共享块因果 MMDiT 建模这些潜变量的联合分布。这样,文本语义、视觉内容以及二者之间的对应关系都可以通过同一个接口来处理。

具体而言,本文遵循与 Cola DLM 相同的概率分解。设 $x_{\text{text}}$、$x_{\text{pixel}}$ 为文本与视觉观测,由相应编码器产生连续潜变量:

\[z_0^{\text{text}} \in \mathcal{Z}_{\text{text}},\quad z_0^{\text{text}} \sim q_{\phi_{\text{text}}}(z \mid x_{\text{text}}), \qquad z_0^{\text{pixel}} \in \mathcal{Z}_{\text{pixel}},\quad z_0^{\text{pixel}} \sim q_{\phi_{\text{pixel}}}(z \mid x_{\text{pixel}}).\]

进一步,将文本与视觉 latent 构成联合潜变量并建模统一生成过程:

\[\bar{z}_0 = \big(z_0^{\text{text}},\, z_0^{\text{pixel}}\big), \qquad p(x_{\text{text}}, x_{\text{pixel}}, \bar{z}_0) = p_\theta\big(x_{\text{text}}, x_{\text{pixel}} \mid \bar{z}_0\big)\, p_\psi(\bar{z}_0).\]

模态对应的 VAE 编解码器负责在观测空间和潜变量空间之间转换,共享块因果 MMDiT 则在 $\mathcal{Z}{\text{text}}\times\mathcal{Z}{\text{pixel}}$ 上参数化 $p_\psi(\bar z_0)$,学习文本 latent 与视觉 latent 的联合分布。「先验传输」可作用于多模态潜变量 $\bar{z}_0$:共享块因果 MMDiT 先生成联合潜变量,随后由对应解码器生成文本或 pixel 输出。连续潜变量的作用在于提供统一的建模接口,而不是要求所有模态共享同一种表示。

从联合分布的角度看,训练目标可以写成:

\[\mathbb{E}[\mathcal{L}_{\text{ELBO}}] = \mathbb{E}_q\big[\log p_\theta(x_{\text{text}}, x_{\text{pixel}} \mid \bar{z}_0)\big] - I\big((X_{\text{text}}, X_{\text{pixel}});\, \bar{Z}_0\big) - \mathrm{KL}\big(\bar{q}(\bar{z}_0)\,\|\,p_\psi(\bar{z}_0)\big).\]

这三个项分别对应三个简单的问题:解码器能否从联合潜变量 $\bar z_0$ 还原文本和视觉观测;潜变量中保留了多少关于输入样本的信息;编码器得到的聚合后验 $\bar q(\bar z_0)$ 是否能被共享先验 $p_\psi(\bar z_0)$ 拟合。 在这个框架下,文本 latent 和视觉 latent 不需要被强行对齐成逐点可比的同一种表示。模型能够在同一个联合分布中学习不同的条件生成方向,例如 $p_\psi(z^{\text{pixel}}\mid z^{\text{text}})$,或 $p_\psi(z^{\text{text}}\mid z^{\text{pixel}})$。

因此,潜变量承载压缩后的高层语义,解码器负责把这些语义落实为具体的文本或 pixel 输出。统一建模发生在连续潜变量的联合分布上,而不只是复用同一个跨模态骨干网络。


3. 架构与训练

**图 1.** 基于 Cola DLM 的统一文本–视觉建模。左:文本续写与图像描述生成。中:文生图。右:方法示意。文本与视觉信号被映射到连续潜变量,并由共享块因果 MMDiT 建模联合生成分布。

整体架构如图 1 右侧所示,以文本和图像两种模态为例,包含以下组成部分:

单一模型在同一框架内支持三类任务:

序列排列

具体来说,我们将连续潜变量打包为序列,并为每个位置标注两个整数。设打包序列有 $N$ 个位置,位置 $i$ 携带:

文本潜变量按块大小 $B$ 切分;图像潜变量视为单个块。两种标注承载全部任务语义:

任务仅由 (i) 各段是否存在及顺序,(ii) 耦合它们的注意力规则定义,三种任务的布局如下:

任务 每样本段布局 扩散目标
文本 → 文本 (T2T) $[\,\textsf{C}\,]\,[\,\textsf{N}\,]$ 文本块
文本 → 图像 (T2I) $[\,\textsf{C}\,]\,[\,\textsf{I}\,]\,[\,\textsf{N}\,]$ 图像(主)+ 描述(辅)
图像 × 文本 → 文本 (IT2T) $[\,\textsf{P}\,]\,[\,\textsf{I}\,]\,[\,\textsf{C}\,]\,[\,\textsf{N}\,]$ 仅文本($\textsf{P},\textsf{I}$ 为固定上下文)

单次前向中,多个样本(梯度累积下可为不同任务)拼接为长序列;注意力额外约束在同一样本内部,即位置 $i$ 的 query 仅可 attend 到同一样本的位置 $j$。

注意力掩码作为任务语义的代理

共享块因果 MMDiT 的任务语义由注意力掩码 $M_{ij}\in{0,1}$ 控制,其决定 query $i$ 是否 attend 到 key $j$。掩码由以下段条件规则给出。图 2 为各任务小规模示例渲染得到的掩码(行为 query,列为被 attend 的 key)。

**图 2.** 共享块因果 MMDiT 在三项任务下的注意力掩码,由下列段条件规则渲染。行为 query,列为被 attend 的 key;红色为可 attend,灰色为屏蔽。顶边与左边的色条编码各位置的段类型(绿 = IT2T 指令段 $\textsf{P}$,蓝 = 无噪文本,橙 = 图像,紫 = 带噪文本)。

文本 → 图像。 图像生成以干净文本为条件。另外,额外拼接带噪文本做单一序列内部的多任务联训(T2I+T2T),注意力规则如下:

\[M_{ij}=1 \iff \begin{cases} s_j=\textsf{C}\ \wedge\ b_j\le b_i, & s_i=\textsf{C}\quad(\text{块因果描述}),\\[2pt] s_j\in\{\textsf{C},\textsf{I}\}, & s_i=\textsf{I}\quad(\text{完整描述条件 + 双向自注意力}),\\[2pt] (s_j=\textsf{C}\ \wedge\ b_j<b_i)\ \vee\ (s_j=\textsf{N}\ \wedge\ b_j=b_i), & s_i=\textsf{N}\quad(\text{块扩散文本}). \end{cases}\]

需要指出,图像段与带噪文本段互不 attend。因此,两项目标并非通过辅助文本损失直接耦合,而是经由 (i) 图像 attend 干净文本,使文本条件从图像损失获得梯度,以及 (ii) 共享块因果 MMDiT 参数。

图像 × 文本 → 文本指令 $\textsf{P}$ 与 图像 $\textsf{I}$ 均为干净条件,模型基于该条件生成文本答案。该任务的关键设计在于,IT2T 中的干净文本流同时包含任务提示与答案的 teacher-forcing 副本。若将二者合并为同一段,会导致答案泄漏到图像表示中并被带噪文本读取,从而短路扩散目标;若图像完全不可见提示,则视觉编码又无法感知任务指令。因此,我们将指令置于独立段 $\textsf{P}$,并与描述上下文 $\textsf{C}$ 分离,以解决该问题:

\[M_{ij}=1 \iff \begin{cases} s_j\in\{\textsf{P},\textsf{I}\}, & s_i=\textsf{P}\quad(\text{指令与图像构成双向条件}),\\[2pt] s_j\in\{\textsf{P},\textsf{I}\}, & s_i=\textsf{I}\quad(\text{图像见指令,不见答案}),\\[2pt] (s_j=\textsf{C}\ \wedge\ b_j\le b_i)\ \vee\ s_j\in\{\textsf{P},\textsf{I}\}, & s_i=\textsf{C}\quad(\text{答案上下文,以提示与图像为条件}),\\[2pt] (s_j=\textsf{C}\ \wedge\ b_j<b_i)\ \vee\ (s_j=\textsf{N}\ \wedge\ b_j=b_i)\ \vee\ s_j\in\{\textsf{P},\textsf{I}\}, & s_i=\textsf{N}\quad(\text{块扩散答案,以提示与图像为条件}). \end{cases}\]

由此,指令与图像形成单一、全双向的条件块,使视觉编码具备提示感知能力;同时二者均不 attend 答案($\textsf{C}$ 或 $\textsf{N}$),从而避免答案反向泄漏进条件。答案部分($\textsf{C}$ 上下文与 $\textsf{N}$ 目标)采用块因果结构,并以 ${\textsf{P},\textsf{I}}$ 为条件。由于图像从不作为答案 query 目标,在该任务中图像仅作为上下文,图像扩散损失被关闭。

文本 → 文本 可视为去除图像段后的 T2I 规则特例:无噪前缀通过块因果方式编码,其余文本块在先前无噪块条件下由块扩散生成。

目标函数

每步损失为各有效目标之和:

\[\mathcal{L} = \mathcal{L}_{\text{image}} \;+\; \mathcal{L}_{\text{text}} \;+\; \mathcal{L}_{\text{REPA}},\]

各项均为相应潜空间中的速度预测 MSE。$\mathcal{L}_{\text{REPA}}$ 为可选表示对齐项[20](仅在 T2I 中激活),用于将 DiT 中间层与视觉编码器特征对齐以加速生成收敛。训练时按可配置任务比例在每个训练步采样任务,并在所有 worker 上同步任务选择,以保证分布式 collective 调用一致。

训练设置

所有模块均从零预训练,在不同预训练阶段调整任务数据比例。本文报告的是当前 Proof of Concept 规模的预训练设置,未经过大规模指令微调或 RL 后训练的完整系统:

任务 设置
文本 → 图像 256 分辨率 80k 步(全局 batch ≈ 3k),再 640 分辨率 10k 步(全局 batch ≈ 1k
图像 × 文本 → 文本 相同 batch 配置,约 50k
文本(合计) 10 亿 文本 token
多模态监督 500 万 图文对

在上述有限数据与算力设置下,模型已能够生成连贯文本、结构合理的图像,并表现出初步图像描述能力。这一结果表明,先在潜变量层面学习联合分布,再交由各模态解码器生成最终输出,可能是以较高数据效率获得跨模态能力的一种有效途径。


4. 定性结果

本节报告我们的模型在三类任务上的定性结果。

4.1 文本 → 图像

下面展示若干单图样本,点击任意缩略图可查看黑底大图,并可继续逐张浏览。

4.2 图像 × 文本 → 文本

在训练约 500 万 图文对后,模型表现出初步的图像描述能力,能够根据图像内容生成相应文本。

关于图像说明。 图像×文本→文本示例中的图像由外部图像生成模型根据真值描述生成,以避免真实照片相关的版权问题。

4.3 文本 → 文本

尽管仅使用约 10 亿 文本 token 进行训练,统一模型在对话、叙事、说明、技术与文章式提示下仍能保持较为连贯的文本续写能力。


4.4. 后续实验:从可行性到定量对比

本文当前结果主要验证了该统一建模方案的可行性:单一模型可在同一预训练配方下同时获得文本生成、图像生成与初步图文理解能力。后续工作需要进一步回答该统一模型在放大预训练规模并引入必要的 SFT/RL 后训练后,是否优于标准替代方案。为此,后续我们将开展以下两类定量对照实验。

(Q1) 在受控设置下,统一多模态预训练是否改善生成(pixel output)? 首先,本文将与 标准 MMDiT 基线进行直接比较。该基线采用常规文本→图像设置,其中文本仅作为条件输入,而不参与联合潜变量建模。比较将在数据、参数量与训练样本数匹配的条件下进行,以隔离训练范式本身的影响,并检验共享 MMDiT 建模联合潜变量分布是否能带来可测的生成质量增益。

(Q2) 统一多模态预训练是否也改善理解(text output)? 其次,除生成质量外,后续还将评估共享 MMDiT 建模是否能改善多模态理解能力,并与其他统一建模范式进行系统比较。

此外,后续研究将报告 scaling 行为、受控匹配对照以及标准生成与理解基准结果。


6. 路线图:共享联合先验下的更多模态

本框架可以自然扩展至更多模态,并配以相应的块布局与注意力规则。可扩展的模态包括:


References

[1] H. Guo, Q. Zhao, Y. Zhao, S. Nie, R. Zhu, Q. Guo, F. Wang, T. Yang, H. Zhao, G. Wei, and Y. Zeng, “Continuous Latent Diffusion Language Model,” arXiv:2605.06548, 2026. https://arxiv.org/abs/2605.06548

[2] Chameleon Team, “Chameleon: Mixed-Modal Early-Fusion Foundation Models,” arXiv:2405.09818, 2024. https://arxiv.org/abs/2405.09818

[3] C. Wu et al., “Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation,” arXiv:2410.13848, 2024. https://arxiv.org/abs/2410.13848

[4] X. Chen, Z. Wu, X. Liu, Z. Pan, W. Liu, Z. Xie, X. Yu, and C. Ruan, “Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling,” arXiv:2501.17811, 2025. https://arxiv.org/abs/2501.17811

[5] X. Zhai, B. Mustafa, A. Kolesnikov, and L. Beyer, “Sigmoid Loss for Language Image Pre-Training,” ICCV, 2023. https://arxiv.org/abs/2303.15343

[6] A. van den Oord, O. Vinyals, and K. Kavukcuoglu, “Neural Discrete Representation Learning,” NeurIPS, 2017. https://arxiv.org/abs/1711.00937

[7] C. Zhou, L. Yu, A. Babu, K. Tirumala, M. Yasunaga, L. Shamis, J. Kahn, X. Ma, L. Zettlemoyer, and O. Levy, “Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,” arXiv:2408.11039, 2024. https://arxiv.org/abs/2408.11039

[8] C. Deng et al., “Emerging Properties in Unified Multimodal Pretraining,” arXiv:2505.14683, 2025. https://arxiv.org/abs/2505.14683

[9] J. Xie et al., “Show-o: One Single Transformer to Unify Multimodal Understanding and Generation,” arXiv:2408.12528, 2024. https://arxiv.org/abs/2408.12528

[10] J. Xie, Z. Yang, and M. Z. Shou, “Show-o2: Improved Native Unified Multimodal Models,” arXiv:2506.15564, 2025. https://arxiv.org/abs/2506.15564

[11] Z. Liu et al., “Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models,” arXiv:2512.02014, 2025. https://arxiv.org/abs/2512.02014

[12] Z. Liu et al., “Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation,” arXiv:2604.24763, 2026. https://arxiv.org/abs/2604.24763

[13] X. Pan et al., “Transfer between Modalities with MetaQueries,” arXiv:2504.06256, 2025. https://arxiv.org/abs/2504.06256

[14] C. Wu et al., “Qwen-Image Technical Report,” arXiv:2508.02324, 2025. https://arxiv.org/abs/2508.02324

[15] B. Lin et al., “UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation,” arXiv:2506.03147, 2025. https://arxiv.org/abs/2506.03147

[16] C. Wu et al., “OmniGen2: Towards Instruction-Aligned Multimodal Generation,” arXiv:2506.18871, 2025. https://arxiv.org/abs/2506.18871

[17] C. Wei et al., “UniVideo: Unified Understanding, Generation, and Editing for Videos,” arXiv:2510.08377, 2025. https://arxiv.org/abs/2510.08377

[18] W. Peebles and S. Xie, “Scalable Diffusion Models with Transformers,” arXiv:2212.09748, 2022. https://arxiv.org/abs/2212.09748

[19] P. Esser et al., “Scaling Rectified Flow Transformers for High-Resolution Image Synthesis,” ICML, 2024. https://arxiv.org/abs/2403.03206

[20] S. Yu, S. Kwak, H. Jang, J. Jeong, J. Huang, J. Shin, and S. Xie, “Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think,” ICLR, 2025. https://arxiv.org/abs/2410.06940

Cola DLM 项目页:https://hongcanguo.github.io/Cola-DLM/