X-VILA: Cross-Modality Alignment for Large Language Model

我们来看一下NVIDIA出品的多模态大模型X-VILA。

X-VILA可以实现Text, Image, Vedio, Audio任意模态的输入和输出。

我们可以关注X-VILA的模型架构、训练策略和训练数据集。

1 Model

1.1 Modality-specific encoders

Text: Embedding

Image, Video, Audio : ImageBind transformers

Align Module: Proj

Input : [Text, Image, Video, Audio] -> LLM

1.2 Large language model

Vicuna-7B-1.5

1.3 Modality-specific decoders

Text Generation: Vicuna-7B-1.5

Image Generation: Stable Diffusion

Video Generation: VideoCrafter2

Audio Generation: AudioLDM

Align Module: Proj

Input : [Text, Image, Video, Audio] -> LLM -> [Text, Image, Video, Audio] -> [Text]

1.4 Visual embedding highway

enhance alignment between with text features and visual freatures.

2 Training Strategy

X-VILA的训练步骤分为3部分:

  • 1 对齐模块:冻结Encoder、LLM和Decoder,只训练Proj模块。
  • 2 特定模态预训练:冻结Encoder,开放Proj、LLM、Decoder的训练。
  • 3 多模态微调:冻结Encoder,开放Proj、LLM、Decoder的训练。

特定模态预训练和多模态微调的最主要区别在于训练集的模态。

3 Training Dataset

对齐模块:LLaVA pretrained, cc3m, WebVid, AudioCaps, WavCaps 的X-Text配对数据。

特定模态预训练:MMC4,, ActivityNet Captions构建多模态数据。