X-VILA: Cross-Modality Alignment for Large Language Model
我们来看一下NVIDIA出品的多模态大模型X-VILA。
X-VILA可以实现Text, Image, Vedio, Audio任意模态的输入和输出。
我们可以关注X-VILA的模型架构、训练策略和训练数据集。
1 Model
1.1 Modality-specific encoders
Text: Embedding
Image, Video, Audio : ImageBind transformers
Align Module: Proj
Input : [Text, Image, Video, Audio] -> LLM
1.2 Large language model
Vicuna-7B-1.5
1.3 Modality-specific decoders
Text Generation: Vicuna-7B-1.5
Image Generation: Stable Diffusion
Video Generation: VideoCrafter2
Audio Generation: AudioLDM
Align Module: Proj
Input : [Text, Image, Video, Audio] -> LLM -> [Text, Image, Video, Audio] -> [Text]
1.4 Visual embedding highway
enhance alignment between with text features and visual freatures.
2 Training Strategy
X-VILA的训练步骤分为3部分:
- 1 对齐模块:冻结Encoder、LLM和Decoder,只训练Proj模块。
- 2 特定模态预训练:冻结Encoder,开放Proj、LLM、Decoder的训练。
- 3 多模态微调:冻结Encoder,开放Proj、LLM、Decoder的训练。
特定模态预训练和多模态微调的最主要区别在于训练集的模态。
3 Training Dataset
对齐模块:LLaVA pretrained, cc3m, WebVid, AudioCaps, WavCaps 的X-Text配对数据。
特定模态预训练:MMC4,, ActivityNet Captions构建多模态数据。