MmMultimodal2

Multimodal

Beyond text

modelsRow 2: Compositionsintermediate2 hoursRequires: Lg

Overview

Multimodal AI understands and generates across different types of data: text, images, audio, and video.

AI models that process multiple types of input/output (text, image, audio, video).

Real-world problems aren't text-only. Multimodal AI can analyze images, transcribe audio, and generate visual content.

Different encoders process each modality into a shared representation space. The model learns relationships between modalities during training.

Text + image understanding

Text-to-image generation

Speech-to-text

Image understanding API

Native multimodal model

Open-source vision-language model

The reasoning engine

Big capability, small package