Мультимодальность

AllTokens поддерживает не только текстовые запросы. Если выбранная модель умеет работать с другими типами входа, вы можете передавать изображения, PDF и аудио через тот же совместимый API.

Какие типы данных поддерживаются

Изображения

Изображения можно отправлять в модели с поддержкой зрения для разбора, описания, извлечения текста и других сценариев.

Подробнее о вводе изображений →

Генерация изображений

Если модель умеет возвращать изображения, через AllTokens можно не только анализировать картинки, но и создавать их по текстовому описанию.

Подробнее о генерации изображений →

PDF

PDF-документы можно передавать моделям, которые умеют работать с файловым вводом. Это удобно для разбора документов, инструкций, отчётов и договоров.

Подробнее о PDF →

Аудио

Аудио можно использовать там, где модель поддерживает звуковой ввод или звуковой результат. Такие сценарии подходят для расшифровки, разбора речи и голосовых интерфейсов.

Подробнее об аудио →

С чего начать

Большинство мультимодальных сценариев используют тот же POST /api/v1/chat/completions и параметр messages. Тип содержимого указывается внутри массива content.

изображения: image_url
PDF: file
аудио: input_audio

В одном запросе можно сочетать несколько типов данных, если это поддерживает выбранная модель.

Совместимость моделей

Не каждая модель поддерживает все типы ввода и вывода. Перед интеграцией проверьте:

architecture.input_modalities — какие типы данных модель принимает
architecture.output_modalities — что модель умеет возвращать
supported_parameters — какие параметры действительно работают с этой моделью

Для этого откройте Каталог моделей и подберите подходящий вариант под ваш сценарий.

Форматы передачи

Для мультимодального ввода обычно используются два подхода:

URL

Подходит для общедоступных файлов, когда модель или поставщик умеет забирать содержимое по ссылке.

изображения: https://example.com/image.jpg
PDF: https://example.com/document.pdf

Base64

Подходит для локальных файлов и закрытого содержимого, когда нужно передать данные прямо в запросе.

изображения: data:image/jpeg;base64,...
PDF: data:application/pdf;base64,...
аудио: base64-данные с указанием формата

URL обычно удобнее для крупных файлов, потому что не раздувает тело запроса. Base64 полезен для локальных файлов и закрытого содержимого, которое нельзя отдать по публичной ссылке.

Частые вопросы

Можно ли смешивать разные типы данных в одном запросе?

Да, если выбранная модель это поддерживает. В одном запросе можно сочетать текст, изображения, PDF, аудио и другие типы входа.

Как понять, поддерживает ли модель аудио?

Смотрите architecture.input_modalities и architecture.output_modalities в Каталоге моделей. Это главный ориентир при выборе модели под мультимодальный сценарий.

Как считается стоимость мультимодального запроса?

Это зависит от модели, поставщика и типа данных. Ориентируйтесь на pricing в каталоге моделей и на фактические поля usage в ответе конкретного запроса.