Мультимодальность
Мультимодальность
Как работать с изображениями, PDF и аудио в AllTokens через совместимый API.
AllTokens поддерживает не только текстовые запросы. Если выбранная модель умеет работать с другими типами входа, вы можете передавать изображения, PDF и аудио через тот же совместимый API.
Какие типы данных поддерживаются
Изображения
Изображения можно отправлять в модели с поддержкой зрения для разбора, описания, извлечения текста и других сценариев.
Подробнее о вводе изображений →
Генерация изображений
Если модель умеет возвращать изображения, через AllTokens можно не только анализировать картинки, но и создавать их по текстовому описанию.
Подробнее о генерации изображений →
PDF-документы можно передавать моделям, которые умеют работать с файловым вводом. Это удобно для разбора документов, инструкций, отчётов и договоров.
Аудио
Аудио можно использовать там, где модель поддерживает звуковой ввод или звуковой результат. Такие сценарии подходят для расшифровки, разбора речи и голосовых интерфейсов.
С чего начать
Большинство мультимодальных сценариев используют тот же POST /api/v1/chat/completions и параметр messages. Тип содержимого указывается внутри массива content.
- изображения:
image_url - PDF:
file - аудио:
input_audio
В одном запросе можно сочетать несколько типов данных, если это поддерживает выбранная модель.
Совместимость моделей
Не каждая модель поддерживает все типы ввода и вывода. Перед интеграцией проверьте:
architecture.input_modalities— какие типы данных модель принимаетarchitecture.output_modalities— что модель умеет возвращатьsupported_parameters— какие параметры действительно работают с этой моделью
Для этого откройте Каталог моделей и подберите подходящий вариант под ваш сценарий.
Форматы передачи
Для мультимодального ввода обычно используются два подхода:
URL
Подходит для общедоступных файлов, когда модель или поставщик умеет забирать содержимое по ссылке.
- изображения:
https://example.com/image.jpg - PDF:
https://example.com/document.pdf
Base64
Подходит для локальных файлов и закрытого содержимого, когда нужно передать данные прямо в запросе.
- изображения:
data:image/jpeg;base64,... - PDF:
data:application/pdf;base64,... - аудио: base64-данные с указанием формата
URL обычно удобнее для крупных файлов, потому что не раздувает тело запроса. Base64 полезен для локальных файлов и закрытого содержимого, которое нельзя отдать по публичной ссылке.
Частые вопросы
Можно ли смешивать разные типы данных в одном запросе?
Можно ли смешивать разные типы данных в одном запросе?
Да, если выбранная модель это поддерживает. В одном запросе можно сочетать текст, изображения, PDF, аудио и другие типы входа.
Как понять, поддерживает ли модель аудио?
Как понять, поддерживает ли модель аудио?
Смотрите architecture.input_modalities и architecture.output_modalities в Каталоге моделей. Это главный ориентир при выборе модели под мультимодальный сценарий.
Как считается стоимость мультимодального запроса?
Как считается стоимость мультимодального запроса?
Это зависит от модели, поставщика и типа данных. Ориентируйтесь на pricing в каталоге моделей и на фактические поля usage в ответе конкретного запроса.