Модели

Выбор модели

Как выбирать модели в AllTokens: когда использовать alltokens/auto, а когда фиксировать конкретную модель.

В AllTokens выбор модели обычно начинается не с каталога, а с ответа на простой вопрос: вам нужен быстрый старт или предсказуемое рабочее поведение.

Самое короткое правило

Начните с model: "alltokens/auto". Это самый быстрый способ проверить, что ключ, сеть и формат запросов уже работают.

Какие варианты есть

alltokens/auto

Routing-модель для автоматического выбора. Удобно для старта, рабочих сервисов и быстрых экспериментов.

Конкретная модель

Прямой вызов вроде anthropic/claude-sonnet-4 или openai/gpt-4.1-mini. Подходит для стабильной рабочей схемы.

alltokens/free

Бесплатная routing-модель для тестов и недорогих сценариев.

На что смотреть в каталоге

Когда вы открываете GET /api/models, в первую очередь смотрите на:

  • context_length — сколько контекста реально помещается
  • supported_parameters — какие параметры и функции модель понимает
  • architecture.input_modalities и output_modalities — умеет ли модель работать с изображениями, аудио и так далее

Практический выбор

1

Начните с задачи

Для поддержки чатов чаще всего достаточно текстовой модели с хорошим качеством и умеренной ценой. Для поиска по смыслу понадобятся эмбеддинги.

2

Проверьте поддерживаемые параметры

Если вам нужны инструменты, потоковый режим или большой контекст, убедитесь, что модель это поддерживает.

3

Зафиксируйте модель в коде

После успешного теста замените alltokens/auto на конкретный model, если важна предсказуемость.

Частые вопросы

alltokens/auto лучше на старте, для быстрых экспериментов и для сценариев, где вы хотите делегировать платформе выбор подходящей модели без ручного подбора.

Когда вам нужны повторяемое поведение, конкретные возможности модели, согласованный quality bar или жёсткий контроль над тем, какая модель используется в продакшене.

Возьмите рабочий пользовательский сценарий, проверьте 2-3 кандидата на реальных запросах, сравните качество, скорость и совместимость с нужными параметрами, затем зафиксируйте лучший вариант в коде.

Это зависит от продукта. Для первого выбора полезно определить один главный приоритет, а не пытаться оптимизировать всё сразу: UX чаще чувствителен к скорости, production-контент к качеству, массовые фоны и батчи к стоимости.

Полезные страницы