Как сделать OpenClaw в 5–10 раз дешевле: грамотный выбор моделей и маршрутизация токенов
Почему счёт за OpenClaw растёт так быстро
Под капотом OpenClaw почти всегда общается с одним выбранным LLM-провайдером — и по умолчанию гонит всё в одну модель. Это означает, что:
- Heartbeat-пинги, простые проверки статуса и фоновые cron-задачи идут в ту же дорогую модель, что и сложный ресёрч.
- Вы платите ставку Sonnet/Opus за задачи, которые спокойно решил бы дешёвый или локальный LLM.
Инженеры, которые разобрались с маршрутизацией моделей, снижают стоимость OpenClaw на 50–90% — без заметной потери качества для реальных задач. Ниже — конкретная схема, как это повторить.
Какие модели вообще использовать (и за что платить)
Большинство гайдов рекомендуют трёхуровневую модельную пирамиду:
Примеры конкретных цен (per 1M токенов) из публичных гайдов и видео:
- Gemini 2.5 Flash-Lite — около 0.5$
- DeepSeek V3.2 — ~0.53$
- MiniMax M2.1 — ~0.10$
- GPT-OSS-120b — ~0.50$
- GPT‑5 — ~11.25$
- GPT‑4.5 / GPT‑4o — ~10–75$ в зависимости от варианта
- Claude Opus 4.5 — ~30$
Разница между самым дешёвым и самым дорогим вариантом — до 60 раз. Если всё гонится в Opus — счёт растёт абсолютно предсказуемо.
Шаг 1. Разделите задачи по «уровням боли»
Первый практический шаг — перестать мыслить «моделью по умолчанию» и начать мыслить сценариями.
Level 1 (дешёвые и локальные LLM)
Используем для:
- Heartbeat-проверок (по умолчанию они очень простые)
- Простых cron-задач: «проверить, есть ли новые письма», «есть ли новые задачи в очереди»
- Релей-агента: принять сообщение из Telegram, оформить и переслать в другую систему
- Вспомогательные субагенты, которые готовят данные, но не принимают критических решений
Идеальные кандидаты: Gemini Flash, MiniMax M2.1, GPT-OSS-120b или вообще локальная модель в Ollama.
Level 2 (рабочие лошади)
Используем для:
- Обработки почты (классификация, саммари, черновики)
- Управления тасками (создание, обновление, приоритизация)
- GitHub-автоматизаций: описание PR, создание issue, базовый трияж
- Утренних брифингов, недельных отчётов, лёгкого ресёрча
Здесь важны структурированность, стабильные tool calls и адекватное поведение, но не «магия». Сюда отлично ложатся Claude Sonnet, DeepSeek, Kimi K2.x, GPT‑4o.
Level 3 (редко, но метко)
Используем для:
- Сложных архитектурных решений
- Длинных (10k+ токенов) аналитических отчётов
- Запутанных случаев с несколькими источниками, конфликтующими данными и высоким риском ошибки
Типичный паттерн: 80–90% задач закрываются Level 1–2, и только явно помеченные как «сложные» идут в Opus / GPT‑5.
Шаг 2. Настраиваем дешёвую модель для heartbeat
Большинство гайдлайнов сходятся: heartbeat — главное скрытое место утечки токенов. Он работает в фоне, часто, и кажется «бесплатным», пока вы не увидите счёт.
2.1. Отдельная модель для heartbeat
Пример из практического гида по конфигу:
json{
"agents": {
"defaults": {
"heartbeat": {
"model": "google/gemini-3-flash",
"every": "30m"
}
}
}
}
Суть:
- В
openclaw.jsonявно прописываем дешёвую модель только для heartbeat. - Интервал (
every) ставим от 30 минут до 2 часов — в зависимости от потребностей. - Основной
modelпри этом остаётся Sonnet/Opus/GPT‑5 — для «осмысленной» работы.
Гайды приводят кейсы, когда один этот шаг снижал общие расходы на 20–40%.
2.2. Делаем heartbeat почти бесплатным
Хороший паттерн, который рекомендуют инженеры: «cheap mode first».
- Сначала запускается лёгкий скрипт (bash/python), который сам проверяет необходимые состояния (файлы, очереди, простые API) без LLM.
- Скрипт возвращает либо
HEARTBEAT_OK, либоHEARTBEAT_ALERT+ краткий список изменений. - Только если статус
ALERT, OpenClaw зовёт LLM, чтобы красиво отформатировать и объяснить это человеку.
Такой паттерн даёт:
- Нулевую стоимость heartbeat в большинстве случаев (когда «ничего нового»).
- Аккуратные человеческие саммари, когда что-то реально изменилось.
Шаг 3. Переводим cron-задачи на дешёвые модели
По умолчанию cron-задачи в OpenClaw запускаются через тот же агент и модель, что и основная сессия, если не указано иное. Это удобно, но дорого.
3.1. Базовый пример
Документация показывает простой вариант cron-задачи:
bashopenclaw cron add \
--name "Morning briefing" \
--cron "0 8 * * *" \
--session main \
--message "Prepare a morning briefing for the next 24h." \
--model "haiku"
Ключевой момент — --model "haiku": этот брифинг всегда будет генерироваться дешёвой моделью, независимо от того, какой LLM выбран как основной.
3.2. Выделенные агенты под cron
Более продвинутая конфигурация: под разные типы cron-нагрузки заводим отдельных агентов:
bash# Агент ops для операционных sweep'ов
openclaw cron add \
--name "Ops sweep" \
--cron "0 6 * * *" \
--session isolated \
--message "Check ops queue" \
--agent ops \
--model "gemini-3-flash"
- Агент
opsв AGENTS.md может быть кратко описан как «немногословный, сугубо утилитарный». - Модель — максимально дешёвая, но надёжная для структурной работы.
Шаг 4. Используем локальные модели там, где это безопасно
Самый радикальный способ сократить расходы — вынести часть задач на локальные LLM.
4.1. Паттерн «локальный heartbeat + облачный основной»
Видео и статьи показывают типичный сетап:
- Ставим Ollama и поднимаем локальную модель (LLaMA, Qwen, Mistral — любые разумные варианты).
- В
openclaw.jsonпрописываем:
json{
"providers": {
"ollama": {
"endpoint": "http://localhost:11434"
}
},
"agents": {
"defaults": {
"heartbeat": {
"model": "ollama/my-local-model",
"every": "2h"
}
}
}
}
- Для cron и рутинных задач — указываем ту же локальную модель в
--model. - Основная модель (Sonnet/Kimi/GPT‑5) остаётся для интерактивных задач и сложных сценариев.
Авторы таких гайдов честно пишут: 80–90% снижения расходов достигается именно за счёт выноса фона на локальные модели.
4.2. Что безопасно отдавать локалкам
Под локальные модели хорошо уходят:
- Heartbeats, если логика сверяется через скрипты.
- Простые cron-саммари, когда не нужно супер-качества формулировок.
- Внутренние черновики (например, «черновая сводка» перед тем, как премиум-модель её отшлифует).
Не стоит отдавать локалкам:
- Сложные многошаговые решения с дорогими последствиями.
- Тонкие, нюансные письма/коммуникации для клиентов.
Шаг 5. Управляем моделью прямо из чата
Даже при хорошо настроенной маршрутизации случаются задачи, где внезапно нужна модель «повыше». Для этого есть быстрый инструмент — команда /model.
Типичный паттерн работы
- По умолчанию сессия запущена на Sonnet/Gemini Flash.
- В какой-то момент вы понимаете: «Ок, вот этот кусок — сложный, нужен Opus/GPT‑5».
- Пишете в чат:
/model opusили/model gpt-5. - Агента переводит на другую модель в рамках текущей сессии.
Гайды по оптимизации советуют:
- Не держать сессию вечно на премиум-модели.
- После завершения тяжёлой задачи вернуть модель обратно:
/model sonnetили/model haiku.
Это дисциплина, но именно она отличает людей с нормальными счетами от тех, у кого OpenClaw становится «второй ипотекой».
Шаг 6. Не забываем про embedding-модели
У OpenClaw есть функции поиска по памяти и workspace (memory_search и т.п.), которые опираются на embedding-модели. Если их не настроить, система может:
- Либо слать в основной LLM избыточный контекст (дорого).
- Либо плохо подбирать релевантные куски (снижение качества).
Практический пример: Amazon Nova Multimodal Embeddings стоит около 0.00014$ за 1K токенов — это крошечная доля стоимости по сравнению с основными моделями. В гайдах по снижению расходов прямо говорится:
«Если вы используете OpenClaw с серьёзной историей и памятью, не экономьте на embedding-модели — это самая дешёвая часть пайплайна».
Как выглядят реальные кейсы экономии
В кейсах инженеров, которые делятся конкретными цифрами, картинки примерно такие:
- Инженер SaaS-проекта: с ~1000$/мес до ~200$/мес после:
- выноса heartbeat на локальную модель,
- переноса cron-задач на Haiku/Gemini Flash,
- использования Opus только по
/modelдля сложных задач.
- Один из авторов гайда: «Просто поменяв конфиг моделей и heartbeat, я срезал счёт на 80%».
- Блогеры по OpenClaw показывают, как правильный тюнинг частоты heartbeat + выбор моделей даёт 60–90% экономии без заметной потери качества.
Общая мысль: качество в чате и качество в агентном режиме — разные вещи. Модели, которые слегка хуже формулируют, могут быть абсолютно достаточны для внутренних задач и стоят в десятки раз дешевле.
Мини-чеклист по экономии в OpenClaw
На основе статей, доков и практических гайдов можно собрать короткий чеклист:
- Настроить отдельную дешёвую модель для heartbeat в
openclaw.json. - Уменьшить частоту heartbeat до разумной (30–120 минут).
- Использовать паттерн «cheap script first, model только при ALERT» для heartbeats.
- Для каждой cron-задачи явно указать модель (
--model), в идеале дешёвую. - По возможности вынести фон (heartbeats, простые cron) на локальные модели через Ollama.
- Использовать
/modelтолько тогда, когда действительно нужна премиум-модель — и возвращаться обратно после задачи. - Настроить embedding-модель, чтобы не гонять лишний контекст за счёт основного LLM.
С этими шагами OpenClaw перестаёт быть «дорогой игрушкой» и становится устойчивым инструментом, который можно использовать каждый день