Как сделать OpenClaw в 5–10 раз дешевле: грамотный выбор моделей и маршрутизация токенов

Почему счёт за OpenClaw растёт так быстро

Под капотом OpenClaw почти всегда общается с одним выбранным LLM-провайдером — и по умолчанию гонит всё в одну модель. Это означает, что:

  • Heartbeat-пинги, простые проверки статуса и фоновые cron-задачи идут в ту же дорогую модель, что и сложный ресёрч.
  • Вы платите ставку Sonnet/Opus за задачи, которые спокойно решил бы дешёвый или локальный LLM.

Инженеры, которые разобрались с маршрутизацией моделей, снижают стоимость OpenClaw на 50–90% — без заметной потери качества для реальных задач. Ниже — конкретная схема, как это повторить.​

Какие модели вообще использовать (и за что платить)

Большинство гайдов рекомендуют трёхуровневую модельную пирамиду:

УровеньТип задачПримеры моделейПримерная цена за 1M токенов (февраль 2026)
Level 1: дёшевоHeartbeat, простые cron, релей-перенаправлениеGemini 2.5 Flash-Lite, MiniMax M2.1, GPT-OSS-120b, локальные модели через Ollamaот 0–0.5$ 
Level 2: серединаПочта, таски, GitHub, рутинные воркфлоуClaude Sonnet, DeepSeek V3.2, GPT-4o, Kimi K2.x0.5–15$ 
Level 3: премиумСложный ресёрч, архитектурные решения, спорные кейсыClaude Opus, GPT‑515–30$ 

Примеры конкретных цен (per 1M токенов) из публичных гайдов и видео:

  • Gemini 2.5 Flash-Lite — около 0.5$
  • DeepSeek V3.2 — ~0.53$
  • MiniMax M2.1 — ~0.10$
  • GPT-OSS-120b — ~0.50$
  • GPT‑5 — ~11.25$
  • GPT‑4.5 / GPT‑4o — ~10–75$ в зависимости от варианта
  • Claude Opus 4.5 — ~30$

Разница между самым дешёвым и самым дорогим вариантом — до 60 раз. Если всё гонится в Opus — счёт растёт абсолютно предсказуемо.

Шаг 1. Разделите задачи по «уровням боли»

Первый практический шаг — перестать мыслить «моделью по умолчанию» и начать мыслить сценариями.

Level 1 (дешёвые и локальные LLM)

Используем для:

  • Heartbeat-проверок (по умолчанию они очень простые)
  • Простых cron-задач: «проверить, есть ли новые письма», «есть ли новые задачи в очереди»
  • Релей-агента: принять сообщение из Telegram, оформить и переслать в другую систему
  • Вспомогательные субагенты, которые готовят данные, но не принимают критических решений

Идеальные кандидаты: Gemini Flash, MiniMax M2.1, GPT-OSS-120b или вообще локальная модель в Ollama.​

Level 2 (рабочие лошади)

Используем для:

  • Обработки почты (классификация, саммари, черновики)
  • Управления тасками (создание, обновление, приоритизация)
  • GitHub-автоматизаций: описание PR, создание issue, базовый трияж
  • Утренних брифингов, недельных отчётов, лёгкого ресёрча

Здесь важны структурированность, стабильные tool calls и адекватное поведение, но не «магия». Сюда отлично ложатся Claude Sonnet, DeepSeek, Kimi K2.x, GPT‑4o.

🦀
🤖 Заберите бесплатный гайд
OpenClaw: настройка, оптимизация и бесплатное использование — всё собрано в одном месте.
✅ Пошаговая настройка ✅ Бесплатные промты
👉  Забрать гайд в боте

Level 3 (редко, но метко)

Используем для:

  • Сложных архитектурных решений
  • Длинных (10k+ токенов) аналитических отчётов
  • Запутанных случаев с несколькими источниками, конфликтующими данными и высоким риском ошибки

Типичный паттерн: 80–90% задач закрываются Level 1–2, и только явно помеченные как «сложные» идут в Opus / GPT‑5.​

Шаг 2. Настраиваем дешёвую модель для heartbeat

Большинство гайдлайнов сходятся: heartbeat — главное скрытое место утечки токенов. Он работает в фоне, часто, и кажется «бесплатным», пока вы не увидите счёт.​

2.1. Отдельная модель для heartbeat

Пример из практического гида по конфигу:

json{
  "agents": {
    "defaults": {
      "heartbeat": {
        "model": "google/gemini-3-flash",
        "every": "30m"
      }
    }
  }
}

Суть:

  • В openclaw.json явно прописываем дешёвую модель только для heartbeat.
  • Интервал (every) ставим от 30 минут до 2 часов — в зависимости от потребностей.
  • Основной model при этом остаётся Sonnet/Opus/GPT‑5 — для «осмысленной» работы.

Гайды приводят кейсы, когда один этот шаг снижал общие расходы на 20–40%.​

2.2. Делаем heartbeat почти бесплатным

Хороший паттерн, который рекомендуют инженеры: «cheap mode first».

  • Сначала запускается лёгкий скрипт (bash/python), который сам проверяет необходимые состояния (файлы, очереди, простые API) без LLM.
  • Скрипт возвращает либо HEARTBEAT_OK, либо HEARTBEAT_ALERT + краткий список изменений.
  • Только если статус ALERT, OpenClaw зовёт LLM, чтобы красиво отформатировать и объяснить это человеку.

Такой паттерн даёт:

  • Нулевую стоимость heartbeat в большинстве случаев (когда «ничего нового»).
  • Аккуратные человеческие саммари, когда что-то реально изменилось.

По умолчанию cron-задачи в OpenClaw запускаются через тот же агент и модель, что и основная сессия, если не указано иное. Это удобно, но дорого.

3.1. Базовый пример

Документация показывает простой вариант cron-задачи:

bashopenclaw cron add \
  --name "Morning briefing" \
  --cron "0 8 * * *" \
  --session main \
  --message "Prepare a morning briefing for the next 24h." \
  --model "haiku"

Ключевой момент — --model "haiku": этот брифинг всегда будет генерироваться дешёвой моделью, независимо от того, какой LLM выбран как основной.

3.2. Выделенные агенты под cron

Более продвинутая конфигурация: под разные типы cron-нагрузки заводим отдельных агентов:

bash# Агент ops для операционных sweep'ов
openclaw cron add \
  --name "Ops sweep" \
  --cron "0 6 * * *" \
  --session isolated \
  --message "Check ops queue" \
  --agent ops \
  --model "gemini-3-flash"
  • Агент ops в AGENTS.md может быть кратко описан как «немногословный, сугубо утилитарный».
  • Модель — максимально дешёвая, но надёжная для структурной работы.

Самый радикальный способ сократить расходы — вынести часть задач на локальные LLM.​

4.1. Паттерн «локальный heartbeat + облачный основной»

Видео и статьи показывают типичный сетап:​

  1. Ставим Ollama и поднимаем локальную модель (LLaMA, Qwen, Mistral — любые разумные варианты).
  2. В openclaw.json прописываем:
json{
  "providers": {
    "ollama": {
      "endpoint": "http://localhost:11434"
    }
  },
  "agents": {
    "defaults": {
      "heartbeat": {
        "model": "ollama/my-local-model",
        "every": "2h"
      }
    }
  }
}
  1. Для cron и рутинных задач — указываем ту же локальную модель в --model.
  2. Основная модель (Sonnet/Kimi/GPT‑5) остаётся для интерактивных задач и сложных сценариев.

Авторы таких гайдов честно пишут: 80–90% снижения расходов достигается именно за счёт выноса фона на локальные модели.​

4.2. Что безопасно отдавать локалкам

Под локальные модели хорошо уходят:

  • Heartbeats, если логика сверяется через скрипты.
  • Простые cron-саммари, когда не нужно супер-качества формулировок.
  • Внутренние черновики (например, «черновая сводка» перед тем, как премиум-модель её отшлифует).

Не стоит отдавать локалкам:

  • Сложные многошаговые решения с дорогими последствиями.
  • Тонкие, нюансные письма/коммуникации для клиентов.

Шаг 5. Управляем моделью прямо из чата

Даже при хорошо настроенной маршрутизации случаются задачи, где внезапно нужна модель «повыше». Для этого есть быстрый инструмент — команда /model.

🦀
🤖 Заберите бесплатный гайд
OpenClaw: настройка, оптимизация и бесплатное использование — всё собрано в одном месте.
✅ Пошаговая настройка ✅ Бесплатные промты
👉  Забрать гайд в боте

Типичный паттерн работы

  • По умолчанию сессия запущена на Sonnet/Gemini Flash.
  • В какой-то момент вы понимаете: «Ок, вот этот кусок — сложный, нужен Opus/GPT‑5».
  • Пишете в чат: /model opus или /model gpt-5.
  • Агента переводит на другую модель в рамках текущей сессии.

Гайды по оптимизации советуют:

  • Не держать сессию вечно на премиум-модели.
  • После завершения тяжёлой задачи вернуть модель обратно: /model sonnet или /model haiku.

Это дисциплина, но именно она отличает людей с нормальными счетами от тех, у кого OpenClaw становится «второй ипотекой».

У OpenClaw есть функции поиска по памяти и workspace (memory_search и т.п.), которые опираются на embedding-модели. Если их не настроить, система может:

  • Либо слать в основной LLM избыточный контекст (дорого).
  • Либо плохо подбирать релевантные куски (снижение качества).

Практический пример: Amazon Nova Multimodal Embeddings стоит около 0.00014$ за 1K токенов — это крошечная доля стоимости по сравнению с основными моделями. В гайдах по снижению расходов прямо говорится:

«Если вы используете OpenClaw с серьёзной историей и памятью, не экономьте на embedding-модели — это самая дешёвая часть пайплайна».

В кейсах инженеров, которые делятся конкретными цифрами, картинки примерно такие:

  • Инженер SaaS-проекта: с ~1000$/мес до ~200$/мес после:
    • выноса heartbeat на локальную модель,
    • переноса cron-задач на Haiku/Gemini Flash,
    • использования Opus только по /model для сложных задач.
  • Один из авторов гайда: «Просто поменяв конфиг моделей и heartbeat, я срезал счёт на 80%».
  • Блогеры по OpenClaw показывают, как правильный тюнинг частоты heartbeat + выбор моделей даёт 60–90% экономии без заметной потери качества.

Общая мысль: качество в чате и качество в агентном режиме — разные вещи. Модели, которые слегка хуже формулируют, могут быть абсолютно достаточны для внутренних задач и стоят в десятки раз дешевле.

🇷🇺
☁️ Где развернуть OpenClaw в России?
Лучший вариант по соотношению цена / качество / доступность / скорость — Timeweb Cloud. Оплата российскими картами без VPN и танцев с бубном. OpenClaw разворачивается в один клик через маркетплейс. Минимальная конфигурация — от 4 vCPU / 8 ГБ RAM / NVMe — от 1 650 ₽/мес.
✅ Оплата из РФ ✅ Установка в 1 клик ✅ NVMe SSD ✅ Поддержка 24/7
🚀  Попробовать Timeweb Cloud

На основе статей, доков и практических гайдов можно собрать короткий чеклист:​

  • Настроить отдельную дешёвую модель для heartbeat в openclaw.json.
  • Уменьшить частоту heartbeat до разумной (30–120 минут).
  • Использовать паттерн «cheap script first, model только при ALERT» для heartbeats.
  • Для каждой cron-задачи явно указать модель (--model), в идеале дешёвую.
  • По возможности вынести фон (heartbeats, простые cron) на локальные модели через Ollama.
  • Использовать /model только тогда, когда действительно нужна премиум-модель — и возвращаться обратно после задачи.
  • Настроить embedding-модель, чтобы не гонять лишний контекст за счёт основного LLM.

С этими шагами OpenClaw перестаёт быть «дорогой игрушкой» и становится устойчивым инструментом, который можно использовать каждый день

Похожие записи