A Look at Upcoming Innovations in Electric and Autonomous Vehicles KodaCode бросил серверы. Инфраструктура больше не тормозит

KodaCode бросил серверы. Инфраструктура больше не тормозит

KodaCode бросил серверы. Инфраструктура больше не тормозит

Российский ИИ-стартап для разработчиков перевёл ключевые модели на облачную платформу и избавился от головной боли с железом

KodaCode, один из немногих отечественных стартапов в нише AI-инструментов для программистов, перевёл свои основные языковые модели на Inference Platform от «Турбо Облака». Ежедневно через платформу проходит более 7 миллиардов токенов и около 95 тысяч пользовательских запросов - и всё это без постоянной аренды физических мощностей, которые съедали бюджет даже в мёртвые ночные часы.

Что не так было со старой схемой

До перехода KodaCode держал собственные GPU-серверы в аренде. Классическая ловушка для молодых AI-компаний: платишь за всё железо круглосуточно, а реально нагрузка скачет в разы в зависимости от времени суток. Хуже того - выход из строя одной видеокарты означал больше суток простоя. Для сервиса, который обязан работать 24/7 и за последний год подтянул к себе крупных корпоративных клиентов, это уже не просто неудобство, а прямой удар по репутации. букмекера

Отдельный вопрос - локализация данных. B2B-сегмент в России жёстко требует, чтобы весь код и пользовательская информация оставались внутри российского контура. Соответствовать этому требованию на арендованном железе с непрозрачной инфраструктурой - задача нетривиальная.

Как устроено новое решение

Inference Platform разворачивает модели как готовый управляемый сервис. KodaCode разместил здесь обе ключевые модели, причём самая тяжёлая запущена в мультинодовом режиме - то есть распределена между несколькими серверами одновременно. Это сохраняет скорость ответа даже при сложных, ресурсоёмких запросах. Система сама отслеживает нагрузку: в пиковые часы автоматически подключаются дополнительные GPU, при спаде - отключаются. Плата идёт только за фактически использованные мощности. Никакого резерва «на всякий случай».

Платформа работает на базе дата-центров РТК-ЦОД уровня Tier III с высоким SLA и располагает всеми необходимыми российскими сертификациями. Для корпоративных клиентов KodaCode это означает стопроцентную локализацию - то, что раньше было камнем преткновения в переговорах с крупным бизнесом.

«Для нас переход на Inference Platform - это смена философии. Раньше мы постоянно балансировали между рисками отказов и необходимостью экономить бюджет. Теперь инфраструктура перестала быть нашей головной болью», - говорит Дмитрий Змитрович, основатель KodaCode.

Цифры и планы роста

Сейчас активная аудитория сервиса - 10 тысяч разработчиков. До конца года KodaCode намерен вырасти до 120 тысяч пользователей. Двенадцатикратный рост за несколько месяцев - амбициозно даже по меркам рынка, где темп набирают быстро. Но именно под такой сценарий и строилась новая инфраструктура: она масштабируется автоматически, не требуя от команды ручного вмешательства в кластер.

  • 7 млрд токенов обрабатывается ежедневно
  • 95 тысяч пользовательских запросов в сутки
  • 10 тысяч активных разработчиков сейчас
  • цель - 120 тысяч пользователей к концу года
  • данные хранятся исключительно в российском контуре

Генеральный директор «Турбо Облака» Александр Обухов формулирует задачу платформы прямо: убрать барьеры, которые заставляют стартапы тратить инженерное время на настройку кластеров вместо работы над продуктом. По его словам, цель - чтобы модели уходили в продакшн за часы, а не недели. Кейс KodaCode, судя по всему, подтверждает: на российском рынке спрос на такой подход есть, и он экономически оправдан даже на ранних стадиях, когда каждый рубль на счету.