Российский ИИ-стартап для разработчиков перевёл ключевые модели на облачную платформу и избавился от головной боли с железом
KodaCode, один из немногих отечественных стартапов в нише AI-инструментов для программистов, перевёл свои основные языковые модели на Inference Platform от «Турбо Облака». Ежедневно через платформу проходит более 7 миллиардов токенов и около 95 тысяч пользовательских запросов - и всё это без постоянной аренды физических мощностей, которые съедали бюджет даже в мёртвые ночные часы.
Что не так было со старой схемой
До перехода KodaCode держал собственные GPU-серверы в аренде. Классическая ловушка для молодых AI-компаний: платишь за всё железо круглосуточно, а реально нагрузка скачет в разы в зависимости от времени суток. Хуже того - выход из строя одной видеокарты означал больше суток простоя. Для сервиса, который обязан работать 24/7 и за последний год подтянул к себе крупных корпоративных клиентов, это уже не просто неудобство, а прямой удар по репутации. букмекера
Отдельный вопрос - локализация данных. B2B-сегмент в России жёстко требует, чтобы весь код и пользовательская информация оставались внутри российского контура. Соответствовать этому требованию на арендованном железе с непрозрачной инфраструктурой - задача нетривиальная.
Как устроено новое решение
Inference Platform разворачивает модели как готовый управляемый сервис. KodaCode разместил здесь обе ключевые модели, причём самая тяжёлая запущена в мультинодовом режиме - то есть распределена между несколькими серверами одновременно. Это сохраняет скорость ответа даже при сложных, ресурсоёмких запросах. Система сама отслеживает нагрузку: в пиковые часы автоматически подключаются дополнительные GPU, при спаде - отключаются. Плата идёт только за фактически использованные мощности. Никакого резерва «на всякий случай».
Платформа работает на базе дата-центров РТК-ЦОД уровня Tier III с высоким SLA и располагает всеми необходимыми российскими сертификациями. Для корпоративных клиентов KodaCode это означает стопроцентную локализацию - то, что раньше было камнем преткновения в переговорах с крупным бизнесом.
«Для нас переход на Inference Platform - это смена философии. Раньше мы постоянно балансировали между рисками отказов и необходимостью экономить бюджет. Теперь инфраструктура перестала быть нашей головной болью», - говорит Дмитрий Змитрович, основатель KodaCode.
Цифры и планы роста
Сейчас активная аудитория сервиса - 10 тысяч разработчиков. До конца года KodaCode намерен вырасти до 120 тысяч пользователей. Двенадцатикратный рост за несколько месяцев - амбициозно даже по меркам рынка, где темп набирают быстро. Но именно под такой сценарий и строилась новая инфраструктура: она масштабируется автоматически, не требуя от команды ручного вмешательства в кластер.
- 7 млрд токенов обрабатывается ежедневно
- 95 тысяч пользовательских запросов в сутки
- 10 тысяч активных разработчиков сейчас
- цель - 120 тысяч пользователей к концу года
- данные хранятся исключительно в российском контуре
Генеральный директор «Турбо Облака» Александр Обухов формулирует задачу платформы прямо: убрать барьеры, которые заставляют стартапы тратить инженерное время на настройку кластеров вместо работы над продуктом. По его словам, цель - чтобы модели уходили в продакшн за часы, а не недели. Кейс KodaCode, судя по всему, подтверждает: на российском рынке спрос на такой подход есть, и он экономически оправдан даже на ранних стадиях, когда каждый рубль на счету.