Кейс S7 и DataGo: отказ от аналитического стека Google и переход на независимую маркетинговую аналитику
Для моих коллег из S7 ничего не поменялось: они получают данные в той же структуре, обращаются в те же базы, но теперь мы не боимся, что однажды мы останемся без данных.
Владислав Чубенко, Аналитик · S7 Ретро
До начала сотрудничества с DataGo аналитическая инфраструктура S7 строилась преимущественно на продуктах Google — в частности, Google Analytics 4 и Google BigQuery. Это обеспечивало полный контроль над пользовательскими данными, гибкие витрины и автоматизации. Однако к концу 2023 года начались сложности с оплатой сервисов из России и высокий риск санкционных ограничений на использование стека Google, а в начале 2024 года — фактический уход BigQuery с рынка.
S7 оказались в ситуации, когда:
- невозможно легально использовать и оплачивать BigQuery;
- стриминг пользовательских событий из продуктов Google под угрозой;
- растёт необходимость использовать только локальные и независимые решения;
- увеличиваются требования РКН к аналитической инфраструктуре проектов в РФ.
Сложности использования западных сервисов
Уход крупных западных облачных сервисов (Google Cloud, GA4, Amplitude, Mixpanel и др.) стал для многих российских компаний вызовом. Особенно пострадали те, кто выстраивал аналитику на стриминге сырых событий — ведь потеря возможности стримить в BigQuery фактически означала обрыв цепочки аналитики.
Стандартные инструменты вроде веб-интерфейса GA4 оказались либо недостаточно точными из-за сэмплирования, либо вовсе недоступными. У компаний остался выбор: либо использовать урезанные отчёты, либо искать кастомное решение с локальным хранилищем.
Про S7
S7 — одна из крупнейших авиакомпаний России, с развитой цифровой экосистемой, включая сайт, мобильные приложения и собственную внутреннюю аналитику. Проект перехода на DataGo инициировала команда аналитиков с чёткими задачами:
- сохранить структуру сбора и хранения пользовательских данных;
- обеспечить сбор сырых данных (стриминг) о поведении пользователей на сайте (web) и в мобильном приложении (iOS и Android);
- выполнить все работы по мобильным приложениям силами внутренней команды разработки;
- гарантировать стабильную доставку данных в собственную БД;
- защитить архитектуру перед безопасностью и ИТ-службами;
- обойтись без сторонних подрядчиков или агентов;
- обеспечить возможность гибкой настройки атрибуции и сессий на сырых данных.
Отдельным плюсом стал переход на отечественное ПО — важный фактор для компании, чьи приложения часто подвергаются санкционному давлению в сторах.
Хотите сохранить структуру данных после отказа от стека Google и соответствовать требованиям РКН?
После ухода зарубежных сервисов с российского рынка нам пришлось в авральном порядке исследовать альтернативы для сбора аналитических данных. Нам важно было не только «имя» партнёра, но и максимально сохранить структуру наших данных, на которой завязано всё: отчёты, мониторинги. Также нам важно было иметь одинаковую структуру для разных платформ (web и app), чего, например, тот же Яндекс нам не мог дать. Поэтому, когда на презентации возможностей DataGo мы поняли, что можем закрыть свои потребности — получить стабильный сбор данных и одинаковую структуру, совпадающую с BigQuery, — мы были очень рады.
С какой сложностью столкнулись
Сжатые сроки
Переход должен был завершиться «ещё вчера», а внутренняя дата отключения GA4 (03.12.2024) была уже за горизонтом. После неё у клиента не оставалось референса для сверки данных.
Несовершенство продукта на старте
На момент начала проекта продукт DataGo Streaming GA4 находился на завершающей стадии разработки, а сессии и атрибуция как продуктовые решения были ещё в планах на Q1 2025.
Блэкбокс передачи данных по принципу GA4
С точки зрения отправки данных с сайта GA4 имеет существенные различия с GA UA, которые необходимо обойти при настройке стриминга. Справка GA4 описывает разные частные случаи, но большинство скрытых особенностей пришлось пройти на практике.
Сложность валидации данных
- при работе с GA4 сталкивались со значимым сэмплированием данных;
- при работе с BigQuery export для исключения фактора сэмплинга нельзя использовать ближайшие даты — данные обновляются в течение 3 дней;
- требовалась кросс-сверка по двум направлениям: с BigQuery (временное решение) и через web-интерфейс GA;
- необходимо было разделять мобильный трафик по версиям — пользователи приложения параллельно использовали несколько актуальных версий;
- конкретно для App, как выяснилось, Google может ограниченно собирать аналитические данные по китайским брендам телефонов (в отличие от DataGo).
Разные трекеры — разные подходы
Для веба использовался DataGo GA4-трекинг (на базе трекера Google GA4 через Google Tag Manager), для App — клиентский SDK на стороне приложения. Это потребовало ручного сопоставления параметров (120+ основных и 100+ кастомных клиентских), корректировок различий в сущностях, синхронизации доставки данных, унификации парсинга хитов и объединения форматов атрибуции.
Какое решение было реализовано
1. Разделение проекта на этапы
Чтобы ускорить процесс внедрения стриминга, проект разделили на два независимых направления:
- Web: DataGo настроил стриминг на базе трекера Google GA4 через Google Tag Manager;
- App: клиентский SDK интегрировали внутренние разработчики S7 при сопровождении и по инструкциям команды DataGo.
Сбор данных и первичная сверка прошли параллельно. После «защиты» стриминга началась разработка продукта «Сессии».
2. Реализация стриминга
- стриминг web-данных настроен на базе трекера Google GA4 через Google Tag Manager;
- мобильные приложения подключены напрямую через клиентский SDK;
- организован R&D-хаб из разработчиков, аналитиков и PM;
- проведён кросс-мэппинг параметров и сущностей;
- разработаны инструкции по внедрению и проверки событий;
- сохранена логика схемы данных GA4 Export, но расширена дополнительными параметрами;
- реализован способ дополнительной доставки данных — Measurement Protocol GA4 с полным сохранением логики Google.
Сверка проводилась с web-интерфейсом GA4 и с BigQuery-копией (клиент временно обеспечил доступ через зарубежные платёжные методы).
3. Атрибуция и сессии
- внедрена классическая модель расчёта сессий GA4 (LNDC — Last Non-Direct Click);
- дополнительно настроена Last Click-атрибуция сессий GA4 в отдельном блоке полей;
- реализованы атрибуции «из коробки»: First Click по пользователям, Last Click по хитам, Last Click по сессиям, Last Non-Direct Click по сессиям;
- реализована возможность автоматизированного и ручного пересчёта сессий за любой период;
- реализована кастомизация расчёта сессий: таймаут, основной часовой пояс, включение-исключение реферальных источников и платёжных шлюзов, регулировка ресурсов инфраструктуры.
4. Надёжная доставка данных
- обеспечен стабильный стриминг в закрытую БД клиента (внутри его контура);
- поддержано требование полной автономии: сотрудники DataGo не имеют доступа к хранилищу;
- настроены системы уведомлений и проверок стабильности.
Ребята из DataGo предоставили понятные ТЗ для web и app, были на связи всё время. Продолжительное время мы не понимали причин расхождений данных в приложениях — как оказалось, не все китайские модели телефонов хорошо работают с BigQuery. Все, что было в наших общих силах, мы исправили, и теперь в нашем распоряжении аналитические данные, собранные в том же формате, какой у нас был и раньше. Для коллег из S7 ничего не поменялось: они видят ту же структуру, обращаются в те же базы, но теперь мы не боимся, что однажды останемся без данных.
Результат
Проект S7 стал ярким примером самостоятельного внедрения DataGo как независимой платформы сбора сырых web и app данных, полностью заменившей аналитический стек Google. Клиент:
- справился с миграцией без участия маркетинга и сторонних подрядчиков;
- получил стабильный стриминг web и app данных;
- развернул безопасную архитектуру с возможностью работы в закрытом контуре;
- получил кастомную реализацию сессий — готовый источник для отчётности, аналогичный GA4 BigQuery Export, работающий на российских серверах.
В ходе работы с DataGo была достигнута главная цель: мы смогли осуществить миграцию на не обременённую санкциями платформу, сохранив при этом структуру данных. Важно, что для других команд S7 этот процесс прошёл относительно бесшовно. Получен стабильный стриминг, любые проблемы и неполадки оперативно решаются.
Владислав Чубенко, Аналитик · S7 Сегодня S7 использует DataGo как основную платформу для сбора и анализа пользовательских данных.
Команда DataGo строит хранилища маркетинговых данных, атрибуцию и отчёты для performance-команд российских компаний.
Обсудим вашу задачу по маркетинговой аналитике
Расскажите про текущий стек и задачи — предложим, как собрать данные и отчёты в вашем ClickHouse.