Перейти к содержимому
Кейсы

Кейс S7 и DataGo: отказ от аналитического стека Google и переход на независимую маркетинговую аналитику

6 мин чтения
Для моих коллег из S7 ничего не поменялось: они получают данные в той же структуре, обращаются в те же базы, но теперь мы не боимся, что однажды мы останемся без данных.
Логотип S7 Владислав Чубенко, Аналитик · S7

Ретро

До начала сотрудничества с DataGo аналитическая инфраструктура S7 строилась преимущественно на продуктах Google — в частности, Google Analytics 4 и Google BigQuery. Это обеспечивало полный контроль над пользовательскими данными, гибкие витрины и автоматизации. Однако к концу 2023 года начались сложности с оплатой сервисов из России и высокий риск санкционных ограничений на использование стека Google, а в начале 2024 года — фактический уход BigQuery с рынка.

S7 оказались в ситуации, когда:

  • невозможно легально использовать и оплачивать BigQuery;
  • стриминг пользовательских событий из продуктов Google под угрозой;
  • растёт необходимость использовать только локальные и независимые решения;
  • увеличиваются требования РКН к аналитической инфраструктуре проектов в РФ.

Сложности использования западных сервисов

Уход крупных западных облачных сервисов (Google Cloud, GA4, Amplitude, Mixpanel и др.) стал для многих российских компаний вызовом. Особенно пострадали те, кто выстраивал аналитику на стриминге сырых событий — ведь потеря возможности стримить в BigQuery фактически означала обрыв цепочки аналитики.

Стандартные инструменты вроде веб-интерфейса GA4 оказались либо недостаточно точными из-за сэмплирования, либо вовсе недоступными. У компаний остался выбор: либо использовать урезанные отчёты, либо искать кастомное решение с локальным хранилищем.

Про S7

S7 — одна из крупнейших авиакомпаний России, с развитой цифровой экосистемой, включая сайт, мобильные приложения и собственную внутреннюю аналитику. Проект перехода на DataGo инициировала команда аналитиков с чёткими задачами:

  • сохранить структуру сбора и хранения пользовательских данных;
  • обеспечить сбор сырых данных (стриминг) о поведении пользователей на сайте (web) и в мобильном приложении (iOS и Android);
  • выполнить все работы по мобильным приложениям силами внутренней команды разработки;
  • гарантировать стабильную доставку данных в собственную БД;
  • защитить архитектуру перед безопасностью и ИТ-службами;
  • обойтись без сторонних подрядчиков или агентов;
  • обеспечить возможность гибкой настройки атрибуции и сессий на сырых данных.

Отдельным плюсом стал переход на отечественное ПО — важный фактор для компании, чьи приложения часто подвергаются санкционному давлению в сторах.

Хотите сохранить структуру данных после отказа от стека Google и соответствовать требованиям РКН?

После ухода зарубежных сервисов с российского рынка нам пришлось в авральном порядке исследовать альтернативы для сбора аналитических данных. Нам важно было не только «имя» партнёра, но и максимально сохранить структуру наших данных, на которой завязано всё: отчёты, мониторинги. Также нам важно было иметь одинаковую структуру для разных платформ (web и app), чего, например, тот же Яндекс нам не мог дать. Поэтому, когда на презентации возможностей DataGo мы поняли, что можем закрыть свои потребности — получить стабильный сбор данных и одинаковую структуру, совпадающую с BigQuery, — мы были очень рады.
Владислав Чубенко, Аналитик · S7

С какой сложностью столкнулись

Сжатые сроки

Переход должен был завершиться «ещё вчера», а внутренняя дата отключения GA4 (03.12.2024) была уже за горизонтом. После неё у клиента не оставалось референса для сверки данных.

Несовершенство продукта на старте

На момент начала проекта продукт DataGo Streaming GA4 находился на завершающей стадии разработки, а сессии и атрибуция как продуктовые решения были ещё в планах на Q1 2025.

Блэкбокс передачи данных по принципу GA4

С точки зрения отправки данных с сайта GA4 имеет существенные различия с GA UA, которые необходимо обойти при настройке стриминга. Справка GA4 описывает разные частные случаи, но большинство скрытых особенностей пришлось пройти на практике.

Сложность валидации данных

  • при работе с GA4 сталкивались со значимым сэмплированием данных;
  • при работе с BigQuery export для исключения фактора сэмплинга нельзя использовать ближайшие даты — данные обновляются в течение 3 дней;
  • требовалась кросс-сверка по двум направлениям: с BigQuery (временное решение) и через web-интерфейс GA;
  • необходимо было разделять мобильный трафик по версиям — пользователи приложения параллельно использовали несколько актуальных версий;
  • конкретно для App, как выяснилось, Google может ограниченно собирать аналитические данные по китайским брендам телефонов (в отличие от DataGo).

Разные трекеры — разные подходы

Для веба использовался DataGo GA4-трекинг (на базе трекера Google GA4 через Google Tag Manager), для App — клиентский SDK на стороне приложения. Это потребовало ручного сопоставления параметров (120+ основных и 100+ кастомных клиентских), корректировок различий в сущностях, синхронизации доставки данных, унификации парсинга хитов и объединения форматов атрибуции.

Какое решение было реализовано

1. Разделение проекта на этапы

Чтобы ускорить процесс внедрения стриминга, проект разделили на два независимых направления:

  • Web: DataGo настроил стриминг на базе трекера Google GA4 через Google Tag Manager;
  • App: клиентский SDK интегрировали внутренние разработчики S7 при сопровождении и по инструкциям команды DataGo.

Сбор данных и первичная сверка прошли параллельно. После «защиты» стриминга началась разработка продукта «Сессии».

2. Реализация стриминга

  • стриминг web-данных настроен на базе трекера Google GA4 через Google Tag Manager;
  • мобильные приложения подключены напрямую через клиентский SDK;
  • организован R&D-хаб из разработчиков, аналитиков и PM;
  • проведён кросс-мэппинг параметров и сущностей;
  • разработаны инструкции по внедрению и проверки событий;
  • сохранена логика схемы данных GA4 Export, но расширена дополнительными параметрами;
  • реализован способ дополнительной доставки данных — Measurement Protocol GA4 с полным сохранением логики Google.

Сверка проводилась с web-интерфейсом GA4 и с BigQuery-копией (клиент временно обеспечил доступ через зарубежные платёжные методы).

3. Атрибуция и сессии

  • внедрена классическая модель расчёта сессий GA4 (LNDC — Last Non-Direct Click);
  • дополнительно настроена Last Click-атрибуция сессий GA4 в отдельном блоке полей;
  • реализованы атрибуции «из коробки»: First Click по пользователям, Last Click по хитам, Last Click по сессиям, Last Non-Direct Click по сессиям;
  • реализована возможность автоматизированного и ручного пересчёта сессий за любой период;
  • реализована кастомизация расчёта сессий: таймаут, основной часовой пояс, включение-исключение реферальных источников и платёжных шлюзов, регулировка ресурсов инфраструктуры.

4. Надёжная доставка данных

  • обеспечен стабильный стриминг в закрытую БД клиента (внутри его контура);
  • поддержано требование полной автономии: сотрудники DataGo не имеют доступа к хранилищу;
  • настроены системы уведомлений и проверок стабильности.
Ребята из DataGo предоставили понятные ТЗ для web и app, были на связи всё время. Продолжительное время мы не понимали причин расхождений данных в приложениях — как оказалось, не все китайские модели телефонов хорошо работают с BigQuery. Все, что было в наших общих силах, мы исправили, и теперь в нашем распоряжении аналитические данные, собранные в том же формате, какой у нас был и раньше. Для коллег из S7 ничего не поменялось: они видят ту же структуру, обращаются в те же базы, но теперь мы не боимся, что однажды останемся без данных.
Владислав Чубенко, Аналитик · S7

Результат

Проект S7 стал ярким примером самостоятельного внедрения DataGo как независимой платформы сбора сырых web и app данных, полностью заменившей аналитический стек Google. Клиент:

  • справился с миграцией без участия маркетинга и сторонних подрядчиков;
  • получил стабильный стриминг web и app данных;
  • развернул безопасную архитектуру с возможностью работы в закрытом контуре;
  • получил кастомную реализацию сессий — готовый источник для отчётности, аналогичный GA4 BigQuery Export, работающий на российских серверах.
В ходе работы с DataGo была достигнута главная цель: мы смогли осуществить миграцию на не обременённую санкциями платформу, сохранив при этом структуру данных. Важно, что для других команд S7 этот процесс прошёл относительно бесшовно. Получен стабильный стриминг, любые проблемы и неполадки оперативно решаются.
Логотип S7 Владислав Чубенко, Аналитик · S7

Сегодня S7 использует DataGo как основную платформу для сбора и анализа пользовательских данных.

Автор
Команда DataGo
Marketing DWH · аналитика для маркетинга

Команда DataGo строит хранилища маркетинговых данных, атрибуцию и отчёты для performance-команд российских компаний.

Обсудим вашу задачу по маркетинговой аналитике

Расскажите про текущий стек и задачи — предложим, как собрать данные и отчёты в вашем ClickHouse.