Смена источника данных для сквозной аналитики: внедрение DataGo Web Streaming в Yandex Cloud на проекте Hoff
В этом кейсе расскажем, как мигрировать аналитический проект и какие этапы пройти, чтобы получить отчётность в безопасном стеке. На примере проекта Hoff разберём:
- с какими сложностями столкнулись при замене стриминга web-данных и какие выводы сделали;
- какие требования накладывают на проект действующие процессы маркетинговой аналитики;
- каких результатов удалось добиться при завершении проекта.
Причины миграции аналитического проекта
В 2022 году многие российские компании столкнулись с ограничениями на аналитические сервисы Google:
- невозможность продлить или активировать лицензию Google Analytics 360 — это привело к потере привычного источника данных;
- сложности с оплатой Google Cloud Platform — как следствие, высокие риски потери ретро-данных и возможная блокировка аналитического проекта;
- рост санкционных ограничений — риск блокировки сервисов Google и других иностранных поставщиков.
Ожидания команды Hoff от миграции
- маркетинг продолжает принимать решения на основе данных без потери привычной отчётности;
- бизнесу доступно сравнение периодов год-к-году в привычной детализации;
- не допустить разрыв в сборе данных и получении маркетинговой аналитики;
- импортировать ретро-данные и обеспечить их сходимость.
Вопросы при реализации проекта миграции
Каждый процесс импортозамещения или миграции индивидуален, и у специалистов могут возникать разные вопросы в зависимости от целей бизнеса, исходных данных и ресурсов. Мы собрали основной пул вопросов, влияющих на результат.
Вопрос 1. Как не допустить разрыва в получении отчётности?
- упростили интеграцию веб-трекера при отказе от Universal Analytics за счёт переиспользования существующего на сайте dataLayer и отправки данных через Measurement Protocol — это минимизирует переразметку сайта;
- предоставили данные в привычной аналитикам структуре (близкой к Universal Analytics 360), что снижает ресурс на адаптацию отчётности.
Вопрос 2. А мы получим те же данные и как?
- переиспользовали сбор данных через ранее внедрённый на сайте dataLayer — сырые данные передаются в формате бесшовной стыковки без прерываний;
- рассчитали сессионные данные по алгоритму, близкому к логике источника до миграции, чтобы сохранить структуру данных и формат отчётности.
Вопрос 3. А как сравнивать данные год-к-году?
- импортировали хитовые данные предыдущего стриминга из Google BigQuery в ClickHouse с сохранением структуры;
- рассчитали сессии алгоритмом стриминга DataGo за ретро-период на исторических данных.
Это позволило импортировать исторические данные в новое хранилище и обеспечить их сходимость.
Планируете миграцию аналитики в Yandex Cloud без разрыва в данных?
С какими вызовами столкнулись
Вызов 1. Не сходится разбивка по кампаниям/каналам
Например: меньше сессий в органике или платном трафике, значительно больше — в прямом, в сравнении с Google Analytics. Причины:
- для корректной работы логики Last Non-Direct Click нужна история посещения сайта пользователем;
- в Google Analytics стандартный период атрибутирования источников для одной куки — 6 месяцев;
- после подключения стриминга прошло недостаточно времени, чтобы корректно идентифицировать источники.
Что важно учесть: переключать отчётность на данные нового стриминга рекомендуется не раньше, чем через месяц после начала сбора (в идеале до 6 месяцев), а сверку распределения трафика по каналам — не ранее чем через 2 недели.
Вызов 2. Органика из Яндекса выглядит завышенной
Данные собираются больше месяца, но yandex/organic показывает больше сессий, чем в GA. Причина: стриминг DataGo идентифицирует источник как yandex/organic вместо привычного в GA yandex/referral.
Вывод: это ожидаемо — yandex/referral определялся Google некорректно, многие проекты настраивали переопределение источника.
Вызов 3. Данных в стриминге стало больше на 2–5%
Равномерное увеличение хитов во всех срезах на 2–5% в сравнении с Google Analytics. Причина: стриминг DataGo не блокируется частью блокировщиков рекламы и не ограничивает размер хита 8 Kb, что позволяет собирать больше данных. Это ожидаемое расхождение.
Вызов 4. Хитов столько же, но сессий меньше
Количество хитов/событий совпадает с Google Analytics, при этом сессий меньше. Причина: DataGo по умолчанию корректно обрабатывает переходы пользователей на платёжные шлюзы и обратно без кастомных настроек.
Как решили: логика сессий DataGo более корректно связывает хиты в сеансы без разрывов; вместе с Hoff и Aero пересчитали ретро-период за 2 года по новому алгоритму.
Вызов 5. Не совпадают форматы геолокации OWOX BI и DataGo Streaming
Названия городов в стримингах OWOX и DataGo писались по-разному (например, St.Petersburg и Saint-Petersburg), что мешало построению ретро-отчётности. Причина — разный формат присвоения геолокации IP-адресам.
Как решили: сформировали словарь соответствия, позволяющий присвоить всем ранее собранным IP-адресам геолокацию в новом формате DataGo Streaming без нарушения структуры итоговой отчётности.
Результаты Hoff
- маркетинг Hoff принимает решения о распределении бюджета на привычных отчётах;
- аналитикам Hoff доступны привычные сервисы за счёт сохранения исторических данных в новом хранилище;
- бизнесу доступен ретро-период для оценки результатов год-к-году.
Что важно учесть в миграционном проекте
- минимизировать время на интеграцию за счёт переиспользования ранее внедрённого dataLayer;
- обеспечить аналитикам привычную структуру данных для комфортной адаптации отчётности;
- выгрузить исторические данные и обеспечить их сходимость за счёт пересчёта сеансов за ретро-период.
Команда DataGo строит хранилища маркетинговых данных, атрибуцию и отчёты для performance-команд российских компаний.
Обсудим вашу задачу по маркетинговой аналитике
Расскажите про текущий стек и задачи — предложим, как собрать данные и отчёты в вашем ClickHouse.