Перейти к содержимому
Кейсы

Кейс Skillbox и DataGo: на что обратить внимание при смене источника данных

5 мин чтения

Про Skillbox

Skillbox — крупный EdTech-проект, специализирующийся на онлайн-курсах по различным специальностям, основанный в 2016 году. Сегодня Skillbox предоставляет более 1500 курсов по востребованным направлениям: IT, digital, управление, психология, дизайн и др.

Проект входит в ГК Skillbox Holding Limited — международный образовательный холдинг (экосистема VK), объединяющий бренды Skillbox, GeekBrains, SkillFactory, Mentorama и Lerna.

Ранее мы уже делились кейсами о смене источника данных: переводили «Столото», Hoff и «Азбуку Вкуса». Здесь расскажем, с чем столкнулись при миграции крупного EdTech-проекта: мигрировали более 15 доменов (skillbox.ru, skillbox.by, skillbox.kz, geekbrains.ru, academika.ru и др.), а также большой объём поддоменов и лендингов.

Ретро

Во второй половине 2022 года многие российские компании, использующие аналитические инструменты Google, столкнулись с рисками:

  • высокий риск потери собранных ранее данных и используемой отчётности;
  • потеря существующей аналитической архитектуры проекта и исторических данных;
  • необходимость в сжатые сроки обучить команду работе с новыми инструментами;
  • несоответствие требованиям служб безопасности российских компаний.

В результате проекты рискуют потерять возможность отслеживать эффективность маркетинга и не могут принимать объективные выводы об оптимизации рекламного бюджета.

Задачи

Перед командами Skillbox и DataGo стояли задачи:

  • сохранить исторические данные для построения и ретроспективного обновления отчётности;
  • подобрать альтернативный источник данных, независимый от Google и не подверженный санкционным рискам;
  • настроить корректный сбор данных для доменов Skillbox;
  • собирать данные в привычной структуре для формирования текущей отчётности.

Ожидания команды Skillbox: практически бесшовный переход на новый стек с минимальным воздействием на текущие процессы аналитики, минимальная нагрузка на внутреннюю команду и сохранение (или улучшение) высокого качества данных.

Миграция на альтернативный источник данных

После аудита приняли решение о переходе на стриминг DataGo взамен используемому CustomTask. Сбор web-данных реализован через клиентский SDK SnowPlow на стороне сайта, который самостоятельно генерирует хиты и отправляет их в собственный backend DataGo.

Основное преимущество перед CustomTask — отсутствие санкционных рисков: проекты продолжают бесперебойно собирать данные даже в случае отказа от аналитических сервисов Google. Также важны отсутствие ограничений и сэмплирования при обработке большого объёма данных и обратная совместимость с собранными данными в формате Google Analytics Universal (CustomTask).

При миграции мы всегда рекомендуем формировать отчёт для сверки данных между стримингами на сходимость. Будьте готовы увидеть расхождения — они обусловлены различной логикой сбора и независимостью технологий. В случае Skillbox расхождения также были связаны с необходимостью накопления логики Last Non-Direct Click — период «устаканивания» занимает около месяца.

Вызовы

Вызов 1. Внутренние UTM-метки

UTM-метка позволяет отслеживать внешние источники трафика. При установке UTM-метки внутри сайта для отображения внутреннего перехода создаётся новый источник данных, что крайне негативно влияет на статистику посещений и переходов внутри сайта.

Решение: определить изначальную цель использования UTM-меток, отказаться от внутренних UTM. Необходимая статистика собирается стримингом и без UTM-меток внутри пула доменов.

Вызов 2. Разрывы сессий

Из-за специфичной разметки на сайте Skillbox происходят нежелательные разрывы сессий. Например, если пользователь открывает одновременно две вкладки, каждая поочерёдно формирует новую сессию из-за автоматически регистрируемых событий. Это завышает количество сессий и искажает картину.

Решение: оптимизировать расчёт сессий, пересмотреть реальную необходимость отслеживания разных типов событий (рефакторинг легаси-разметки).

Вызов 3. Значимая доля фрод-трафика

Фрод — это трафик, который расходует бюджет рекламодателя, но не несёт пользы и искажает статистику. В кейсе Skillbox мы столкнулись с высокой долей «скликивания»: в кампаниях Яндекс.Директ был значительный процент одноразовых переходов по одной и той же ссылке одним и тем же пользователем. Для стриминга каждый такой переход означал инициацию новой сессии (из-за нового уникального yclid).

Решение: настроить точное отслеживание источников с детализацией до уникального yclid и скорректировать логику сессионизации. Проблему фрода по-прежнему можно определить в данных, но на тотал-метрики и разрывы сессий это поведение влиять перестаёт.

Вызов 4. Автоскроллы

На сайте Skillbox был реализован «красивый скроллинг», где прокрутка страницы переводила пользователя на следующую.

С точки зрения движка сайта пользователь генерирует события следующей страницы, физически находясь на предыдущей.

Минус механики в том, что с точки зрения движка сайта пользователь ещё до скролла генерирует события со второй страницы, физически находясь на первой. Сессии дублировались в момент захода на изначальный лендинг и имели разные источники трафика, что искажало статистику.

Решение: провести исследование причин расхождений и внести правки на сайте.

Планируете смену источника данных без потери истории и качества аналитики?

Что ещё важно учесть

  • Фокус на деталях. Учитывайте особенности разработки, логику сайта, CMS и аналитических инструментов — это поможет заранее предусмотреть сложности.
  • Взаимодействие отделов. Маркетинг и аналитика должны двигаться по единому RoadMap и в единой системе метрик.
  • Рефакторинг основного источника при тестировании альтернативы. Сверка может затянуться не из-за ошибок нового стека, а из-за легаси-проблем старых настроек.
  • Заранее определить метрики и срезы для сверки, автоматизировать проверку. По верхнеуровневым значениям сходимость может быть отличной, а при детальном рассмотрении — много несоответствий.
  • Обучить сотрудников работе с новым стеком.
  • Собирать обратную связь и использовать её для улучшения процессов.
Работа с DataGo над проектом переезда с CustomTask была действительно совместным процессом. Благодаря открытому обсуждению и взаимному освещению проблем нам удалось найти оптимальные решения. В ходе проекта были ситуации, когда мы обнаруживали незначительные ошибки, которые оперативно устранялись. Также мы смогли решить у себя проблемы, которые оставались незамеченными много лет, в результате тщательной сверки старых и новых данных.
Владислав Бойко, Руководитель отдела · Skillbox

Заключение

На проекте Skillbox важно подчеркнуть: недостаточно просто определить подходящий источник данных и подключить его. Важно исследовать и анализировать результаты, обращать внимание на детали, которые могут исказить выводы и повлиять на принимаемые решения — будь то оптимизация рекламного бюджета или вектор развития компании.

Автор
Команда DataGo
Marketing DWH · аналитика для маркетинга

Команда DataGo строит хранилища маркетинговых данных, атрибуцию и отчёты для performance-команд российских компаний.

Обсудим вашу задачу по маркетинговой аналитике

Расскажите про текущий стек и задачи — предложим, как собрать данные и отчёты в вашем ClickHouse.