Кейс Skillbox и DataGo: на что обратить внимание при смене источника данных
Про Skillbox
Skillbox — крупный EdTech-проект, специализирующийся на онлайн-курсах по различным специальностям, основанный в 2016 году. Сегодня Skillbox предоставляет более 1500 курсов по востребованным направлениям: IT, digital, управление, психология, дизайн и др.
Проект входит в ГК Skillbox Holding Limited — международный образовательный холдинг (экосистема VK), объединяющий бренды Skillbox, GeekBrains, SkillFactory, Mentorama и Lerna.
Ранее мы уже делились кейсами о смене источника данных: переводили «Столото», Hoff и «Азбуку Вкуса». Здесь расскажем, с чем столкнулись при миграции крупного EdTech-проекта: мигрировали более 15 доменов (skillbox.ru, skillbox.by, skillbox.kz, geekbrains.ru, academika.ru и др.), а также большой объём поддоменов и лендингов.
Ретро
Во второй половине 2022 года многие российские компании, использующие аналитические инструменты Google, столкнулись с рисками:
- высокий риск потери собранных ранее данных и используемой отчётности;
- потеря существующей аналитической архитектуры проекта и исторических данных;
- необходимость в сжатые сроки обучить команду работе с новыми инструментами;
- несоответствие требованиям служб безопасности российских компаний.
В результате проекты рискуют потерять возможность отслеживать эффективность маркетинга и не могут принимать объективные выводы об оптимизации рекламного бюджета.
Задачи
Перед командами Skillbox и DataGo стояли задачи:
- сохранить исторические данные для построения и ретроспективного обновления отчётности;
- подобрать альтернативный источник данных, независимый от Google и не подверженный санкционным рискам;
- настроить корректный сбор данных для доменов Skillbox;
- собирать данные в привычной структуре для формирования текущей отчётности.
Ожидания команды Skillbox: практически бесшовный переход на новый стек с минимальным воздействием на текущие процессы аналитики, минимальная нагрузка на внутреннюю команду и сохранение (или улучшение) высокого качества данных.
Миграция на альтернативный источник данных
После аудита приняли решение о переходе на стриминг DataGo взамен используемому CustomTask. Сбор web-данных реализован через клиентский SDK SnowPlow на стороне сайта, который самостоятельно генерирует хиты и отправляет их в собственный backend DataGo.
Основное преимущество перед CustomTask — отсутствие санкционных рисков: проекты продолжают бесперебойно собирать данные даже в случае отказа от аналитических сервисов Google. Также важны отсутствие ограничений и сэмплирования при обработке большого объёма данных и обратная совместимость с собранными данными в формате Google Analytics Universal (CustomTask).
При миграции мы всегда рекомендуем формировать отчёт для сверки данных между стримингами на сходимость. Будьте готовы увидеть расхождения — они обусловлены различной логикой сбора и независимостью технологий. В случае Skillbox расхождения также были связаны с необходимостью накопления логики Last Non-Direct Click — период «устаканивания» занимает около месяца.
Вызовы
Вызов 1. Внутренние UTM-метки
UTM-метка позволяет отслеживать внешние источники трафика. При установке UTM-метки внутри сайта для отображения внутреннего перехода создаётся новый источник данных, что крайне негативно влияет на статистику посещений и переходов внутри сайта.
Решение: определить изначальную цель использования UTM-меток, отказаться от внутренних UTM. Необходимая статистика собирается стримингом и без UTM-меток внутри пула доменов.
Вызов 2. Разрывы сессий
Из-за специфичной разметки на сайте Skillbox происходят нежелательные разрывы сессий. Например, если пользователь открывает одновременно две вкладки, каждая поочерёдно формирует новую сессию из-за автоматически регистрируемых событий. Это завышает количество сессий и искажает картину.
Решение: оптимизировать расчёт сессий, пересмотреть реальную необходимость отслеживания разных типов событий (рефакторинг легаси-разметки).
Вызов 3. Значимая доля фрод-трафика
Фрод — это трафик, который расходует бюджет рекламодателя, но не несёт пользы и искажает статистику. В кейсе Skillbox мы столкнулись с высокой долей «скликивания»: в кампаниях Яндекс.Директ был значительный процент одноразовых переходов по одной и той же ссылке одним и тем же пользователем. Для стриминга каждый такой переход означал инициацию новой сессии (из-за нового уникального yclid).
Решение: настроить точное отслеживание источников с детализацией до уникального yclid и скорректировать логику сессионизации. Проблему фрода по-прежнему можно определить в данных, но на тотал-метрики и разрывы сессий это поведение влиять перестаёт.
Вызов 4. Автоскроллы
На сайте Skillbox был реализован «красивый скроллинг», где прокрутка страницы переводила пользователя на следующую.
Минус механики в том, что с точки зрения движка сайта пользователь ещё до скролла генерирует события со второй страницы, физически находясь на первой. Сессии дублировались в момент захода на изначальный лендинг и имели разные источники трафика, что искажало статистику.
Решение: провести исследование причин расхождений и внести правки на сайте.
Планируете смену источника данных без потери истории и качества аналитики?
Что ещё важно учесть
- Фокус на деталях. Учитывайте особенности разработки, логику сайта, CMS и аналитических инструментов — это поможет заранее предусмотреть сложности.
- Взаимодействие отделов. Маркетинг и аналитика должны двигаться по единому RoadMap и в единой системе метрик.
- Рефакторинг основного источника при тестировании альтернативы. Сверка может затянуться не из-за ошибок нового стека, а из-за легаси-проблем старых настроек.
- Заранее определить метрики и срезы для сверки, автоматизировать проверку. По верхнеуровневым значениям сходимость может быть отличной, а при детальном рассмотрении — много несоответствий.
- Обучить сотрудников работе с новым стеком.
- Собирать обратную связь и использовать её для улучшения процессов.
Работа с DataGo над проектом переезда с CustomTask была действительно совместным процессом. Благодаря открытому обсуждению и взаимному освещению проблем нам удалось найти оптимальные решения. В ходе проекта были ситуации, когда мы обнаруживали незначительные ошибки, которые оперативно устранялись. Также мы смогли решить у себя проблемы, которые оставались незамеченными много лет, в результате тщательной сверки старых и новых данных.
Заключение
На проекте Skillbox важно подчеркнуть: недостаточно просто определить подходящий источник данных и подключить его. Важно исследовать и анализировать результаты, обращать внимание на детали, которые могут исказить выводы и повлиять на принимаемые решения — будь то оптимизация рекламного бюджета или вектор развития компании.
Команда DataGo строит хранилища маркетинговых данных, атрибуцию и отчёты для performance-команд российских компаний.
Обсудим вашу задачу по маркетинговой аналитике
Расскажите про текущий стек и задачи — предложим, как собрать данные и отчёты в вашем ClickHouse.