abtest

A/B-тесты: подход и проверка на репрезентативность

  • Facebook
  • Twitter
  • VKontakte
  • LinkedIn
  • Email
  • RSS

Необходимо проверять выборки пользователей пред тем как браться анализировать результаты сплит теста. Есть определенные метрики, которые покажут, на сколько адекватны собранные данные.

Аналитика а/б-тестов не самая простая задача для начинающего специалиста. Важно знать, как определить «достаточную выборку» для исследований, когда и как проводить тестирование, по каким критериям оценивать результаты, как относится к результатам теста, когда разница в показателях не значительна.

Следует разделить подход к анализу игры, как продукта, от анализа маркетинга, трафика, рекламных материалов, иконок и баннеров. Это разделение справедливо и для A/B тестов на игровые и маркетинговые.

Сплит тестирование игры

Первый тип аналитики — это тестирование игры, её отдельных компонентов, функционала, баланса. Такие тесты делаются для определения сильных и слабых сторон с продуктовой точки зрения. Заказчиками этих тестов чаще выступают гейм дизайнеры и продюсеры.

Для оценки результатов продуктовых тестов наряду с основными показателями из дашборда чаще всего служат специальные индивидуальные метрики, ориентированные на проверку именно того компонента, который тестируется. Это может быть даже ничтожная мелочь, вроде 2х минутного увеличения сессии, которая покажет полезность функционала, которую трудно будет опознать на общих показателях.

Колебания базовых метрик (ARPU, Retention и pU) может зависеть от многих факторов, как внутренних так и внешних, поэтому всегда следует проверять тот или иной игровой функционал дополнительной метрикой, которая наилучшим образом покажет результат его работы. Тестируете новую скриптовую заставку — проверьте на сколько изменилась средняя длина сессии, их количество и частота. Базовое вовлечение (активация, возвраты и отвал) слишком многогранно, чтобы оценить только ролик. Незначительные колебания вниз могут скрыть его полезность, или, наоборот — вверх, дать ошибочные показатели роста, которые будут чистым совпадением.

Сплит тестирование маркетинга

Анализ экспериментов с трафиком требует более комплексного подхода. Следует учитывать множество компонентов и их динамику в течении жизни пользователя. Я использую специальный отчет, символично названный «Marketing Lab», который включает в себя набор базовых метрик, расширенные данные по первой сессии и первому дню жизни пользователя, ключевые точки воронки, определение типа пользователя, собранного на основе бихевиористических данных, игровую динамику на 2, 3, 7, 14 и 30 дни жизни пользователя, разделенную на накопительную и разделенную на периоды.

При активной работе с трафиком (от 25k в неделю) этот отчет крайне важен, и помогает не тратить десятки тысяч на бесполезные компании,  позволяет смелее экспериментировать с графической составляющей, максимально снизив расходы. Крайне важно обновление таких отчетов — максимальный период — раз в сутки, лучше чтобы отчет собирался и обновлялся в реальном времени.

Репрезентативность

Когда выборку мы считаем репрезентативной? Когда когорты равны, исследования проводились в равных условиях (желательно в одно и тоже время), когда данных достаточно, чтобы исключить статистическую погрешность.

Скажем, если в вашей игре хорошее вовлечение: активируется более 40% инсталлов, а Retention 14 дня у вас более 25%, для когортного анализа рекомендую использовать не менее 10 000 пользователей для каждой когорты. Чем больше выборка — тем меньше вероятность погрешности. Такой подход поможет вам принимать верные решения на основе сплит тестирования.

Проверка выборки

Наверняка бывали такие эксперименты, когда по настройкам сплиты абсолютно идентичны, однако показывают резко отличающиеся результаты. Или вы тестируете новый компонент, который ни как не связан с монетизацией (например социальный компонент), а у вас резко в одной из когорт ниже ARPU и pU. Как быть?

Важно, перед тем, как приступить к построению отчетов, убедиться, что ваши данные, собранные за период теста пригодны для анализа. Для начала следует взвесить когорты и посмотреть на следующие параметры, которые не могут быть следствием, а скорее будут причиной изменений:

  • половой признак
  • территориальное расположение (страна, штат, часовой пояс…)
  • возрастной набор
  • активность пользователей в когорте (как ее измерять, зависит от игры)

Важно, чтобы когорты были похожи, иначе результату доверять будет нельзя. Исключение составляют случаи, когда вы тестируете функционал, который направлен на активность. В этом случае придется сделать отчет, который будет декомпозировать игровую активность пользователя и замерять её по нескольким признакам.

  • Aleksandr Kalugin

    Отличная статья, спасибо.