Если обратиться к формулам, то везде в них фигурирует разность средних. Такие тесты помогают оценить, произошел ли сдвиг в среднем значении определенной метрики — именно этот вопрос и интересен в большинстве случаев. На основе целевой метрики принимается решение об успешности эксперимента.
Поэтому можно начинать использовать этот прием во всех письмах. Например, мы предполагаем, что персонализация увеличивает OR. Тогда нам нужно провести тест, где одному сегменту мы отправим письма с именем в теме, а другому — без.
Значимость определяют и устанавливают вручную, в зависимости от важности и сложности эксперимента. Размер выборки должен быть таким, чтобы получить статистически значимые данные о реакции аудитории на изменение. Благодаря случайной выборке, каждый пользователь может с одинаковой вероятностью увидеть либо версию А, либо версию В. Тестируемые аудитории не должны быть в курсе, что проводится A/B-тест, так как это может подсознательно повлиять на их реакцию. Разложим работу с А/В-тестом по этапам на примере компании по покупке авто с пробегом. A/B-тесты следует пропускать в ситуациях, когда есть уверенность, что проект изменений почти наверняка улучшит продукт, а риски, связанные с реализацией идеи, невелики.
А/в-тестирование Чего Можно Проводить
На практике, болевая точка может быть не там, где мы думаем. Ответ на вопрос, как улучшить продукт, необязательно может быть в методе A/B-тестирования. Допустим, мы недавно запустили лендинг, и пока нет данных по нужным метрикам. Или у нас нет данных по метрикам, потому что не были установлены счетчики на сайте (да, такое тоже бывает), и мы не можем определить точку отсчёта в А/В-тесте. В А/В-тестировании измеряют отношение числа посетителей сайта, выполнивших определённые целевые действия, к общему числу посетителей сайта. Самыми популярными показателями A/B-тестов являются коэффициент конверсии, количество кликов и регистраций.
В результате, применение A/B тестирования может стать главным фактором успеха в бизнесе. Этот метод позволяет узнать, что нравится большинству людей и даёт возможность внести изменения, которые улучшат результат. Например, можно изменить цвет кнопки «Купить» или текст заголовка сайта, и посмотреть, как это повлияет на продажи.
Для A/B-тестирования с другими метриками можно использовать другие калькуляторы. Они рассчитывают необходимый размер выборки, основываясь на том, какую точность вы хотите получить, какую погрешность можете допустить и какая у вас общая аудитория. К количественным метрикам можно применить метод статистического анализа и понять, достоверны ли итоги сплит-тестирования. К качественным метрикам метод статистического анализа применить нельзя. На этом этапе определяют показатели, по которым будут сравнивать эффективность вариантов.
Рассказываем, как провести A/B-тестирование без программирования и что учесть, чтобы получить достоверный результат. Стандартный срок выполнения исследования составляет дней. В это время статистика только начинает собираться, а пользователи — привыкать к изменениям. Даже если изначально определяется лидер, не нужно прерывать эксперимент. В ходе оценки измеряют, как влияет изменение одного параметра на эффективность — дочитывания, время пользователя на сайте, использование форм обратной связи и так далее.
Чем выше процент статистической достоверности, тем увереннее вы можете быть в результатах. Для тестов, в которых у специалиста больше контроля над аудиторией, например в случае email-рассылками, это можно сделать вручную. В качестве первой, как правило, выступает рабочий вариант. Например, если вам интересно, повлияет ли добавление отзывов на целевой странице, то контрольным вариантом будет лендинг без отзывов. Теперь поговорим о том, как правильно проводить сплит-тесты. Как подписчики отреагируют на обычный текстовый e mail без картинок?
Рассчитать размер выборки для сплит-тестирования, в котором сравнивают конверсию вариантов, можно в специальных калькуляторах от Mindbox или от Evan Miller. В них нужно указать число вариантов в тесте, текущие показатели конверсии и ожидаемый прирост. Сервисы покажут, сколько всего пользователей нужно и сколько пользователей должны увидеть каждый вариант. A/B-тестирование, или сплит-тестирование, — это метод исследования, при котором сравнивают эффективность двух вариантов какого-то объекта, например страницы сайта. Эти варианты показывают аудитории и оценивают, на какой из них люди реагируют лучше.
Сегментируйте Аудиторию Для Теста
Их принято устанавливать в стандартных значениях от 80% и 95% соответственно. Предпринимайте любые меры, которые могут оказаться эффективными при повышении количества переходов на 6%. Определившись с задачей и элементом, над которым будет проводиться эксперимент, переходим к разработке этого элемента. При наличии подобных материалов есть два пути для тестирования.
Например, количество посетителей сайта в месяц или число активных пользователей сервиса. В этом случае нужно сформулировать новую методы эффективного тестирования гипотезу и провести новое сплит-тестирование. Проще всего использовать специальные сервисы или встроенные инструменты.
Обычно стратификация применяется в задачах, где не запредельно много клиентов. Когда запускаются A/B-тесты в рамках сайтов, то к стратификации относятся менее щепетильно. Более того, в некоторых случаях ее сделать в принципе невозможно, т.к. Если отслеживать метрики, которые не влияют на коммерческие показатели, можно принять неправильное решение. Лучше выбирать показатели, которые влияют на выручку и прибыль, — например, коэффициент конверсии.
Только когда мы опровергнем нулевую гипотезу, сможем принять альтернативную — о том, что новый вариант работает лучше старого. Две гипотезы используют, чтобы не возникало ситуаций, когда тестовый вариант вводят не потому что он лучше работает, а потому что он новый. Здесь тоже не требуется знание html для управления интерфейсом. Сделан удобный графический редактор, в котором можно вносить изменения любых элементов страницы.
Данные из Яндекс Метрики можно использовать при подготовке гипотезы для А/В-тестирования. Учитываем прокси-метрики, то есть показатели, которые тоже изменились вслед за основными метриками. Статистическая значимость — это процент уверенности в том, что данные не оказались простой случайностью.
- Есть бесплатные калькуляторы расчёта выборки, можно ими воспользоваться, например, Майндбокс.
- У него тоже есть визуальный редактор, как и в Optimizely.
- По умолчанию в калькуляторе стоит показатель 95%.
- На основании размера выборки и полученных результатов он помогает определить, можно ли считать результаты теста достоверными.
- Email-маркетинговые платформы полезны для тестирования эффективности email-кампаний и улучшения конверсии.
Итак, мы выбрали метрику, которую хотим увеличить (например, Click rate). Нужно вычислить ее средний показатель за период от 1 до 6 месяцев и установить чувствительность эксперимента. Это минимальное изменение, которое можно считать достоверным при заданной статистической значимости. Если ни один из вариантов не является статистически значимым, это тоже неплохо.
Либо результат тестов на малых данных будет недостоверным, либо понадобится много времени, чтобы эксперимент оказался статистически значимым. Иногда нужно протестировать множество гипотез, и становится сложно не запутаться в экспериментах. В таком случае можно использовать фреймворк — он помогает упорядочить тест и не потерять важную информацию. Эвристическая подмена вопроса (когнитивное искажение, при котором мы упрощаем решение). Если мы сделаем вывод, что провокационные темы стоит использовать чаще, то в долгосрочной перспективе это сработает против нас, и рано или поздно показатели снизятся.
Для подключения системы нужен доступ администратора сайта — код события нужно будет добавить в шапку на исследуемой странице. В калькулятор вносим средний показатель и то, на сколько процентов мы хотим его увеличить. Показатели достоверности и мощности можно оставить по умолчанию. Справа калькулятор показывает размер выборки, необходимый для получения достоверных результатов. Если вы уже полгода экспериментируете с двумя кнопками, а на сайт зашли 5 с половиной человек, то говорить о какой-то репрезентативности бессмысленно.
Если Varioqub обнаружит лучший вариант, он выделит его зелёным цветом. Для теста обычно берут 2–30% от генеральной совокупности пользователей. Генеральная совокупность — все пользователи, которые взаимодействуют с объектом. Например, число посетителей сайта в месяц или число активных пользователей сервиса.
По названию можно предположить, что идет тестирование каких-то двух объектов. В нашем случае речь будет идти про веб-сайты, но описываемую методику можно применить к интерфейсам приложений, почтовым рассылкам, лендингам и т.п. Взаимодействие между участниками A/B-теста может повлиять на результат эксперимента. Важно задокументировать результаты и выделить положительные и отрицательные стороны. Эти документы станут основой для проведения быстрых и продуктивных мозговых штурмов в компании. ❗Во время тестирования вносить изменения нельзя.
И большая часть времени — это, конечно, ожидание, пока новый вариант страницы увидит достаточное количество людей. Когда маркетологи создают целевые страницы, пишут e-mail кампании или проектируют CTA-кнопки, соблазн сделать побыстрее и положиться на интуицию https://deveducation.com/ велик. Ведь гораздо проще предположить, что именно это слово и этот прототип станет конвертировать много и хорошо. Для того чтобы проверить все гипотезы, профи используют А/В-тестирование. Как провести тесты правильно и не ошибиться с выводами?
A/B тестирование рассылок в Unisender поможет это проверить. Например, если проводится тест на тему заболевания у человека, то здесь ошибка 2 рода может играть более важную роль. В непараметрических тестах анализируются распределения, которые не параметризуются при анализе — ни средним, ни стандартным отклонением, ни какими-либо другими параметрами. Эти методы в статье я не буду рассматривать, а обращу ваше внимание на два других вида тестов.