Довольно распространенный сценарий: вы раз за разом
проводите A / B тестирование, выбираете победителя и планируете изменения в
работе ресурса. Несмотря на то, что лучший вариант продемонстрировал 25%
прирост, вы не получаете таких результатов после редизайна.  В лучшем случае, вы откатываетесь к начальным
показателям.

Дело в том, что ваш вывод был ложным. Там не было реального
прироста, невзирая на высокий уровень статистической значимости, полученные
результаты не были достаточно обоснованы, что сделало их шаткой опорой для
обновления вашего ресурса.
Вот то, что стоит запомнить:
Достижение высокой
статистической значимости не является причиной для прекращения теста
Если вы достигли значимости на уровне 95 или даже 99%, это
еще не означает, что вы владеете выигрышным вариантом. Вот один из таких
примеров:
Рабочий момент тестирования, который показывает полный
провал Варианта 1: получив на 90% меньше посетителей, этот вариант имеет ровно
ноль шансов победить контрольную версию.
Этот
результат обладает высоким уровнем статистической значимости (99,4%), что вы
можете легко проверить на любом калькуляторе A/B тестов. Например, на этом:
В итоге, мы якобы получили результат, который со 100%
уверенностью позволяет утверждать, что контрольный вариант демонстрирует
конверсию на 800% большую, чем вариант 1. Но давайте дадим тесту немного
времени:
Что же получилось через десять дней? Вариант 1, который, как
мы помним, не имел ни одного шанса, теперь лидирует со значимостью в 95% и
демонстрирует на 25% прирост количества покупателей. Что из этого следует?
Если вы закончите тест слишком рано, вы с большой долей
вероятности выберите неправильный вариант. Время все равно возьмет свое, ведь
испытание для варианта, который вы выберете, продолжится и после окончания
теста. В итоге, 800% прирост превратится в потерю 25% клиентов. Но не думайте,
что Вариант 1 обязательно победит. Прошло всего 10 дней, и было заключено около
190 сделок. Это все еще недостаточный объем статистических данных. 
Вот, что говорит об этом Тон Весселинг, основатель  Testing.agency:

Вы должны знать, что остановка теста, основанная на
достижении какого-либо уровня статистической значимости, является смертным
грехом A / B-тестирования №1. 77% из A / A-тестов (тестирование двух
абсолютно одинаковых страниц) покажет превосходство одного варианта над другим
с высоким уровнем статистической значимости.

Дайте тестам
достаточно времени
Если вы прекратите тест через несколько дней, вы допустите
серьезную ошибку. Время имеет первостепенное значение, даже если ваш сайт может
похвастаться 10 000 уникалов ежедневно.
Мэтт Gershoff из Conductrics  объясняет, почему:

Одна из трудностей, тестов в Интернете заключается в том,
что довольно сложно контролировать посетителей. Активность пользователей может
меняться в течении дня, недели и месяца. Именно поэтому, мы должны убедиться,
что наши данные актуальны для любого случайного отрезка времени.

Обычно ситуация
развивается следующим образом:

Первых
пару дней вариант B выигрывает из-за фактора новизны;
 
После
первой недели второй вариант продолжает закреплять свои позиции;
 
К
концу второй недели тестирования он все еще впереди, но уже не так
уверенно;
 
На
исходе четвертой недели результативность выравнивается.
 

То есть минимальный срок, необходимый для проведения теста –
месяц. Если вы закончите его раньше, опираясь на преждевременные результаты, вы
получите эффект «мнимого прироста». Вы будете уверены, что конверсия вырастет,
но, в лучшем случае, не изменится ничего.

0