Как определить правильный размер выборки для A/B сплит тестирования
Действительно, как? Или не стоит обращать на это особое внимания? Чем больше я погружаюсь в сложный анализ данных, тем чаще встречаю распространенное заблуждение вроде того:
“ Мне сказали, что если провести тестирование среди наших 3 000 клиентов, этого вполне хватит для выявления лучшего варианта”.
Конечно, это ошибочное суждение. И дажеТим Эш (Tim Ash ) в своей, без преувеличения сказать, замечательной книге Landing Page Optimization пишет о каком то конкретном минимальном числе, боюсь соврать – точную цифру не помню.
Вообще-то, они в чем-то правы. Логично, что при большом количестве данных результат должен быть более точным. В конце концов, они формулируют вывод – “чем больше данных в нашей выборке, тем лучше для нас ”. Ох, как они ошибаются!
С другой стороны, они могут сказать, что невозможно знать необходимый минимальный объем данных до того, как тестирование будет запущено. Это все равно, что сыграть в рулетку. И тут я тоже с ними согласен.
Но, посмотрите внимательнее. Ведь более важным критерием эффективности теста будет являться более четкое выявление победителя, не так ли? Если результаты тестирования серьезно отличаются друг от друга, то гораздо проще определить лучший вариант.
Но, в случае, если тестирование имеет очень близкие результаты, нужно гораздо больше данных, чтобы выявить победителя. Вспомните, вы наверняка вставали в очередь. Простую, обыкновенную очередь, например к кассам в супермаркете Лента или Окей. Как правило, касса не одна, поэтому еще на подходе вы автоматически выискивайте наиболее удобный для вас вариант – с меньшим количеством людей в этой очереди. Если вы видите, что в одной стоит 2 человека, а в другой – 11, то ваш выбор очевиден, тестирование, с большей вероятностью, будет результативным.
Но, что, если в одной очереди 6 человек, а в другой 8? Выбор уже не так очевиден, не правда ли? Разница в 2 все равно играет для вас серьезную роль? Ok, встали вы в очередь из 6, но там 3 человека оплатили пластиковыми картами, что существенно замедлило процесс, в итоге очередь в 8 человек подошла быстрее.
Поэтому выбор эффективного решения не так очевиден при не сильно отличающихся результатах. И именно поэтому невозможно определить минимальный размер данных, не запустив сам тест. В конце концов, именно поэтому мы запускаем сами тесты, так как результаты мы получим только в конце процесса, их невозможно угадать. Хотя и в рулетку всегда есть шанс крупно выиграть.
На самом деле, выходит, что:
Решение об эффективности основано на размере выборки и разницы между вариантами. Они взаимосвязаны. Че больше выборка, тем меньшую разницу вы, скорее всего, получите. И обратная зависимость. Вы получите большую разницу, если у вас будет меньшая выборка. Как правило, чем больше выборка, тем лучше, но в реальности, это не всегда так. Нужно найти золотую середину.
Да, вы можете попытаться угадать нужный размер выборки (заметьте, я не говорю – минимально необходимый, эта фраза уже не так точна, как мы выяснили), но это всего лишь догадки, они могут не совпасть с реальными результатами.
Если честно, я доверяю цифрам, доверяю математике, хотя я часто смотрю на людей, не совсем понимая, откуда они взяли те или иные цифры, которые так ловко вставляют при разговоре со мной. Вы только вдумайтесь во фразу, которую произнес пожилой дядька-рыбак, когда я проплывал мимо него на лодке в дискуссии на тему “ну как улов то – есть чего?”. Он задумчиво и грустно так сказал: “Эххх, а у меня лещ на 2200 (гр) сошел”! Откуда 2 кг и 200 грамм??? Как он определил вес, если он ”сошел”?
Но все же, я не математик, поэтому я просто приведу вам формулу, найденную и подсказанную мне одним коллегой-аналитиком (из книги Sampling Techniques, 3rd Edition, William G. Cochran).

Эта формула дает нам значение минимального размера выборки, необходимого для выявления существенных различий при тестировании, где Z определяется возможным коэффициентом ошибки в 5%, поэтому коэффициент устанавливается в значение 1.96.
P – уровень конверсии, который мы ожидаем увидеть, а d - минимальный абсолютная величина различия. К примеру, уровень конверсии страницы А – 30%, страницы B – 29%, соответственно, p – 0,29, d – 0,01, Z- 1,96, далее считаем по формуле.
Естественно, использовать данную формулу следует в Excel, считать на калькуляторе вручную, думаю, просто неудобно и довольно сложно.
A/B split test калькуляторы
Эта формула хороша, если вы используйте дополнительные, свои собственные дополнительные коэффициенты, основанные на каких-то выводах. В общих же случаях советую воспользоваться готовыми онлайн-калькуляторами, например таким (http://tools.seobook.com/ppc-tools/calculators/split-test.html). Конечно, он не показывает оптимальный размер выборки для проведения тестирования, но при небольшой разнице и множестве вариантов мы получим процентное значение варианта большей вероятности.
В случае, если вы затрудняетесь провести оценку оптимальной выборки самостоятельно, обратите внимание на наши индивидуальные услуги по веб-аналитике.

