Как не ошибаться - Страница 61


К оглавлению

61

Детектив, не судья

Очевидно, что было бы ошибкой использовать р < 0,05 в качестве синонима определения «истинный» и p > 0,05 для обозначения понятия «ложный». Доказательство от маловероятного, само по себе интуитивно привлекательное, просто не работает в качестве принципа для выведения научной истины, лежащей в основе данных.

Но какова альтернатива? Если вы когда-либо проводили эксперимент, вам известно, что научная истина не возникает из облаков, взывая к вам звуком громогласной трубы. Данные не всегда упорядочены, а логический вывод – трудный процесс.

Одна простая и распространенная стратегия сводится к тому, чтобы помимо р-значений сообщать также доверительные интервалы. Это подразумевает некоторое расширение концептуальных рамок, предлагая нам анализировать не только нулевую гипотезу, но и весь диапазон альтернатив. Предположим, у вас онлайновый магазин, который продает изготовленные кустарным способом фестонные ножницы. Будучи современным человеком (если не считать того, что вы занимаетесь изготовлением фестонных ножниц), вы устраиваете проверку «А или Б», в ходе которой половина пользователей видит текущую версию вашего веб-сайта (А), а другая половина – обновленную версию (Б) с анимационным изображением пары ножниц, которые поют и танцуют, расположившись над кнопкой «Купить сейчас». После тестирования этих двух версий сайта вы обнаруживаете, что на сайте Б объем покупок увеличивается на 10 %. Отлично! Теперь, если вы человек продвинутый, у вас может возникнуть беспокойство по поводу того, не было ли это увеличение случайной флуктуацией, поэтому вы вычисляете р-значение и приходите к выводу, что вероятность получения такого хорошего результата в случае, если переформатирование сайта действительно не работало бы (то есть если нулевая гипотеза оказалась бы верной), составляет всего 0,03.

Но зачем останавливаться на этом? Если я плачу студенту колледжа за то, чтобы он сделал изображение танцующих ножниц на всех страницах моего сайта, мне нужно знать не только то, сработает ли этот прием вообще, но какие именно результаты он обеспечит. Согласуется ли воздействие, которое я обнаружил, с тем, что в долгосрочной перспективе обновление сайта повысит объем продаж всего на 5 %? При такой гипотезе вы можете обнаружить, что вероятность роста на 10 % гораздо выше, скажем 0,2. Другими словами, доказательство от маловероятного не исключает гипотезу, что обновление сайта приведет к улучшению ситуации на 5 %. Однако вы можете оптимистично задать себе вопрос, не было ли невезение причиной полученного вами результата, и на самом деле обновление сайта повысит привлекательность ваших ножниц на 25 %. Вы вычисляете еще одно р-значение и получаете 0,01 – довольно малую вероятность, которая убеждает вас отбросить эту гипотезу.

Доверительный интервал – это тот диапазон гипотез, которые доказательство от маловероятного не отбрасывают, или гипотез, которые в разумных пределах согласуются с реально наблюдаемым результатом. В данном случае доверительный интервал мог бы составлять от +3 % до +17 %. Тот факт, что 0 %, как следовало бы из нулевой гипотезы, не включается в доверительный интервал, говорит о том, что результаты статистически значимы в том смысле, о котором шла речь выше в данной главе.

Однако доверительный интервал дает гораздо больше информации. Интервал [+3 %, +17 %] позволяет быть уверенным в том, что эффект положительный, но не в том, что он большой. С другой стороны, интервал [+9 %, +11 %] позволяет с гораздо большей уверенностью предположить, что эффект не только положительный, но и довольно большой.

Доверительный интервал содержит полезную информацию и в случаях, когда вы не получаете статистически значимых результатов – другими словами, когда доверительный интервал нулевой. Если доверительный интервал равен [−0,5 %, 0,5 %], тогда тот факт, что вы не получили статистически значимых результатов, становится веским доказательством в пользу того, что вмешательство не имеет никакого эффекта. Если доверительный интервал составляет [−20 %, 20 %], причина отсутствия статистически значимых результатов состоит в том, что вы представления не имеете, оказывает ли вмешательство какое-либо воздействие и в какую сторону. С точки зрения статистической значимости эти два следствия кажутся одинаковыми, но имеют разные последствия в плане того, чего вам следует ожидать дальше.

Разработку концепции доверительного интервала обычно приписывают Ежи Нейману, еще одному выдающемуся ученому раннего периода развития статистики. Нейман был поляком, который, как и Абрахам Вальд, занимался чистой математикой в Восточной Европе, прежде чем перейти в новую по тем временам область математической статистики и переехать на Запад. В конце 1920-х годов Нейман начал сотрудничать с Эгоном Пирсоном, унаследовавшим от своего отца Карла как академическую должность в Лондоне, так и ожесточенную научную вражду с Рональдом Фишером. Фишер был трудным человеком, всегда готовым вступить в спор; его дочь говорила о нем: «Он вырос, не научившись чутко относиться к обычным человеческим качествам собратьев». В Неймане и Пирсоне он нашел оппонентов, которые оказались достаточно непреклонными, чтобы сражаться с ним десятилетиями.

Научные разногласия между этими учеными нашли свое самое яркое выражение в подходе Неймана и Пирсона к проблеме вывода. Как установить истину по имеющимся данным? Их поразительный ответ состоит в том, чтобы не задавать вопросов. Для Неймана и Пирсона задача статистики – сказать нам, не во что нам верить, а что нам делать. Статистика ориентирована на принятие решений, а не на поиск ответов на вопросы. Проверка статистической значимости – не более чем правило, которое подсказывает ответственным лицам, целесообразно ли одобрять лекарственный препарат, предпринимать предложенную экономическую реформу или делать сайт более интересным.

61