Как не ошибаться - Страница 129


К оглавлению

129

Мы уже видели, что при наличии корреляции между двумя переменными они так или иначе связаны друг с другом. Но что если корреляции нет? Означает ли это, что переменные никак не связаны друг с другом и ни одна из них не воздействует на другую? Совсем нет. Корреляция в понимании Гальтона ограничена в очень важном смысле: она обнаруживает линейные связи между переменными, когда увеличение одной переменной совпадает с пропорциональным увеличением (или уменьшением) другой переменной. Но, подобно тому как не все линии прямые, не всякая зависимость бывает линейной. Возьмем хотя бы следующий пример.



Вы смотрите на рисунок, на котором я отобразил результаты опроса, проведенного компанией Public Policy Polling 15 декабря 2011 года. На этом рисунке тысяча точек, каждая из которых соответствует одному избирателю, ответившему на двадцати три вопроса анкеты. Если точка расположена на правой или левой оси, это означает, что избиратель придерживается правых или левых взглядов: респонденты, которые заявили о том, что поддерживают президента Обаму, одобряют программу Демократической партии и выступают против Партии чаепития, находятся на левой стороне графика, тогда как респонденты, которые поддерживают «Великую старую партию», не любят Гарри Рейда и верят в «Войну с Рождеством» закончилась, находятся справа. Вертикальная ось отображает уровень информированности: избиратели, точки которых находятся в нижней части графика, чаще всего отвечали «не знаю» на вопросы, требующие более глубокой политической осведомленности (например, «Вы одобряете или не одобряете ту работу, которую выполняет [лидер партии меньшинства в Сенате] Митч Макконнелл?»), а также не проявляли почти никакого интереса к президентским выборам 2012 года.

Любой желающий может убедиться в отсутствии корреляции между переменными, которые представлены двумя осями, – это можно просто увидеть на графике: по мере перемещения вверх по странице точки не отклоняются существенно ни влево, ни вправо. Однако это не значит, что две переменные не связаны друг с другом. На самом деле данный рисунок наглядно демонстрирует эту связь. График имеет форму сердца, с выпуклостями с обеих сторон вверху и острым концом внизу. По мере повышения информированности избиратели не становятся более активными сторонниками ни демократов, ни республиканцев, но они становятся более поляризованными: люди левых взглядов отклоняются еще больше влево, сторонники правого крыла – еще больше вправо, а область с малой плотностью точек становится еще более редко заполненной. Менее информированные избиратели, точки которых расположены в нижней части графика, склонны занимать более центристскую позицию. Следовательно, этот график отображает отрезвляющий социальный факт, который в настоящее время часто упоминается в книгах по политологии. Как правило, неопределившиеся избиратели не определились не потому, что они тщательно взвешивают достоинства каждого кандидата, не имея при этом жестких политических убеждений. Они не определились по той простой причине, что почти не обращают внимания на политические события.

Математический инструмент, подобно любому другому научному инструменту, обнаруживает только явления определенного типа; вычисление корреляции позволяет обнаружить сердцеобразную форму этой диаграммы разброса не в большей степени, чем ваш фотоаппарат способен зафиксировать гамма-излучение. Имейте это в виду, когда вам скажут, что два явления в природе или в обществе оказались некоррелированными. Это не означает, что между ними вообще нет связи; нет только связи того типа, которую должна обнаружить корреляция.

Глава шестнадцатая
Вынуждает ли рак легких курить?

Что можно сказать о ситуации, когда корреляция между двумя переменными все-таки существует? Что это означает на самом деле?

Для упрощения задачи давайте начнем с простейшего типа переменной – бинарной переменной, принимающей только два значения. Во многих случаях бинарная переменная представляет собой ответ на общий вопрос: «Вы состоите в браке?», «Вы курите?», «Вы состоите или когда-либо состояли в коммунистической партии?»

Когда вы сравниваете две бинарные переменные, корреляция принимает особенно простую форму. Например, утверждение, что существует отрицательная корреляция между семейным статусом и курительным статусом, означает только то, что семейные люди курят с меньшей долей вероятности, чем средний человек. Или, если сформулировать это иначе, курильщики вступают в брак с меньшей долей вероятности, чем обычные люди. Придется немного поразмышлять, чтобы убедить себя в том, что это одно и то же! Первое утверждение можно записать в виде такого неравенства:

...

семейные курильщики / все семейные люди < все курильщики / все люди

Второе утверждение можно записать так:

...

семейные курильщики / все курильщики < все семейные люди / все люди

Если умножить обе стороны каждого неравенства на общий знаменатель (все люди) × (все курильщики), становится очевидным, что эти два утверждения представляют собой разные способы выразить одну и ту же мысль:

...

(семейные курильщики) × (все люди) < (все курильщики) × (все семейные люди).

Точно так же, если существовала бы положительная корреляция между курением и вступлением в брак, это означало бы, что семейные люди были бы курильщиками с большей вероятностью, чем средний человек, а курильщики с большей вероятностью состояли бы в браке по сравнению со средним человеком.

129