Итак, корпорации, имеющие доступ к большим массивам информации, по-прежнему обладают довольно ограниченными знаниями о ваших персональных данных. Что тогда вас волнует?
И все-таки причины для беспокойства есть. Вот одна из них. Предположим, группа специалистов Facebook решает разработать метод определения, кто из пользователей социальной сети может быть причастен к террористической деятельности, направленной против Соединенных Штатов Америки. В математическом плане эта задача не сильно отличается от определения вероятности, что пользователю Netflix понравится фильм Ocean’s Thirteen («Тринадцать друзей Оушена»). Как правило, Facebook известны реальные имена пользователей и их место жительства, поэтому компания может использовать информацию из открытых источников для составления списка профилей, принадлежащих людям, уже имевшим судимости за террористические преступления или за поддержку террористических группировок. Далее начинается математика. Склонны ли террористы делать больше обновлений в день по сравнению с общей совокупностью пользователей этой социальной сети? или меньше? или этот показатель у них такой же, как и у всех остальных? Есть ли слова, которые чаще появляются в их обновлениях? Есть ли музыкальные группы, спортивные команды или продукты, к которым они особенно испытывают или не испытывают симпатию? Сложив все это вместе, вы можете присвоить каждому пользователю балл, отражающий вашу лучшую оценку вероятности, что у данного пользователя есть или будут связи с террористическими группировками. Примерно то же самое делают в Target, когда сопоставляют данные о ваших покупках для определения вероятности, беременны вы или нет.
Однако существует одна важная особенность: беременность – явление довольно распространенное, тогда как терроризм – скорее редкое. Почти во всех случаях расчетная вероятность того, что данный пользователь станет террористом, крайне мала. Таким образом, итогом этого проекта стал бы не центр профилактики преступлений – как в фильме Minority Report («Особое мнение»), – в котором всеобъемлющий алгоритм Facebook раньше вас узнает, что вы собираетесь совершить преступление. Представьте себе нечто более непритязательное: скажем, список сотен тысяч пользователей, о которых Facebook с определенной степенью достоверности может сказать следующее: «Вероятность того, что люди из этой группы могут быть террористами или пособниками терроризма, в два раза больше, чем в случае обычных пользователей Facebook».
Что вы сделаете, если обнаружите, что человек, входящий в этот список, живет с вами по соседству? Наверное, позвоните в ФБР?
Прежде чем предпринимать этот шаг, давайте нарисуем еще одну матрицу.
Содержимое этой матрицы – около 200 миллионов пользователей сети Facebook в Соединенных Штатах. Линия между верхней и нижней частями матрицы отделяет будущих террористов (верхняя часть) от невиновных (нижняя часть). Безусловно, любая террористическая ячейка в США довольно немногочисленна. Скажем, если быть максимально подозрительными, в стране есть около 10 тысяч людей, за которыми федералам действительно стоит присматривать. Это один из каждых 20 тысяч пользователей общей пользовательской базы.
Разделение матрицы на левую и правую часть, собственно, и есть то, что делает Facebook: с левой стороны находится сотня тысяч людей, которых в Facebook считают с высокой степенью вероятности связанными с терроризмом. Давайте поверим Facebook на слово, будто их алгоритм настолько хорош, что отмеченные таким образом люди могут быть террористами с вероятностью в два раза большей, чем обычные пользователи. Следовательно, в этой группе один из 10 тысяч пользователей, или 10 человек, окажутся террористами, тогда как 99 990 – нет.
Если 10 из 10 000 будущих террористов находятся в верхней левой клетке, значит, в верхней правой находятся оставшиеся 9990 пользователей. С помощью тех же рассуждений можно сделать такой вывод: в пользовательской базе Facebook есть 199 990 000 людей, не являющихся террористами; 99 990 из них были отмечены алгоритмом и находятся в нижней левой клетке; оставшиеся 199 890 010 пользователей относятся к нижней правой клетке. Если сложить значения всех четырех клеток матрицы, получится 200 000 000 пользователей – другими словами, все пользователи Facebook в США.
Где-то в этой матрице, состоящей из четырех клеток, находится и ваш сосед по дому.
Но где именно? Он болтается где-то в левой половине матрицы, поскольку в Facebook его отнесли к числу подозреваемых, – и это все, что вы знаете.
Следует обратить внимание, что в левой половине матрицы почти нет террористов. На самом деле вероятность того, что ваш сосед невиновен, составляет 99,99 %.
В каком-то смысле это ситуация аналогична той панике, возникшей в Англии из-за противозачаточных препаратов. Включение пользователя в список Facebook в два раза увеличивает вероятность, что он террорист, что звучит ужасно. Но исходная вероятность сама по себе крайне мала, поэтому, если вы увеличите ее в два раза, она по-прежнему останется совсем небольшой.
Однако эту ситуацию можно интерпретировать и другим способом, который еще больше подчеркивает, насколько вероломными и сбивающими с толку могут быть рассуждения о неопределенности. Задайте себе такой вопрос: если человек на самом деле не является будущим террористом, какова вероятность, что его без всяких на то оснований включат в список Facebook?