Именно так все может быть! Но может и не быть. Существует множество математических задач, в которых обеспечение большего количества данных повышает точность полученного результата довольно предсказуемым способом. Чтобы предсказать траекторию движения астероида, необходимо измерить скорость его движения и определить местоположение, а также оценить гравитационное воздействие его астрономических соседей. Чем больше связанных с астероидом параметров вы сможете измерить, тем более точную траекторию его движения вам удастся составить.
Однако некоторые задачи похожи скорее на прогноз погоды. Это еще одна ситуация, в которой важнейшую роль играет наличие большого объема подробных данных, а также вычислительных ресурсов для их быстрой обработки. В 1950 году первой вычислительной машине ENIAC понадобилось двадцать четыре часа, чтобы создать имитационную модель погоды на сутки – это стало поразительным достижением в области компьютерных вычислений космической эры. В 2008 году такие вычисления были выполнены на мобильном телефоне Nokia 6300 менее чем за секунду. В наше время прогнозы погоды не просто составляются быстрее – они намного точнее и охватывают более продолжительный период. Типичный прогноз погоды на пять дней в 2010 году был таким же точным, как прогноз на три дня в 1986 году.
Хотелось бы думать, что прогнозы будут становиться все лучше и лучше по мере усиления нашей способности собирать данные. Не сможем ли мы в конечном счете реализовать в высшей степени точную имитационную модель атмосферы всей планеты в компьютерном парке где-нибудь под штаб-квартирой сети The Weather Channel? В таком случае, чтобы узнать погоду в следующем месяце, вам понадобится просто выполнить имитационное моделирование, охватывающее немного более длительный период.
Все это заманчиво, но невозможно. Энергия в атмосфере циркулирует очень быстро, меняя масштаб от крохотного до глобального; при этом даже малейшие изменения в одном месте и времени могут повлечь за собой совершенно другие последствия в другом месте через несколько дней. С формальной точки зрения, погода хаотична. Именно в процессе численного изучения погоды Эдвард Лоренц открыл математическую концепцию хаоса. «Один метеоролог отметил, что, если теория была бы правильной, одного взмаха крыльев чайки было бы достаточно, для того чтобы навсегда изменить погодные условия. Это противоречие еще не решено, но самые последние данные как будто говорят в пользу чаек», – писал он.
Существует жесткое ограничение в отношении того, на какой период мы можем прогнозировать погоду, сколько бы данных нам ни удалось собрать. Лоренц считал, что этот период должен быть не более двух недель, и усилия метеорологов всего мира до сих пор не дали нам оснований ставить этот предел под сомнение.
К чему ближе человеческое поведение – к астероиду или погоде? Безусловно, все зависит от того, о каком аспекте человеческого поведения идет речь. Как минимум в одном смысле поведение человека прогнозировать даже труднее, чем погоду. У нас есть очень хорошая математическая модель для погоды, позволяющая нам составлять более точные прогнозы хотя бы на краткосрочный период при наличии доступа к большему объему данных – даже если потом присущий этой системе хаос неизбежно берет верх. В случае человеческого поведения у нас такой модели нет и, видимо, никогда не будет. Это делает задачу прогнозирования гораздо более трудной.
Онлайновая компания Netflix, работающая в области индустрии развлечений, в 2006 году организовала конкурс с главным призом в один миллион долларов, чтобы определить, сможет ли кто-нибудь в мире написать алгоритм, который будет справляться с задачей по рекомендациям фильмов клиентам лучше, чем алгоритм самой компании. Казалось, финишная черта находится не так уж далеко от старта: победителем должна была стать первая программа, которая на 10 % лучше справится с задачей рекомендации фильмов клиентам, чем программа Netflix.
Участникам конкурса предоставили огромное количество данных о почти полумиллионе пользователей Netflix и около миллиона анонимных мнений, оценивающих 17 700 фильмов. Задача состояла в том, чтобы предсказать, как пользователи оценят фильмы, которых еще не видели. Есть данные – много данных, имеющих непосредственное отношение к поведению, – и вы пытаетесь прогнозировать это поведение. Очень сложная задача. В итоге прошло целых три года, прежде чем кто-то смог превысить 10 %-ную планку, причем произошло это, лишь когда несколько групп, принимавших участие в конкурсе, объединились и создали гибрид «почти пригодных» алгоритмов. Они надеялись, что это мощное алгоритмическое чудо выведет их на финишную прямую. Netflix так и не использовала победивший алгоритм в своем бизнесе, поскольку к моменту завершения конкурса компания уже переходила от рассылки DVD-дисков по почте к трансляции фильмов методом потокового вещания, что делало неиспользованные рекомендации совсем бесполезными. Наверняка кто-то из вас пользовался услугами Netflix (или Amazon, или Facebook, или любого сайта, пытающегося навязать вам выбор продуктов на основании собранных о вас данных), поэтому вы и без меня знаете, насколько неудачны и до смешного нелепы их рекомендации. Но, по мере того как ваш профиль начнет пополняться все большим количеством данных, их советы будут становиться более уместными. А может быть, и не будут.
С точки зрения таких компаний, нет ничего плохого в том, что они занимаются сбором и уточнением ваших данных. Конечно, для Target было бы удобнее всего, если они могли бы точно узнавать о беременности клиенток, отслеживая данные на их карточках постоянного покупателя. Но они этого не могут и потому не знают, беременны вы или нет. Тем не менее даже догадки о вашей беременности принесли бы компании пользу и дали бы возможность делать свои прогнозы на 10 % точнее, чем сейчас. То же самое касается Google. Компании нет необходимости точно знать, какой продукт вы хотите приобрести; все, что ей нужно, – иметь чуть более точное представление о ваших предпочтениях, чем конкурирующие фирмы. Как правило, компании работают с невысокой рентабельностью. Для вас нет ничего страшного, прогнозируете ли вы свое поведение точнее хотя бы процентов на десять или нет, но для компаний 10 % – это довольно большие деньги. Во время проведения конкурса я спросил вице-президента Netflix Джима Беннетта, который занимался вопросами рекомендаций, почему компания предложила столь большой приз. Он ответил, что мне следовало бы спросить, почему приз такой маленький. На первый взгляд небольшое повышение эффективности рекомендаций на 10 % позволило бы возместить этот миллион долларов за меньшее время, чем то, которое понадобилось для создания еще одного фильма The Fast and the Furious («Форсаж»).