Форма реальности. Скрытая геометрия стратегии, информации, общества, биологии и всего остального

Джордан Элленберг

(1 голос)

1 0

Аннотация: Эта книга изменит ваше представление о мире. Джордан Элленберг, профессор математики и автор бестселлера МИФа «Как не ошибаться», показывает всю силу геометрии – науки, которая только кажется теоретической.

Книга добавлена:

6-10-2023, 08:36

252

115

Содержание

Читать книгу "Форма реальности. Скрытая геометрия стратегии, информации, общества, биологии и всего остального"

1 ... 74 75 76 77 78 79 80 81 82 ... 115

КАК РАБОТАЕТ GOOGLE, ИЛИ ЗАКОН ДОЛГИХ БЛУЖДАНИЙ

Появление Google разделило интернет на до и после. Людям, впервые вышедшим онлайн после середины 1990-х, практически невозможно объяснить, насколько радикально все тогда поменялось. Внезапно, вместо того чтобы знать, по какой последовательности ссылок переходить, или вручную набирать HTML-адрес, чтобы добраться до нужной информации, вы могли просто… спросить. Это казалось чудом. На самом деле это были собственные значения.

Лучший способ увидеть, как это работает, – вернуться к пандемии. Предположим, у вас есть усовершенствованная модель, где население делится не просто на две Дакоты или на десять возрастных групп. Вы идете дальше и дробите его на все более мелкие категории, пока каждый человек не становится отдельной категорией. Это называется агентным моделированием, и это прекрасная штука, если вы каким-то образом можете отслеживать (или разумно аппроксимировать) огромный массив данных о взаимодействиях каждого конкретного человека со всеми остальными. Такая модель во многом похожа на случайные блуждания, которые изучал Рональд Росс. Но теперь блуждает не зараженный комар, а сам вирус, перепрыгивая с какой-то вероятностью с инфицированного человека на восприимчивого, с которым тот контактирует. Далее применяется такой же анализ собственных значений, просто размер вашей матрицы колоссален: число строк и столбцов в ней равно числу людей в популяции!

Вы можете подумать, что вероятность заражения в подобных моделях зависит от количества контактов с другими людьми. В какой-то степени это так. Но важно и то, с кем именно вы контактируете. Супруги, разумеется, взаимодействуют друг с другом практически каждый день. Но если они редко общаются с другими людьми, то их контакты не влияют на общее распространение инфекции. Если вы сведете социальное общение к минимуму, ограничившись, скажем, лучшим другом, это может показаться весьма безопасным; но если ваш лучший друг регулярно посещает места большого скопления людей, где не носят масок, вы подвергаетесь высокому риску заболеть, несмотря на небольшое количество контактов.

В реальности агентные модели не доминировали при моделировании COVID-19, поскольку на самом деле у нас нет (и не может быть!) ничего похожего на такие детализированные данные об отдельных контактах людей, без которых агентное моделирование не будет работать.

Но мы говорим уже не о COVID-19, а о поиске в интернете. Сеть ссылок между веб-страницами гораздо легче измерить, чем сеть контактов между людьми. Однако структура схожа. Есть множество отдельных страниц, и каждая пара либо связана, либо нет.

Если ваш поисковый запрос – пандемия, то вам вовсе не нужна случайная страница, выбранная наугад из всех страниц интернета, где упоминается это слово. Вы хотите лучшую! Естественно, вы можете решить, что лучшая страница по этой теме – с наибольшим количеством ссылок на нее. Однако это не всегда так. Распространитель какого-нибудь текста типа «Пандемии – это всего лишь побочные эффекты муниципального фторирования воды» вполне может создать сто сайтов на эту тему, и все они будут ссылаться друг на друга. Если вы на основании этого присвоите высокий рейтинг странице «Чистка зубов или смерть?!», то сделаете большую ошибку.

Важно, откуда идут ссылки. Страницы о фторировании, активно ссылающиеся друг на друга, но без ссылок извне, подобны живущим изолированно супругам, контакты которых замкнуты. Наличие друга – завсегдатая вечеринок – это аналог ссылки на вашу страницу компании CNN; ссылка должна иметь большой вес, если она исходит со страницы, на которую ведет много ссылок. Вы можете смоделировать важность в интернете с помощью случайного блуждания, подобно агентному моделированию распространения болезни. Если вы случайно бродите по интернету, следуя наугад выбранной ссылке на каждой странице, то какие страницы будете посещать часто, а на какие вообще никогда не зайдете?[476]

Весьма приятное свойство случайных блужданий – то, что у этого вопроса есть ответ. И уходит он корнями во времена Андрея Андреевича Маркова и закона долгих блужданий: если у комара есть конечное множество болот, куда он может приземлиться; если у каждого из болот есть определенное множество связанных с ним других болот; если комар в любой момент выбирает болото, в которое полетит, случайным образом из доступных ему болот, то для него существует какая-то предельная вероятность оказаться в каждом из болот. Иными словами, каждому болоту присваивается определенная процентная доля, и комар, блуждающий долгое время, скорее всего, проведет в каждом болоте почти точно такой процент времени.

Несколько проще понять эту ситуацию на примере игры «Монополия». Это случайное блуждание: ваша фишка перемещается между сорока полями в соответствии с указаниями игрального кубика. В 1972 году Роберт Эш и Ричард Бишоп вычислили предельные вероятности[477] для этой игры. Самым вероятным полем для фишки оказалась тюрьма: там в среднем проводится 11 % всего времени[478]. Но если вы хотите знать, где должны строить дома и отели, вам нужно определить, на какие поля с собственностью фишки попадают с наибольшей вероятностью. Лучше всего поле «Иллинойс-авеню», где фишка проводит 3,55 % времени, что существенно выше, чем те 2,5 %, которых вы могли ожидать при равномерном случайном распределении по сорока имеющимся на доске полям. Конечно же, в любой конкретной партии вы можете вообще не попадать сюда (во всяком случае, так вечно происходит с моими везучими детьми, когда я строю дома на Иллинойс-авеню, подчиняясь законам вероятности). Но в целом, если вы будете отслеживать, куда попадают все игроки во всех играх за длительный промежуток времени, то, согласно закону долгих блужданий, именно к таким долям вы будете приближаться.

Для каждого из сорока полей существует предельная вероятность, и поэтому у вас есть список из сорока чисел. Такая штука называется вектором, но этот вектор не просто вектор, а собственный вектор. Как и собственное значение, он фиксирует нечто присущее долговременному поведению системы, что не очевидно при простом взгляде на нее, нечто скрытое, как дым в табачном листе.

То, что Эш и Бишоп сделали для «Монополии», создатели Google сделали для всего интернета. Точнее, тут надо сказать «делают», потому что в интернете, в отличие от «Монополии», постоянно появляются новые сайты и исчезают старые. Предельная вероятность для сайта дает вам оценку, которую они назвали PageRank, и она отражает истинную геометрию интернета лучше, чем что-либо ранее.

Это действительно осуществляется красиво. Вероятность оказаться в определенном месте интернета – это сложная сумма геометрических прогрессий, как это было с общим количеством зараженных в двух Дакотах, только сейчас у нас не две, а миллиарды Дакот. Кажется, что такое невозможно проанализировать. Однако помните: геометрическая прогрессия может экспоненциально расти, экспоненциально затухать, а на границе между этими вариантами оставаться постоянной. Для описанного случайного блуждания одна из геометрических прогрессий постоянна, а все остальные экспоненциально затухают. Их вклад становится все меньше и меньше по мере блуждания. Мы можем увидеть это даже на примере простого блуждания комара по двум болотам из главы 4. Анализ показал, что треть времени комар проведет на одном из болот. Однако мы можем уточнить: если комар начинает свой путь с болота 1, то вероятность того, что он окажется в болоте 1 через день, равна 0,8, через два дня – 0,66, а через три дня – 0,562[479]; мы можем объединить их в такой ряд:

1, 0,8, 0,66, 0,562, 0,493…

и со временем они будут стремиться к числу 1/3 – долгосрочной вероятности нахождения комара в этом болоте. Эта последовательность не геометрическая прогрессия, а результат (полагаю, это вас уже не удивит) сложения двух прогрессий. Одна их них – постоянная:

1/3, 1/3, 1/3, 1/3, 1/3…

а другая – нет, и каждый ее член на 70 % меньше предыдущего:

2/3, 14/30, 98/300…

Со временем эта вторая прогрессия неумолимо сходится практически к нулю, оставляя лишь постоянный рефрен: 1/3.

Что верно для двух болот, то верно и для миллиардов сайтов. Операция случайного блуждания устраняет все несущественные затруднения с сетью. В конце остается одна постоянная геометрическая прогрессия – единственное неизменное число, в то время как все остальное исчезает, как при удержании клавиши фортепиано остается чистый тон, пока не стихнут гармоники. Оставшееся число – это и есть PageRank.