Форма реальности. Скрытая геометрия стратегии, информации, общества, биологии и всего остального

Джордан Элленберг

(1 голос)

1 0

Аннотация: Эта книга изменит ваше представление о мире. Джордан Элленберг, профессор математики и автор бестселлера МИФа «Как не ошибаться», показывает всю силу геометрии – науки, которая только кажется теоретической.

Книга добавлена:

6-10-2023, 08:36

252

115

Содержание

Читать книгу "Форма реальности. Скрытая геометрия стратегии, информации, общества, биологии и всего остального"

1 ... 20 21 22 23 24 25 26 27 28 ... 115

PONDENOME OF DEMONSTURES OF THE REPTAGIN

Оригинальная работа Маркова была чисто абстрактным упражнением по теории вероятностей. Есть ли у нее практические применения? В одном из писем Марков писал, что его заботят только вопросы чистой науки, а вопрос применимости теории вероятностей ему безразличен. Согласно Маркову, выдающийся статистик и специалист по биометрике Карл Пирсон не сделал ничего заслуживающего упоминания. Узнав через несколько лет о предыдущей работе Башелье о случайных блужданиях на бирже, он заметил, что, конечно же, видел ее[162], но она ему сильно не понравилась, и что он не берется судить о ее значимости для статистики, но для математики, на его взгляд, она совершенно бесполезна.

Однако в итоге Марков таки сдался и применил свою теорию к области, которая объединяет в России и атеистов, и православных, – поэзии Александра Сергеевича Пушкина. Смысл и искусство пушкинской поэзии, разумеется, не поддаются механике вероятности, поэтому Марков ограничился первыми 20 000 букв романа в стихах «Евгений Онегин», которые рассмотрел как последовательность согласных и гласных, а если точнее, то 43,2 % гласных и 56,8 % согласных. Возможно, кто-то наивно надеялся, что буквы независимы друг от друга, а значит, буква, следующая за согласной, будет согласной ровно с такой же вероятностью, с какой согласные встречаются во всем тексте, то есть 56,8 %.

Однако Марков обнаружил, что это не так. Он тщательно подсчитал все пары последовательных букв, разбив их на четыре комбинации – согласная-согласная, согласная-гласная, гласная-согласная и гласная-гласная, – и получил следующую диаграмму:

Эта марковская цепь похожа на ту, что управляла комаром на двух болотах; просто вероятности поменялись. Если искомая буква – согласная, то следующая буква будет гласной с вероятностью 66,3 % и согласной с вероятностью 33,7 %. Двойные гласные встречаются еще реже: шансы, что одна гласная сменит другую, составляют всего 12,8 %. Эти числа статистически устойчивы по всему тексту. Вы можете рассматривать их как статистическую подпись пушкинского текста. В самом деле, позднее Марков вернулся к задаче и изучил 100 000 букв из романа Сергея Аксакова «Детские годы Багрова-внука». Процентное содержание гласных у Аксакова не особо отличалось от пушкинского: 44,9 %. Но эта марковская цепь выглядит совершенно иначе:

Если по какой-нибудь причине вам нужно определить, принадлежит неизвестный текст на русском языке Аксакову или Пушкину, есть один хороший способ (особенно если вы не умеете читать по-русски) – посчитать пары последовательных гласных, к которым Аксаков, похоже, благоволил, а Пушкин их избегал.

Нельзя винить Маркова, что он свел литературные тексты к двоичной последовательности гласных и согласных; ему приходилось все считать вручную на бумаге. С появлением компьютеров возможности значительно расширились. Вместо двух болот у вас может быть 26 – по числу букв английского алфавита. А с учетом огромного количества текстов можно оценить все вероятности, необходимые для определения цепи Маркова для английских букв. Питер Норвиг, директор по исследованиям[163] компании Google, задействовал для вычисления этих вероятностей набор текстов объемом около 3,5 триллиона букв. Приблизительно 445 миллиардов букв, то есть 12,5 % от общего количества, – это буква Е, наиболее часто употребляемая в английском языке. Однако следующая за ней снова буква Е встречалась только в 10,6 миллиарда случаев, что дает нам вероятность немногим более 2 %. Гораздо чаще за Е следовала буква R, что наблюдалось 57,8 миллиарда раз; таким образом, доля буквы R среди «следующих за Е» составила почти 13 %, что примерно вдвое превышает частоту R среди всех букв. На деле сочетание («биграмма») ER – четвертое по частоте среди всех двухбуквенных сочетаний в английском языке. (Прежде чем посмотреть в сноске первые три, попробуйте их угадать[164].)

Мне нравится представлять буквы как места на карте, а вероятности – как дорожки, которые в различной степени привлекательны и проходимы. От E к R ведет широкая дорога с хорошим покрытием. Дорожка от E к B намного уже и заросла колючками. От T к H дороги почти односторонние: добраться в двадцать с лишним раз проще, чем от H к T. (Носители английского языка часто употребляют слова the, there, this и that, а вот light и ashtray реже[165].) Цепь Маркова сообщает нам, какой извилистый путь вероятнее, когда мы идем по карте английского текста.

Ну раз уж вы здесь, почему бы не пойти дальше? Вместо последовательности букв мы можем представить текст как последовательности биграмм; например, первое предложение этого абзаца будет начинаться так[166]:

ON, NC, CE, EY, YO, OU…

Теперь на наших дорогах есть определенные ограничения. От ON нельзя перейти к произвольному буквосочетанию: следующее должно начинаться на N. Данные Норвига показывают, что самое распространенное продолжение – NS (14,7 %), а затем NT (11,3 %). Это дает еще более четкое представление о структуре английского текста.

Инженер и математик Клод Шеннон[167] первым понял, что цепи Маркова можно использовать не только для анализа, но и для создания текста. Предположим, вы хотите создать фрагмент текста с теми же статистическими характеристиками, что и текст на английском языке, и он начинается с ON. Тогда вы можете использовать для выбора следующей буквы генератор случайных чисел, который выдаст букву S с вероятностью 14,7 %, букву T с вероятностью 11,3 % и так далее. Как только выберете следующую букву (например, T), у вас есть следующее буквосочетание (NT), и вы можете аналогично делать следующий шаг и так далее, пока не получите текст желаемой длины. Статья Шеннона «Математическая теория связи» (положившая начало всей теории информации) появилась в 1948 году, а потому ученый не имел доступа к 3,5 триллиона букв английских текстов на нынешних магнитных носителях. Поэтому он применял цепи Маркова иначе. Если у него было буквосочетание ON, он брал с полки какую-нибудь книгу и просматривал ее, пока не натыкался на стоящие рядом буквы O и N. Если после них шла буква D, то следующим буквосочетанием он брал биграмму ND. Затем искал в очередной книге сочетание ND и так далее. (Если после ON следует пробел, вы тоже можете это учитывать, тогда у вас будет получаться текст, разделенный на отдельные слова.) Вы записываете выстроенную таким образом последовательность букв и получаете знаменитую фразу Шеннона:

IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTIONA OF CRE.

Простой марковский процесс создал текст, который не является английским, но выглядит как английский[168]. Такова жуткая сила этой цепи.

Конечно, цепь Маркова будет зависеть от набора текстов, выбранных для определения вероятностей, – «обучающих данных», как мы говорим в сфере машинного обучения. Норвиг задействовал огромный набор текстов, собранных Google с сайтов и ваших электронных писем; Шеннон использовал книги со своей полки, а Марков – Пушкина. Вот текст, который[169] я сгенерировал с помощью марковской цепи, обученной на списке имен, которые давали младенцам, родившимся в США в 1971 году:

Teandola, Amberylon, Madrihadria, Kaseniane, Quille, Abenellett…

При этом использовались пары букв – биграммы. Мы можем пойти дальше и задаться вопросом: с какой вероятностью очередная буква будет появляться после определенной последовательности из трех букв (триграммы). Для этого понадобится гораздо больше данных, потому что триграмм намного больше, чем диграмм. Зато получающийся список будет гораздо больше похож на настоящие имена:

Kendi, Jeane, Abby, Fleureemaira, Jean, Starlo, Caming, Bettilia…

При переходе к пятибуквенным комбинациям ситуация настолько улучшается, что мы нередко просто воспроизводим реальные имена из базы, однако кое-какие новые все же встречаются:

Adam, Dalila, Melicia, Kelsey, Bevan, Chrisann, Contrina, Susan…

Используя цепь с триграммами и имена детей, родившихся в 2017 году, мы получим такой список:

Anaki, Emalee, Chan, Jalee, Elif, Branshi, Naaviel, Corby, Luxton, Naftalene, Rayerson, Alahna…

Он определенно выглядит более современно, причем примерно половина в нем – реальные имена, с которыми ходят сейчас дети. Для младенцев 1917 года рождения:

Vensie, Adelle, Allwood, Walter, Wandeliottlie, Kathryn, Fran, Earnet, Carlus, Hazellia, Oberta…

Сколь бы ни была проста цепь Маркова, она как-то улавливает стиль использования имен в разные времена. И этот способ придумать имя выглядит творческим. Некоторые из этих имен весьма неплохи! Вы вполне можете представить, что ребенка зовут Jalee или в стиле ретро – Vensie, но вряд ли назовете его Naftalene[170].

Способность цепи Маркова генерировать нечто вроде языка заставляет задуматься: может быть, язык – это просто цепь Маркова? Не создаем ли мы, когда говорим, просто новые слова на основе нескольких последних произнесенных нами слов или на основе какого-то вероятностного распределения, которое мы знаем из всех когда-либо услышанных чужих фраз?

Дело не только в этом. В конце концов, мы подбираем слова, каким-то образом относящиеся к окружающему миру, а не просто повторяем уже сказанное.

И все же современные цепи Маркова могут генерировать нечто удивительно похожее на человеческий язык. Алгоритм GPT-3 компании OpenAI – духовный потомок текстовой машины Шеннона, только намного мощнее. На входе не три буквы, а фрагмент текста длиной в сотни слов, но принцип тот же: если есть недавно созданный текст, то какова вероятность, что следующее слово будет «эта», «геометрия» или «гололедица»?

Вы можете подумать, что это легко. Достаточно взять первые пять предложений из вашей книги, пропустить их через GPT-3 и получить список вероятностей для каждой возможной комбинации слов в этих предложениях.

Погодите, а с чего вы взяли, что это легко? Вообще-то нет. Просто предыдущий абзац – это попытка алгоритма GPT-3 продолжить текст из трех абзацев перед ним. Я выбрал самый осмысленный результат из десятка попыток. Но все результаты каким-то образом звучат так, словно они взяты из книги, которую вы читаете, и это, скажу я вам, несколько тревожит ее автора, даже когда предложения не имеют смысла вообще, как в этом фрагменте[171]:

Если вы знакомы с понятием теоремы Байеса, то это должно быть для вас легко. Если есть вероятность 50 %, что следующим словом будет «эта», и 50-процентный шанс, что им будет «геометрия», то вероятность того, что следующим словом будет либо «эта геометрия», либо «гололедица», составляет (50/50)2 = 0.

Между этой задачей и текстовой машиной Шеннона действительно большая разница. Представьте, что у Шеннона огромная библиотека и он пытается с помощью этого метода составить английские предложения, начиная с тех пятисот слов, которые вы только что прочитали. Он просматривает книги до тех пор, пока не найдет ту, где эти слова расположены в точно таком же порядке, чтобы он мог записать следующее слово. Конечно же, он этих слов не находит! Никто (надеюсь!) никогда не написал эти пятьсот слов так, как только что сделал я. Поэтому метод Шеннона потерпит неудачу на первом же шаге. Это равнозначно попытке найти следующую букву после буквосочетания XZ. На его полке просто может не оказаться книги с такой биграммой. Тогда он пожимает плечами и сдается? Давайте припишем Клоду больше целеустремленности! Например, можно сказать, что мы раньше никогда не встречали XZ, но, возможно, видели биграммы, в каком-то смысле похожие на XZ? Тогда можно взять буквы, которые следовали за этими биграммами. Как только мы начинаем размышлять подобным образом, мы выносим суждения о том, какие последовательности букв «близки» к другим последовательностям, а это означает, что мы думаем о геометрии последовательностей букв. Непонятно, какую «близость» нам следует подразумевать, и проблема усложняется еще больше, когда мы говорим о фрагменте текста из пятисот слов. Что значит один фрагмент близок к другому? Это геометрия языка? Или стиля? И как компьютер должен это понимать? Мы еще вернемся к этому вопросу. Но сначала познакомимся с величайшим в мире игроком в шашки.