Форма реальности. Скрытая геометрия стратегии, информации, общества, биологии и всего остального

Джордан Элленберг

(1 голос)

1 0

Аннотация: Эта книга изменит ваше представление о мире. Джордан Элленберг, профессор математики и автор бестселлера МИФа «Как не ошибаться», показывает всю силу геометрии – науки, которая только кажется теоретической.

Книга добавлена:

6-10-2023, 08:36

252

115

Содержание

Читать книгу "Форма реальности. Скрытая геометрия стратегии, информации, общества, биологии и всего остального"

1 ... 67 68 69 70 71 72 73 74 75 ... 115

ПОДБОР КРИВОЙ И ОБРАТНАЯ РАЗРАБОТКА

Есть два способа предсказать будущее. Вы можете попытаться выяснить, как устроен мир, и, исходя из этого понимания, сделать хорошие предположения о его дальнейшем развитии. А можете… этого не делать.

Рональд Росс очень четко проводит это различие, отделяя себя от предшественников, чье место намерен занять (например, Фарра). Росс ориентируется на первый подход, который мы могли бы назвать «инженерным анализом»[438]: начать с известных ему фактов о распространении болезни и оттуда обосновывать свой путь к дифференциальным уравнениям, которым с необходимостью должна удовлетворять кривая эпидемии. Уильям Фарр находился в противоположном лагере. Он занимался не инженерным анализом, а подбором (подгонкой) кривой, состоящим в поиске закономерностей в прошлом, предположении, что они сохранятся в будущем, при этом не особо беспокоясь почему. Что случилось сегодня, случится и завтра. Таким способом вы можете делать прогнозы, не заглядывая и даже не пытаясь понять, что происходит внутри системы. И ваши прогнозы могут даже оказаться правильными!

Большинство ученых испытывают естественную симпатию к Россу и людям, занимающимся инженерным анализом. Ученые любят понимать то, что происходит. Так что вот вам небольшой холодный душ: метод подгонки кривых переживает возрождение благодаря прогрессу в машинном обучении.

Возможно, вы заметили, что Google сейчас довольно хорошо переводит документы с одного языка на другой. Не идеально, конечно, как сделал бы человек, но с качеством, которое еще несколько десятилетий назад казалось фантастическим. Улучшается и интеллектуальный (предиктивный) ввод текста: вы набираете буквы, а машина опережает вас и предлагает одним нажатием клавиши вставить слово или фразу, которые (по ее мнению) вы собираетесь набрать дальше. И довольно часто машина оказывается права. (Когда машина правильно угадывает, что я собрался сказать, я из гордости или вредности меняю свою фразу, а когда ничего не остается, кроме как признать правильность модели, сам набираю слово буква за буквой, как положено. Честно говоря, не знаю, что я пытаюсь ей доказать?!)

Если бы вы спросили Рональда Росса, как работает такой метод, он мог бы сказать нечто вроде: мы многое знаем о внутренней структуре предложений (с определенного возраста некоторые даже умеют рисовать их схему) и значениях слов, которые зафиксированы в словарях. С учетом этой информации носитель языка вполне может понимать механизм предложения в достаточной степени, чтобы догадаться, что когда я набираю: «Надеюсь, мы сможем встретиться на следующей неделе за…» – то следующим словом, вероятно, будет не глагол, а какое-то существительное, подходящее по смыслу: «обедом» или «кофе», но не «имуществом», «репой» или «COVID».

Однако языковая машина Google работает совершенно иначе. Она больше похожа на Фарра. Google видел миллиарды фраз – достаточно, чтобы вычленить какие-то статистические закономерности, которые определяют, какие словосочетания могут быть осмысленными предложениями, а какие – нет. Кроме того, машина может оценить, какие фразы среди осмысленных встречаются чаще всего. Фарр смотрел на предыдущую эпидемию, Google просматривает старые электронные письма. Множество людей и до вас не раз говорили: «Надеюсь, мы сможем встретиться на следующей неделе за…» – и большинство из них продолжали фразу словом «обедом» или «кофе». Никто не объясняет машине, что такое существительное и глагол или что такое репа и обед. И она ни в каком разумном смысле не знает, что это такое. Но, так или иначе, это работает. Пока еще не настолько хорошо, как получается у писателя или переводчика (может, так и не получится никогда). Но вполне приемлемо!

Машина работает, даже если вы набираете что-то совершенно оригинальное, как нам всем нравится думать. В 2012 году произошел интеллектуальный спор[439] между одним из основоположников современной лингвистики Ноамом Хомским и Питером Норвигом из Google, который предпринимает колоссальные инженерные усилия, чтобы без нее обходиться. В 1950-х годах Хомский предложил знаменитую фразу Colorless green ideas sleep furiously («Бесцветные зеленые идеи спят яростно»), иллюстрирующую управляемость природы человеческого языка какими-то правилами. Эту фразу никто из людей раньше не видел (во всяком случае, пока Хомский ее не прославил), и не существует способа придать ей осмысленное толкование как утверждения о физическом мире. Тем не менее наш разум четко распознает ее как грамматическое предложение и даже «понимает» ее: мы могли бы правильно отвечать на вопросы, основанные на ней (например: «Спокойно ли спят бесцветные зеленые идеи?»), и осознаем (поскольку знаем, что такое существительные, прилагательные и глаголы), что в конструкции «спят зеленые яростно идеи бесцветные» нужно переставить слова, чтобы придать ей хоть какое-то подобие смысла. Однако, вопреки Хомскому, современная машина может прийти к тем же выводам без изучения правил структуры языка. Программа разрабатывает способ оценить какую-то последовательность слов как похожую на предложение или не похожую, опираясь на ее сходство с другими предложениями, которые реально были сформулированы людьми. Как и машина, обученная отличать кошку от некошки, она применяет своеобразную форму градиентного спуска, чтобы постепенно выработать стратегию, которая идентифицирует уже виденные предложения как максимально похожие на предложения, чем прочие комбинации слов. И не только это; стратегия, которую находит машина, склонна (по каким-то причинам, которые остаются не совсем понятными специалистам) хорошо срабатывать при оценке правильности тех строк слов, которые не были частью обучения. Фраза «бесцветные зеленые идеи спят яростно» получает гораздо более высокую оценку похожести на предложение, чем «спят зеленые яростно идеи бесцветные», даже без какой-либо формальной системы грамматики, даже если эти фразы никогда ранее не встречались в наблюдаемых данных (если предположить, что вы тренируетесь на текстах, собранных до Хомского). Даже фрагменты этой фразы (например, «бесцветные зеленые») встречались редко, если вообще встречались.

Норвиг отмечает, что, когда дело касается реального машинного перевода или автоматической подсказки, статистические методы наподобие этого определенно превосходят все попытки воссоздать базовые механизмы производства человеческого языка[440]. Хомский возражает: как бы там ни было, но методы, как у Google, не дают ни малейшего представления о том, что такое язык; они подобны Галилею, наблюдавшему движение тела по параболе, когда Ньютон еще не предложил объясняющие его законы.

И в отношении языка, и в отношении пандемий правы обе стороны. Нельзя обойтись ни без подбора кривой, ни без инженерного анализа. Автор одной из самых удачных моделей пандемии 2020 года, недавний выпускник Массачусетского технологического института Юян Гу умело объединил оба подхода: он использовал модель дифференциальных уравнений в стиле Росса, предназначенную для имитации известной механики передачи COVID-19, но при этом добавил методы машинного обучения для настройки многих неизвестных параметров в модели, чтобы они максимально хорошо соответствовали наблюдаемым до сих пор данным о пандемии. Нам нужно как можно больше каталогизировать то, что произошло вчера, если мы хотим предсказать, что произойдет завтра. Однако у нас никогда не было миллиардов прошлых пандемий, которые можно было бы рассмотреть, и если мы хотим хорошо подготовиться к следующей вирусной новинке, то нам стоит лучше поискать законы.