Вероятности и неприятности. Математика повседневной жизни
- Автор: Сергей Самойленко
- Жанр: Научно-популярная литература
- Дата выхода: 2022
- Цикл: Наука для всех
Читать книгу "Вероятности и неприятности. Математика повседневной жизни"
Сравниваем и ищем с помощью вероятности
Наш опыт работы с вероятностным подходом учит тому, что вероятность можно вычислить, но дать ей однозначную интерпретацию непросто. Еще сложнее измерить эту характеристику явления или процесса. Хорошо, когда можно применить частотную интерпретацию: пронаблюдать достаточно долго за процессом или его моделью и получить оценку распределения управляющих параметров. Но вероятности возникают и по-другому.
В самом начале книги упоминался спам-фильтр, который каждому сообщению в электронной почте ставит в соответствие вероятность того, что это спам — назойливая реклама, рассылаемая безадресно. Это что за вероятность? К какому множеству сообщений она относится? Когда эксперт в интервью утверждает, что вероятность победы того или иного кандидата на государственный пост составляет, скажем, 75 %, сколько раз он собирается проводить выборы, чтобы реально измерить это число и проверить свои выводы? А если это нельзя измерить, как проверять утверждение? Понятно, что в случае с выборами утверждение о вероятности чисто умозрительное и к математике не имеет отношения — число здесь отражает в лучшем случае некую «уверенность по стобалльной шкале». Но бесстрастные автоматы, классифицирующие сообщения в почте, изображения с городских камер или предаварийные состояния сложной техники, выдают результат именно на языке вероятностей.
Эти вопросы заставляют рассуждать о вероятности уже не только как о мере, но и как о характеристике, позволяющей сравнивать трудно сравнимые вещи.
Спам-фильтр сообщает нам о степени благонадежности текста, честно вычисляя условную вероятность того, что сообщение рекламное, исходя и из частотности характерных слов, и, что очень важно, спама среди прочих сообщений (это позволяет избежать ошибок вроде тех, что обсуждались в главе 3: про тест на содержание алкоголя в крови и истинность научных публикаций). А в результате мы получаем некое число, по которому можем ранжировать сообщения, имея в виду степень «близости» или «похожести» текста на спам. Причем оно не показывает степень близости к какому-то одному «идеальному спаму», его и не существует вовсе; спам — некое очень сложное подпространство в пространстве возможных сообщений.
Можно посчитать, какая доля сообщений, принятая фильтром за спам, действительно им оказалась. Однако это измерение покажет некоторую суммарную характеристику эффективности фильтра и его настроек, например выбранного порога близости к спаму, но ничего не скажет о частотной интерпретации результата: «с вероятностью 87 % данное сообщение — спам».
Вероятность в такой роли используется в современном подходе к поиску самолета или судна, потерпевшего крушение в океане. Эта методика называется
Во время поисковых работ квадраты, оказавшиеся пустыми, отсекаются. При этом они не просто вычеркиваются — остается некоторая ненулевая вероятность того, что искомый объект все же находился там, но не был обнаружен. Регулярно производится пересчет вероятностей для всех клеток с учетом этой новой информации, и карта меняется: на ней более отчетливо проступают области приоритетного поиска. Такие итерации могут продолжаться долго, сама длительность поиска тоже добавляет информации к вычисляемым вероятностям. В конце концов, если искомое будет найдено, оно, скорее всего, окажется в квадрате, для которого вычисленная таким образом вероятность заметно меньше единицы. И вовсе не обязательно заветный квадрат будет иметь наибольшую вероятность оказаться «тем самым».
Здесь можно вспомнить закон Бука из книги о законах Мёрфи: «Ключи всегда находишь в последнем кармане». Перебирая карманы в поиске ключей на пороге дома, вы не вычисляете вероятность их наличия в карманах, оставшихся не проверенными. Скорее всего, вы начинаете с самых привычных, потом переключаетесь на более оригинальные места (задние и внутренние карманы), а не найдя там, видимо, вновь станете перепроверять уже обследованные карманы. Интуитивно мы решаем задачу поиска ключей так же, как ведутся современные поисково-спасательные работы. Так что упоминавшийся в самом начале книги закон Бука, гласящий, что ключ всегда в последнем кармане, конечно, тривиален, но это связано с очень сильным упрощением процесса. Ключ запросто может оказаться в кармане, который вы уже проверили, но недостаточно аккуратно.
Сравнивайте разумно, не ищите в жизни норму и не бойтесь отклонений от нее. Сама математика подсказывает нам, что в сложном мире людей корректно говорить можно лишь о степени подобия, но не о сравнении. Так что нет резона вести нескончаемые споры в поисках истины, стоит прислушаться и постараться услышать иное мнение, увидеть взгляд из другого, сопряженного пространства, обогащая тем самым свое восприятие мира.
Мудрецы правы: все мы уникальны и в своей уникальности абсолютно одинаковы.