Вероятности и неприятности. Математика повседневной жизни

Сергей Самойленко

(1 голос)

0 0

Аннотация: Книга познакомит вас с повседневными приложениями теории вероятностей и математической статистики, мягко вводя в мир нешкольной математики. Лейтмотивом изложения станут широко известные «законы Мёрфи», или «законы подлости»,— несерьезные досадные закономерности, наблюдаемые каждый день, но имеющие, однако, объективное математическое обоснование. Кроме разнообразных примеров из области теории вероятностей, в книге немало говорится и о смежных разделах: теории мер, марковских цепях, стохастических процессах, теории очередей, динамическом хаосе ит.п. Эта книга подойдет и школьнику, которому не терпится попасть в университет, и студенту, недоумевающему: «Куда я попал?»,— и преподавателю, которому нужны оригинальные живые примеры, а также просто любопытному читателю, желающему развить навыки математического мышления, чтобы научиться отсеивать информационный шум и мусор в потоке новостей.

Книга добавлена:

16-02-2023, 12:39

543

Содержание

Читать книгу "Вероятности и неприятности. Математика повседневной жизни"

1 ... 19 20 21 22 23 24 25 26 27 ... 72

Как возможность ошибиться делает науку наукой

Математическая статистика использует методы теории вероятностей, а ее столпы — закон больших чисел и центральная предельная теорема.

Естественное предположение, что наблюдаемые данные отражают реальное неизвестное распределение, оказывается верным. Например, гистограмма наблюдаемых величин приближается к истинной плотности распределения, если число наблюдений стремится к бесконечности.

Как закон больших чисел, так и центральная предельная теорема — не одно утверждение. Каждый из этих результатов представляет собой несколько разных теорем, охватывающих широкий спектр задач и условий. Мы познакомимся с их упрощенными формулировками, дающими хорошее представление об этих важных результатах.

Закон больших чисел — несколько разных теорем, утверждающих, что среднее значение наблюдений случайной величины при определенных условиях в том или ином смысле стремится к неизвестному математическому ожиданию этой величины. В простейшем случае он выглядит так. Пусть X₁, X₂, …, X_n — независимые одинаково распределенные случайные величины с математическим ожиданием a, S_n = X₁ + X₂ +…+ X_n. Тогда

Иными словами, среднее значение наблюдений стремится к математическому ожиданию. В частности, из закона больших чисел вытекает, что частота наблюдений какого-либо события стремится к вероятности этого события, то есть он прочно связывает «бытовое» частотное толкование вероятности и теоретическое как меры на вероятностном пространстве.

Центральная предельная теорема говорит о том, что при определенных условиях сумма независимых или слабо зависимых случайных величин, каждая из которых вносит небольшой вклад в общую сумму, имеет распределение, близкое к нормальному (гауссовскому). Теорема получила свое название за универсальность и важность, поскольку ее условия часто реализуются на практике. Например, многие биологические характеристики (рост человека или размах рук) подчиняются нормальному распределению, поскольку на них влияет множество факторов (скажем, действует много разных генов), вносящих по отдельности небольшой вклад. В простейшем случае теорема выглядит так.

Пусть опять X₁, X₂, …, X_n — независимые одинаково распределенные случайные величины с математическим ожиданием a и дисперсией σ². Тогда

Здесь N(0,1) обозначает стандартное нормальное распределение со средним 0 и дисперсией 1.

Иными словами, при больших n сумма S_n близка к гауссовской случайной величине с математическим ожиданием (средним значением) na и дисперсией nσ².

Эту теорему обычно доказывают, применяя методы функционального анализа. Но мы увидим позже, что ее можно понять и даже расширить, введя понятие энтропии как меры вероятности состояния системы: нормальное распределение имеет наибольшую энтропию при наименьшем числе ограничений. В этом смысле оно оптимально при описании неизвестной случайной величины либо случайной величины, являющейся суммой многих других величин, распределение которых тоже неизвестно.

Эти два закона лежат в основе количественных оценок достоверности наших знаний, основанных на наблюдениях. Здесь речь о статистическом подтверждении или опровержении предположения, которое можно сделать из каких-то общих оснований, и математической модели. Это может показаться странным, но сама по себе статистика не производит новых знаний. Набор фактов превращается в знание лишь после построения связей между фактами, образующих определенную структуру. Именно эти структуры и связи позволяют делать предсказания и выдвигать общие предположения, которые основаны на чем-то, выходящем за пределы статистики. Они называются гипотезами. Самое время вспомнить один из законов мерфологии — постулат Персига:

Задача математической статистики — ограничить это бесконечное число, а вернее, свести все гипотезы к одной, причем вовсе не обязательно верной. Итак, у нас есть случайная величина X, распределение P которой неизвестно (иногда совсем, иногда частично). Гипотеза — любое предположение о P. Простая гипотеза — предположение, что P — какое-то конкретное известное распределение. Сложная гипотеза — предположение, что P принадлежит целому классу распределений. Как правило, исследователь проверяет простую гипотезу.

Эта исходная гипотеза обычно называется нулевой. Что может выступить в таком качестве? В определенном смысле — что угодно, любое утверждение об исследуемой системе. Например, если у нас есть данные о росте призывников, мы можем проверить гипотезу, что неизвестный средний рост равен 1,76 м (или 2,10 м). Если у нас есть данные по количеству аистов и новорожденных, то мы можем проверить гипотезу, что эти две величины независимы. Если у нас есть два больших литературных произведения, мы можем проверять гипотезу, что их написал один автор, построив какую-то математическую модель.

Классическая постановка вопроса при этом такова: позволяют ли наблюдения отвергнуть нулевую гипотезу или нет? Точнее, с какой долей уверенности мы можем утверждать, что наблюдения нельзя получить, исходя из нулевой гипотезы? При этом если мы не смогли доказать, опираясь на статистические данные, что нулевая гипотеза ложна, то она принимается истинной.

Тут можно подумать, что исследователи вынуждены совершать одну из классических логических ошибок, которая носит звучное латинское имя ad ignorantiam. Это аргументация истинности некоторого утверждения, основанная на отсутствии доказательства его ложности. Классический пример — слова, сказанные сенатором Джозефом Маккарти, когда его попросили предъявить факты для поддержки выдвинутого им обвинения, что некий человек — коммунист: «У меня немного информации по этому вопросу, за исключением того общего заявления компетентных органов, что в его досье нет ничего, что бы исключало его связи с коммунистами». Или еще ярче: «Снежный человек существует, поскольку никто не доказал обратного». Выявление разницы между научной гипотезой и подобными уловками составляет предмет целой области философии: методологии научного познания. Один из ее ярких результатов — критерий фальсифицируемости, выдвинутый замечательным философом Карлом Поппером в первой половине XX века. Он призван отделять научное знание от ненаучного и на первый взгляд кажется парадоксальным:

Чем не один из законов мерфологии? Получается, любая научная теория автоматически потенциально неверна, а теория, верная «по определению», не может считаться научной[18].

Но всё же: почему мы, если не можем на базе статистических данных отвергнуть гипотезу, вправе считать ее истинной? Дело в том, что статистическая гипотеза берется не из желания исследователя или его предпочтений, она должна вытекать из каких-то общих формальных законов. Например, из центральной предельной теоремы либо принципа максимальной энтропии, о котором мы поговорим в самом конце книги. Эти законы корректно отражают степень нашего незнания, не добавляя без необходимости лишних предположений или гипотез. В известном смысле это прямое использование знаменитого философского принципа, известного как бритва Оккама:

Вообще с точки зрения принципа фальсифицируемости любое утверждение о существовании чего-либо ненаучно, ведь отсутствие свидетельства ничего не доказывает. В то же время утверждение об отсутствии чего-либо можно легко опровергнуть, предоставив экземпляр, косвенное свидетельство или доказав существование по построению. И в этом смысле статистическая проверка гипотез анализирует утверждения об отсутствии искомого эффекта и может предоставить в известном смысле точное опровержение.

Именно этим в полной мере оправдывается термин «нулевая гипотеза»: она содержит необходимый минимум знаний о системе.