Вероятности и неприятности. Математика повседневной жизни
- Автор: Сергей Самойленко
- Жанр: Научно-популярная литература
- Дата выхода: 2022
- Цикл: Наука для всех
Читать книгу "Вероятности и неприятности. Математика повседневной жизни"
Как возможность ошибиться делает науку наукой
Математическая статистика использует методы теории вероятностей, а ее столпы — закон больших чисел и центральная предельная теорема.
Естественное предположение, что наблюдаемые данные отражают реальное неизвестное распределение, оказывается верным. Например, гистограмма наблюдаемых величин приближается к истинной плотности распределения, если число наблюдений стремится к бесконечности.
Как закон больших чисел, так и центральная предельная теорема — не одно утверждение. Каждый из этих результатов представляет собой несколько разных теорем, охватывающих широкий спектр задач и условий. Мы познакомимся с их упрощенными формулировками, дающими хорошее представление об этих важных результатах.
Закон больших чисел — несколько разных теорем, утверждающих, что среднее значение наблюдений случайной величины при определенных условиях в том или ином смысле стремится к неизвестному математическому ожиданию этой величины. В простейшем случае он выглядит так. Пусть
Иными словами, среднее значение наблюдений стремится к математическому ожиданию. В частности, из закона больших чисел вытекает, что частота наблюдений какого-либо события стремится к вероятности этого события, то есть он прочно связывает «бытовое» частотное толкование вероятности и теоретическое как меры на вероятностном пространстве.
Центральная предельная теорема говорит о том, что при определенных условиях сумма независимых или слабо зависимых случайных величин, каждая из которых вносит небольшой вклад в общую сумму, имеет распределение, близкое к нормальному (гауссовскому). Теорема получила свое название за универсальность и важность, поскольку ее условия часто реализуются на практике. Например, многие биологические характеристики (рост человека или размах рук) подчиняются нормальному распределению, поскольку на них влияет множество факторов (скажем, действует много разных генов), вносящих по отдельности небольшой вклад. В простейшем случае теорема выглядит так.
Пусть опять
Здесь
Иными словами, при больших
Эту теорему обычно доказывают, применяя методы функционального анализа. Но мы увидим позже, что ее можно понять и даже расширить, введя понятие энтропии как меры вероятности состояния системы: нормальное распределение имеет наибольшую энтропию при наименьшем числе ограничений. В этом смысле оно оптимально при описании неизвестной случайной величины либо случайной величины, являющейся суммой многих других величин, распределение которых тоже неизвестно.
Эти два закона лежат в основе количественных оценок достоверности наших знаний, основанных на наблюдениях. Здесь речь о статистическом подтверждении или опровержении предположения, которое можно сделать из каких-то общих оснований, и математической модели. Это может показаться странным, но сама по себе статистика не производит новых знаний. Набор фактов превращается в знание лишь после построения связей между фактами, образующих определенную структуру. Именно эти структуры и связи позволяют делать предсказания и выдвигать общие предположения, которые основаны на чем-то, выходящем за пределы статистики. Они называются
Задача математической статистики — ограничить это бесконечное число, а вернее, свести все гипотезы к одной, причем вовсе не обязательно верной. Итак, у нас есть случайная величина
Эта исходная гипотеза обычно называется нулевой. Что может выступить в таком качестве? В определенном смысле — что угодно, любое утверждение об исследуемой системе. Например, если у нас есть данные о росте призывников, мы можем проверить гипотезу, что неизвестный средний рост равен 1,76 м (или 2,10 м). Если у нас есть данные по количеству аистов и новорожденных, то мы можем проверить гипотезу, что эти две величины независимы. Если у нас есть два больших литературных произведения, мы можем проверять гипотезу, что их написал один автор, построив какую-то математическую модель.
Классическая постановка вопроса при этом такова: позволяют ли наблюдения отвергнуть нулевую гипотезу или нет? Точнее, с какой долей уверенности мы можем утверждать, что наблюдения нельзя получить, исходя из нулевой гипотезы? При этом если мы не смогли доказать, опираясь на статистические данные, что нулевая гипотеза ложна, то она принимается истинной.
Тут можно подумать, что исследователи вынуждены совершать одну из классических логических ошибок, которая носит звучное латинское имя
Чем не один из законов мерфологии? Получается, любая научная теория автоматически потенциально неверна, а теория, верная «по определению», не может считаться научной[18].
Но всё же: почему мы, если не можем на базе статистических данных отвергнуть гипотезу, вправе считать ее истинной? Дело в том, что статистическая гипотеза берется не из желания исследователя или его предпочтений, она должна вытекать из каких-то общих формальных законов. Например, из центральной предельной теоремы либо принципа максимальной энтропии, о котором мы поговорим в самом конце книги. Эти законы корректно отражают
Вообще с точки зрения принципа фальсифицируемости любое утверждение о существовании чего-либо ненаучно, ведь отсутствие свидетельства ничего не доказывает. В то же время утверждение об отсутствии чего-либо можно легко опровергнуть, предоставив экземпляр, косвенное свидетельство или доказав существование по построению. И в этом смысле статистическая проверка гипотез анализирует утверждения об
Именно этим в полной мере оправдывается термин «нулевая гипотеза»: она содержит необходимый минимум знаний о системе.