Слайд 1Теория вероятностей и математическая статистика
Введение в математическую статистику
ЛЕКЦИЯ 9
Слайд 2 Математическая статистика – это раздел математики который занимается разработкой методов
сбора, описания и анализа экспериментальных результатов наблюдений, массовых случайных явлений.
Фундаментальными понятиями математической статистики являются генеральная совокупность и выборка.
Математическая статистика базируется на понятиях и методах теории вероятностей, но решает в каком –то смысле обратные задачи. Как и всякая математическая теория, она развивается в рамках некоторых моделей, описывающих определенный круг явлений.
Основные понятия
Слайд 3 В МС предполагается, что вероятность Р в модели наблюдаемого случайного
явления не известна полностью. Известно только, что Р из некоторого
заданного класса вероятностей P. Способы задания класса вероятностей P могут быть различными.
Если задан класс допустимых распределений P, то говорят, что задана статистическая модель.
Т.о., статистическая модель описывает такие ситуации, когда в вероятностной модели изучаемого эксперимента имеется неопределенность в задании вероятности Р.
Основные понятия
Слайд 4 Задача математической статистики уменьшить неопределенность модели, используя информацию полученную из
наблюдаемых исходов эксперимента.
Итак, о математической статистике имеет смысл вспоминать,
если
имеется случайный эксперимент, свойства которого частично или полностью неизвестны,
мы умеем воспроизводить этот эксперимент в одних и тех же условиях некоторое (а лучше — какое угодно) число раз.
Основные понятия
Слайд 5Основные понятия
Исходным материалом всякого статистического исследования является совокупность результатов наблюдений.
В большинстве случаев исходные статистические данные Х = (Х1,...,Хn) –
результат наблюдения некоторой конечной совокупности случайных величин, характеризующий исход изучаемого эксперимента.
Предполагается, что эксперимент состоит в проведении n испытаний и результат i –го эксперимента описывается случайной величиной Xi , i =1,..., n.
Слайд 6Основные понятия
Совокупность наблюдаемых случайных величин Х = (Х1, ...,
Хn) называется выборкой, сами величины Xi , i =1,..., n,
– элементами выборки, а их число n – ее объемом.
Реализации выборки Х будем обозначать строчными буквами х = (x1,..., xn).
Слайд 7Пусть X = {х} – множество всех возможных значений выборки
X, которое называется выборочным пространством.
Статистической моделью называется класс
распределений, допустимых для выборки.
Основные понятия
Слайд 8Обычно рассматривают ситуации, когда компоненты выборки независимы и распределены так
же, как некоторая случайная величина ξ с функцией распределения Fξ(x).
Множество возможных значений ξ с распределением F = Fξ(x) называется генеральной совокупностью, из которой производят случайную выборку.
Основные понятия
Слайд 9Таким образом, мы рассматриваем генеральную совокупность как случайную величину ξ,
а выборку – как n – мерную случайную величину
(ξ1, …, ξn), компоненты которой независимы и одинаково распределены (так же, как ξ).
Такие выборки называются простыми.
Важно!
Слайд 10Порядковые статистики
Упорядочим выборку x = (x1, ..., xn) (реализацию) по
возрастанию, получим последовательность x* = (x1*, x2*, ..., xn
*), где
x1*≤ x2*... ≤ xn *.
Пример. x = (2, 1, 4, 2, 3). x* = (1, 2, 2, 3, 4).
Если теперь через Xk* обозначить случайную величину, которая для каждой реализации принимает значение xk* , k =1, …, n, (k-е по величине), то Xk* называется k - ой порядковой статистикой выборки.
Слайд 11Порядковые статистики
Очевидно, что порядковые статистики удовлетворяют неравенствам
X1*≤ X2*
≤ … ≤ Xn*
X1* и Xn* называются экстремальными значениями выборки.
X1* = Xmin, Xn* = Xmax.
Последовательность X1*, X2*, …, Xn* называют вариационным рядом.
Слайд 12Способы представления выборки
Вариационным рядом выборки называется способ ее записи, при
котором элементы упорядочиваются по величине, т.е. записываются в виде упорядоченной
последовательности.
Разность между максимальным и минимальным элементами выборки называется размахом выборки.
Слайд 13Способы представления выборки
Статистическим рядом называется последовательность пар (xj,nj).
Здесь xj
– значения, а nj – частота элемента выборки
Слайд 14Группированный статистический ряд
Слайд 15Эмпирическая функция распределения
Пусть Х=(X1, ..., Хn) – выборка из генеральной
совокупности наблюдаемой случайной величины.
Эмпирической функцией распределения называется случайная функция от
Fn(x), вычисляемая по формуле
где νn – число элементов выборки Х, значения которых меньше х.
Слайд 17Эмпирическая функция распределения выборки совпадает с функцией распределения дискретной случайной
величины X, заданной рядом распределения:
Важно!
Слайд 18Почему это важно:
Это означает, что выборку можно рассматривать как дискретную
случайную величину, и применять к ней то, что мы уже
знаем о случайных величинах.
Слайд 21Общая запись эмпирической функции распределения
Слайд 22Замечание
По эмпирической функции распределения легко построить другие способы представления выборки,
например, статистический или вариационный ряд.
Слайд 24Этой эмпирической функции распределения Fn(x) соответствует выборка, заданная статистическим рядом:
Пример
Слайд 25Задача. Дана Fn(x) из предыдущего примера. Сколько в выборке значений:
а)
равных 15,
б) не больших 11?
Решение.
а) 1 значение равно 15,
б) 8
значений не больше 11.
Пример
Слайд 26Свойства эмпирической функции распределения
Эмпирическая функция распределения – сжатая характеристика выборки.
Для каждой реализации х = (x1,... ,xn) функция однозначно определена
и обладает всеми свойствами функции распределения:
изменяется от 0 до 1;
не убывает;
непрерывна слева;
Fn(x)=0 при х < х* и Fn(x) =1 при х > х*,
она кусочно –постоянна и возрастает только в точках последовательности.
Слайд 27Свойства эмпирической функции распределения
Пусть Fn(x) – эмпирическая функция распределения, построенная
по выборке Х из распределения ξ, и Fξ(x) – соответствующая
теоретическая функция.
Тогда:
Слайд 28Теорема 1
Пусть Fn(x) – эмпирическая функция распределения, построенная
по выборке Х из распределения ξ, и Fξ(x) – соответствующая
теоретическая функция распределения. Тогда для любого – ∞ < х < + ∞ и любого ε > 0
Слайд 29Теорема 2 (теорема Колмогорова)
Если функция F(x) непрерывна, то при
любом фиксированном t > 0
где
функция Колмогорова (хорошее приближение при
≥ 20).
Слайд 30Теорема Колмогорова
Теорема справедлива для любой непрерывной функции и позволяет найти
границы, в которых с заданной вероятностью 0
F(x). Если задана вероятность α, то при больших п с вероятностью, близкой к α F(x) удовлетворяет неравенству
где величина вычисляется как корень уравнения .
Слайд 31 Частота элемента выборки
При большом объеме выборки ее элементы объединяют в
группы, представляя результаты опытов в виде группированного статистического ряда.
Для
этого интервал, содержащий все элементы выборки, разбивается на k непересекающихся интервалов. Вычисления значительно упрощаются, если эти интервалы имеют одинаковую длину h. Результаты сводятся в таблицу, называемую таблицей частот группированной выборки.
Группировка выборки
Слайд 32Группированный статистический ряд
Вспомним вид этого ряда. Чтобы его построить, надо
найти число интервалов k и ширину интервала h.
Слайд 33Группировка выборки
Разность между максимальным и
минимальным элементами выборки
называется размахом выборки R.
Число
интервалов k находится из условия
2k –1 ≈ n,
где
n – объем выборки.
Длину интервала h находят по формуле
h = R/k.
Все интервалы имеют одинаковую длину.
Слайд 36Нахождение числа интервалов k и длины интервала h
Слайд 37Таблица частот группированной выборки
Слайд 39Графические характеристики выборки
Если на каждом интервале построить прямоугольник с
высотой ni/h, получим гистограмму.
Кривая, соединяющая середины верхних оснований
гистограммы, называется полигоном (частот). Полигон — непрерывная функция (ломаная).
Слайд 40Замечание
Если по оси ординат откладываются высоты ni/h, то площадь ступенчатой
фигуры под графиком гистограммы равна объему выборки n. В этом
случае мы имеем гистограмму частот.
Если по оси ординат откладываются высоты ni/nh, то получаем гистограмму относительных частот. Площадь соответствующей ступенчатой фигуры для нее равна единице.
Слайд 41Задача
По выборке объема n = 100 построена гистограмма частот. Чему
равно значение а?
Решение. Площадь S = n = 100.
S = 2(4 + 12 + a + 18) = 2(34 + a) = 100, отсюда
a = 16.
Слайд 42Смысл гистограммы и полигона
При увеличении объема выборки и уменьшении интервала
группировки гистограмма относительных частот является статистическим аналогом плотности распределения генеральной
совокупности.
Т.о., они дают представление о графике плотности.
Слайд 45Замечание
Для лучшего приближения плотности столбики гистограммы рекомендуется строить без пробелов.
Гистограмма
Полигон
Слайд 47Кумулята
Кумулята относительных частот – это ломаная, соединяющая точки с координатами
(xi, ni*/n). Кумулята частот соединяет точки с координатами (xi, ni*).
Напомним,
что ni* – это накопленная сумма частот, ni* = n1+ n2 +…+ni
Кумулята дает представление о графике функции распределения.