Статистический анализ данных. Первые шаги

Содержание

1. Статистический анализ данных. Первые шаги
2. Понятие выборкиВыборка – это последовательность наблюдений. Это
3. Характеристики выборкиСреднее значение: Это наиболее распространенная характеристика центра
4. Характеристики выборкиМедиана (от лат. mediāna — середина).Медиана — это такое число, что
5. Характеристики выборкиПредположим, что в одной комнате оказалось
6. Характеристики выборкиМода — значение во множестве наблюдений, которое
7. Характеристики рассеяния, разброса, изменения выборкиРазмах: R=xmax-xminНе самая
8. Выборочная дисперсия:Характеристики рассеяния, разброса, изменения выборкиДисперсия характеризует
9. В теории вероятностей доказывается формула:Характеристики рассеяния, разброса,
10. Единицы измерения Dx – это единицы измерения
11. Зависимость двух выборокПусть мы проводим наблюдения так,
12. Числовые характеристики зависимости двух выборокВыборочная ковариация выборок
13. В теории вероятностей доказывается формула:Если использовать обозначения,
14. Величина Kx,y зависит от единиц измерения x
15. Свойства выборочного коэффициента корреляции (доказываются в теории
16. Выборочный коэффициент корреляции характеризует степень линейной зависимости y(x)
17. Выборочный коэффициент корреляции характеризует степень линейной зависимости y(x)
18. Определение параметров функции y=mx+b по наблюдениям ее
19. Определение параметров функции y=mx+b по наблюдениям ее
20. Встроенные функции Matlab для вычисления характеристик выборокmean
21. Встроенные функции Mathcad для вычисления характеристик выборокmean
22. Скачать презентанцию

Понятие выборкиВыборка – это последовательность наблюдений. Это могут быть наблюдения любой природы: некоторой физической величины (температуры, давления, напряжения) или экономические данные (стоимость какого либо объекта или заработная плата), или медицинские и

Главная
Разное
Статистический анализ данных. Первые шаги

Слайды и текст этой презентации

Слайд 1Статистический анализ данных. Первые шаги
Лекция 10
Это «первые шаги», а не

«введение» или «основные понятия», потому что статистический анализ основывается на

теории вероятностей и математической статистике, которую вы еще не проходили. В этой лекции положения статистического анализа поясняются не с помощью математической теории, а на основе здравого смысла.
Эти «первые шаги» помогут понять смысл формул для оценок параметров линейно й зависимости по методу наименьших квадратов.

Статистический анализ данных. Первые шагиЛекция 10Это «первые шаги», а не «введение» или «основные понятия», потому что статистический

Слайд 2Понятие выборки
Выборка – это последовательность наблюдений.
Это могут быть наблюдения

любой природы: некоторой физической величины (температуры, давления, напряжения) или экономические

данные (стоимость какого либо объекта или заработная плата), или медицинские и т. д.
Наблюдения могут проводиться на одним объектом в последовательные моменты времени или в один момент времени над несколькими объектами.
Представим эти наблюдения как массив чисел из n элементов:
x1, x2, …, xn
n называется объемом или длиной выборки.
Значение n может быть весьма велико.
Как описать свойства выборки?
Составить о ней общее представление?
По каким параметрам можно сравнить две выборки, описывающие объекты или явления одинаковой природы?

Например, имеются оценки двух студенческих групп по какому-либо предмету. Как понять, какая группа лучше учится?
А если оценки не двух групп, а двух факультетов?

Понятие выборкиВыборка – это последовательность наблюдений. Это могут быть наблюдения любой природы: некоторой физической величины (температуры, давления,

Слайд 3Характеристики выборки
Среднее значение:

Это наиболее распространенная характеристика центра выборки.
Обычно, когда говорят

«средний», подразумевают «типичный», хотя это не всегда правильно. Например, если

оценки такие: 3, 5, 3, 5, 3, 5, то среднее равно 4, хотя оценку 4 не получил ни один студент. Еще один пример нетипичности среднего значения – это «средняя по госпиталю температура». Среднее значение является хорошей характеристикой выборки, когда наблюдения более или менее равномерно заполняют интервал от xmin (минимального значения среди наблюдений) до xmax (максимального значения среди наблюдений).
Значения xmin и xmax также являются характеристиками выборки.

Характеристики выборкиСреднее значение: Это наиболее распространенная характеристика центра выборки.Обычно, когда говорят «средний», подразумевают «типичный», хотя это не всегда

Слайд 4Характеристики выборки
Медиана (от лат. mediāna — середина).
Медиана — это такое число, что половина из элементов

выборки больше него, а другая половина меньше.
Медиану можно найти,

упорядочив элементы выборки по возрастанию или убыванию и взяв средний элемент. Например, выборка {11, 9, 3, 5, 5} после упорядочивания превращается в {3, 5, 5, 9, 11} и её медианой является число 5.
Если в выборке чётное число элементов, медиана может быть не определена однозначно: для числовых данных чаще всего используют полусумму двух соседних значений (то есть медиану набора {1, 3, 5, 7} принимают равной 4), хотя в соответствии с определением можно было взять, например, 4.5.
Медиана является важной характеристикой выборки и, так же как среднее значение, может быть использована в качестве центра выборки, в случаях сильной «неравномерности» выборки.

Характеристики выборкиМедиана (от лат. mediāna — середина).Медиана — это такое число, что половина из элементов выборки больше него, а другая половина меньше.

Слайд 5Характеристики выборки
Предположим, что в одной комнате оказалось 19 бедняков и

один миллионер. У каждого бедняка есть 5 рублей, а у миллионера —

1 млн рублей. В сумме получается 1 000 095рублей. Если мы разделим деньги равными долями на 20 человек, то получим 50 004,75 ₽. Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате. Такой суммы нет ни одного человека в комнате.
Медиана в этом случае будет равна 5 рублям (полусумма десятого и одиннадцатого, срединных значений упорядоченного ряда). Можно интерпретировать это следующим образом. Разделив всю компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе у каждого не больше 5 рублей, во второй же — не меньше 5 рублей. В общем случае можно сказать, что медиана — это то, сколько принёс с собой «средний» человек. Наоборот, среднее арифметическое — неподходящая характеристика, так как оно значительно превышает сумму наличных, имеющуюся у среднего человека. Но рассматриваемая выборка существенно неоднородна, то есть содержит существенно различающиеся значения.

Характеристики выборкиПредположим, что в одной комнате оказалось 19 бедняков и один миллионер. У каждого бедняка есть 5 рублей,

Слайд 6Характеристики выборки
Мода — значение во множестве наблюдений, которое встречается наиболее часто.

Таким образом, мода – наиболее типичное значение. Иногда в совокупности

встречается более чем одна мода (например: 6, 2, 6, 6, 8, 9, 9, 9, 0; мода — 6 и 9). В этом случае можно сказать, что совокупность мультимодальна.
Мода как средняя величина употребляется чаще для данных, имеющих нечисловую природу. Среди перечисленных цветов автомобилей — белый, чёрный, синий металлик, белый, синий металлик, белый — мода будет равна белому цвету. При экспертной оценке с её помощью определяют наиболее популярные типы продукта, что учитывается при прогнозе продаж или планировании их производства.

Характеристики выборкиМода — значение во множестве наблюдений, которое встречается наиболее часто. Таким образом, мода – наиболее типичное значение.

Слайд 7Характеристики рассеяния, разброса, изменения выборки
Размах: R=xmax-xmin
Не самая лучшая характеристика рассеяния

выборки. Например,
Она одинакова для выборок:
-10, 10, -10, -10, -10, 10,

10, -10, 10, -10, 10
1, -1, -2, 2, -5, 5, 10, 1, -10, 3, -4, 6, 4, -6, -7, 8

Характеристики рассеяния, разброса, изменения выборкиРазмах: R=xmax-xminНе самая лучшая характеристика рассеяния выборки. Например,Она одинакова для выборок:-10, 10, -10,

Слайд 8Выборочная дисперсия:

Характеристики рассеяния, разброса, изменения выборки
Дисперсия характеризует среднее отклонение (разброс,

рассеяние, изменение, вариацию) наблюдений относительно их среднего значения.
Почему суммируются не

отклонения, а их квадраты? – Для того, чтобы положительные отклонения не компенсировались отрицательными. Иначе при больших отклонений можно получить маленькую сумму.
Почему суммируются не модули отклонений, а их квадраты? - Потому, что использование модулей приводит к сложным алгебраическим выражениям. Ведь, например, взять производную от функции y=|x| сложнее, чем от y=x2.
В теории вероятностей доказывается, что лучшую оценку рассеяниея можно получить, если в знаменателе использовать не n, а п-1. Почему, мы попытаемся понять позже. Но на практике используется и приведенная на этом слайде формула.

Выборочная дисперсия:Характеристики рассеяния, разброса, изменения выборкиДисперсия характеризует среднее отклонение (разброс, рассеяние, изменение, вариацию) наблюдений относительно их среднего

Слайд 9В теории вероятностей доказывается формула:

Характеристики рассеяния, разброса, изменения выборки
Если использовать

обозначения, принятые в лекции 9 (слайд 9), то получим:

Эта формула

нам пригодится для выяснения смысла формул (4) лекции 9 - оценивания коэффициентов линейной зависимости по МНК.

(1)

В теории вероятностей доказывается формула:Характеристики рассеяния, разброса, изменения выборкиЕсли использовать обозначения, принятые в лекции 9 (слайд 9),

Слайд 10Единицы измерения Dx – это единицы измерения x в квадрате.
Чтобы

рассеяние измерялось в тех же единицах, что и х, рассматривается

характеристика:

Характеристики рассеяния, разброса, изменения выборки

sx называется выборочным средним квадратичным отклонением или стандартным отклонением.
Естественно:
Dx= sx2 (2)

Единицы измерения Dx – это единицы измерения x в квадрате.Чтобы рассеяние измерялось в тех же единицах, что

Слайд 11Зависимость двух выборок
Пусть мы проводим наблюдения так, что в одном

наблюдении определяем сразу два параметра x и y . Например,

рост и вес человека. Каждое наблюдение можно изобразить точкой на плоскости в декартовой системе координат. Такая картинка (см. лекцию 9) называется полем корреляции (или полем рассеяния).
Если между x и y существует зависимость:
y=f(x)+ε,
где ε – случайная величина и значения ε не очень велики (что значит «не очень велики», определим потом), то выборка y зависит от выборки x.
Если при этом функция f(x) линейная, то существует линейная зависимость выборки y от выборки x.

Зависимость двух выборокПусть мы проводим наблюдения так, что в одном наблюдении определяем сразу два параметра x и

Слайд 12Числовые характеристики зависимости двух выборок
Выборочная ковариация выборок x и y:

Из

теории вероятностей известно: если x и y независимы, то
Kx,y=0.
Поэтому

выборочная ковариация считается мерой зависимости x и y.

Числовые характеристики зависимости двух выборокВыборочная ковариация выборок x и y:Из теории вероятностей известно: если x и y

Слайд 13В теории вероятностей доказывается формула:

Если использовать обозначения, принятые в лекции

9 (слайд 9), то получим:

Эта формула нам пригодится для выяснения

смысла формул (4) лекции 9 - оценивания коэффициентов линейной зависимости по МНК.

(3)

Числовые характеристики зависимости двух выборок

В теории вероятностей доказывается формула:Если использовать обозначения, принятые в лекции 9 (слайд 9), то получим:Эта формула нам

Слайд 14Величина Kx,y зависит от единиц измерения x и y. Например,

пусть x – рост человека, и он измеряется в метрах.

Если мы будем измерять x в сантиметрах, то Kx,y увеличится в 100 раз.
Поэтому в качестве меры зависимости выборок x и y используется безразмерная величина:

Числовые характеристики зависимости двух выборок

Величина r называется выборочным коэффициентом корреляции.

Величина Kx,y зависит от единиц измерения x и y. Например, пусть x – рост человека, и он

Слайд 15Свойства выборочного коэффициента корреляции (доказываются в теории вероятностей):
-1r1. Чем ближе

r к 1, тем сильнее y зависит от х.
При

r=1 корреляционная связь - линейная (наблюдения располагаются на прямой)
При r=0 связь отсутствует, линия регрессии параллельна оси ОХ.
Таким образом, выборочный коэффициент корреляции характеризует степень линейной зависимости y от x.

Числовые характеристики зависимости двух выборок

Свойства выборочного коэффициента корреляции (доказываются в теории вероятностей):-1r1. Чем ближе r к 1, тем сильнее y зависит

Слайд 16Выборочный коэффициент корреляции характеризует степень линейной зависимости y(x)

Слайд 17Выборочный коэффициент корреляции характеризует степень линейной зависимости y(x)

Слайд 18Определение параметров функции y=mx+b по наблюдениям ее значений методом наименьших

квадратов
Вспомним формулу для оценок параметров m и b по

МНК:

Учитывая формулы (1) и (3), получаем:

Таким образом, МНК-оценка коэффициента наклона прямой равна отношению ковариации выборок х и y к дисперсии х.

(4)

Определение параметров функции y=mx+b по наблюдениям ее значений методом наименьших квадратов Вспомним формулу для оценок параметров m

Слайд 19Определение параметров функции y=mx+b по наблюдениям ее значений методом наименьших

квадратов
Из формул (2), (4) и определения выборочного коэффициента корреляции,

получим формулы, связывающие значения коэффициента m и коэффициента корреляции:

Обратите внимание, что между коэффициентом детерминации и коэффициентом корреляции существует связь:
R2=r2

Определение параметров функции y=mx+b по наблюдениям ее значений методом наименьших квадратов Из формул (2), (4) и определения

Слайд 20Встроенные функции Matlab для вычисления характеристик выборок
mean (x) – возвращает

среднее значение выборки;
median(x) – возвращает медиану выборки;
std(x) - возвращает среднее

квадратичное отклонение выборки;
cov(x,y) - для двух векторов x, y одинаковой длины возвращает матрицу 22, на главной диагонали которой стоят дисперсия x (элемент с индексами (1,1) и дисперсия y (элемент с индексами (2,2) , а вне главной диагонали – два одинаковых числа; значение ковариации x и y;
corrcoef(x,y) – для двух векторов x, y одинаковой длины возвращает матрицу 22, на главной диагонали которой стоят единицы, а вне главной диагонали – два одинаковых числа; это и есть значение коэффициента корреляции; при других аргументах эта функция может возвращать попарные коэффициенты корреляции набора векторов;

Встроенные функции Matlab для вычисления характеристик выборокmean (x) – возвращает среднее значение выборки;median(x) – возвращает медиану выборки;std(x)

Слайд 21Встроенные функции Mathcad для вычисления характеристик выборок
mean (x) – возвращает

среднее значение выборки;
median(x) – возвращает медиану выборки;
var(x) – возвращает дисперсию

(вариацию) выборки;
stdev((x) – возвращает среднее квадратичное отклонение выборки;
cvar(x,y) - вычисляет ковариацию выборок x и y;
corr(x,y) – вычисляет коэффициент корреляции выборок x и y.

Встроенные функции Mathcad для вычисления характеристик выборокmean (x) – возвращает среднее значение выборки;median(x) – возвращает медиану выборки;var(x)

Скачать презентацию

Разделы презентаций

Статистический анализ данных. Первые шаги

Содержание

Слайды и текст этой презентации

Слайд 1Статистический анализ данных. Первые шагиЛекция 10Это «первые шаги», а не

«введение» или «основные понятия», потому что статистический анализ основывается на

Слайд 2Понятие выборкиВыборка – это последовательность наблюдений. Это могут быть наблюдения

любой природы: некоторой физической величины (температуры, давления, напряжения) или экономические

Слайд 3Характеристики выборкиСреднее значение: Это наиболее распространенная характеристика центра выборки.Обычно, когда говорят

«средний», подразумевают «типичный», хотя это не всегда правильно. Например, если

Слайд 4Характеристики выборкиМедиана (от лат. mediāna — середина).Медиана — это такое число, что половина из элементов

выборки больше него, а другая половина меньше. Медиану можно найти,

Слайд 5Характеристики выборкиПредположим, что в одной комнате оказалось 19 бедняков и

один миллионер. У каждого бедняка есть 5 рублей, а у миллионера —

Слайд 6Характеристики выборкиМода — значение во множестве наблюдений, которое встречается наиболее часто.

Таким образом, мода – наиболее типичное значение. Иногда в совокупности

Слайд 7Характеристики рассеяния, разброса, изменения выборкиРазмах: R=xmax-xminНе самая лучшая характеристика рассеяния

выборки. Например,Она одинакова для выборок:-10, 10, -10, -10, -10, 10,

Слайд 8Выборочная дисперсия:Характеристики рассеяния, разброса, изменения выборкиДисперсия характеризует среднее отклонение (разброс,

рассеяние, изменение, вариацию) наблюдений относительно их среднего значения.Почему суммируются не

Слайд 9В теории вероятностей доказывается формула:Характеристики рассеяния, разброса, изменения выборкиЕсли использовать

обозначения, принятые в лекции 9 (слайд 9), то получим:Эта формула

Слайд 10Единицы измерения Dx – это единицы измерения x в квадрате.Чтобы

рассеяние измерялось в тех же единицах, что и х, рассматривается

Слайд 11Зависимость двух выборокПусть мы проводим наблюдения так, что в одном

наблюдении определяем сразу два параметра x и y . Например,

Слайд 12Числовые характеристики зависимости двух выборокВыборочная ковариация выборок x и y:Из

теории вероятностей известно: если x и y независимы, то Kx,y=0.Поэтому

Слайд 13В теории вероятностей доказывается формула:Если использовать обозначения, принятые в лекции

9 (слайд 9), то получим:Эта формула нам пригодится для выяснения

Слайд 14Величина Kx,y зависит от единиц измерения x и y. Например,

пусть x – рост человека, и он измеряется в метрах.

Слайд 15Свойства выборочного коэффициента корреляции (доказываются в теории вероятностей):-1r1. Чем ближе

r к 1, тем сильнее y зависит от х. При

Слайд 16Выборочный коэффициент корреляции характеризует степень линейной зависимости y(x)

Слайд 17Выборочный коэффициент корреляции характеризует степень линейной зависимости y(x)

Слайд 18Определение параметров функции y=mx+b по наблюдениям ее значений методом наименьших

квадратов Вспомним формулу для оценок параметров m и b по

Слайд 19Определение параметров функции y=mx+b по наблюдениям ее значений методом наименьших

квадратов Из формул (2), (4) и определения выборочного коэффициента корреляции,

Слайд 20Встроенные функции Matlab для вычисления характеристик выборокmean (x) – возвращает

среднее значение выборки;median(x) – возвращает медиану выборки;std(x) - возвращает среднее

Слайд 21Встроенные функции Mathcad для вычисления характеристик выборокmean (x) – возвращает

среднее значение выборки;median(x) – возвращает медиану выборки;var(x) – возвращает дисперсию

Похожие презентации

Обратная связь

Что такое TheSlide.ru?

Слайд 1Статистический анализ данных. Первые шаги
Лекция 10
Это «первые шаги», а не

Слайд 2Понятие выборки
Выборка – это последовательность наблюдений.
Это могут быть наблюдения

Слайд 3Характеристики выборки
Среднее значение:

Это наиболее распространенная характеристика центра выборки.
Обычно, когда говорят

Слайд 4Характеристики выборки
Медиана (от лат. mediāna — середина).
Медиана — это такое число, что половина из элементов

выборки больше него, а другая половина меньше.
Медиану можно найти,

Слайд 5Характеристики выборки
Предположим, что в одной комнате оказалось 19 бедняков и

Слайд 6Характеристики выборки
Мода — значение во множестве наблюдений, которое встречается наиболее часто.

Слайд 7Характеристики рассеяния, разброса, изменения выборки
Размах: R=xmax-xmin
Не самая лучшая характеристика рассеяния

выборки. Например,
Она одинакова для выборок:
-10, 10, -10, -10, -10, 10,

Слайд 8Выборочная дисперсия:

Характеристики рассеяния, разброса, изменения выборки
Дисперсия характеризует среднее отклонение (разброс,

рассеяние, изменение, вариацию) наблюдений относительно их среднего значения.
Почему суммируются не

Слайд 9В теории вероятностей доказывается формула:

Характеристики рассеяния, разброса, изменения выборки
Если использовать

обозначения, принятые в лекции 9 (слайд 9), то получим:

Эта формула

Слайд 10Единицы измерения Dx – это единицы измерения x в квадрате.
Чтобы

Слайд 11Зависимость двух выборок
Пусть мы проводим наблюдения так, что в одном

Слайд 12Числовые характеристики зависимости двух выборок
Выборочная ковариация выборок x и y:

Из

теории вероятностей известно: если x и y независимы, то
Kx,y=0.
Поэтому

Слайд 13В теории вероятностей доказывается формула:

Если использовать обозначения, принятые в лекции

9 (слайд 9), то получим:

Эта формула нам пригодится для выяснения

Слайд 15Свойства выборочного коэффициента корреляции (доказываются в теории вероятностей):
-1r1. Чем ближе

r к 1, тем сильнее y зависит от х.
При

квадратов
Вспомним формулу для оценок параметров m и b по

квадратов
Из формул (2), (4) и определения выборочного коэффициента корреляции,

Слайд 20Встроенные функции Matlab для вычисления характеристик выборок
mean (x) – возвращает

среднее значение выборки;
median(x) – возвращает медиану выборки;
std(x) - возвращает среднее

Слайд 21Встроенные функции Mathcad для вычисления характеристик выборок
mean (x) – возвращает

среднее значение выборки;
median(x) – возвращает медиану выборки;
var(x) – возвращает дисперсию