Слайд 1ГРАФИКИ
И ОПИСАТЕЛЬНАЯ СТАТИСТИКА
Слайд 4Описательная статистика
Методы и способы, используемые для «суммирования», организации
и «уменьшения» большого количества наблюдений (статистических опытов).
Слайд 5Описательная статистика
Частотные распределения и графики
Меры центральной тенденции
Меры изменчивости
Меры формы
…
Слайд 6Группировка данных
Предположим, мы спрашивали студентов, насколько их провал на экзамене
зависел от причин, которые они никак не могли контролировать.
Ответы
даются по шкале от 1 до 7
(1 - совсем не зависел, 7 - полностью зависел)
Гипотетические данные опроса 25 студентов:
3,5,6,5,2,3,6,4,6,7,6,4,5,5,1,2,5,4,4,5,5,7,3,3,4
Слайд 7Группировка данных
Гипотетические данные опроса 25 студентов:
3,5,6,5,2,3,6,4,6,7,6,4,5,5,1,2,5,4,4,5,5,7,3,3,4
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7,7
Слайд 8Группировка данных
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7,7
Слайд 10Группировка данных
Столбчатая диаграмма
Слайд 15Группировка данных
А если значений много?
40, 48, 11, 16, 52, 64,
21, 33, 39, 69, 45, 8,35, 22, 57, 74, 13,
25, 47, 27, 38, 43, 15, 33, 66, 52, 47, 37, 0, 24, 43, 61, 35, 29, 52, 40, ….
Слайд 16Группировка данных
Частотная таблица получается большой:
Слайд 17Группировка данных
Тогда стоит сгруппировать значения переменной в интервалы
1. Найти разницу
между наибольшим и наименьшим значением
и прибавить к ней 1
(74-0)+1=75
2.
Разделить ответ на число выбранных интервалов и округлить до ближайшего нечетного числа
i=75/10=7.5 7
3. К самому маленькому значению переменной прибавить i-1
0+i-1=0+7-1=6
Первый интервал будет от 0 до 6
4. Следующий интервал начинается с числа, которое следует за наибольшим значением предыдущего интервала
7+i-1=7+7-1=13
Второй интервал будет от 7 до 13
Слайд 22Использование графиков
Lie factor – отношение разницы в размере элементов графика
к разнице величин, которые они представляют
Наиболее информативные («честные») графики имеют
Lie factor =1
Слайд 23Использование графиков
Следует избегать соединения изменений в оформлении графика с изменениями
в данных
Слайд 24Использование графиков
Еще одна проблема – многомерные изменения, т.е. изменения сразу
по нескольким размерностям, например, по высоте и ширине.
Если масштабирование ведется
сразу по двум измерениям, площадь изменяется пропорционально квадрату изменений!
Слайд 26Основные понятия
Выборочной совокупностью или просто выборкой называют совокупность случайно отобранных
объектов.
Генеральной совокупностью называют совокупность объектов, из которых производится выборка.
Слайд 27Основные понятия
Параметры – это меры описания, полученные при сплошном описании
(описании генеральной совокупности).
Статистики (или оценки параметров) – это те же
меры, но полученные при выборочном наблюдении (т.е. параметры описывают генеральную совокупность, а статистики – ее выборку).
Слайд 28Генеральная и выборочная совокупности
Генеральная совокупность
Выборка
Параметр
Статистика
Слайд 29Выборки
Выборки бывают разные!
Классификация Л.Мюллера и К. Шусслера
По критерию методов отбора
выборки бывают
1) Не случайные
2) Случайные (вероятностные, пробабилистские)
Слайд 30Выборки
Классификация Л.Мюллера и К. Шусслера
1) Не случайные – не имеют
теоретико-вероятностного обоснования и, следовательно, не соответствуют критерию репрезентативности, т.е. статистики
не могут выступать оценками генеральной совокупности
Слайд 31Выборки
Классификация Л.Мюллера и К. Шусслера
1) Не случайные
1.1) Бессистемная выборка
1.2) Доступная
выборка
1.3) Целенаправленная выборка
Слайд 32Выборки
Классификация Л.Мюллера и К. Шусслера
1.1) Бессистемная выборка
Отбор любых
случайно встретившихся прохожих, согласившихся принять участие в исследовании.
Может
использоваться только для самого первого ознакомления с проблемной ситуацией
Слайд 33Выборки
Классификация Л.Мюллера и К. Шусслера
1.2) Доступная выборка
Формируется из
числа лиц, которые по субъективным и объективным факторам могут быть
включены в число респондентов, т.е. доступны физически.
Используется для накопления данных о латентных или аномальных явлениях
Слайд 34Выборки
Классификация Л.Мюллера и К. Шусслера
1.3) Целенаправленная выборка
Преднамеренный отбор
определенной категории респондентов, которые по оценке исследователя в наибольшей степени
информированы по проблеме или заинтересованы в ее изучении
Используется в экспертных опросах, лабораторных исследованиях и социальных экспериментах
Слайд 35Выборки
Классификация Л.Мюллера и К. Шусслера
2) Случайные
2.1) Простая случайная
2.2) Серийная
2.3) Систематическая
(интервальная)
2.4) Стратифицированная
2.5) Комбинированная
Слайд 36Выборки
Классификация Л.Мюллера и К. Шусслера
2.1) Простая случайная – формируется путем
случайного отбора единиц наблюдения из однородной генеральной совокупности (жребий, таблицы
случайных чисел, компьютерное моделирование)
.
Слайд 37Выборки
Классификация Л.Мюллера и К. Шусслера
2.2) Серийная – единицами отбора являются
статистические серии (таксоны, гнезда) – территориальные общности, коллективы, семьи и
т.д. Серии выбираются по методике простой случайной выборки
Слайд 38Выборки
Классификация Л.Мюллера и К. Шусслера
2.3) Систематическая (интервальная) – отбор единиц
производится через один и тот же интервал, при этом начало
отсчета определяется случайным образом
Слайд 39Выборки
Классификация Л.Мюллера и К. Шусслера
2.4) Стратифицированная выборка на основе предварительного
выделения в генеральной совокупности однородных частей, типических групп (страт). В
каждой страте производится случайный отбор единиц наблюдения, как правило, пропорционально их доле в генеральной совокупности.
Слайд 40Выборки
Классификация Л.Мюллера и К. Шусслера
2.5) Комбинированная – выборка, в которой
используются различные способы отбора.
Например: Гнездовая выборка – по два
предприятия из типичных групп (сильных, средних и слабых). Далее отбор респондентов осуществляется интервальным методом.
Слайд 41Меры центральной тенденции
Среднее арифметическое (М или х)
Медиана Me
или срединное значение
Мода Md (наиболее вероятное значение)
Слайд 42Меры центральной тенденции
Среднее арифметическое
M=(x1+…+xN)/N
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7,7
М=(1+2+2+3+3+….+6+7+7)/25=4,4
Слайд 43Меры центральной тенденции
Медиана Me
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7,7
прибавляем 1 к числу значений (размеру
выборки) и делим на 2. Затем определяет значение, которое соответствует
вычисленной позиции в последовательности значений.
(25+1)/2=13
Me=5
Слайд 44Меры центральной тенденции
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7
А что же делать, когда у нас четное
число значений? В этом случае медиана - это значение, которое
приходится как раз посередине двух срединных значений. (24+1)/2=12,5
значит, значение медианы будет между 12-й и 13-й позицией
Me=(4+5)/2=4,5
Слайд 45Меры центральной тенденции
Мода
Мd=5
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7,7
Слайд 46Доверительный интервал
Доверительный интервал
(95% confidence limits of mean)
для среднего представляет
интервал значений вокруг оценки, где с данным уровнем доверия находится
«истинное» (неизвестное) среднее генеральной совокупности.
Слайд 47Доверительный интервал
Если среднее выборки равно 23, а нижняя и верхняя
границы доверительного интервала с уровнем p=.95 равны 19 и 27
соответственно, то можно заключить, что с вероятностью 95% интервал с границами 19 и 27 накрывает среднее генеральной совокупности.
Слайд 48Меры изменчивости
Размах
Дисперсия
Стандартное (среднеквадратичное) отклонение
Стандартная ошибка
Слайд 49Меры изменчивости
Средний вес команды = 95 кг
Слайд 50Меры изменчивости
Средний вес команды тоже = 95 кг
Слайд 51Меры изменчивости
Размах R = Xmax- Xmin
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7
R = Xmax–
Xmin=7-1=6
Слайд 53Меры изменчивости
Пример. Вычислить дисперсию для следующей выборки:
5, 6, 3, 8,
5, 9
Вычисляем среднее арифметическое: = (5+6+3+8+5+9)/6=6
Слайд 54Меры изменчивости
Подставляем в формулу:
Слайд 55Меры изменчивости
Другая формула для дисперсии:
Слайд 56Меры изменчивости
Стандартное отклонение
Слайд 57Меры изменчивости
Стандартная ошибка среднего значения - это стандартное отклонение, деленное
на квадратный корень из объема выборки.
Слайд 58Меры изменчивости
В диапазоне удвоенной стандартной ошибки по обе стороны от
среднего значения с вероятностью примерно 95% находится среднее значение генеральной
совокупности.
Слайд 59Меры формы
Асимметрия является мерой несимметричности распределения. Если этот коэффициент значительно
отличается от 0, распределение является асимметричным
А=
Слайд 60Меры формы
Симметричное распределение (А=0)
Когда распределение симметрично, среднее, мода и медиана
совпадают
Х=Ме=Md
Слайд 61Меры формы
Левостороннее, положительное распределение
Если среднее больше медианы, то распределение
называется левосторонним или положительно асимметричным (по знаку числовой характеристики А>0).
Md Ме Х
Слайд 62Меры формы
Отрицательное, правостороннее распределение
Если среднее меньше медианы, то
распределение называется правосторонним или отрицательно асимметричным (A
Слайд 63Меры формы
Эксцесс измеряет остроту пика распределения
Е=
Слайд 66Нормальное распределение
Нормальное распределение:
f(x)=(1/2)exp{(x-m)2/22}
cреднее значение m
дисперсия 2
асимметрия А = 0
эксцесс Е
= 3
Стандартное нормальное распределение имеет нулевое среднее и единичную дисперсию
Слайд 68Нормальное распределение
68.26%
95.44%
99.74%
Слайд 69Меры формы
Коррупционный
всплеск
Баллы теста
Количество абитуриентов
Слайд 70Нормальное распределение
Нормальная кривая человеческих достижений:
2 года – не писать в
штаны
10 лет – иметь много друзей и много тусоваться
20 лет
– иметь сексуальные отношения
30 лет – много зарабатывать и иметь крутую тачку
50 лет – много зарабатывать и иметь крутую тачку
60 лет – иметь сексуальные отношения
70 лет – иметь много друзей и много тусоваться
78 лет – не писать в штаны
Слайд 72Какую меру выбрать?
Медиана используется когда
1) распределение асимметрично
2) есть опасность
перекоса из-за экстремальных значений. Медиана не чувствительна к экстремальным значениям,
в то время как среднее очень чувствительно.
3)медиану можно вычислять для данных шкалы порядка и выше.
Слайд 73Что мы должны знать?
Как строить частотные таблицы и графики
Меры центральной
тенденции
Меры изменчивости
4) Меры формы
5) Свойства нормального распределения