Слайд 1Теоретические основы статистических методов контроля качества
Описательная статистика
Слайд 2ГОСТ Р 50779.10-2000
ГОСУДАРСТВЕННЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
СТАТИСТИЧЕСКИЕ МЕТОДЫ
ВЕРОЯТНОСТЬ И ОСНОВЫ СТАТИСТИКИ
Термины
и определения
единица [объект]
То, что можно рассмотреть и описать индивидуально.
Примечание - Единицей может, например, быть:
- изделие;
- определенное количество материала;
- услуга, действие или процесс;
- организация или человек;
некоторая их комбинация
признак
Свойство, которое помогает идентифицировать или различать единицы данной генеральной совокупности.
Примечание - Признак может быть количественным или качественным (альтернативным)
(генеральная) совокупность
Множество всех рассматриваемых единиц.
Примечание - Для случайной величины распределение вероятностей рассматривают как определение совокупности этой случайной величины
подсовокупность
Определенная часть генеральной совокупности
Слайд 3Термины и определения
класс
a) Для качественного признака - Определенные группы
объектов, каждые из кото-рых имеют отдельные общие признаки, взаимно исключают
друг друга, исчерпывая все объекты.
b) Для количественного признака - Каждый из последовательных взаимоисклю-чающих интервалов, на которые разделен весь интервал варьирования
границы класса; пределы класса
Значения, определяющие верхнюю и нижнюю границы класса.
Примечания
1 Следует уточнить, какую из двух границ считают принадлежащей классу.
2 Если возможно, надо чтобы граница класса не совпадала с возможным значением
середина класса
Среднее арифметическое верхней и нижней границ класса для количественного признака
интервал класса
Разница между верхней и нижней границами класса для количественного признака
Слайд 4Термины и определения
частота
Число наступлений события данного типа или число
наблюдений, попавших в данный класс
накопленная кумулятивная частота
Число наблюдений из множества,
имеющих значения, которые меньше заданного значения или равны ему.
Примечание - Для данных, объединенных в классы, кумулятивную частоту можно указать только в границах класса
относительная частота
Частота, деленная на общее число событий или наблюдений
распределение частот
Эмпирическое отношение между значениями признака и его частотами или его относительными частотами.
Примечание - Это распределение можно представить графически в виде гистограммы, столбиковой диаграммы, полигона кумулятивных частот или как таблицу сопряженности двух признаков
гистограмма
Графическое представление распределения частот для количественного признака, образуемое соприкасающимися прямоугольниками, основаниями которых служат интервалы классов, а площади пропорциональны частотам этих классов
столбиковая диаграмма
Графическое представление распределения частот для дискретной случайной величины, образуемое набором столбцов равной ширины, высоты которых пропорциональны частотам
полигон кумулятивных частот
Ломаная линия, получаемая при соединении точек, абсциссы которых равны верхним границам классов, а ординаты - либо кумулятивным абсолютным частотам, либо кумулятивным относительным частотам
Слайд 6ИЗМЕРИМЫЙ ПРИЗНАК И ЕГО ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ.
ИСХОДНЫЕ НАБЛЮДЕНИЯ.
ТАБЛИЦА ЧАСТОТ. ЭМПИРИЧЕСКОЕ
РАСПРЕДЕЛЕНИЕ
Слайд 7Основу статистического исследования составляет множество данных, полученных по результатам измерения
одного или нескольких признаков.
Путем вычисления или измерения признаков соответствующими
измерительными средствами получают ряд значений, называемый также рядом измерений.
Ряд измерений может состоять, например, из значений результатов измерений диаметра валов привода, температуры прокатки и плавки подшипниковой стали или значений количества телефонных вызовов, регистрируемых за определенный промежуток времени, например в 1 мин.
Исследуемыми измеримыми признаками являются здесь соответственно диаметр, температура прокатки или плавки или число вызовов за определенный промежуток времени.
Эти признаки соответствуют определению случайных величин.
Обозначим их заглавными латинскими буквами X, Y, Z, ... .
Область их значений охватывает все возможные значения, которые может принимать признак или случайная величина.
Слайд 8Ряд измерений объема n состоит из n значений признака, которые
обозначаются соответствующими малыми латинскими буквами, снабженными индексом, указывающим порядковый номер
измерения; х1, х2,..., хn представляют собой значения, которые X принимает в каждом конкретном случае.
Наблюдаемые значения х1, х2 ..., хn называются реализациями случайной величины X.
Речь идет о непрерывной случайной величине, если она принимает все возможные значения в определенном интервале, например, при определении диаметра валов привода или при измерении температуры плавки или проката подшипниковой стали.
Количество телефонных вызовов представляет собой дискретную случайную величину, так как она может принимать лишь целочисленные значения 0, 1, 2, ... .
Слайд 9ПРИМЕР 1
У 20 изготовленных на токарном автомате цапф передней оси
контролировался диаметр; в результате были получены значения положительных отклонений вмк
(микронах) от номинального размера 20 мм, приведенные в таблице 1.
Признак или случайная величина X есть диаметр цапф, который теоретически (с ограничениями, налагаемыми имеющейся точностью измерений) может принимать любые значения в интервале, величина которого определяется заданной технологией станка и материала, т. е. X есть непрерывная величина.
Объем ряда измерений составляет n = 20.
Реализациих1, x2, ...,х20 случайной величины X образуют последовательность, представленную в таблице 1.
Такая последовательность называется исходной. Она содержит неупорядоченные отклонения от номинального размера между 39 и 46мк.
Слайд 10Таблица 1. Исходные значения величин в примере
(20 измерений диаметра
цапф)
Слайд 11Если упорядочить измерения по величине и указать вертикальными черточками их
повторяемость, получится первичная таблица распределения (табл. 2).
В столбец (1)
таблицы заносятся в порядке возрастания результаты измерений, в столбец (2) — штриховые отметки повторяемости данного измеренного значения, в столбец (3) — их количество, т. е. абсолютная частота каждого результата измерения.
Таблица 2. Первичная таблица распределения
Первичная таблица распределения показывает, что большинство измерений, а именно 14 из 20, лежит между 40 и 42мк, в то время как вне этого интервала располагается относительно мало величин.
Слайд 12Пример 2
Объем ряда измерений составляет n = 150. Имеют место
отклонения от 25 до 52мк. Обозначим наименьшее измеренное значение в
исходной последовательности через xмин (xмин = 25мк), а наибольшее измеренное значение — через xмакс (хмакс= 52мк). Разность между этими величинами называется размахом R:
R = хмакс - хмин = 52-25 = 27 мк.
при большом объеме n измерений первичная таблица распределения по-прежнему остается слишком обширной. Поэтому следует прибегнуть к классификации (группировке;) измерений, объединяя по нескольку следующих друг за другом значений в класс, или группу.
Слайд 13Эмпирическое распределение частот
Первое указание на вид распределения частот нам дают
штриховые отметки таблицы частот. Количество штрихов в отдельных интервалах дает
наглядную картину эмпирического распределения случайной величины X. На практике, например в технике контрольных карт, этого оказывается вполне достаточно для оценки распределения.
Если для примера 1 в прямоугольных координатах отложить по оси абсцисс границы интервала из табл.: 24,5... 27,5мк; 27,5... 30,5мк; а по оси ординат — соответствующие абсолютные или же относительные частоты и построить для каждого интервала прямоугольник ширинойd = 3мк и высотойhm или (hm/n)*100% (после выбора соответствующего масштаба на осях координат), то получится ступенчатый многоугольник, называемый также гистограммой. Совокупность штриховых отметок по существу представляет собой такую гистограмму, повернутую на 90°.
Слайд 14Другое представление получается, если в серединах интервалов на оси абсцисс
— обозначим их через nт (т = 1, 2, ...,k)
— восстановить перпендикуляры высотойhm или (hm/n)*100% и соединить между собой их вершины.
В результате получаем полигон частот, или многоугольник распределения (эмпирическую кривую распределения).
При увеличении ширины интервалаd полигон частот все более сглаживается, в результате чего ранее имевшиеся вершины могут исчезнуть. При этом возникает опасность существенного смазывания картины эмпирического распределения, так что уже по этой одной причине значения d не следовало бы выбирать слишком большими.
Слайд 15Полигоны частот к примеру 2 (d = 3 мк)
Слайд 16Наряду с этим имеется множество методов графического представления распределений частот
(7 простых японских методов).
Слайд 17СТАТИСТИКИ ЧИСЛОВЫХ ХАРАКТЕРИСТИК ОДНОГО ИЗМЕРИМОГО ПРИЗНАКА
Слайд 18СРЕДНИЕ ЗНАЧЕНИЯ
В качестве характеристик измеримого признака вместо исходных значений величин
или таблицы их частот используются числовые характеристики, называемые также статистическими
мерами, которые служат для описания и сравнения распределений. Важнейшей и чаще всего применяемой на практике статистической характеристикой является среднее значение, описывающее одним числом результаты некоторого ряда измерений.
Для статистических исследований в технике особый интерес представляют следующие средние значения: среднее арифметическое, медиана, или срединное значение, модаD и среднее геометрическое .
Слайд 19Среднее арифметическое
Наиболее известно среднее арифметическое ряда измерений.
В повседневной жизни
нам приходится часто сталкиваться с такими средними значениями.
Так, например,
на предприятии рассчитывается среднемесячная доля брака, средний расход сырья в цехе или среднесуточная производительность агрегата; при метеорологических исследованиях вычисляют среднегодовую температуру или среднесуточную влажность воздуха.
Точно так же, как вычисляют эти средние значения (суммирование индивидуальных значений и деление суммы на количество величин), определяют и среднее арифметическое ряда измерений объема п со значениямиx1х2,...,хn
Среднее арифметическое ряда измерений определяется по формуле
Слайд 20ВЫБОРОЧНОЕ СРЕДНЕЕ
Для выборки, состоящей из чисел Х„ Хг, Хп, выборочное
среднее (обозначаемое символом X ) равно
Слайд 21Поскольку среднее арифметическое зависит от всех элементов выборки, наличие экстремальных
значений значительно влияет на результат.
В таких ситуациях среднее арифметическое
может исказить смысл числовых данных.
Следовательно, описывая набор данных, содержащий экстремальные значения, необходимо указывать медиану либо среднее арифметическое и медиану
Слайд 22Медиана
Важной числовой характеристикой распределения для ряда измерений объема n
является медиана, или срединное значение .
Для ее вычисления все
наблюдения необходимо расположить в порядке возрастания или убывания результатов измерений.
Если n — нечетное число, то медиана просто является числом, находящимся в середине упорядоченной последовательности.
При четном n медиана равна среднему арифметическому двух расположенных в середине значений упорядоченной последовательности.
По определению медиана зависит исключительно от одного или двух срединных значений ряда измерений. Остальные значения последовательности можно поэтому произвольно варьировать, не изменяя при этом медиану , в то время как среднее арифметическое может существенно измениться.
Особенно легко найти медиану малого количества измерений.
В связи с этим медиана используется главным образом для построения контрольных карт, где ей отдается предпочтение перед средним арифметическим, так как там обычно оперируют с выборками измерений из 5 или 7 значений, откуда легко найти как срединное значение (3-е или 4-е) и занести его на контрольную карту, в то время как при использовании среднего арифметического нужно произвести ряд вычислений (сложить измерения и разделить сумму на их количество).
Слайд 23ПРИМЕР
Чтобы вычислить медиану выборки, сначала необходимо упорядочить исходные данные.
В соответствии
с правилом, относящимся к выборкам, содержащим нечетное количество элементов, позиция
медианы вычисляется по формуле
Таким образом, медиана равна 6,5.
Обратите внимание на то, что медиана, равная 6,5, ненамного больше среднего значения, равного 6,08.
Слайд 24ПРИМЕР
Упорядоченный массив теперь выглядит так .
Согласно правилу, относящемуся к
вычислению медианы выборки, содержащей четное количество элементов, позиция медианы задается
формулой
Следовательно, медиана равна среднему значению, вычисленному по третьему и четвертому элементам, т.е. 12,2.
Слайд 25Мода D
Мода D (наиболее вероятное значение) есть наиболее часто встречающаяся
в данном ряде измерений величина.
Если измерения образованы реализациями дискретной случайной
величины X тоD можно установить непосредственно по таблице частот как значение признака, имеющее максимальную абсолютную частоту.
Если же измерения являются реализациями непрерывной случайной величины Х, то моду D определяют при наличии первичной таблицы распределения как значение с максимальной абсолютной частотой или (при отсутствии такой таблицы) приближенно по таблице частот.
Если имеется только таблица частот, т. е. сгруппированный материал, то можно определить лишь интервал, в который попадает мода D. Это будет интервал с наибольшей абсолютной частотой hm.
При графическом представлении эмпирического распределения в виде полигона частот D равно значению измеримого признака, которому соответствует максимум ординаты полигона.
Многовершинные распределения частот (с несколькими максимумами) обладают несколькими модами, поэтому для их характеристики удобнее избрать моду D, а не среднее арифметическое, так как она лучше отражает типичные черты распределения, чем среднее значение или медиана.
На практике мода чаще всего применяется в демографической статистике, при решении же технических задач она еще не нашла широкого применения.
Слайд 26ПРИМЕР
Системный администратор, руководящий работой корпоративной сети, подсчитывает количество сбоев сервера,
происходящих за день. В следующей таблице приведены данные его наблюдений
за последние две недели.
Вычислите моду этой выборки .
РЕШЕНИЕ. Упорядочим массив.
Чаще всего в этой выборке повторяется число 3. Следовательно, мода равна 3. Таким образом, системный администратор может утверждать, что, как правило, сервер сбоит 3 раза в день.
Обратите внимание на то, что мода этой выборки равна 3, а среднее выборочное значение равно 4,5. Число 26 является выбросом, поэтому для оценки среднего количества сбоев за день следует пользоваться медианой или модой, а не средним арифметическим значением.
Слайд 27Квартили
Квартили (quartiles) — это показатели, которые чаще всего используются для
оценки распределения данных при описании свойств больших числовых выборок.
В
то время как медиана разделяет упорядоченный массив пополам (50% элементов массива меньше медианы и 50% — больше), квартили разбивают упорядоченный набор данных на четыре части.
Квартили вычисляются по формулам
Первый квартиль Q1 — это число, разделяющее выборку на две части: 25% элементов меньше, а 75% — больше первого квартиля.
Третий квартиль Q3 — это число, разделяющее выборку на две части: 75% элементов меньше, а 25% — больше третьего квартиля.
Слайд 28ПРИМЕР
Вычислим квартили выборки. Упорядоченный массив имеет следующий вид.
Это означает, что
25% значений СВ не превышает -0,7%.
Слайд 29Среднее геометрическое
В отличие от среднего арифметического среднее геометрическое позволяет
оценить степень изменения переменной с течением времени.
Среднее геометрическое ряда измерений
объема n с членами х1, х2, …, xn определяется формулой
Значение вычисляют, логарифмируя при произвольном основании
В определении среднего геометрического предполагают, чтоxi>0 для любых членов.
Слайд 30Вариация числовых данных
Важное свойство числовых данных — их вариация, характеризующая
степень дисперсии (dispersion) данных.
Две разные выборки могут отличаться как
средними значениями, так и вариациями.
Однако, как показано, две выборки могут иметь одинаковые вариации, но разные средние значения, либо одинаковые средние значения и совершенно разные вариации.
Два симметричных распределения колоколообразной формы с одинаковым разбросом и разными средними значениями
Два симметричных распределения колоколообразной формы с одинаковыми средними значениями и разным разбросом
Слайд 31МЕРЫ РАССЕИВАНИЯ
Для описания эмпирических распределений недостаточно введения единственного числа, характеризующего
ряд измерений через их среднее значение, так как два эмпирических
распределения с одинаковыми средними могут иметь совершенно разный вид.
Существует пять оценок вариации данных: размах, межквартилъный размах, дисперсия, стандартное отклонение и коэффициент вариации.
Размах R
Размахом (range) называется разность между наибольшим и наименьшим элементами выборки
Слайд 32Размах
Размах позволяет измерить общий разброс (total spread) данных.
Хотя размах
выборки является весьма простой оценкой общего разброса данных, его слабость
заключается в том, что он никак не учитывает, как именно распределены данные между минимальным и максимальным элементами.
Сравнение трех выборок, имеющих одинаковый размах
Слайд 33Межквартильный размах
Межквартильный, или средний, размах — это разность между третьим
и первым квартилями выборки.
Эта величина позволяет оценить разброс 50% элементов
и не учитывать влияние экстремальных элементов.
Следует отметить, что величины Q1 и Q3, а значит, и межквартильный размах, не зависят от наличия выбросов, поскольку при их вычислении не учитывается ни одна величина, которая была бы меньше Q1, или больше Q3.
Суммарные количественные характеристики, такие как медиана, первый и третий квартили, а также межквартильный размах, на которые не влияют выбросы, называются устойчивыми показателями.
Слайд 34Дисперсия и стандартное отклонение
Хотя размах и межквартильный размах позволяют оценить
общий и средний разброс выборки соответственно, ни одна из этих
оценок не учитывает, как именно распределены данные.
Дисперсия и стандартное отклонение лишены этого недостатка. Эти показатели позволяют оценить степень колебания данных вокруг среднего значения.
Выборочная дисперсия — это сумма квадратов разностей между элементами выборки и выборочным средним, деленная на величину, равную объему выборки минус один.
Слайд 35Стандартное выборочное отклонение
Наиболее практичной и широко распространенной оценкой разброса данных
является стандартное выборочное отклонение (sample standard deviation).
Этот показатель обозначается
символом S и равен квадратному корню из выборочной дисперсии.
Стандартное выборочное отклонение — квадратный корень из суммы квадратов разностей между элементами выборки и выборочным средним, деленной на величину, равную объему выборки минус один.
Слайд 36ВЫЧИСЛЕНИЕ ПОКАЗАТЕЛЕЙ S2 И S
Чтобы вычислить выборочную дисперсию, следует выполнись
следующее.
Вычислить разность между каждым элементом выборки и выборочным средним.
Возвести каждую
разность в квадрат.
Сложить все разности, возведенные в квадрат.
Поделить результат на п-1.
Чтобы вычислить показатель S, т.е. стандартное выборочное отклонение, необходимо извлечь квадратный корень из выборочной дисперсии.
Ни выборочная дисперсия, ни стандартное выборочное отклонение не могут быть отрицательными.
Показатели S2 и S могут быть нулевыми, — если все элементы выборки равны между собой. В этом случае размах и межквартильный размах также равны нулю.
Слайд 37Дисперсия и стандартное отклонение позволяют оценить разброс данных вокруг среднего
значения, определить, сколько элементов выборки меньше среднего, а сколько —
больше.
Величина дисперсии представляет собой квадрат единицы измерения.
Оценкой дисперсии является стандартное отклонение, которое выражается в обычных единицах измерений.
Стандартное отклонение позволяет оценить величину колебаний элементов выборки вокруг среднего значения.
Практически во всех ситуациях основное количество наблюдаемых величин лежит в интервале плюс-минус одно стандартное отклонение от среднего значения.
Зная среднее арифметическое элементов выборки и стандартное выборочное отклонение, можно определить интервал, которому принадлежит основная масса данных.
Дисперсия и стандартное отклонение
Слайд 39Форма распределения
Важное свойство выборки — форма ее распределения.
Распределение может
быть симметричным или асимметричным.
Чтобы описать форму распределения, необходимо вычислить его
среднее значение и медиану.
Если эти два показателя совпадают, переменная считается симметрично распределено.
Если среднее значение переменной больше медианы, ее распределение имеет положительную асимметрию.
Если медиана больше среднего значения, распределение переменной имеет отрицательную асимметрию.
Положительная асимметрия возникает, когда среднее значение увеличивается до необычайно высоких значений. Отрицательная асимметрия возникает, когда среднее значение уменьшается до необычайно малых значений. Переменная является симметрично распределенной, если она не принимает никаких экстремальных значений ни в одном из направлений, так что большие и малые значения переменной уравновешивают друг друга
Слайд 40Данные, изображенные на панели А, имеют отрицательную асимметрию. На этом
рисунке виден длинный хвост и перекос влево, вызванные наличием необычно
малых значений. Эти крайне малые величины смещают среднее значение влево, и оно становится меньше медианы.
Данные, изображенные на панели Б, распределены симметрично. Левая и правая половины распределения являются своими зеркальными отражениями. Большие и малые величины уравновешивают друг друга, а среднее значение и медиана равны между собой.
Данные, изображенные на панели В, имеют положительную асимметрию. На этом рисунке виден длинный хвост и перекос вправо, вызванные наличием необычайно высоких значений. Эти слишком большие величины смещают среднее значение вправо, и оно становится больше медианы.
Форма распределения
Слайд 41ВЫЧИСЛЕНИЕ ОПИСАТЕЛЬНЫХ СТАТИСТИК ДЛЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ
Слайд 42Математическое ожидание равно сумме всех значений генеральной совокупности, деленной на
объем генеральной совокупности N.
Дисперсия генеральной совокупности равна сумме квадратов разностей
между элементами генеральной совокупности и математическим ожиданием, деленной на объем генеральной совокупности.
Стандартное отклонение генеральной совокупности (population standard deviation) равно квадратному корню, извлеченному из дисперсии генеральной совокупности.
Слайд 43Эмпирическое правило
Эмпирическое правило гласит: если данные имеют колоколообразное распределение, то
приблизительно
68% наблюдений отстоят от математического ожидания не более чем
на одно стандартное отклонение,
приблизительно 95% наблюдений отстоят от математического ожидания не более чем на два стандартных отклонения
и 99% наблюдений отстоят от математического ожидания не более чем на три стандартных отклонения.
Слайд 44Правило Бьенамэ-Чебышева
Более ста лет назад математики Бьенамэ и Чебышев независимо
друг от друга открыли полезное свойство стандартного отклонения. Они обнаружили,
что для любого набора данных, независимо от формы распределения, процент наблюдений, лежащих на расстоянии не превышающем k стандартных отклонений от математического ожидания, не меньше
Правило Бьенамэ-Чебышева. По крайней мере 3/4, или 75%, всех наблюдений из любого набора данных содержится в интервале µ±2σ, по крайней мере 8/9, или 88,89%, наблюдений содержится в интервале µ±3σ, и как минимум 15/16, или 93,75% , наблюдений содержится в интервале µ±4σ.
Слайд 45Сколько данных лежит вокруг математического ожидания
Правило Бьенамэ-Чебышева носит весьма общий
характер и справедливо для распределений любого вида. Оно указывает минимальное
количество наблюдений, расстояние от которых до математического ожидания не превышает заданной величины. Однако, если распределение имеет колоколообразную форму, эмпирическое правило более точно оценивает концентрацию данных вокруг математического ожидания.
Слайд 46АНАЛИЗ ДАННЫХ
Основные характеристики (среднее значение, разброс и форма распределения) позволяют
описать свойства данных и перейти к более глубоким исследованиям. Довольно
часто для анализа данных применяется подход, основанный на пятерке базовых показателей
Если данные распределены совершенно симметрично, между пятью базовыми показателями наблюдаются зависимости:
Расстояние от Хmin до медианы равно расстоянию от медианы до Хmax.
Расстояние от Хmin до Q1 равно расстоянию от Q3 до Хтах
Расстояние от Q1 до медианы равно расстоянию от медианы до Q3.
Слайд 47Зависимости, которые возникают между элементами пятерки показателей, когда данные распределены
несимметрично
Если распределение имеет положительную асимметрию, расстояние от от Хmin до
медианы меньше расстояния от медианы до Хmax.
Если распределение имеет положительную асимметрию, расстояние от Q3 до Хтах больше чем от Xmin до Q1
Если распределение имеет отрицательную асимметрию, расстояние от Xmin до медианы больше расстояния от медианы до Хmax.
Если распределение имеет отрицательную асимметрию, расстояние от Q3 до Хmax меньше, чем от Хmin до Q1
Слайд 48КОВАРИАЦИЯ И КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
Ковариация оценивает силу линейной зависимости между двумя
числовыми переменными X и У.
Ковариация не позволяет оценить относительную силу
зависимости.
Для того чтобы точнее оценить эту величину, необходимо вычислить коэффициент корреляции.
Относительная сила зависимости, или связи, между двумя переменными, образующими двумерную выборку, измеряется коэффициентом корреляции, изменяющимся от -1 для идеальной обратной зависимости до +1 для идеальной прямой зависимости. Коэффициент корреляции обозначается греческой буквой р.
Линейность корреляции (perfect correlation) означает, что все точки, изображенные на диаграмме разброса, лежат на прямой.
Слайд 49Три вида корреляции между двумя переменными
На рисунке А, изображена обратная
линейная зависимость между переменными X и У. Таким образом, коэффициент
корреляции р равен -1, т.е., когда переменная X возрастает, переменная У убывает.
На рисунке Б показана ситуация, в которой между переменными X и У нет корреляции. В этом случае коэффициент корреляции р равен 0, и, когда переменная X возрастает, переменная У не проявляет никакой определенной тенденции: она ни убывает, ни возрастает.
На рисунке В изображена линейная прямая зависимость между переменными X и У. Таким образом, коэффициент корреляции р равен +1, и, когда переменная X возрастает, переменная У также возрастает.
Слайд 50Выборочный коэффициент корреляции
При анализе выборок, содержащих двумерные данные, вычисляется выборочный
коэффициент корреляции, который обозначается буквой г.
В реальных ситуациях коэффициент
корреляции редко принимает точные значения -1, 0 и +1. На рисунке приведены шесть диаграмм разброса и соответствующие коэффициенты корреляции г между 100 значениями переменных X и У.
На рисунке А показана ситуация, в которой выборочный коэффициент корреляции г равен -0,9. Прослеживается четко выраженная тенденция: небольшим значениям переменной X соответствуют очень большие значения переменной У, и, наоборот, большим значениям переменной X соответствуют малые значения переменной У. Однако данные не лежат на одной прямой, поэтому зависимость между ними нельзя назвать линейной.
На рисунке Б приведены данные, выборочный коэффициент корреляции между которыми равен -0,6. Небольшим значениям переменной X соответствуют большие значения переменной У. Обратите внимание на то, что зависимость между переменными X и У нельзя назвать линейной, как на рисунке А, и корреляция между ними уже не так велика.
Слайд 51Выборочный коэффициент корреляции
Коэффициент корреляции между переменными X и У, изображенными
на рисунке В, равен -0,3. Прослеживается слабая тенденция, согласно которой
большим значениям переменной У, в основном, соответствуют малые значения переменной У.
Рисунки Г-Е иллюстрируют положительную корреляцию между данными — малым значениям переменной X соответствуют большие значения переменной У.
Мы употребляли термин тенденция, поскольку между переменными X и У нет причинно-следственных связей. Наличие корреляции не означает наличия причинно-следственных связей между переменными X и У, т.е. изменение значения одной из переменных не обязательно приводит к изменению значения другой. Сильная корреляция может быть случайной и объясняться третьей переменной, оставшейся за рамками анализа. В таких ситуациях необходимо проводить дополнительное исследование. Таким образом, можно утверждать, что причинно-следственные связи порождают корреляцию, но корреляция не означает наличия причинно-следственных связей.
Слайд 52Диаграммы разброса и соответствующие коэффициенты корреляции г между 100 значениями
переменных X и У
Слайд 53Выборочный коэффициент корреляции r вычисляется в соответствии с формулой
Выборочный
коэффициент корреляции
Слайд 54Коэффициент корреляции свидетельствует о линейной зависимости, или связи, между двумя
переменными.
Чем ближе коэффициент корреляции к -1 или +1, тем
сильнее линейная зависимость между двумя переменными.
Знак коэффициента корреляции определяет характер зависимости: прямая (чем больше значение переменной X, тем больше значение переменной У) и обратная (чем больше значение переменной X, тем меньше значение переменной У).
Сильная корреляция не является причинно-следственной зависимостью. Она лишь свидетельствует о наличии тенденции, характерной для данной выборки.
Выборочный коэффициент корреляции
Слайд 55ВЫЧИСЛЕНИЕ КОЛИЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ ЧАСТОТ
Слайд 56ВЫЧИСЛЕНИЕ КОЛИЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ ЧАСТОТ
Слайд 57Этические проблемы
Исследователя подстерегают две ошибки: неверно выбранный предмет анализа и
неправильная интерпретация результатов.
Интерпретация данных является субъективным процессом. Разные люди
приходят к разным выводам, истолковывая одни и те же результаты.
Следует критично относиться к информации, не только к результатам, но и к целям, предмету и объективности исследований.
Британский политик Бенджамин Дизраэли: «Существует три вида лжи: ложь, наглая ложь и статистика».