Слайд 1АНАЛИЗ ДАННЫХ
Лекция 1
к.т.н. Кирпичёва Елена Юрьевна
kirphel@mail.ru
Слайд 2ВВЕДЕНИЕ В «АНАЛИЗ ДАННЫХ»
Данные – это воспринимаемые человеком факты, события,
сообщения, измеряемые характеристики, регистрируемые сигналы.
Слайд 3Шкалы измерений
Измерение - присвоение символов образцам в соответствии с некоторым
правилом. Эти символы могут быть буквенными или числовыми. Числовые символы
также могут представлять категории или быть числовыми.
6 типов шкал измерений:
Шкала наименований - используется только для классификации. Каждому классу данных присваивается свое обозначение так, чтобы обозначения различных классов не совпадали (номера телефонов, автомашин, паспортов, студенческих билетов, ИНН-индивидуальный номер налогоплательщика, пол людей, раса, национальность, цвет глаз, волос.
Порядковая шкала - позволяет не только разбивать данные на классы, но и упорядочить сами классы. Каждому классу присваивается различные обозначения так, чтобы порядок обозначений соответствовал порядку классов (номера домов, экспертные оценки, оценки успеваемости в средней школе - 2, 3, 4, 5; оценки успеваемости в высшей школе - неудовлетворительно, удовлетворительно, хорошо, отлично). В порядковой шкале допустимыми являются все строго возрастающие преобразования.
Все шкалы измерения делят на две группы - шкалы качественных признаков и шкалы количественных признаков.
Слайд 4Шкалы измерений
Интервальная шкала- позволяет не только классифицировать и упорядочивать данные,
но и количественно оценивать различие между классами. Для проведения таких
сравнений необходимо ввести единицу измерения и произвольное начало отсчета (нуль- пункт). (Температурная шкала)
Шкала отношений. наиболее распространенная из количественных шкал в науке и практике. Эта шкала отличается от интервальной шкалы лишь тем, что в ней задано абсолютное начало отсчета. Т.е. в данной шкале можно определить, во сколько раз одно измерение превосходит другое. Например: рост человека в дюймах принадлежит шкале отношений, в которой в которой 0 дюймов есть фиксированное начало отсчета, а 1 дюйм – единица измерения.
Шкала разностей. В шкале разностей есть естественная единица измерения, но нет естественного начала отсчета. Время измеряется по шкале разностей, если год (или сутки - от полудня до полудня) принимаем естественной единицей измерения, и по шкале интервалов в общем случае. На современном уровне знаний естественного начала отсчета указать нельзя. Дату сотворения мира различные авторы рассчитывают по-разному, равно как и момент рождества Христова.
Абсолютная шкала. Только для абсолютной шкалы результаты измерений - числа в обычном смысле слова. Примером является число людей в комнате. Для абсолютной шкалы допустимым является только тождественное преобразование.
Слайд 5Дискретные и непрерывные наблюдения
Именованные и порядковые данные всегда дискретны,
Интервальные
и относительные могут быть как дискретными, так и непрерывными.
Например,
непрерывные: стрельба по мишени (любой исход), температура (интервальная шкала); дискретные: игральная кость (1, 2, 3 …6), монета (орел/решка), число телефонных вызовов за один час (шкала отношений)
Слайд 6
Этапы решения задачи анализа данных и их взаимосвязи
Анализ данных –
это совокупность методов и средств извлечения из организованных данных информации
для принятия решений.
Слайд 7
Этапы решения задачи анализа данных
Слайд 8
Таблица экспериментальных данных
Признаки
Слайд 9
Этапы решения задачи анализа данных
Слайд 10
Графическое представление задач при качественном анализе
Слайд 11
Вероятность
Вероятность - математическая, числовая характеристика степени возможности появления какого-либо события
в тех или иных определенных, могущих повторяться неограниченное число раз
условиях.
Способы вычисления вероятности:
использование теории:
наблюдения:
Слайд 13Случайная величина х может быть дискретной или непрерывной.
Как непрерывная,
так и дискретная случайная величина имеют плотность распределения вероятностей, которая
часто называется плотностью вероятности и обозначается как f(x) (для непрерывной случайной величины) или р(х) (для дискретной случайной величины).
Распределения вероятностей
Слайд 14Самой важной вероятностной характеристикой случайной величины является функция распределения, определяемая
следующим образом:
Распределения вероятностей
Слайд 15Дискретная случайная величина принимает значения с различными вероятностями. Соответствие между
значениями и их вероятностями называют законом распределения вероятностей дискретной случайной
величины.
Дискретная случайная величина
p1 + p2+... + pn = 1.
Слайд 16МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И МОМЕНТЫ СЛУЧАЙНОЙ
ВЕЛИЧИНЫ
Пусть х — случайная
величина, h(x) — некоторая функция от х. Математическим ожиданием случайной
функции h(x), которое обозначается как M{h(x)}, называется средняя величина, взвешенная по отношению к плотности вероятности случайной величины х. При заданной плотности вероятности р(х) или f(x) (для дискретной и непрерывной случайных величин соответственно) величина M{h(x)}
вычисляется следующим образом:
Слайд 17 В течение первой недели каждого месяца человек
рассылает письма. С этой целью он обычно покупает 20 почтовых
марок. Число используемых марок является случайной величиной, принимающей значения от 10 до 24 с равными вероятностями. Чему равно среднее число оставшихся марок?
Пусть х — количество используемых марок, тогда плотность вероятности х такова:
Количество оставшихся марок определяется соотношением
Вероятность того, что вообще не останется марок, равна
Слайд 18МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
Слайд 19МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЯ СЛУЧАЙНОЙ ВЕЛИЧИНЫ
Бросание игральной кости
Слайд 20Структурные средние параметры дискретной величины: мода и медиана.
Мода — это наиболее
часто встречающийся вариант ряда. Мода применяется, например, при определении размера
одежды, обуви, пользующейся наибольшим спросом у покупателей. Модой для дискретного ряда является варианта, обладающая наибольшей частотой.
Медиана – это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.
Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение варианта приходится на нее. (Если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле:
Ме = (n(число признаков в совокупности) + 1)/2,
в случае четного числа признаков медиана будет равна средней из двух признаков находящихся в середине ряда).
Слайд 21Графическое представление дискретного ряда
Полигон – ломаная прямая, соединяющая точки, координаты
которых определяются на горизонтальной оси (ось абсцисс) – значениями варьирующего
признака, а на вертикальной оси (ось ординат) – частотами признака.
Слайд 22Графическое представление дискретного ряда
Гистограмма – столбчатая фигура, основанием каждого столбца
которой по оси абсцисс выступают значения границ интервалов случайной величины,
а высота прямоугольников пропорциональна частотам.
Слайд 23Дискретные распределения случайной величины
Слайд 24Дискретные распределения случайной величины
Слайд 25Дискретные распределения случайной величины
Слайд 26Дискретные распределения случайной величины
Примеры случайных величин, имеющих распределение Пуассона: число
автомашин, которые будут обслужены завтра автозаправочной станцией; число бракованных изделий
в готовой продукции.
Слайд 27Дискретные распределения случайной величины
Пример на распределение Пуассона
Слайд 28Распределения непрерывных случайных величин
Слайд 29Распределения непрерывных случайных величин
Слайд 30НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Нормальное распределение описывает многие случайные явления, которые происходят в
каждодневной жизни, включая анализ счетов, распределение веса и роста людей
и многое другое. Плотность вероятности нормального распределения :
Нормальное распределение с математическим ожиданием μ и стандартным отклонением σ обозначается как N(μ, σ ).
Слайд 31НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Плотность вероятности нормального распределения