Слайд 1Лекция 5
Cтруктурирование данных и их физическая организация
Содержание лекции
Виды
информационных отношений. Простейшие структуры данных.
Модели данных, особенности их организации
и поиска в них данных.
Организация простейших файлов, их виды и поиск в них данных.
Иерархические файлы и методы их физической организации. Реляционные файлы.
Процесс создания базы данных.
Слайд 25.1 Структурирование данных
Структура данных (в информационном смысле) – это представление
пользователя о данных, не зависящее от способа их хранения. Структура
данных характеризует типы данных и правила их взаимосвязи (отношений).
Тип данных образует множество значений, которые могут принимать соответствующие ему данные.
Отношение – одно из основных понятий современной информатики. Бывают: аналитические, ассоциативные, парадигматические, синтагматические, подчинения.
Парадигматическое отношение представляет собой семантическое (смысловое) отношение, существующее между словами естественного или информационного языка.
Слайд 3Парадигматическое отношение представляет собой семантическое (смысловое) отношение, существующее между словами
естественного или информационного языка. Оно также связывает слова, обозначающие предметы,
между которыми существует постоянная связь.
Парадигматические отношения могут быть заданы графически в виде схем, в которых отношения показаны стрелками (графовая модель).
Частным случаем парадигматического отношения являются аналитические и ассоциативные отношения.
Аналитическим называется отношение между понятиями, существующее вследствие постоянной связи между соответствующими классами предметов и вытекающее из определений сопоставляемых понятий (мансарда, чердак).
Слайд 4Ассоциативные отношения бывают двух видов: отношение подчинения - соответствует родовидовому
отношению между словами, понятиями или предметами («класс – подкласс» или
«целое – часть»).; причинно-следственное (пространственное, временное) – любое устойчивое отношение между предметами, которое целесообразно учитывать при информационном поиске.
Структурирование данных задают прежде всего с помощью различного рода отношений порядка (упорядоченности). Простейший вид упорядоченности задают обычной нумерацией данных с помощью последовательности чисел.
Например, Xi, где i пробегает целые числа от m до n, идентифицирует упорядоченный набор данных, называемый обычно одномерным массивом.
Слайд 5Двухиндексный идентификатор Xij идентифицирует двумерный массив и т.д.
В упорядоченных таким
образом массивах возникают отношения следования. Так, следующим по индексу j
для элемента Xij будет элемент Xi,j+1, а предыдущим – Xi,j-1. Если индекс j пробегает значения от m до n, то для m не существует предыдущего, а для n – следующего значения индекса.
Если значения индексов задаются константами, то это прямоугольный массив. Если задано соотношение m<=i<=j<=n, то массив треугольный.
Массивы, состоящие из элементов одного и того же типа, называются однородными. Одномерные однородные массивы называются векторами, двумерные - матрицами.
Слайд 6Более сложные, составные структуры данных, представленные в виде фиксированной системы
понятий и правил для описания структуры, называются моделями данных.
Распространены графовые
и реляционные модели данных.
В графовых моделях структуру данных изображают и описывают в виде графа, в котором узлами (вершинами) являются типы данных, а дугами (связями) - отношения между ними. Графовый подход используют для описания иерархических и сетевых моделей данных.
5.2. Модели данных, особенности их организации и поиска в них данных
Слайд 7Особенности иерархических моделей данных
Верхний узел называется корнем, родовым или старшим
узлом. Узлы, из которых выходят дуги на нижний уровень, называются
исходными, в которые входят дуги с высшего уровня – порожденными. Вершины нижнего уровня, не имеющие порожденных узлов, называются листьями. Характерно отношение 1:М (один ко многим).
Слайд 8Особенности сетевых моделей данных
В сетевых моделях данных порожденный узел может
иметь более одного исходного, т.е. Один тип записи является членом
более чем одного типа набора. Для сетей характерны отношения М:1 и М:М.
Слайд 9Реляционные модели данных предложены в 1970 г. Основаны на представлении
данных в виде отношений, которые могут подвергаться нормализации – пощаговому
процессу приведения их к двумерной табличной форме. К такой же форме могут быть приведены и иерархические и сетевые отношения.
В таблице каждая строка которых соответствует значениям свойств (атрибутов), которыми обладает объект данного типа; каждый из столбцов соответствует множеству значений, которые принимает некоторый атрибут этого типа.
Отношение есть множество векторов из n элементов – кортежей (X1….Xn), где n – (число столбцов) называемое степенью отношения. Совокупность значений одного атрибута (соответствующая столбцу таблицы) называется доменом.
Слайд 10Для описания отношений и манипуляций над ними в реляционной модели
данных используется строгий математический язык, основанный на алгебре отношений (реляционной
алгебре) и исчислении отношений (реляционное исчисление).
Операции реляционной алгебры позволяют вырезать отдельные домены из отношения, объединять отношения, причем, в результирующем отношении вырезаются совпадающие строки и др.
Поиск данных в реляционной БД происходит с помощью индексных файлов. Индексный файл, как правило, представляет собой отдельную таблицу, содержащую ключ каждой записи и ее адрес на запоминающем устройстве.
Слайд 11В состав большинства СУБД входят три основных компонента: командный язык,
интерпретирующая система или компилятор для обработки команд и интерфейс пользователя.
Командный
язык служит для выполнения операций над данными, позволяет создавать прикладные программы, оформлять на экране и печатать формы ввода и вывода.
Для превращения текстовой команды в машинный код используются интерпретаторы и компиляторы. Первые – по очереди преобразует команды в исполнимый код перед их непосредственным выполнением, - преобразуют сначала всю программу (компилируют) в серию машинных команд и только после этого выполняют ее.
5.3. Структура СУБД
Слайд 12К числу СУБД реляционного типа относятся хорошо известные системы: dBase,
Clipper, FoxBASE, R:BASE, Paradox, FoxPro? Oracle и т.д. Во всех
этих СУБД записи и поля имеют ограничение на число записей (128…10024) и длину (обычно 4000…5000 байт). Исключение составляет поле Memo, в котором хранят текстовую информацию большого объема.
Длина поля зависит от его типа. (Поля могут быть целыми, вещественными, строчными, логическими, типа «дата» и т.д.) В любое поле можно вписать только информацию именно этого типа.
Задание типа поля определяет множество объектов, множество операций над ними и множество правил, указывающих допустимое сочетание или применимость операций к тому или иному объекту данных.
Слайд 135.4. Физическая организация файлов
Под физической организацией данных следует понимать их
размещение и связь в среде хранения, т.е. на машинных носителях.
Основными
служебными элементами информации для организации физических структур данных являются ключи, указатели и индексы.
Ключ – это элемент данных (атрибут) или совокупность элементов в записи, однозначно идентифицирующий информацию об объекте записи.
Указатель – это специальное поле (реквизит) в записи, указывающее местоположение другой записи, связанной с данной определенным отношением.
Слайд 14Индекс – это пара элементов (ключ и адрес), предназначенная для
определения места расположения записи, идентифицируемой указанным ключом.
Организация простых файлов
Последовательным
файлом называется поименованная, линейно упорядоченная последовательность записей одного и того же типа. В них поиск данных обеспечивается последовательным просмотром и прямой адресацией по ключу.
Индексно-последовательный файл - также реализует последовательное размещение, как правило, упорядоченное по ключу, но в нем реализуется доступ к отдельным частям файла с помощью таблицы индексов (справочника), а уже внутри каждой части осуществляется последовательный поиск.
Слайд 15Произвольные файлы предполагают непоследовательное размещение записей. Их применяют, если положение
записей часто меняется и необходимо осуществлять многократные изменения файла.
Инвертированный файл
– это файл, который хранит идентификаторы объектов, связанные с конкретным значением каждого атрибута (характеристики) объекта. Инвертированный файл содержит индекс (возможно многоуровневый) и набор списков указателей доступа.
В иерархических файлах записи связаны в древовидные структуры. Реализация древовидных структур возможна следующими методами: физически последовательное размещение; метод указателей; метод справочников; метод битовых отображений.
Слайд 16Физически последовательное размещение
Слайд 17Метод указателей – это последовательное размещение записей с организацией связей
указателями.
Слайд 18Метод справочников предполагает вместо указателей организацию специального файла-справочника, где содержится
информация о связях между записями в файлах данных.
Слайд 19Метод битовых отображений предусматривает создание матрицы связей, в которой наличие
связей обозначается единицей, а отсутствие – нулем.
Слайд 20В сетевых файлах записи связаны в сетевые структуры, т.е. в
них снимается ограничение на наличие у порожденной записи не более
одной исходной, а также возможны произвольные связи между записями. Для них используются те же методы, что и для иерархических файлов, поскольку они могут быть сведены к древовидным при введении избыточности за счет многократного повторения некоторых записей.
Слайд 215.5. Процесс создания баз данных
Концепцию, в рамках которой удобно и
полезно рассматривать развитие системы БД во времени, называют жизненным циклом.
Жизненный цикл БД делят на 2 фазы: 1) анализ и проектирование; 2) реализация и функционирование.
В течение первой фазы осуществляется сбор требований пользователей и проектирование БД, в течение второй – компьютерная реализация и использование БД для решения прикладных задач.
Основная цель проектирования БД – обеспечение пользователей точными данными за приемлемое время.
Слайд 22Принято рассматривать используемые для описания предметной области данные в виде
трехуровневой схемы: внешнее представление, уровень ре6кализации, внутреннее представление (физический уровень).
Внешнее представление данных является совокупностью требований к данным некоторой конкретной прикладной функции. Оно делится на пользовательский и концептуальный уровни.
Слайд 23На концептуальном уровне определяют:
сущности (личности, факты, объекты); атрибуты (данные,
описывающие сущности); связи (отношения между атрибутами).
На уровне реализации выбирают подход
к структурированию (графовый или реляционный) и модель данных, а также формируют:
записи; элементы данных; связи между записями.
На физическом уровне представления создаются:
блоки; указатели; данные переполнения; группировка данных.
Слайд 24Фаза анализа и проектирования БД
1. Формулирование и анализ
требований
2. Концептуальное
проектирование
3.
Проектирование реализации
4. Физическое проектирование
Требования реализации
Общие информационные требования
Спецификации требований
Информационная модель
Характеристики СУБД
Логическая
СУБД-ориентированная схема
Характеристики ОС и ТС
Физическая структура БД
Слайд 25Фаза реализации и функционирования
Реализация БД подразумевает создание (наполнение) базы и
разработку прикладных программ, а также загрузку БД. Загрузка связана с
преобразованием имеющихся данных из формы логической и физической структуры в новую форму, соответствующую результатам проектирования БД.
Анализ функционирования и поддержка осуществляются для регистрации (сбора) и статистической обработки данных о функционировании системы.
Этап модернизации и адаптации предусматривает внесение в проект изменений, возникающих при появлении новых требований, полученных в результате анализа.
Реорганизация БД – это осуществление любых действий, связанных с изменением ее логической и физической структуры.