Структуры и алгоритмы обработки данных

Содержание

1. Структуры и алгоритмы обработки данных
2. Хеширование – это преобразование входного массива данных
3. Хеширование Хеширование применяется для сравнения данных: если
4. Хеширование Существует множество массивов, дающих одинаковые хеш-коды —
5. Хеширование Идея хеширования впервые была высказана Г.П.
6. Хеширование В открытой печати хеширование впервые было
7. Хеш-таблица Хеш-таблица – это структура данных,
8. С точки зрения практического применения, хорошей является
9. Хеш-функции Если бы все данные были
10. При возникновении коллизий (разным ключам соответствует одно
11. Хеш-таблицы должны соответствовать следующим свойствам:Выполнение операции в
12. Хеширование полезно, когда широкий диапазон возможных значений
13. Методы разрешения коллизий Коллизии, когда разным
14. Метод цепочек Технология сцепления элементов состоит в
15. Пример реализации метода цепочек при разрешении коллизий:на
16. Операции поиска или удаления данных требуют просмотра
17. Метод цепочек При предположении, что каждый
18. Метод открытой адресации В отличие от
19. При любом методе разрешения коллизий необходимо ограничить
20. Удаление элементов в такой схеме несколько затруднено.
21. Алгоритмы хеширования Существует несколько типов функций хеширования,
22. Таблица прямого доступа Простейшей организацией таблицы, обеспечивающей
23. Таблица прямого доступа Затем записи вносятся в
24. Таблица прямого доступа Пространство ключей - множество
25. Таблица прямого доступа В большинстве реальных задач
26. Таблица прямого доступа Даже, если ресурсы вычислительной
27. Таблица прямого доступа В целях экономии памяти
28. Метод деления Простейшей хеш-функцией является деление по
29. Если ключей меньше, чем элементов массива, то
30. Метод функции середины квадрата Функция середины квадратапреобразует
31. Метод свертки Цифровое представление ключа разбивается на
32. Функция преобразования системы счисленияКлюч, записанный как число
33. Открытое хеширование Основная идея базовой структуры при
34. Часто классы называют сегментами, поэтому будем говорить,
35. 50 элементов и размер таблицы 1010 элементов
36. Закрытое хеширование При закрытом (внутреннем) хешировании в
37. Закрытое хеширование При поиске элемента х необходимо
38. Закрытое хеширование Если в хеш-таблице допускается удаление
39. Закрытое хеширование Важно различать константы DEL и
40. Линейное опробование Это последовательный перебор сегментов таблицы
41. Квадратичное опробование отличается от линейного тем, что
42. В случае многократного превышения адресного пространства и,
43. Например, методика линейного опробования для разрешения коллизий
44. 25 элементов и размер таблицы тоже 2510 элементов и размер таблицы тоже 10Примеры хеш-таблиц
45. До сих пор рассматривались способы поиска в
46. Ключевые термины: Вторичные ключи – это ключи,
47. Ключевые термины: Пространство записей – это множество
48. Контрольные вопросы Каков принцип построения хеш-таблиц? Существуют
49. Задания Составьте хеш-таблицу, содержащую буквы и количество
50. Слайд 50
51. Скачать презентанцию

Хеширование – это преобразование входного массива данных определенного типа и произвольной длины в выходную битовую строку фиксированной длины. Такие преобразования также называются хеш-функциями или функциями свертки, а их результаты называют

Главная
Разное
Структуры и алгоритмы обработки данных

Слайды и текст этой презентации

Слайд 1Структуры и алгоритмы обработки данных
Лекция 12
Хеширование (hashing) Хеш-таблицы (Hash tables)

Слайд 2Хеширование
– это преобразование входного
массива данных определенного типа и произвольной

длины
в выходную битовую строку фиксированной длины.
Такие преобразования

также называются хеш-функциями или функциями свертки, а их результаты называют хешем, хеш-кодом, хеш-таблицей или дайджестом сообщения (message digest).

Хеширование – это преобразование входного массива данных определенного типа и произвольной длины в выходную битовую строку

Слайд 3Хеширование
Хеширование применяется для сравнения данных: если у двух массивов хеш-коды

разные, массивы гарантированно различаются; если одинаковые — массивы, скорее всего, одинаковы.

В общем случае однозначного соответствия между исходными данными и хеш-кодом нет в силу того, что количество значений хеш-функций меньше, чем вариантов входного массива.

Хеширование Хеширование применяется для сравнения данных: если у двух массивов хеш-коды разные, массивы гарантированно различаются; если одинаковые —

Слайд 4Хеширование
Существует множество массивов, дающих одинаковые хеш-коды — так называемые коллизии. Вероятность

возникновения коллизий играет немаловажную роль в оценке качества хеш-функций.
Существует множество

алгоритмов хеширования с различными характеристиками. Выбор той или иной хеш-функции определяется спецификой решаемой задачи.

Хеширование Существует множество массивов, дающих одинаковые хеш-коды — так называемые коллизии. Вероятность возникновения коллизий играет немаловажную роль в

Слайд 5Хеширование
Идея хеширования впервые была высказана Г.П. Ланом при создании внутреннего

меморандума IBM в январе 1953 г. с предложением использовать для

разрешения коллизий (ситуаций, когда разным ключам соответствует одно значение хеш-функции) метод цепочек.

Примерно в это же время другой сотрудник IBM, Жини Амдал, высказала идею использования открытой линейной адресации.

Хеширование Идея хеширования впервые была высказана Г.П. Ланом при создании внутреннего меморандума IBM в январе 1953 г.

Слайд 6Хеширование
В открытой печати хеширование впервые было описано Арнольдом Думи (1956

год), указавшим, что в качестве хеш-адреса удобно использовать остаток от

деления на простое число. А.Думи описывал метод цепочек для разрешения коллизий, но не говорил об открытой адресации.
Подход к хешированию, отличный от метода цепочек, был предложен
А.П. Ершовым (1957 год), который разработал и описал метод линейной открытой адресации.

Хеширование В открытой печати хеширование впервые было описано Арнольдом Думи (1956 год), указавшим, что в качестве хеш-адреса

Слайд 7Хеш-таблица
Хеш-таблица – это структура данных, реализующая интерфейс ассоциативного массива,

то есть она позволяет хранить пары вида "ключ- значение" и

выполнять три операции:

операцию добавления новой пары;
операцию поиска;
операцию удаления пары по ключу.

Хеш-таблица является массивом, формируемым в определенном порядке хеш-функцией

Хеш-таблица Хеш-таблица – это структура данных, реализующая интерфейс ассоциативного массива, то есть она позволяет хранить пары

Слайд 8С точки зрения практического применения, хорошей является такая хеш-функция, которая

удовлетворяет следующим условиям:
функция должна быть простой с вычислительной точки зрения;
функция

должна распределять ключи в хеш-таблице наиболее равномерно;
функция не должна отображать какую-либо связь между значениями ключей в связь между значениями адресов;
функция должна минимизировать число коллизий,то есть ситуаций, когда разным ключам соответствует одно значение хеш-функции (ключи в этом случае называются синонимами).

С точки зрения практического применения, хорошей является такая хеш-функция, которая удовлетворяет следующим условиям:функция должна быть простой с

Слайд 9Хеш-функции
Если бы все данные были случайными, то хеш-функции были

бы очень простые (например, несколько битов ключа).
Однако,на практике случайные данные

встречаются достаточно редко, и приходится создавать функцию, которая зависит от всего ключа.
Если хеш-функция распределяет совокупность возможных ключей равномерно по множеству индексов, то хеширование эффективно разбивает множество ключей.
Наихудший случай: все ключи хешируются в один индекс

Хеш-функции Если бы все данные были случайными, то хеш-функции были бы очень простые (например, несколько битов

Слайд 10При возникновении коллизий (разным ключам соответствует одно значение хеш-функции) необходимо

найти новое место для хранения ключей, претендующих на одну и

ту же ячейку хеш-таблицы.
Причем, если коллизии допускаются, то их количество необходимо минимизировать.
В некоторых специальных случаях удается избежать коллизий вообще. Например, если все ключи элементов известны заранее (или очень редко меняются), то для них можно найти некоторую инъективную1 хеш-функцию, которая распределит их по ячейкам хеш-таблицы без коллизий. Хеш-таблицы, использующие подобные хеш-функции, не нуждаются в механизме разрешения коллизий, и называются хеш-таблицами с прямой адресацией.

1 - Организация связи «один к одному» между таблицами реляционной базы данных на основе первичных ключей.
Слово «реляционный» - от англ. relation - отношение

При возникновении коллизий (разным ключам соответствует одно значение хеш-функции) необходимо найти новое место для хранения ключей, претендующих

Слайд 11Хеш-таблицы должны соответствовать следующим свойствам:

Выполнение операции в хеш-таблице начинается с

вычисления хеш-функции от ключа. Получающееся хеш-значение является индексом в исходном

массиве.
Количество хранимых элементов массива, деленное на число возможных значений хеш-функции, называется коэффициентом заполнения хеш-таблицы (load factor) и является важным параметром, от которого зависит среднее время выполнения операций.
Операции поиска, вставки и удаления должны выполняться в среднем за время O(1). Однако при такой оценке не учитываются возможные аппаратные затраты на перестройку индекса хеш-таблицы, связанную с увеличением значения размера массива и добавлением в хеш-таблицу новой пары.Механизм разрешения коллизий является важной составляющей любой хеш-таблицы.

Хеш-таблицы должны соответствовать следующим свойствам:Выполнение операции в хеш-таблице начинается с вычисления хеш-функции от ключа. Получающееся хеш-значение является

Слайд 12Хеширование полезно, когда широкий диапазон возможных значений должен быть сохранен

в малом объеме памяти, и нужен способ быстрого, практически произвольного

доступа

Хеш-таблицы часто применяются в
базах данных,
языковых процессорах типа компиляторов и ассемблеров, где они повышают скорость обработки таблицы идентификаторов.

В качестве использования хеширования в повседневной жизни можно привести примеры:
распределение книг в библиотеке по тематическим каталогам,
упорядочивание в словарях по первым буквам слов,
шифрование специальностей в вузах и т.д.

Хеширование полезно, когда широкий диапазон возможных значений должен быть сохранен в малом объеме памяти, и нужен способ

Слайд 13Методы разрешения коллизий
Коллизии, когда разным ключам соответствует одно значение

хеш-функции, осложняют использование хеш-таблиц, т.к. нарушают однозначность соответствия между хеш-кодами

и данными.
Тем не менее, существуют способы преодоления возникающих сложностей:
метод цепочек (внешнее или открытое хеширование);
метод открытой адресации (закрытое хеширование).

Методы разрешения коллизий Коллизии, когда разным ключам соответствует одно значение хеш-функции, осложняют использование хеш-таблиц, т.к. нарушают

Слайд 14Метод цепочек
Технология сцепления элементов состоит в том, что элементы множества,

которым соответствует одно и то же хеш-значение, связываются в цепочку-список:

в позиции номер i хранится указатель на голову списка тех элементов, у которых хеш-значение ключа равно i;
если таких элементов в множестве нет, в позиции i записан NULL.

Метод цепочек Технология сцепления элементов состоит в том, что элементы множества, которым соответствует одно и то же

Слайд 15Пример реализации метода цепочек при разрешении коллизий:
на ключ 002 претендуют

два значения, которые организуются в линейный список.
Каждая ячейка массива является

указателем на связный список (цепочку) пар ключ-значение, соответствующих одному и тому же хеш-значению ключа. Коллизии просто приводят к тому, что появляются цепочки длиной более одного элемента.

Пример реализации метода цепочек при разрешении коллизий:на ключ 002 претендуют два значения, которые организуются в линейный список.

Слайд 16Операции поиска или удаления данных требуют просмотра всех элементов соответствующей

ему цепочки, чтобы найти в ней элемент с заданным ключом.

Для добавления данных нужно добавить элемент в конец или начало соответствующего списка, и, в случае если коэффициент заполнения станет слишком велик, увеличить размер массива и перестроить таблицу.

....

Операции поиска или удаления данных требуют просмотра всех элементов соответствующей ему цепочки, чтобы найти в ней элемент

Слайд 17Метод цепочек
При предположении, что каждый элемент может попасть в

любую позицию таблицы с равной вероятностью и независимо от того,

куда попал любой другой элемент, среднее время работы операции поиска элемента составляет O(1+k), где k – коэффициент заполнения таблицы.

Метод цепочек При предположении, что каждый элемент может попасть в любую позицию таблицы с равной вероятностью

Слайд 18Метод открытой адресации
В отличие от хеширования с цепочками, при

открытой адресации никаких списков нет, а все записи хранятся в

самой хеш-таблице. Каждая ячейка таблицы содержит либо элемент динамического множества, либо NULL.
В этом случае, если ячейка с вычисленным индексом занята, то можно просто просматривать следующие записи таблицы по порядку до тех пор, пока не будет найден ключ K или пустая позиция в таблице. Для вычисления шага можно также применить формулу, которая и определит способ изменения шага.
Два значения претендуют на ключ 002, для одного из них находится первое свободное (еще незанятое) место в таблице.

Метод открытой адресации В отличие от хеширования с цепочками, при открытой адресации никаких списков нет, а

Слайд 19При любом методе разрешения коллизий необходимо ограничить длину поиска элемента!!!!!!!!

Если

для поиска элемента необходимо более 3–4 сравнений, то эффективность использования

такой хеш-таблицы пропадает и ее следует реструктуризировать (т.е. найти другую хеш-функцию), чтобы минимизировать количество сравнений для поиска элемента.

Для успешной работы алгоритмов поиска, последовательность проб должна быть такой, чтобы все ячейки хеш-таблицы оказались просмотренными ровно по одному разу.

Метод открытой адресации

При любом методе разрешения коллизий необходимо ограничить длину поиска элемента!!!!!!!!Если для поиска элемента необходимо более 3–4 сравнений,

Слайд 20Удаление элементов в такой схеме несколько затруднено. Обычно поступают так:

заводят логический флаг для каждой ячейки, помечающий, удален ли элемент

в ней или нет. Тогда удаление элемента состоит в установке этого флага для соответствующей ячейки хеш-таблицы, но при этом необходимо модифицировать процедуру поиска существующего элемента так, чтобы она считала удаленные ячейки занятыми, а процедуру добавления – чтобы она их считала свободными и сбрасывала значение флага при добавлении.

Метод открытой адресации

Удаление элементов в такой схеме несколько затруднено. Обычно поступают так: заводят логический флаг для каждой ячейки, помечающий,

Слайд 21Алгоритмы хеширования
Существует несколько типов функций хеширования, каждая из которых имеет

свои преимущества и недостатки и основана на представлении данных

Алгоритмы хеширования Существует несколько типов функций хеширования, каждая из которых имеет свои преимущества и недостатки и основана

Слайд 22Таблица прямого доступа
Простейшей организацией таблицы, обеспечивающей идеально быстрый поиск, является

таблица прямого доступа.

В такой таблице ключ является адресом записи

в таблице или может быть преобразован в адрес, причем таким образом, что никакие два разных ключа не преобразуются в один и тот же адрес.

При создании таблицы выделяется память для хранения всей таблицы и заполняется пустыми записями.

Таблица прямого доступа Простейшей организацией таблицы, обеспечивающей идеально быстрый поиск, является таблица прямого доступа. В такой таблице

Слайд 23Таблица прямого доступа
Затем записи вносятся в таблицу – каждая на

свое место, определяемое ее ключом.

При поиске ключ используется как

адрес и по этому адресу выбирается запись.

Если выбранная запись пустая, то записи с таким ключом вообще нет в таблице.

Таблицы прямого доступа очень эффективны в использовании, но, к сожалению, область их применения весьма ограничена.

Таблица прямого доступа Затем записи вносятся в таблицу – каждая на свое место, определяемое ее ключом. При

Слайд 24Таблица прямого доступа
Пространство ключей - множество всех теоретически возможных значений

ключей записи.
Пространство записей - множество тех ячеек памяти, которые

выделяются для хранения таблицы.

Таблицы прямого доступа применимы только для таких задач, в которых размер пространства записей может быть равен размеру пространства ключей.

Таблица прямого доступа Пространство ключей - множество всех теоретически возможных значений ключей записи. Пространство записей - множество

Слайд 25Таблица прямого доступа
В большинстве реальных задач размер пространства записей много

меньше, чем пространства ключей.

Например, если в качестве ключа используется фамилия,

то, даже ограничив длину ключа десятью символами кириллицы, получаем 3310 возможных значений ключей.

Таблица прямого доступа В большинстве реальных задач размер пространства записей много меньше, чем пространства ключей.Например, если в

Слайд 26Таблица прямого доступа
Даже, если ресурсы вычислительной системы и позволят выделить

пространство записей такого размера, то значительная часть этого пространства будет

заполнена пустыми записями, так как в каждом конкретном заполнении таблицы фактическое множество ключей не будет полностью покрывать пространство ключей.

Таблица прямого доступа Даже, если ресурсы вычислительной системы и позволят выделить пространство записей такого размера, то значительная

Слайд 27Таблица прямого доступа
В целях экономии памяти можно назначать размер пространства

записей равным размеру фактического множества записей или превосходящим его незначительно.

В этом случае необходимо иметь некоторую функцию, обеспечивающую отображение точки из пространства ключей в точку в пространстве записей, то есть, преобразование ключа в адрес записи: a=h(k), где a – адрес, k – ключ.

Идеальной хеш-функцией является функция, которая для любых двух неодинаковых ключей дает неодинаковые адреса.

Таблица прямого доступа В целях экономии памяти можно назначать размер пространства записей равным размеру фактического множества записей

Слайд 28Метод деления
Простейшей хеш-функцией является деление по модулю числового значения ключа

Key на размер пространства записи HashTableSize. Результат интерпретируется как адрес

записи.

Однако операция деления по модулю обычно применяется как последний шаг в более сложных функциях хеширования, обеспечивая приведение результата к размеру пространства записей.

Метод деления Простейшей хеш-функцией является деление по модулю числового значения ключа Key на размер пространства записи HashTableSize.

Слайд 29Если ключей меньше, чем элементов массива, то в качестве хеш-функции

можно использовать деление по модулю, то есть остаток от деления

целочисленного ключа Key на размерность массива HashTableSize, то есть: Key % HashTableSize
Данная функция очень проста, хотя и не относится к хорошим. Вообще, можно использовать любую размерность массива, но она должна быть такой, чтобы минимизировать число коллизий. Для этого в качестве размерности лучше использовать простое число. В большинстве случаев подобный выбор вполне удовлетворителен. Для символьной строки ключом может являться остаток от деления, например, суммы кодов символов строки на размерность массива HashTableSize. Например,

HashTableSize = 100

∑ = 741

Ключ этой символьной строки => 741 % 100 = 7

Если ключей меньше, чем элементов массива, то в качестве хеш-функции можно использовать деление по модулю, то есть

Слайд 30Метод функции середины квадрата
Функция середины квадрата
преобразует значение ключа в число,

возводит это число в квадрат,
из числа выбирает несколько средних

цифр,
интерпретирует эти цифры как адрес записи.

Метод функции середины квадрата Функция середины квадратапреобразует значение ключа в число, возводит это число в квадрат, из

Слайд 31Метод свертки
Цифровое представление ключа разбивается на части, каждая из которых

имеет длину, равную длине требуемого адреса.
Над частями производятся определенные

арифметические или поразрядные логические операции, результат которых интерпретируется как адрес.

Например, для сравнительно небольших таблиц с ключами – символьными строками неплохие результаты дает функция хеширования, в которой адрес записи получается в результате сложения кодов символов, составляющих строку-ключ.

Метод свертки Цифровое представление ключа разбивается на части, каждая из которых имеет длину, равную длине требуемого адреса.

Слайд 32Функция преобразования системы счисления
Ключ, записанный как число в некоторой системе

счисления P, интерпретируется как число в системе счисления Q>P. Обычно

выбирают Q=P+1.
Это число переводится из системы Q обратно в систему P, приводится к размеру пространства записей и интерпретируется как адрес.

Функция преобразования системы счисленияКлюч, записанный как число в некоторой системе счисления P, интерпретируется как число в системе

Слайд 33Открытое хеширование
Основная идея базовой структуры при открытом (внешнем) хешировании заключается

в том, что
 потенциальное множество (возможно, бесконечное) разбивается на

конечное число классов.
 для В классов, пронумерованных от 0 до В-1, строится хэш-функция h(x) такая, что для любого элемента х исходного множества функция h(x) принимает целочисленное значение из интервала 0,1,...,В-1, соответствующее классу, которому принадлежит элемент х.

Открытое хеширование Основная идея базовой структуры при открытом (внешнем) хешировании заключается в том, что  потенциальное множество

Слайд 34Часто классы называют сегментами, поэтому будем говорить, что элемент х

принадлежит сегменту h(x).
Массив, называемый таблицей сегментов и проиндексированный номерами

сегментов 0,1,...,В-1, содержит заголовки для B списков.
Элемент х, относящийся к i-му списку – это элемент исходного множества, для которого h(x)=i
Если сегменты примерно одинаковы по размеру, то в этом случае списки всех сегментов должны быть наиболее короткими при данном числе сегментов. Если исходное множество состоит из N элементов, тогда средняя длина списков будет N/B элементов.
Если можно оценить величину N и выбрать В как можно ближе к этой величине, то в каждом списке будет один или два элемента. Тогда время выполнения операторов словарей будет малой постоянной величиной, не зависящей от N.

Часто классы называют сегментами, поэтому будем говорить, что элемент х принадлежит сегменту h(x). Массив, называемый таблицей сегментов

Слайд 3550 элементов и размер таблицы 10
10 элементов и размер таблицы

тоже 10
25 элементов и размер таблицы 5
Примеры хеш-таблиц

50 элементов и размер таблицы 1010 элементов и размер таблицы тоже 1025 элементов и размер таблицы 5Примеры

Слайд 36Закрытое хеширование
При закрытом (внутреннем) хешировании в хеш-таблице хранятся непосредственно сами

элементы, а не заголовки списков элементов. Поэтому в каждой записи

(сегменте) может храниться только один элемент.

При закрытом хешировании применяется методика повторного хеширования:

Если осуществляется попытка поместить элемент х в сегмент с номером h(х), который уже занят другим элементом (коллизия), то в соответствии с методикой повторного хеширования выбирается последовательность других номеров сегментов h1(х),h2(х),..., куда можно поместить элемент х.
Каждое из этих местоположений последовательно проверяется, пока не будет найдено свободное. Если свободных сегментов нет, то, следовательно, таблица заполнена, и элемент х добавить нельзя.

Закрытое хеширование При закрытом (внутреннем) хешировании в хеш-таблице хранятся непосредственно сами элементы, а не заголовки списков элементов.

Слайд 37Закрытое хеширование
При поиске элемента х необходимо просмотреть все местоположения h(x),h1(х),h2(х),...,

пока не будет найден х или пока не встретится пустой

сегмент.
Чтобы объяснить, почему можно остановить поиск при достижении пустого сегмента, предположим, что в хеш-таблице не допускается удаление элементов.
Пусть h3(х) – первый пустой сегмент. В такой ситуации невозможно нахождение элемента х в сегментах h4(х),h5(х) и далее, так как при вставке элемент х вставляется в первый пустой сегмент, следовательно, он находится где-то до сегмента h3(х).

Закрытое хеширование При поиске элемента х необходимо просмотреть все местоположения h(x),h1(х),h2(х),..., пока не будет найден х или

Слайд 38Закрытое хеширование
Если в хеш-таблице допускается удаление элементов, то при достижении

пустого сегмента, не найдя элемента х, нельзя быть уверенным в

том, что его вообще нет в таблице, т.к. сегмент может стать пустым уже после вставки элемента х.

Поэтому, чтобы увеличить эффективность данной реализации, необходимо в сегмент, который освободился после операции удаления элемента, поместить специальную константу, которую назовем, например, DEL.

В качестве альтернативы специальной константе можно использовать дополнительное поле таблицы, которое показывает состояние элемента.

Закрытое хеширование Если в хеш-таблице допускается удаление элементов, то при достижении пустого сегмента, не найдя элемента х,

Слайд 39Закрытое хеширование
Важно различать константы DEL и NULL – последняя находится

в сегментах, которые никогда не содержали элементов. При таком подходе

выполнение поиска элемента не требует просмотра всей хеш-таблицы. Кроме того, при вставке элементов сегменты, помеченные константой DEL, можно трактовать как свободные, таким образом, пространство, освобожденное после удаления элементов, можно рано или поздно использовать повторно.
Но, если невозможно непосредственно сразу после удаления элементов пометить освободившиеся сегменты, то следует предпочесть закрытому хешированию схему открытого хеширования.
Существует несколько методов повторного хеширования, то есть определения местоположений h(x),h1(х),h2(х),...:
линейное опробование;
квадратичное опробование;
двойное хеширование.

Закрытое хеширование Важно различать константы DEL и NULL – последняя находится в сегментах, которые никогда не содержали

Слайд 40Линейное опробование
Это последовательный перебор сегментов таблицы с некоторым фиксированным шагом:
адрес=h(x)+ci, где

i – номер попытки разрешить коллизию;

c – константа, определяющая шаг перебора.
При шаге, равном единице, происходит последовательный перебор всех сегментов после текущего.

Линейное опробование Это последовательный перебор сегментов таблицы с некоторым фиксированным шагом: адрес=h(x)+ci, где i – номер попытки разрешить

Слайд 41Квадратичное опробование
отличается от линейного тем, что шаг перебора сегментов нелинейно

зависит от номера попытки найти свободный сегмент:
адрес=h(x)+ci+di2, где i

– номер попытки разрешить коллизию,
c и d – константы. Благодаря нелинейности такой адресации уменьшается число проб при большом числе ключей-синонимов.
Однако, даже относительно небольшое число проб может быстро привести к выходу за адресное пространство небольшой таблицы вследствие квадратичной зависимости адреса от номера попытки.

Квадратичное опробование отличается от линейного тем, что шаг перебора сегментов нелинейно зависит от номера попытки найти свободный

Слайд 42В случае многократного превышения адресного пространства и, соответственно, многократного циклического

перехода к началу будет происходить просмотр одних и тех же

ранее занятых сегментов, тогда как между ними могут быть еще свободные сегменты.

Более корректным будет использование сдвига адреса на 1 в случае каждого циклического перехода к началу таблицы. Это повышает вероятность нахождения свободных сегментов.

В случае применения схемы закрытого хеширования скорость выполнения вставки и других операций зависит не только от равномерности распределения элементов по сегментам хеш-функцией, но и от выбранной методики повторного хеширования (опробования) для разрешения коллизий, связанных с попытками вставки элементов в уже заполненные сегменты.

В случае многократного превышения адресного пространства и, соответственно, многократного циклического перехода к началу будет происходить просмотр одних

Слайд 43Например, методика линейного опробования для разрешения коллизий – не самый

лучший выбор:
Как только несколько последовательных сегментов будут заполнены, образуя группу,

любой новый элемент при попытке вставки в эти сегменты будет вставлен в конец этой группы, увеличивая тем самым длину группы последовательно заполненных сегментов.
Другими словами, для поиска пустого сегмента в случае непрерывного расположения заполненных сегментов необходимо просмотреть больше сегментов, чем при случайном распределении заполненных сегментов.
Отсюда также следует очевидный вывод, что при непрерывном расположении заполненных сегментов увеличивается время выполнения вставки нового элемента и других операций.

Например, методика линейного опробования для разрешения коллизий – не самый лучший выбор: Как только несколько последовательных сегментов будут

Слайд 4425 элементов и размер таблицы тоже 25
10 элементов и размер

таблицы тоже 10
Примеры хеш-таблиц

Слайд 45До сих пор рассматривались способы поиска в таблице по ключам,

позволяющим однозначно идентифицировать запись.
Такие ключи называются первичными.
Возможен вариант

организации таблицы, при котором отдельный ключ не позволяет однозначно идентифицировать запись. Такая ситуация часто встречается в базах данных. Идентификация записи осуществляется по некоторой совокупности ключей.
Ключи, не позволяющие однозначно идентифицировать запись в таблице, называются вторичными ключами. Даже при наличии первичного ключа, для поиска записи могут быть использованы вторичные.

До сих пор рассматривались способы поиска в таблице по ключам, позволяющим однозначно идентифицировать запись. Такие ключи называются

Слайд 46Ключевые термины:

Вторичные ключи – это ключи, не позволяющие однозначно идентифицировать

запись в таблице.
Закрытое хеширование или Метод открытой адресации – это

технология разрешения коллизий, которая предполагает хранение записей в самой хеш-таблице.
Коллизия – это ситуация, когда разным ключам соответствует одно значение хеш-функции.
Коэффициент заполнения хеш-таблицы – это количество хранимых элементов массива, деленное на число возможных значений хеш-функции.
Открытое хеширование или Метод цепочек – это технология разрешения коллизий, которая состоит в том, что элементы множества с равными хеш-значениями связываются в цепочку-список.
Первичные ключи – это ключи, позволяющие однозначно идентифицировать запись.
Повторное хеширование – это поиск местоположения для очередного элемента таблицы с учетом шага перемещения.

Ключевые термины: Вторичные ключи – это ключи, не позволяющие однозначно идентифицировать запись в таблице.Закрытое хеширование или Метод

Слайд 47Ключевые термины:
Пространство записей – это множество тех ячеек памяти, которые

выделяются для хранения таблицы.
Пространство ключей – это множество всех теоретически

возможных значений ключей записи.
Синонимы – это совпадающие ключи в хеш-таблице.
Хеширование – это преобразование входного массива данных определенного типа и произвольной длины в выходную битовую строку фиксированной длины.
Хеш-таблица – это структура данных, реализующая интерфейс ассоциативного массива, то есть она позволяет хранить пары вида "ключ- значение" и выполнять три операции: операцию добавления новой пары, операцию поиска и операцию удаления пары по ключу.
Хеш-таблицы с прямой адресацией – это хеш-таблицы, использующие инъективные хеш-функции и не нуждающиеся в механизме разрешения коллизий.

Ключевые термины: Пространство записей – это множество тех ячеек памяти, которые выделяются для хранения таблицы.Пространство ключей –

Слайд 48Контрольные вопросы
Каков принцип построения хеш-таблиц?
Существуют ли универсальные методы построения

хеш-таблиц?
Почему возможно возникновение коллизий?
Каковы методы устранения коллизий? Охарактеризуйте их

эффективность в различных ситуациях.
Назовите преимущества открытого и закрытого хеширования.
В каком случае поиск в хеш-таблицах становится неэффективен?
Как выбирается метод изменения адреса при повторном хешировании?

Контрольные вопросы Каков принцип построения хеш-таблиц? Существуют ли универсальные методы построения хеш-таблиц?Почему возможно возникновение коллизий? Каковы методы

Слайд 49Задания
Составьте хеш-таблицу, содержащую буквы и количество их вхождений во введенной

строке. Вывести таблицу на экран. Осуществить поиск введенной буквы в

хеш-таблице.

Постройте хеш-таблицу из слов произвольного текстового файла, задав ее размерность с экрана. Выведите построенную таблицу слов на экран. Осуществите поиск введенного слова. Выполните программу для различных размерностей таблицы и сравните количество сравнений. Удалите все слова, начинающиеся на указанную букву, выведите таблицу.

Постройте хеш-таблицу для зарезервированных слов, используемого языка программирования (не менее 20 слов), содержащую HELP для каждого слова. Выдайте на экран подсказку по введенному слову. Добавьте подсказку по вновь введенному слову, используя при необходимости реструктуризацию таблицы. Сравните эффективность добавления ключа в таблицу или ее реструктуризацию для различной степени заполненности таблицы.

В текстовом файле содержатся целые числа. Постройте хеш-таблицу из чисел файла. Осуществите поиск введенного целого числа в хеш-таблице. Сравните результаты количества сравнений при различном наборе данных в файле.

Задания Составьте хеш-таблицу, содержащую буквы и количество их вхождений во введенной строке. Вывести таблицу на экран. Осуществить

Слайд 50

Скачать презентацию

Разделы презентаций

Структуры и алгоритмы обработки данных

Содержание

Слайды и текст этой презентации

Слайд 1Структуры и алгоритмы обработки данныхЛекция 12Хеширование (hashing) Хеш-таблицы (Hash tables)

Слайд 2Хеширование – это преобразование входного массива данных определенного типа и произвольной

длины в выходную битовую строку фиксированной длины. Такие преобразования

Слайд 3Хеширование Хеширование применяется для сравнения данных: если у двух массивов хеш-коды

разные, массивы гарантированно различаются; если одинаковые — массивы, скорее всего, одинаковы.

Слайд 4Хеширование Существует множество массивов, дающих одинаковые хеш-коды — так называемые коллизии. Вероятность

возникновения коллизий играет немаловажную роль в оценке качества хеш-функций.Существует множество

Слайд 5Хеширование Идея хеширования впервые была высказана Г.П. Ланом при создании внутреннего

меморандума IBM в январе 1953 г. с предложением использовать для

Слайд 6Хеширование В открытой печати хеширование впервые было описано Арнольдом Думи (1956

год), указавшим, что в качестве хеш-адреса удобно использовать остаток от

Слайд 7Хеш-таблица Хеш-таблица – это структура данных, реализующая интерфейс ассоциативного массива,