Слайд 1Параллельные архитектуры с неоднородным доступом к памяти. NUMA-системы
Выполнил: Кобец С.
Ю.
А-13-08
Преподаватель: Шамаева О. Ю.
Слайд 2Основные классы современных параллельных компьютеров
Симметричные мультипроцессорные системы
Symmetric Multiprocessing - SMP
Слайд 3Массивно-параллельные системы
Massive Parallel Processing - MPP
Слайд 4NUMA-архитектура
Non-Uniform Memory Architecture
Слайд 5Особенности NUMA
Каждая группа процессоров имеет свою собственную память.
Каждый ЦП может
иметь доступ к памяти, связанной с другими группами.
Доступ к локальной
памяти происходит быстрее, чем к памяти, связанной с другими узлами NUMA.
Слайд 6Работа с памятью
Доступ процессорного элемента к собственной локальной памяти оказывается
в 5-10 раз быстрее, чем доступ к общему блоку памяти
и к блокам локальной памяти других процессорных элементов.
Отношение времен доступа к внешней и локальной памяти называется коэффициентом NUMA.
Чем выше коэффициент NUMA, тем больше издержки на доступ к памяти других узлов.
Слайд 7Когерентность кэша
В многопроцессорных системах несколько процессорных узлов работают одновременно, поэтому
возможна ситуация параллельного доступа к одной ячейке памяти.
Механизм уведомления всех
узлов об изменении значения в общей памяти называется протоколом когерентности (memory coherence protocol).
Слайд 8В класс NUMA входят системы без кэширования nc-NUMA (No Caching
NUMA) и системы с согласованной кэш-памятью cc-NUMA (Coherent Cache NUMA).
Примеры
cc-NUMA: HP 9000 V-class в SCA-конфигурациях, SGI Origin2000, Sun HPC 10000, IBM/Sequent NUMA-Q 2000, SNI RM600.
Слайд 9Масштабируемость
Главный выигрыш от использования NUMA — это масштабируемость.
Масштабируемость NUMA-систем ограничивается
объемом адресного пространства, возможностями аппаратуры поддержки когерентности кэшей и возможностями
операционной системы по управлению большим числом процессоров.
Слайд 10Операционная система
Обычно вся система работает под управлением единой ОС. Но
возможны также варианты динамического "подразделения" системы, когда отдельные "разделы" системы
работают под управлением разных ОС.
Слайд 11Модель программирования
Программирование происходит в модели общей памяти — POSIX threads,
OpenMP.
OpenMP реализует параллельные вычисления с помощью многопоточности, в которой «главный»
поток создает набор подчиненных потоков и задача распределяется между ними.
Задачи, выполняемые потоками параллельно, также как и данные, требуемые для выполнения этих задач, описываются с помощью специальных директив препроцессора соответствующего языка — прагм.
Слайд 12Примеры суперкомьютеров
NUMA-Q 2000
Производитель : IBM (ранее – Seqent)
Класс архитектуры
: cc-NUMA, используется для организации сложных информационных систем.
Модификации: Model
E410/E330/E320/E300/E200
Процессоры: Intel Pentium III Xeon (700 MHz в модели E410)
Узел: от 4 до 64 процессоров, до 64 GB оперативной памяти; узел состоит из базовых плат по 4 процессора (quads), соединенных между собой коммутатором IQ-Link.
Масштабируемость: Возможна организация кластеров, включающих до 4 узлов
Системное ПО: Используется операционная система DYNIX/ptx - версия UNIX от Sequent. Внутри одной системы могут одновременно исполняться UNIX и Windows NT.
Слайд 13 SGI Origin2000
Производитель : Silicon Graphics
Класс архитектуры: cc-NUMA
Процессор: 64-разрядные RISC-процессоры
MIPS R10000, R12000/300MHz .
Модуль: Основной компонент системы - модуль Origin,
включающий от 2 до 8 процессоров MIPS R10000 и до 16GB оперативной памяти.
Масштабируемость: Поставляются системы Origin2000, содержащие до 256 процессоров (т.е. до 512 модулей). Вся память системы (до 256GB) глобально адресуема, аппаратно поддерживается когерентность кэшей.
Коммутатор: Модули системы соединены с помощью сети CrayLink, построенной на маршрутизаторах MetaRouter.
Системное ПО: Используется операционная система SGI IRIX.
Средства программирования: Поставляется распараллеливающий компилятор Cray Fortran 90. Поддерживается стандарт OpenPM.
Слайд 14 RM600 E
Производитель : Siemens Computer Systems (SNI), серия RM Servers.
Класс архитектуры: cc-NUMA
Модификации: E60, E20
Процессор: Используются процессоры MIPS
R10000 (200MHz).
Число процессоров: Процессорные платы с SMP-архитектурой объединяют до 4-х процессоров. Система включает в общей сложности до 24 процессоров в модели E60 и до 8 в модели E20.
Память: Общий объем оперативной памяти систем E60 - до 4GB, а систем E20 - до 2GB. Архитектура памяти системы - NUMA.
Масштабируемость: Несколько систем RM600 E могут объединяться в кластерную (MPP) систему - Reliant Cluster Server.
Системное ПО: Устанавливается операционная система Reliant UNIX.