Разделы презентаций


Нейронные сети (НС)

Содержание

Виды активационных функций F

Слайды и текст этой презентации

Слайд 1Нейронные сети (НС).
Введение в НС.
S
Y
Синапсы
Аксон
ВЫХОД

Нейронные сети (НС).Введение в НС.SYСинапсыАксонВЫХОД

Слайд 2Виды активационных функций F

Виды активационных функций F

Слайд 3Виды активационных функций

Виды активационных функций

Слайд 4Классификация нейронных сетей
№1 Классификация по топологии
1.1 Полносвязные сети:
 

1.2 Многослойные или слоистые:

Классификация нейронных сетей№1 Классификация по топологии 1.1 Полносвязные сети:   1.2 Многослойные или слоистые:

Слайд 5Многослойные сети делятся на:
        1.2.1 Монотонные                 
.        1.2.2 Сети

без обратных связей:
                Обычная многослойная сеть, с 1-им ограничением, что

нейроны q-ого слоя могут передавать сигнал нейронам (q+1)-ого слоя и никакому другому слою.        

1.2.3 Сети с обратными связями:

Многослойные сети делятся на:         1.2.1 Монотонные                  .        1.2.2 Сети без обратных связей:                 Обычная

Слайд 6 1.2.3.1 Слоисто циклические:                             


Многослойная сеть у которой выход передает

свои сигналы 1-му слою                                                                               
                
1.2.3.2 Слоисто-полносвязные:  Состоит из слоев,

каждый из которых представляет собой полносвязную сеть.
1.2.3.3 Полносвязные-слоистые:  
По своей структуре такие же как и 1.2.3.2, а функционально, в них не разделяют фазы обмена внутри слоя и передачи следующему, на каждом такте нейроны всех слоев применяют сигналы от нейронов как своего слоя, так и последующих.
 
 1.2.3.1 Слоисто циклические:                              Многослойная сеть у которой выход передает свои сигналы 1-му слою                                                                                                 1.2.3.2

Слайд 71.3 Слабосвязанные сети:        
В слабосвязанных сетях нейроны располагаются в узлах

прямоугольной форму или гексагональной решетки.
Каждый нейрон связан с 4-мя

(окрестность фон Неймана), 6-ью (окрестность Голея) или 8-мью (окрестность Мура) своими ближайшими соседями.
                                                                                                                         
1.3 Слабосвязанные сети:         В слабосвязанных сетях нейроны располагаются в узлах прямоугольной форму или гексагональной решетки. Каждый

Слайд 8№2 Классификация по типам структур:                        

2.1 Гомогенные:                                               2.2 Гетерогенные
  Нейроны

одного типа   
с единой функцией активации.       

      Нейроны с различными функциями
активации.

№3 Классификация по типу сигнала:       
Бинарные - двоичный сигнал Аналоговые.


№4 Классификация по типу работы        
      4.1 Синхронные                                                                 4.2 Асинхронные      В момент времени t, лишь один                                             Группа нейронов
меняет свое состояние.        нейрон меняет свое состояние.                                                как правило группа,
значит весь слой.
№2 Классификация по типам структур:                         2.1 Гомогенные:                                               2.2 Гетерогенные  Нейроны одного типа   с единой функцией активации.       

Слайд 9Алгоритмы обучения НС делятся на


обучение “с учителем"

"без

учителя"

Схема обучения НС с учителем

Алгоритмы обучения НС делятся на обучение “с учителем

Слайд 10Схема обучения НС без учителя
Выходной вектор
нейронной сети

Схема обучения НС без учителя Выходной векторнейронной сети

Слайд 11АЛГОРИТМЫ ОБУЧЕНИЯ НС

АЛГОРИТМЫ ОБУЧЕНИЯ НС

Слайд 13 При заданных значениях весов и порогов, нейрон имеет определенное значение

выходной активности для каждого возможного вектора входов. Множество входных векторов,

при которых нейрон активен (y=1), отделено от множества векторов, на которых нейрон пассивен (y=0) гиперплоскостью, уравнение которой :

ПЕРСЕПТРОН Розенблатта

При заданных значениях весов и порогов, нейрон имеет определенное значение выходной активности для каждого возможного вектора

Слайд 14Метод обучения состоит в итерационной подстройке матрицы весов, последовательно уменьшающей

ошибку в выходных векторах. Алгоритм включает несколько шагов:

Метод обучения состоит в итерационной подстройке матрицы весов, последовательно уменьшающей ошибку в выходных векторах. Алгоритм включает несколько

Слайд 15Ситуация линейной неразделимости множеств белых и черных точек
Классификация на

основе ПЕРСЕПТРОНА Розенблатта
Логическая функция “исключающее или”

Ситуация линейной неразделимости множеств белых и черных точек Классификация на основе ПЕРСЕПТРОНА Розенблатта Логическая функция “исключающее или”

Слайд 16Архитектура MLP FeedForward BackPropagation была разработана в начале 1970-х лет

несколькими независимыми авторами: Вербор (Werbor); Паркер (Parker); Румельгарт (Rumelhart), Хинтон

(Hinton) и Вильямс (Williams). Сейчас, парадигма ВackРropagation наиболее популярная, эффективная и легкая модель обучения для сложных, многослойных сетей. Типичная сеть MLP ВackРropagation имеет входной слой, выходной слой и по крайней мере один скрытый слой. Теоретически, ограничений относительно числа скрытых слоев не существует, но практически применяют один или два.

Нейроны организованы в послойную структуру с прямой передачей сигнала. Каждый нейрон сети продуцирует взвешенную сумму своих входов, пропускает эту величину через передаточную функцию и выдает выходное значение. Сеть может моделировать функцию практически любой сложности, причем число слоев и число нейронов в каждом слое определяют сложность функции. Определение числа промежуточных слоев и числа нейронов в них является важным при моделировании сети.

Архитектура MLP FeedForward BackPropagation была разработана в начале 1970-х лет несколькими независимыми авторами: Вербор (Werbor); Паркер (Parker);

Слайд 17Большинство исследователей и инженеров, применяя архитектуру к определенным проблемам используют

общие правила, в частности:
Количество входов и выходов сети определяются количеством

входных и выходных параметров исследуемого объекта, явления, процесса, и т.п.. В отличие от внешних слоев, число нейронов скрытого слоя выбирается эмпирическим путем. В большинстве случаев достаточное количество нейронов составляет
nск < nвх + nвых,
где nвх, nвых - количество нейронов во входном и, соответственно, в выходном слоях.
Если сложность в отношении между полученными и желаемыми данными на выходе увеличивается, количество нейронов скрытого слоя должна также увеличиться.
Если моделируемый процесс может разделяться на много этапов, нужен дополнительный скрытый слой (слои). Если процесс не разделяется на этапы, тогда дополнительные слои могут допустить перезапоминание и, соответственно, неверное общее решение.

Большинство исследователей и инженеров, применяя архитектуру к определенным проблемам используют общие правила, в частности:Количество входов и выходов

Слайд 18В процессе функционирования нейронная сеть формирует выходной сигнал Y в

соответствии с входным сигналом X, реализуя некоторую функцию Y =

G(X). Если архитектура сети задана, то вид функции G определяется значениями синаптических весов и смещений сети.
Обучение состоит в поиске (синтезе) функции G, близкой к оптимальной в смысле минимальной ошибки E. Если выбрано множество обучающих примеров – пар
(Xk, Yk) (где k = 1,2,…,N) и способ вычисления функции ошибки E, то обучение нейронной сети превращается в задачу многомерной оптимизации, имеющую очень большую размерность. При этом, поскольку функция E может иметь произвольный вид, обучение в общем случае представляет собой многоэкстремальную невыпуклую задачу оптимизации.
В качестве ошибки сети принимается некоторая функция ошибки на выходном элементе (элементах) сети.
Квадратичная(Sum-squared) ошибка полагается равной сумме квадратов разностей между целевыми ti и фактическими oi выходными значениями каждого k-го выходного элемента по всем i = 1..n образцам на l-й эпохе. При обучении сетей такая функция ошибок является стандартной.

В процессе функционирования нейронная сеть формирует выходной сигнал Y в соответствии с входным сигналом X, реализуя некоторую

Слайд 19 После того как задали архитектуру сети, необходимо найти параметры,

при которых ошибка минимальна. В линейных моделях можно определить параметры,

дающие абсолютный минимум ошибки. С нелинейными моделями дело обстоит гораздо сложнее. Настраивая сеть, нельзя быть уверенным, что алгоритм обучения достиг глобального минимума, иными словами, утверждать, что нельзя добиться лучшего результата.
Поэтому для контроля обучения сети полезна поверхность ошибок.
Каждому из весов и порогов сети (их общее число обозначим через N) соответствует одно измерение в многомерном пространстве. (N+1)-мерное измерение соответствует ошибке сети. Для данного набора весов соответствующую ошибку сети можно изобразить точкой в (N+1)-мерном пространстве. В итоге все такие точки образуют некоторую поверхность – поверхность ошибок. Цель обучения нейронной сети в том, чтобы найти самую низкую точку этой поверхности. В случае линейной модели с суммой квадратов в качестве функции ошибок, поверхность ошибок представляет собой параболоид. В общем случае она может иметь локальные минимумы (точки, самые низкие в некоторой своей окрестности, но лежащие выше глобального минимума), седловые точки и т.д. Отталкиваясь от некоторой начальной конфигурации весов и порогов, алгоритм производит поиск глобального минимума. Для этого вычисляется градиент в данной точке и используется для продвижения вниз по склону на поверхности ошибок. В конце концов, алгоритм приводит к некоторой точке, которая, однако, может оказаться лишь точкой локального минимума. Поэтому следует поэкспериментировать с несколькими начальными конфигурациями.
После того как задали архитектуру сети, необходимо найти параметры, при которых ошибка минимальна. В линейных моделях

Слайд 20 Перед началом обучения весовые коэффициенты устанавливаются равными некоторым случайным

значениям. При этом точка, представляющая начальное состояние сети, может оказаться

в любом месте на поверхности ошибок, но очень маловероятно, чтобы она оказалась в точке минимума этой поверхности. В процессе обучения сеть должна корректировать весовые коэффициенты так, чтобы максимально уменьшить значения общей ошибки. То есть, весовые коэффициенты должны корректироваться в том направлении, в котором спуск вниз по поверхности ошибок происходит быстрее всего. На рисунке эта идея иллюстрируется для одного веса, где n обозначает время или итерацию. Прямая линия представляет производную ошибки в зависимости от веса в момент времени n. Для случая двух весовых коэффициентов получается чашевидная поверхность ошибок, подобная показанной на рисунке.
Перед началом обучения весовые коэффициенты устанавливаются равными некоторым случайным значениям. При этом точка, представляющая начальное состояние

Слайд 21Пошаговое описание алгоритма обратного распространения ошибок
Шаг 1. Весам сети присваиваются

небольшие начальные значения, например значениями из диапазона между -0.3 и

+0.3, полученные с помощью генератора случайных чисел, распределённых по нормальному, равномерному или иному закону.
Шаг 2. Выбирается очередная обучающая пара (X,Y) из обучающего множества; вектор X подаётся на вход сети. Обучение предполагается управляемым, поскольку с каждым входным образцом X связывается целевой выходной образец Y.
Шаг 3. Вычисляется результат на каждом j-м выходе сети.
Шаг 4. Вычисляется разность между требуемым tj (целевым, Y) и реальным oj (вычисленным) выходом сети, т.е. каждый из выходов сети вычитается из соответствующего компонента целевого вектора (выходного образца) с целью получения ошибки. После этого вычисляется локальный градиент ошибки для каждого элемента сети, кроме входных. Для выходных элементов используется формула (4)


а для элементов внутренних слоёв – формула (5)

Пошаговое описание алгоритма обратного распространения ошибокШаг 1. Весам сети присваиваются небольшие начальные значения, например значениями из диапазона

Слайд 22Шаг 5. Веса сети корректируются так, чтобы минимизировать ошибку. Сначала

веса выходного слоя, затем, с использованием правила дифференцирования сложной функции

и своеобразного вида производной сигмоидальной функции (или другой функции активации), веса предыдущего слоя и т.п. Вычисление приращения веса выполняется по формуле (6)

Чтобы уменьшить вероятность того, что изменения весов приобретут осциллирующий характер, вводится инерционный член α (momentum), добавляемый в пропорции, соответствующей предыдущему изменению веса. Так что значение весового коэффициента связи между i-м и j-м нейронами на (n+1)-м шаге тренировки составит


Таким образом, изменение веса на шаге (n+1) оказывается зависящим от изменения веса на шаге n. (формула 7)

Шаг 5. Веса сети корректируются так, чтобы минимизировать ошибку. Сначала веса выходного слоя, затем, с использованием правила

Слайд 23Шаг 6. Шаги со 2-го по 5-й повторяются для каждой

пары тренировочного множества до тех пор, пока не выполнится условие

останова. Например, обучение продолжается до тех пор, пока изменение усреднённой квадратичной ошибки (RMS) не окажется меньше некоторого допустимого значения при переходе от одной эпохи к следующей (или не выполнится другое условие останова). При этом допустимое значение 0.01 будет означать, что усреднённая квадратичная ошибка соседних эпох не должна отличаться более чем на ±0.01. Если в процессе обучения наступает момент, когда ошибка в сети попадает в рамки допустимого изменения, говорят, что наблюдается сходимость. Другим критерием окончания обучения можно считать наступление момента, когда выход для каждого учебного образца оказывается в рамках допустимого отклонения от соответствующего целевого выходного образца.

Вычисления в сети выполняются последовательно послойно.
Шаги 2 и 3 можно рассматривать как «проход вперёд», так как сигнал распространяется по сети от входа к выходу. Шаги 4 и 5 составляют «обратный проход», поскольку здесь вычисляемый сигнал ошибки распространяется обратно по сети и используется для подстройки весов.

Шаг 6. Шаги со 2-го по 5-й повторяются для каждой пары тренировочного множества до тех пор, пока

Слайд 245
0.9987
6
0.8550
6.6556
1.7745
3
0.9168
4
0.9526
2.4
3
1
0.2
2
0.8
7
0.9724
3.5625
1
-1
2
1
2
2
2
-2
-1
2
3
3
3
2
1
5
-0.0093
6
-0.0139
0
-0.0017
3
-0.0017
4
-0.0051
-0.0001
-0.0002
1
0.2
2
0.8
7
-0.0046
1
-1
2
1
2
2
2
-2
-1
2
3
3
3
2
1
Прямой
проход
Ошибка предыдущего
слоя, умноженная на
весовые значения
Фактическая ошибка
0.9987(1 - 0.9987) x -0.0093
Целевым

является значение 0.8,
поэтому ошибка для

выходного

элемента равна

(0.800 - 0.9724) x 0.9724

x (1 - 0.9724) = -0.0046

50.998760.85506.65561.774530.916840.95262.4310.220.870.97243.56251-121222-2-12333215-0.00936-0.01390-0.00173-0.00174-0.0051-0.0001-0.000210.220.87-0.00461-121222-2-1233321ПрямойпроходОшибка предыдущегослоя, умноженная навесовые значенияФактическая ошибка0.9987(1 - 0.9987) x -0.0093Целевым является  значение  0.8,поэтому  ошибка

Слайд 25Входные элементы с линейной функцией активации передают входной сигнал на

свои выходы без изменений. Они также не имеют порогов.
Совокупный входной

сигнал будем считать по формуле .


Для третьего элемента w(0,3)=1, w(1,3)=-1, w(2,3)=2,
Net3 = (1*1) + (-1*0.2) + (2*0.8) = 2.4
Выходной сигнал третьего элемента рассчитаем по формуле (2)
O3 = 1/(1 + exp(-2.4))= 0.9168
Выполним подобные вычисления для остальных элементов сети
Net4 = (1*1) + (2 * 0.2) + (2 * 0.8) = 3
O4 = 1/(1+exp(-3)) = 0.9526
Net5 = (2 * 1) + (3 * 0.9168) + (2 * 0.9526) = 6.6556
O5 = 1/(1+exp(-6.6556)) = 0.9987
Net6 = (-2*1) + (1 * 0.9168) + (3 * 0.9526) = 1.7745
O6 = 1/(1+exp(-1.7745)) = 0.8550
Net7 = ( -1*1) + (2*0.9987 ) + (3 * 0.8550) = 3.5625
O7 = 1/(1+exp(-3.5625)) = 0.9724
Градиент ошибки выходного элемента рассчитаем по формуле (4)
δ7 = 0.9724 * (1 – 0.9724) * (0.8 – 0.9724) = -0.0046.
Градиенты ошибок скрытых элементов рассчитаем по формуле (5)
δ6 = 0.8550 * (1 – 0.8550) * (3 * -0.0046) = -0.0017
δ5 = 0.9987 * (1 – 0.9987) * (2*-0.0046) = 0
δ4 = 0.9526*(1-0.9526)*(2*0+3*-0.0017) = -0.0051
δ3 = 0.9168*(1-0.9168)*(3*0+1*-0.0017) = -0.0001
Входные элементы с линейной функцией активации передают входной сигнал на свои выходы без изменений. Они также не

Слайд 26Вычислим значения приращений весовых коэффициентов по формуле (6). Для первого

образца нет необходимости добавлять инерционный член, поскольку для этого образца

нет изменения предыдущего веса.
Δw(0,7) = 0.07 * (-0.0046) = -0.0003
Δw(5,7) = 0.07 * (-0.0046) * 0.9987 = -0.0003
Δw(6,7) = 0.07 * (-0.0046) * 0.8550 = -0.0003
Δw(0,6) = 0.07 * (-0.0017) * 1 = -0.0001
Δw(3,6) = 0.07 * (-0.0017) * 0.9168 = -0.0001
Δw(4,6) = 0.07 * (-0.0017) * 0.9526 = -0.0001
Δw(0,5) = 0.07 * 0 * 1 = 0
Δw(3,5) = 0.07 * 0 * 0.9168 = 0
Δw(4,5) = 0.07 * 0 * 0.9526 = 0
Δw(0,4) = 0.07 * (-0.0002) * 1 = -0.000014
Δw(1,4) = 0.07 * (-0.0002) * 0.2 = -0.0000028
Δw(2,4) = 0.07 * (-0.0002) * 0.8 = -0.0000112
Δw(0,3) = 0.07 * (-0.0001) * 1 = -0.000007
Δw(1,3) = 0.07 * (-0.0001) * 0.2 = -0.0000014
Δw(2,3) = 0.07 * (-0.0001) * 0.8 = -0.0000056
Вычислим значения приращений весовых коэффициентов по формуле (6). Для первого образца нет необходимости добавлять инерционный член, поскольку

Слайд 27Вычислим новые значения весовых коэффициентов по формуле (7)
w(0,7) = -1

+ -0.0003 = -1.0003
w(5,7) = 2 + -0.0003 = 1.9997
w(6,7)

= 3 + -0.0003 = 2.9997
w(0,6) = -2 + -0.0001 = -2.0001
w(3,6) = 1 + -0.0001 = 0.9999
w(4,6) = 3 + -0.0001 = 2.9999
w(0,5) = 2 + 0 = 2
w(3,5) = 3 + 0 = 3
w(4,5) = 2 + 0 = 2
w(0,4) = 1 + -0.000014 = 0.999986
w(1,4) = 2 + -0.0000028 = 1.9999972
w(2,4) = 2 + -0.0000112 = 1.9999888
w(0,3) = 1 + -0.000007 = 0.999993
w(1,3) = -1 + -0.0000014 = -1.0000014
w(2,3) = 2 + -0.0000056 = 1.9999944
Вычислим новые значения весовых коэффициентов по формуле (7)w(0,7) = -1 + -0.0003 = -1.0003w(5,7) = 2 +

Слайд 28Расчет новых значений весов

Расчет новых значений весов

Слайд 29И ЭТО ТОЛЬКО НАЧАЛО :)

И ЭТО ТОЛЬКО НАЧАЛО :)

Обратная связь

Если не удалось найти и скачать доклад-презентацию, Вы можете заказать его на нашем сайте. Мы постараемся найти нужный Вам материал и отправим по электронной почте. Не стесняйтесь обращаться к нам, если у вас возникли вопросы или пожелания:

Email: Нажмите что бы посмотреть 

Что такое TheSlide.ru?

Это сайт презентации, докладов, проектов в PowerPoint. Здесь удобно  хранить и делиться своими презентациями с другими пользователями.


Для правообладателей

Яндекс.Метрика