Введение 2 . 9 11 12 · Двунаправленная ассоциативная...

Введение ...................................................................................................................................................2 Формальный нейрон. Типология нейронов. Задача, решаемая нейроном, геометрическая интерпретация. .........................................................................................................................................4 Задача обучения нейрона. Виды обучения нейрона. Правило Хебба. Дельта-правило. Геометрическая интерпретация..............................................................................................................6 Нейронная сеть. Слой, типология слоёв. Типология нейронных сетей. Основные классы задач, решаемых нейронными сетями. .............................................................................................................9 Задача обучения нейронной сети, отличие от задачи обучения нейрона. Проблемы. Примеры алгоритмов и методов обучения...........................................................................................................11 Структура альфа-персептрона. Задача, решаемая альфа-персептроном. Гамма-персептрон, различия. Задачи, решаемые персептронами без обратных и перекрёстных связей. .....................12 Градиентные методы. ............................................................................................................................14 Математическое обоснование метода обратного распространения ошибки. Алгоритм обратного распространения ошибки. .....................................................................................................................14 Вывод формулы для расчёта адаптивного коэффициента обучения в алгоритме обратного распространения ошибки. .....................................................................................................................16 Вывод формулы для расчёта адаптивного шага обучения для нерекуррентной линейной нейронной сети.......................................................................................................................................18 Алгоритм послойного обучения. Назначение и отличие от алгоритма обратного распространения ошибки. .....................................................................................................................18 Алгоритм многократного распространения ошибки. Назначение и отличие от алгоритма обратного распространения ошибки....................................................................................................20 Задача предсказания числовых последовательностей с помощью нейронных сетей. Особенности устройства нейронных сетей для предсказания числовых последовательностей...........................20 Реккурентные нейронные сети. Контекстный нейрон. Обучение. Сеть Элмана. Сеть Джордана.21 Рециркуляционные нейронные сети. Линейная рециркуляционная сеть. Задача, решаемая линейной рециркуляционной сетью (метод главных компонент). ...................................................24 Алгоритмы обучения и функционирования линейной рециркуляционной сети. ...........................28 Релаксационные нейронные сети. Синхронная сеть Хопфилда. Непрерывное и дискретное состояние. Структура, обучение, энергия, функционирование. .......................................................32 Релаксационные нейронные сети. Асинхронная сеть Хопфилда. Непрерывное и дискретное состояние. Структура, обучение, энергия, функционирование. .......................................................35 Сеть Хэмминга. Назначение, обучение и функционирование. .........................................................36 Линейная ассоциативная память и ассоциативная память на основе сети Хопфилда. Функционирование, отличие. ...............................................................................................................40 Двунаправленная ассоциативная память. Назначение, структура, обучение и функционирование...................................................................................................................................................................41 Двунаправленная ассоциативная память. Метод обучения двунаправленной ассоциативной памяти с модифицированной структурой. ..........................................................................................43 Сеть адаптивного резонанса. Назначение, структура, обучение и функционирование. ................47

Структура APT ...............................................................................................................................47 Функционирование APT ...............................................................................................................54 ПРИМЕР ОБУЧЕНИЯ СЕТИ APT...............................................................................................57 ЗАКЛЮЧЕНИЕ ..............................................................................................................................59

Устройство и структура нейронных сетей для решения задач классификации и кластеризации. Правила обучения: WTA и CWTA. ......................................................................................................59 Структура когнитрона, неокогнитрона и свёрточных нейронных сетей, отличия. Назначение когнитрона, неокогнитрона и свёрточных нейронных сетей. ...........................................................62

НЕОКОГНИТРОН .........................................................................................................................67 Псевдооптическая нейронная сеть. Интерферирующий нейрон, устройство. Назначение, структура и функционирование сети. ..................................................................................................71 Машина Больцмана, назначение. Устройство и функционирование. ..............................................73

Предетекторы и детекторы. Поле (карта) детекторов. Детекторы новизны и тождества. Схема активного анализа на основе нейроподобных элементов. .................................................................73 Аппаратная реализация нейронных сетей. Процедура проектирования систолических массивов (процессоров), на основе структуры сети. Систолические процессоры для двухслойной нейронной сети (первый слой – рецепторы). Эффективность. Предпочтение по эффективности.........................................................................................................Ошибка! Закладка не определена. Систолический массив с разнонаправленными связями. Сравнение по эффективности с процессорами с однонаправленными связями....................................................................................77 Матричный систолический процессор. Сравнение по эффективности............................................78 Систолические массивы для многослойных нейронных сетей. Структура систолического массива, объединяющего различные систолические процессоры. Эффективность. ......................79 Систолические массивы для многослойных нейронных сетей. Структура систолического массива, объединяющего идентичные систолические процессоры. Эффективность.....................80 Систолические процессоры для реализации релаксационных нейронных сетей (сети Хопфилда)...................................................................................................................................................................80 Методы обеспечения отказоустойчивости. Скользящее резервирование. ......................................81 Методы обеспечения отказоустойчивости. Секционированное резервирование. Схема для неоднородного потока входных данных. ............................................................................................82 Нечёткие нейронные сети. Структура, функционирование, обучение. ...........................................82 Литература. .............................................................................................................................................87

Введение Теория нейронных сетей включает широкий круг вопросов из разных

областей науки: биофизики, математики, информатики, схемотехники и технологии. Искусственные нейронные сети — набор математических и алгоритмических методов для решения широкого круга задач.

Нейронные сети превосходят последовательные машины в решении тех же задач, в которых машину превосходит человек. Задачи, требующие большого объема вычислений или высокой точности лучше выполняются обычной ЭВМ. К задачам, успешно решаемым нейронными сетями на данном этапе их развития относятся:

— распознавание зрительных, слуховых образов; огромная область применения: от распознавания текста и целей на экране радара до систем голосового управления;

— ассоциативный поиск информации и создание ассоциативных моделей; синтез речи; формирование естественного языка;

— формирование моделей и различных нелинейных и трудно описываемых математически систем, прогнозирование развития этих систем во времени: применение на производстве; прогнозирование развития циклонов и других природных процессов, прогнозирование изменений курсов валют и других финансовых процессов;

— системы управления и регулирования с предсказанием; управление роботами, другими сложными устройствами

— разнообразные конечные автоматы: системы массового обслуживания и коммутации, телекоммуникационные системы;

— принятие решений и диагностика, исключающие логический вывод; особенно в областях, где отсутствуют четкие математические модели: в медицине, криминалистике, финансовой сфере.

Развитие искусственных нейронных сетей вдохновляется биологией. То есть рассматривая сетевые конфигурации и алгоритмы, исследователи мыслят их в терминах организации мозговой деятельности. Но на этом аналогия может и закончиться. Знания о работе мозга на данный момент столь ограничены, что мало бы нашлось руководящих ориентиров для тех, кто стал бы ему подражать. Поэтому разработчикам сетей приходится выходить за пределы современных биологических знаний в поисках структур, способных выполнять полезные функции. Во многих случаях это приводит к необходимости отказа от биологического правдоподобия, мозг становится просто метафорой, и создаются сети, невозможные в живой материи или требующие неправдоподобно больших допущений об анатомии и функционировании мозга.

Несмотря на то, что связь с биологией слаба и зачастую несущественна, искусственные нейронные сети продолжают сравниваться с мозгом. Их функционирование часто напоминает человеческое познание, поэтому трудно избежать этой аналогии.

Мозг человека состоит из белого и серого веществ: белое – это тела нейронов, а серое – это соединительная ткань между нейронами, или аксоны и дендриты. Дендриты идут от тела нервной клетки к другим нейронам, где они принимают сигналы в точках соединения, называемых синапсами. Принятые синапсами входные сигналы подводятся к телу нейрона. Здесь они суммируются, причем одни входы стремятся возбудить нейрон, другие – воспрепятствовать его возбуждению. Синапсы отличаются друг от друга, по этой причине импульсы одинаковой величины, поступающие на входы нервной клетки через различные синапсы, могут возбуждать ее в разной степени. Когда суммарное возбуждение в теле нейрона превышает некоторый порог, нейрон возбуждается, посылая по единственному, разветвляющемуся на конце аксону сигнал другим нейронам.

Аксон контактирует с телами и дендритами других нейронов, образуя очередные синапсы (см. рис. 1).

Рис. 1. Биологический нейрон

У этой основной функциональной схемы много усложнений и исключений, тем не менее большинство искусственных нейронных сетей моделируют лишь эти простые свойства.

Формальный нейрон. Типология нейронов. Задача, решаемая нейроном, геометрическая интерпретация.

Формальный нейрон. Формальный нейрон имитирует в первом приближении свойства

биологического нейрона. На вход формального нейрона поступает некоторое множество сигналов, обозначенных x1, x2,…, xn, каждый из которых является выходом другого нейрона. Эти входные сигналы, в совокупности обозначаемые вектором X, соответствуют сигналам, приходящим в синапсы биологического нейрона. Т.к. синапсы отличаются друг от друга, над входными сигналами осуществляется преобразование L. Его результат подаётся на вход активационной функции F, которая формирует на аксоне нейрона выходной сигнал Y.

Таким образом, с математической точки зрения нейрон представляет собой композицию функций, задающих зависимость выходного сигнала нейрона Y от вектора входных сигналов X:

( )(Y F L X= ) (1) где X = (x1, x2, x3, x4, …xn) – вектор входных сигналов, L(X) – это функция преобразования вектора входных сигналов на синапсах

нейрона, F( ) – функция активации нейрона. Структурно нейрон можно изобразить

следующим образом: входные сигналы – компоненты вектора X – движутся по дендритам и поступают на синапсы, которые изображены в виде (трёх) кружочков, там над сигналами осуществляется преобразование L, после чего функция F дает выходной сигнал Y.

F X Y

L

Рис. 2. Структура нейрона

Типология нейронов. Тип нейрона определяется типом обрабатываемого сигнала и видом функций

F и L.

Типология входных сигналов xi – компонентов вектора X: структура сигнала

∗ однопараметрический (скаляр), мощность шкалы измерения сигнала

∗ дискретная шкала (дискретный сигнал),

∗ непрерывная шкала (аналоговый сигнал); ∗ многопараметрический (вектор), физическая интерпретация характеристик многопараметрического сигнала

∗ амплитуда, ∗ частота (спектр), ∗ фаза,

∗ длительность. Типология возможных функций активации нейронов: функция Формула график

линейная (вырожденная функция активации, используется при решении задач прогнозирования)

( ) ( )*F X k L X T= − -15

-10

-5

0

5

10

15

20

-10 -5 0 5 10 15 20

L(X)

Y

пороговая ( ) ( )( )

1

1

, при L X, при L X

k TF X

k T≥

=<

0

0 , 2

0 , 4

0 , 6

0 , 8

1

1 , 2

- 1 0 - 5 0 5 1 0 1 5 2 0

L ( X )

Y

функция знака ( ) ( )( )*F X k sign L X T= − - 1 ,5

- 1

- 0 ,5

0

0 ,5

1

1 ,5

- 1 0 - 5 0 5 1 0 1 5 2 0

L (X )

Y

ограниченная линейная

( )

( )( ) ( )( )

( ) ( )

( )

2 2

2 1 11 2

2 1 1

1 1

, при

*, при

, при

k L X T

k k L X TF X T L X T

T T kk L X T

>

− −= ≤ ≤

-5

-4

-3

-2

-1

0

1

2

-10 -5 0 5 10 15 20

L(X)

Y

− +

<

сигмоидная ( ) ( )*

11 k L X TF x

e −=

+

0

0,2

0,4

0,6

0,8

1

1,2

-10 -5 0 5 10 15 20

L(X)

Y

гиперболический тангенс ( ) ( )( )* XF x th k L T= −

-1,5

-1

-0,5

0

0,5

1

1,5

-10 -5 0 5 10 15 20

L(X)

Y

логарифмическая ( ) ( ) ( )( )2ln X 1F x L L X= + + -4

-3

-2

-1

0

1

2

3

4

-10 -5 0 5 10 15 20

L(X)

Y

радиально-базисная ( )

( ) 2

2

L X Tk

F X e

−⎛ ⎞⎜ ⎟⎜ ⎟⎝ ⎠−

= 0

0,2

0,4

0,6

0,8

1

1,2

-10 -5 0 5 10 15 20

L(X)

Y

Соответственно тип нейрона определяется типом обрабатываемого сигнала и

видом функции F и L.

Геометрическая интерпретация задачи нейрона. Рассмотрим нейрон вида: L(X) = (X,W) ; (2) F(X) =

1, при L(X) ≥ T; 0, при L(X) < T; (3)

В нем выходной сигнал принимает двоичные значения: 0 или 1. Значение 1 соответствует превышению порога возбуждения нейрона, а значение 0 – возбуждению ниже порогового уровня.

Рис. 3. Геометрическая интерпретация задачи, решаемой нейроном

W

x1

x2

T 1 0

Такой нейрон разбивает пространство входных сигналов на две линейно разделённые области точек этого пространства: для точек из одной области нейрон будет давать на выходе сигнал 1, а для точек из другой области – 0.

Задача обучения нейрона. Виды обучения нейрона. Правило Хебба. Дельта-правило. Геометрическая интерпретация.

Рассмотрим нейрон вида:

( )1

* *N

i ii

L X W x W=

= =∑ Xuur uur

(4)

F(X) =

1, при L(X) ≥ T; 0, при L(X) < T; (5)

Это одна из первых моделей нейрона, называемая моделью МакКаллока-Питса (предложена в 1943 г.), в ней выходной сигнал принимает двоичные значения: 0 или 1. Значение 1 соответствует превышению порога возбуждения нейрона, а значение 0 – возбуждению ниже порогового уровня. Коэффициенты представляют веса синаптических связей. Положительное значение соответствует возбуждающим синапсам, отрицательное значение W - тормозящим синапсам, тогда как W = 0 свидетельствует об отсутствии связи между нейронами.

iW

iW

i

i

Модель МакКаллока-Питса – это дискретная модель, в которой состояние нейрона в момент (t + 1) рассчитывается по значениям его входных сигналов в предыду-щий момент t.

Через несколько лет Д. Хебб предложил теорию обучения нейронов. Процесс обучения рассматриваемого нейрона сводится к изменению его внутренних параметров – компонентов вектора W и порога T. Д. Хебб в процессе исследования нервных клеток заметил, что связь между двумя клетками усиливается, если обе клетки пробуждаются (становятся активными) в один и тот же момент времени. Если клетка с выходным сигналом Y связана с клеткой, имеющей выходной сигнал xi, связью с весом wi, то на силу связи этих клеток влияют значения выходных сигналов xi и Y.

Приведённая ниже формула была предложена одной из первых для обучения нейрона и известна как правило Хебба. В соответствии с правилом ним, вес wi нейрона изменяется пропорционально произведению его входного и выходного сигналов:

wi(t+1) = wi(t)+α* xi *Y, i = 1..n здесь wi(t+1) и wi(t) – компоненты вектора W в момент времени t+1 и t

соответственно, α – коэффициент обучения (0 < α ≤ 1). Чтобы использовать правило Хебба для настройки порога поступают

следующим образом: переходят от рассматриваемого нами нейрона (см. рис. 1) к нейрону, изображённому на рис. 2.

Рис. 4 Рис. 5 где F’(X) =

1, при L(X) ≥ 0; 0, при L(X) < 0; (6)

x3 = -1, а w3 = T. Таким образом: T(t+1) = T(t)-α*Y здесь стоит отметить, что эту формулу целесообразно применять в случае,

когда функция активации нейрона является биполярно-пороговой: Y ∈ {-1; 1}, или осуществляется нормализация вектора W, включая порог.

Согласно правилу Хебба процесс обучения зависит от входных и внутренних значений характеристик нейрона. Такой механизм обучения называется обучением без учителя – на этапе адаптации нейрона мы не можем прогнозировать его выходные сигналы. Обучающий алгоритм подстраивает веса так, чтобы получались согласованные выходы, т. е. чтобы предъявление достаточно близких входных векторов давало одинаковые выходы.

Если же при обучении используется эталонное (ожидаемое) значение выходного сигнала нейрона, то такой механизм обучения называется обучением с учителем – результат обучения предопределен заранее благодаря заданным

F’ x3 Y

L x1

x2

F x1

L

xY

2

обучающим эталонным значениям. Приведём формулу для обучения с учителем известную как дельта- правило:

wi(t+1) = wi(t)+α*xi*(D-Y), i = 1..n P – эталонное значение выходного сигнала нейрона. Несмотря на многочисленные прикладные достижения, обучение с учителем

критиковалось за свою биологическую неправдоподобность. Рассмотрим геометрическую интерпретацию правила Хебба и дельта-правила. Пусть есть нейрон с двумя входами и пороговой функцией активации (k1=1;

k2=0; T=0), каждый сигнал, поступающий на вход такого нейрона, умножается на вес – компонент вектора W. Рассмотрим процесс изменения согласно правилу Хебба вектора W, обозначив вектора W и Х в момент времени i как W(i) и X(i) соответственно.

W(0)= (2,-3); X(0)= (2,0)

W(1)= (4,-3); X(1)= (2,1)

W(2)= (6,-2); X(2)= (1,1)

W(3)= (7,-1); X(3)= (2,1)

W(4)= (9,0); X(4)= (1,-2)

W(5)= (10,-2)

x2

Рис. 6. Обучение нейрона по правилу Хебба Рассмотрим обучение такого же нейрона, но только уже согласно дельта-

правилу. W(0)= (2,-3); X(0)= (3,3); Y=0; S=1

W(1)= (3,-2)

W0

x1

W5

x1

x2

x2

W0

x1

W1

W(0)= (2,-3); X(0)= (-3,-3); Y=1; S=0

W(1)= (3,-2)

x2

W0

x1

W1

Рис. 7. Обучение нейрона по дельта-правилу В случае нормализации векторов W и X геометрическая интерпретация

процесса обучения согласно дельта-правилу, заключается в подстройке направления вектора W в направлении некоторого эталонного вектора⎯W.

Рис. 8. Геометрическая интерпретация задачи, решаемой нейроном

W(0)

⎯W ⎯W

W(1)

Нейронная сеть. Слой, типология слоёв. Типология нейронных сетей. Основные классы задач, решаемых нейронными сетями.

Объединенные между собой, связанные структурно, нейроны образуют систему, которая называется искусственной нейронной сетью. По своей организации и функциональному назначению искусственная нейронная сеть с несколькими входами и выходами выполняет некоторое преобразование входных стимулов – сенсорной информации о внешнем мире – в выходные управляющие сигналы. Число преобразуемых стимулов равно n – числу входов сети, а число выходных сигналов соответствует числу выходов m. Совокупность всевозможных входных векторов размерности n образует векторное пространство X. Аналогично, выходные вектора также формируют векторное пространство Y. Таким образом нейронная сеть задаёт некоторую многомерную функцию F: X → Y , аргумент которой принадлежит пространству X входов, а значение – выходному пространству Y. При произвольном значении синаптических весовых коэффициентов нейронов сети функция, реализуемая сетью также произвольна. Для получения требуемой функции необходим специфический выбор весов. Упорядоченная совокупность всех весовых коэффициентов всех нейронов может быть представлена, как вектор W. Множество всех таких векторов также формирует векторное пространство W.

Нейроны в сети организуется в слои. Слоем нейронной сети называется множество узлов нейронной сети, нейронов, которые могут обрабатывать один и тот же сигнал (приходящий из одного источника) одновременно. Поэтому

расположенные на одном слое нейроны функционируют независимо друг от друга (параллельно). Обычно на изображениях нейроны одного слоя расположенные в одной плоскости.

Многослойные сети могут образовываться каскадами слоев. Выход одного слоя является входом для последующего слоя. Многослойные сети могут привести к увеличению мощности класса решаемых задач по сравнению с однослойной сетью лишь в том случае, если активационная функция между слоями будет нелинейной.

гомогенные гетерогенные

гомогенные гетерогенные однонаправленные

персептроны

двунаправленные рециркуляционные

рекуррентные

нерекуррентные Рассмотрим типологию нейронных сетей. Сети делятся на гомогенные

(содержащие однотипные нейроны) и гетерогенные. Сети только с прямым распространением информации (однонаправленные) и сети с обратным распространением информации (двунаправленные). Сети с наличием обратных связей (реккурентные) – соединений, идущих от выходов некоторого слоя к входам этого же слоя или предшествующих слоев – и с их отсутствием. У сетей без обратных связей нет памяти, их выход полностью определяется текущими входами и значениями весов. Среди двунаправленных сетей выделяют класс рециркуляционных, а среди сетей с обратными связями – класс релаксационных сетей. Такие сети обрабатывают информацию до тех пор, пока сеть не достигнет стабильного состояния, состояния релаксации. Примером релаксационной сети является сеть Хопфилда. По количеству слоёв сети делят на однослойные, двуслойные сети и т.д. Кроме того сети могут быть классифицированы по механизму их обучения либо его отсутствию (сети с фиксированными связями). Нейроны в сетях делят на рецепторы эффекторы и нейроны скрытых слоёв.

задачи классификация ∗ образов ∗ последовательностей

распознавание (образов) обобщение (образов) прогнозирование (последовательностей) преобразование (восстановление) выявление основных характеристик (синтез

решения)

Задача обучения нейронной сети, отличие от задачи обучения нейрона. Проблемы. Примеры алгоритмов и методов обучения.

Задание вектора в пространстве W полностью определяет все синаптические веса и, тем самым, состояние сети. Состояние, при котором нейронная сеть реализует требуемую функцию, называют обученным состоянием сети. Для заданной функции обученное состояние может не существовать или быть не единственным. Задача обучения теперь формально эквивалентна построению процесса перехода в пространстве W от некоторого произвольного состояния W0 к обученному состоянию, т.е. процесса, модифицирующего веса сети. Если обучение успешно, то предъявление сети множества входных сигналов приводит к появлению желаемого множества выходных сигналов.

Требуемая функция однозначно описывается путем задания соответствия каждому вектору пространства X некоторого вектора из пространства Y. Однако в таких случаях, как например, при работе с видеоизображением, вектора X могут иметь высокую размерность, поэтому даже в случае булевых векторов однозначное определение функции становится весьма громоздким. Во многих практических случаях значения требуемых функций для заданных значений аргумента получаются из эксперимента или наблюдений, и, следовательно, известны лишь для ограниченной совокупности векторов. Кроме того, известные значения функции могут содержать погрешности, а отдельные данные могут даже частично противоречить друг другу. По этим причинам перед нейронной сетью обычно ставится задача приближенного представления функции по имеющимся примерам. Имеющиеся в распоряжении исследователя примеры соответствий между векторами, либо специально отобранные из всех примеров наиболее представительные данные называют обучающей выборкой. Обучающая выборка определяется обычно заданием пар векторов, причем в каждой паре один вектор соответствует стимулу, а второй – требуемой реакции. Обучение нейронной сети состоит в приведении всех векторов стимулов из обучающей выборки требуемым реакциям путем выбора весовых коэффициентов нейронов.

Пусть имеется нейронная сеть, выполняющая преобразование F:X→Y векторов X из пространства входов X в вектора Y выходного пространства Y. Сеть находится в состоянии W из пространства состояний W. Пусть далее имеется обучающая выборка (Xα,Yα), α = 1..p. Рассмотрим полную ошибку E, делаемую сетью в состоянии W.

(7) Ошибка E=E(W) принимает неотрицательные значения. В некотором

обученном состоянии W*, в котором сеть не делает ошибок на обучающей выборке, данная функция принимает нулевое значение. На практике могут использоваться нейронные сети в состояниях с некоторым малым значением ошибки, не являющихся в точности минимумами функции ошибки.

Возникает вопрос – можно ли для обучения многослойной сети применить уже известное Δ -правило? Ответ состоит в том, что для применения Δ-правила необходимо знать не только текущие входы нейронов X, но и требуемые правильные значения Y. В случае многослойной сети эти правильные значения

имеются только для нейронов выходного слоя. Требуемые значения выходов для нейронов скрытых слоев неизвестны, что и ограничивает применение Δ-правила.

Имеется два класса обучающих методов: детерминистский и стохастический. Детерминистский метод обучения шаг за шагом осуществляет процедуру

коррекции весов сети, основанную на использовании их текущих значений, а также величин входов, фактических выходов и желаемых выходов.

Для обучения этим методом может быть использована следующая процедура: 1. Выбрать очередную пару входов и ожидаемых выходов; подать входной

вектор на вход сети. 2. Вычислить выход сети. 3. Вычислить разность между полученным выходом сети и ожидаемым

выходом. 4. Подкорректировать веса сети так, чтобы минимизировать ошибку. 5. Повторять шаги с 1 по 4 для каждой пары обучающих входов и ожидаемых

выходов до тех пор, пока ошибка на всем множестве не достигнет приемлемого уровня.

Стохастические методы обучения выполняют псевдослучайные изменения величин весов, сохраняя те изменения, которые ведут к улучшениям. Выход нейрона является здесь взвешенной суммой его входов, которая, преобразована с помощью нелинейной функции. Для обучения сети может быть использована следующая процедура:

1. Выбрать вес случайным образом и подкорректировать его на небольшое случайное число. Предъявить множество входов и вычислить получающиеся выходы.

2. Сравнить эти выходы с желаемыми выходами и вычислить величину разности между ними. Общепринятый метод состоит в нахождении разности между фактическим и желаемым выходами для каждого элемента обучаемой пары, возведение разностей в квадрат и нахождение суммы этих квадратов. Целью обучения является минимизация этой разности, часто называемой целевой функцией.

3. Выбрать вес случайным образом и подкорректировать его на небольшое случайное значение. Если коррекция помогает (уменьшает целевую функцию), то сохранить ее, в противном случае вернуться к первоначальному значению веса.

4. Повторять шаги с 1 до 3 до тех пор, пока сеть не будет обучена в достаточной степени.

Структура альфа-персептрона. Задача, решаемая альфа-персептроном. Гамма-персептрон, различия. Задачи, решаемые персептронами без обратных и перекрёстных связей.

Персептроны – нейросетевые моделей, исследованные Ф. Розенблаттом в качестве значительно упрощённых моделей фрагментов мозга. Они были одними из первых искусственных сетей, способных к перцепции (восприятию) и

формированию реакции на воспринятый стимул. По Розенблатту персептроны – это сети составленные из S-, A- и R-элементов:

Рис. 9. Элементарный персептрон Розенблатта. S-элементы формируют сетчатку сенсорных клеток, принимающих двоичные

сигналы от внешнего мира. Сенсорный (S-элемент) способен выдавать сигнал 1 либо 0. Далее сигналы поступают в слой ассоциативных или A-элементов (для упрощения изображения часть связей от входных S-клеток к A-клеткам не показана). Ассоциативный элемент – обычный нейрон модели МакКаллока-Питса (L(X) = (X,W)) с бинарно-пороговой функцией активации. R-элементы с фиксированными весами формируют сигнал реакции персептрона на входной стимул. Реагирующий элемент (R-элемент) – обычный нейрон с биполярно-пороговой функцией активации. Фрэнк Розенблатт выделял персептроны с последовательными связями, персептроны с перекрёстными связями и персептроны с обратными связями.

Рассмотрим трёхслойный по Розенблатту персептрон с последовательными связями (по современной терминологии представленная сеть обычно называется однослойной, так как имеет только один слой нейропроцессорных элементов).

Он имеет следующую структуру:

Рис. 10. Структура персептрона.

Элементарным альфа-персептроном называется разновидность трёхслойного персептрона, у которого не меняются веса связей между S- и A-элементами. Класс задач, решаемый таким персептроном, эквивалентен классу задач, решаемых каждым нейроном однослойной сети или просто нейроном, поэтому такую модель можно назвать сетью весьма условно. Такую сеть можно обучать как с помощью правила Хебба, так и с помощью дельта-правила.

Гамма-персептроном согласно Розенблатту называют персептрон, в котором сумма весов одного нейрона постоянна.

В работах Розенблатта был сделано заключение о том, что нейронная сеть рассмотренной архитектуры будет способна к воспроизведению любой логической функции, однако, как было показано позднее М.Минским и С.Пейпертом (M.Minsky, S.Papert, 1969), этот вывод оказался неверным. К примеру, элементарный альфа-персептрон не способен решить задачу «исключающего или». Были выявлены принципиальные неустранимые ограничения однослойных персептронов, и в последствии стал в основном рассматриваться многослойный вариант персептрона, в котором имеются несколько слоев процессорных элементов.

С сегодняшних позиций однослойный персептрон представляет скорее исторический интерес, однако на его примере могут быть изучены основные понятия и простые алгоритмы обучения нейронных сетей.

Градиентные методы. Градиентные методы являются частным случаем методов, основанных на

разложении оптимизированной функции многих переменных в ряд.

Математическое обоснование метода обратного распространения ошибки. Алгоритм обратного распространения ошибки.

Для обучения многослойной сети в 1986 г. Руммельхартом и Хинтоном (Rummelhart D.E., Hinton G.E., Williams R.J., 1986) был предложен алгоритм обратного распостранения ошибок (error back propagation). Многочисленные публикации о промышленных применениях многослойных сетей с этим алгоритмом обучения подтвердили его принципиальную работоспособность на практике. Основная идея обратного распространения состоит в том, как получить оценку ошибки для нейронов скрытых слоев. Заметим, что известные ошибки, делаемые нейронами выходного слоя, возникают вследствие неизвестных пока ошибок нейронов скрытых слоев. Чем больше значение синаптической связи между нейроном скрытого слоя и выходным нейроном, тем сильнее ошибка первого влияет на ошибку второго. Следовательно, оценку ошибки элементов скрытых слоев можно получить, как взвешенную сумму ошибок последующих слоев. При обучении информация распространяется от входных слоев иерархии к высшим, а оценки ошибок, делаемые сетью – в обратном направлении, что и отражено в названии метода.

Алгоритм обратного распространения ошибки определяет стратегию подбора весов многослойной сети с применением градиентных методов оптимизации. Его необходимым условием выступает дифференцируемость используемых функций активации нейронов сети. Этот алгоритм использует градиентный метод наискорейшего спуска для минимизации среднеквадратической ошибки сети (квадратичной суммы разностей между фактическими и ожидаемыми значениями выходных сигналов), вычисляемой по формуле:

(2

[ ]

1

1 *2

NP

i ii

E D Y=

= −∑ ) (8)

Можно считать, что цель обучения состоит в вычислении таких значений весов нейронов каждого слоя сети, чтобы при заданном входном векторе получить на выходе значения сигналов [ ]P

iY , совпадающие с требуемой точностью с ожидаемыми значениями при i = 1, 2,..., N. iD

Функция E подлежит минимизации. Классический градиентный метод оптимизации состоит в итерационном уточнении аргумента согласно формуле:

( ) ( ) ( )[ ] [ ][ ]1 * , 1.. , 1..q q

ij ij qqij

dE tw t w t i n q

dwα+ = − = = p (9)

Раскладывая частные производные можно получить следующее выражение. [ ] [ ]

[ ] [ ] [ ] [ ]* * , 1q q

j jq q q q

ij j j ij

dy dSdE dE qdw dy dS dw

⎛ ⎞ ⎛ ⎞ ⎛ ⎞= ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠

..p= (10)

А также – рекуррентное выражение для нахождения линейной ошибки, согласно которому и осуществляется её обратное распространение.

[ 1] [ 1]

[ ] [ 1] [ 1] [ ]* * , 1..q q

j jq q q q

j j j j

dy dSdE dE q pdy dy dS dy

+ +

+ +

⎛ ⎞ ⎛ ⎞ ⎛ ⎞= ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠ ⎝ ⎠∑ 1= − (11)

Если в качестве синаптической функции используется скалярное произведение входного и весового векторов, то справедливо следующее.

[ ][ 1]

[ ]

qjq

i qij

dSy

dw− =

Тогда выражения корректировки весовых и пороговых значений для скрытых слоёв принимают вид.

( ) ( ) ( ) ( )[ ]

[ ] [ ] [ 1][ ] [ ]( 1) * * * , 1.. , 1..

qjq q q

ij ij i qq qj j

dy tdE tw t w t y t i n q

dy dSα −

⎛ ⎞ ⎛ ⎞+ = − = =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠p (12)

( ) ( ) ( ) ( )[ ][ ] [ ]

[ ] [ ]1 * * , 1.. , 1..q

jq qj j qq q

j j

dy t dE tT t T t i n q

dS dyα

⎛ ⎞ ⎛ ⎞+ = + = =⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠p (13)

Алгоритм. 1. Инициализация весовых коэффициентов значениями равномерно

распределённой случайно величины. Получения максимально допустимого значения среднеквадратической ошибки. Получение обучающей выборки.

2. Для текущего образа обучающей выборки: расчёт выходных значений нейронной сети и вычисление среднеквадратической ошибки.

3. Корректировка весовых коэффициентов. И накопление значения суммарной среднеквадратической ошибки выборки.

4. Если образы в выборке ещё остались, то выбрать новый образ текущим и перейти на шаг 2.

5. Если суммарная среднеквадратическая ошибка выборки больше максимально допустимого значения, то добавить все выбранные образы в выборку и повторить с шага 2.

Недостатки: Зависимость результата от случайной инициализации весовых коэффициентов. Попадание в локальный минимум вместо глобального. Медленная сходимость при малых значениях коэффициента обучения.

Отсутствие сходимости при больших значениях коэффициента обучения. Дифференцируемая функция активации.

Вывод формулы для расчёта адаптивного коэффициента обучения в алгоритме обратного распространения ошибки.

Для преодоления недостатков связанных с выбором коэффициента обучения используют адаптивный коэффициент обучения.

( )( 1) ( ) ( )ij ijij

E tt t t ∂ω + = ω −α ⋅

∂ω (14)

Его рассчитывают градиентным методом, исходя из записанного ниже условия.

( 1)( 1) ( 1) 0j

j

y tE t E tyα α

∂ +∂ + ∂ += ⋅

∂ ∂ ∂= (15)

Исходя из определения синаптической функции, как скалярного произведения, получаем.

( ) ( )( 1) ( ) ( ( ) ( ) ) ( ) ( )

( ) ( )( ) ( ) ( ( ) )

j i iji ij j

j ii ij j

E t E tS t y t t t t T tT

E t E tS t t y tT

ω α αω

αω

j∂ ∂

+ = ⋅ − ⋅ + ⋅ − =∂ ∂

∂ ∂= − ⋅ ⋅ −

∂ ∂

∑

∑ (16)

Пусть ( ) ( )( ) ( )j i

i ij j

E t E ta t y tTω

∂ ∂= ⋅ −

∂ ∂∑ (17)

тогда ( 1) ( ) ( ) (j jS t S t t a t)jα+ = − ⋅ (18)

В общем случае решение довольно сложное и может потребовать больших вычислительных временных ресурсов, поэтому, чтобы его ускорить, пользуются упрощённым решением, в котором рассматривают приближение до некоторого порядка разложения функции активации в ряд Тейлора относительно точки 0x .

Пусть 0 0x = (19)

тогда, если функция неограниченно дифференцируема, ( )

00

0

( )( 1) ( ( 1) )!

ii

j ji

F xy t S t xi

∞

=

+ = ⋅ + −∑ (20)

Рассмотрим линейное приближение функции активации и выразим её значение в точках : 1t +

( 1) (0) (0) ( 1jy t F F S t′+ = + ⋅ +% )j (21)

( 1) (0) (0) ( ) ( ) (0) ( )j jy t F F S t t F a tjα′ ′+ = + ⋅ − ⋅ ⋅% (22) и : t

( ) (0) (0) ( )jy t F F S t′= + ⋅% j

)j

(23) из чего получаем выражение:

( 1) ( ) ( ) (0) (j jy t y t t F a tα ′+ = − ⋅ ⋅% % (24) Так как функция активации даёт приближённый результат, то будем находить

решение из следующего условия. ( 1) 0

( )E t

tα∂ +

=∂

% (25)

Следует отметить, что в этой точке искомое решение всегда имеет минимум, так как:

22 2

2

( 1)(0) ( ) 0( )j

E tF a ttα

∂ +′ ⋅ =∂

%> (26)

Решая, получаем: ( ( ) ( ) ( ) (0) ( )) ( (0) ( )) 0j j j j

jy t d t t F a t F a tα ′ ′− − ⋅ ⋅ ⋅ − ⋅ =∑ (27)

Откуда можно выразить ( )tα .

2

( ( ) ( )) ( )( )

(0) ( )

j j jj

jj

y t d t a tt

F a tα

− ⋅=

′ ⋅

∑∑

(28)

Выразим: ( ) ( )( ) ( ) ( ) ( ( )) ( )j j

j jij j j ij

y t S tE t E t t F S t y ty S

γω ω j

∂ ∂∂ ∂ ′= ⋅ ⋅ = ⋅ ⋅∂ ∂ ∂ ∂

(29)

( ) ( )( ) ( ) ( ) ( ( ))j jj

j j j j

y t S tE t E t t F S tT y S T

γ j

∂ ∂∂ ∂ ′= ⋅ ⋅ = − ⋅∂ ∂ ∂ ∂

(30)

в частности, для слоя эффекторов: ( ) ( )( ) ( ) ( ( ) ( )) ( ( )) (j j

j j j jij j j ij

y t S tE t E t y t d t F S t y ty Sω ω

)∂ ∂∂ ∂ ′= ⋅ ⋅ = − ⋅ ⋅

∂ ∂ ∂ ∂ (31)

( ) ( )( ) ( ) ( ( ) ( )) ( ( ))j jj j j

j j j j

y t S tE t E t d t y t F S tT y S T

∂ ∂∂ ∂ ′= ⋅ ⋅ = − ⋅∂ ∂ ∂ ∂

(32)

используя полученные выражения, можно выразить : ( )ja t2( ) (1 ( ) ) ( ) ( ( ))j i j

i

a t y t t F S tγ ′= + ⋅ ⋅∑ j

p

(33)

в случае (последний слой) k = ( ) ( ) ( )j j jt y t d tγ = − и получить приближение:

2

2 2

( ) ( ( ))( )

(0) (1 ( ) ) ( ( ( ) ( ( ))) )

j jj

i j ji j

t F S tt

F y t t F S

γα

γ t

′⋅=

′ ′⋅ + ⋅ ⋅

∑∑ ∑

(34)

Существуют другие способы расчёта адаптивного коэффициента обучения основанные, например, на кубичной и квадратичной аппроксимации.

Вывод формулы для расчёта адаптивного шага обучения для нерекуррентной линейной нейронной сети.

Для нерекуррентной линейной сети ( ) 1F x′ = 2

2

( )( )

(1 ( ) ) ( ( ( )) )

jj

i ji j

tt

y t t

γα

γ=

+ ⋅

∑∑ ∑ 2 (35)

2

1( )(1 ( ) )i

i

ty t

α =+∑

(36)

Алгоритм послойного обучения. Назначение и отличие от алгоритма обратного распространения ошибки.

Алгоритм послойного обучения предназначен для ускорения обучения гетерогенных сетей, также при его применении в некоторых случаях может повыситься вероятность попадания в глобальный минимум, он также даёт более обоснованную формулу адаптивного коэффициента обучения для скрытых слоёв.

( 1) ( ) ( ) ( ) ( ( )) (ij ij j j it t t t F S t )y tω ω α γ ′+ = − ⋅ ⋅ ⋅ (37)

( 1) ( ) ( ) ( ) ( ( )j j jT t T t t t F S t )jα γ ′+ = + ⋅ ⋅ (38) В методе послойного обучения рассчитывается эталонное значение для

каждого нейрона скрытого слоя. ( ) ( 1)i id t y t +% (39)

Это эталонное значение рассчитывается исходя из условия. ( )( ) ( ) ( )i i ii

E td t y t ty

α ∂= − ⋅

∂% (40)

где ( ) ( )( ) ( ) ( ) ( ( )) ( ) ( )j j

j j ijj ji j j i

y t S tE t E t t F S t t ty y S y iγ ω γ

∂ ∂∂ ∂ ′= ⋅ ⋅ = ⋅ ⋅ =∂ ∂ ∂ ∂∑ ∑ (41)

( 1) ( ) ( ( ) ( ) ( )) ( ) ( ) ( )j ij i i i kj kk i

S t t y t t t t y t T tjω α γ ω≠

+ = ⋅ − ⋅ + ⋅ −∑ (42)

( 1) ( ) ( ) ( ) (j j i iS t S t t t t)ijα γ ω+ = − ⋅ ⋅ (43)

( ) ( ) ( ) ( ) ( )j j i i ijd t y t t t tα γ ω= − ⋅ ⋅% (ряд Тейлора) (44) 21( 1) ( ( ) ( ))

2 j jj

E t d t d t+ = ⋅ −∑ %% (45)

( 1) ( ( ) ( ) ( ) ( ) ( )) ( ( ) ( ))j j i i ij i ijji

E t y t d t t t t t tα γ ω γ ωα

∂ += − − ⋅ ⋅ ⋅ − ⋅

∂ ∑%

0= (46)

2

( ( ) ( )) ( )( )

( ) ( )j j ij

ii ij

y t d t tt

t tω

αγ ω

− ⋅=

⋅∑

∑ (47)

2

( ( ) ( )) ( )( )

( ) ( ( ) ( )) ( ( )) ( )

j j ijj

iij j j j ij

j j

y t d t tt

t y t d t F S t

ωα

ω ω

− ⋅=

′⋅ − ⋅ ⋅

∑∑ ∑ t

(48)

( ) ( ) ( ) ( )i i i id t y t t tα γ= − ⋅% (49) Нормализация

( )( )max | ( ) |

ii

ii

d td td t

=%

% (50)

Алгоритм: Дано: , Q входных образов и эталонов. mE1. Случайная инициализация весов значениями равномерно

распределенной числовой величины.

[ ] ( )kij tω

2. k p=3. На вход подаются входных образов и для слоя производиться

модификация весов, порогов и выходов для слоя

Q k[ 1]ky −

[ ] [ ] [ ] [ ] [ 1]( 1) ( ) ( ) ( ) ( ( )) (k k k kij ij j p j it t t t F S t yω ω α γ −′+ = − ⋅ ⋅ ⋅ )k t

)k

[ ] [ ] [ ] [ ]( 1) ( ) ( ) ( ) ( ( )k k k

j j j p jT t T t t t F S tα γ ′+ = + ⋅ ⋅

( ) ( ) ( ) ( )i i i id t y t t tα γ= − ⋅%

4. Используются рассчитанные выходы [ 1]ky − , производится модификация весов, порогов и выходов для слоя до тех пор, пока не y mE E≤

2( ) ( )

1 1

1 ( ( ) ( )2

pnQk k

j jh j

E y t d= =

= ⋅ −∑∑ )t

5. Нормализуются полученные эталоны ( ( ) ( ) ( )i i it y t d tγ = − ) 6. 1k k= −

7. Если , то переходим на шаг 3 0k >

Алгоритм многократного распространения ошибки. Назначение и отличие от алгоритма обратного распространения ошибки. Алгоритм многократного распространения ошибки в некоторых случаях повышает вероятность попадания в глобальный минимум.

Дано: mE , Q

1. Случайная инициализация синаптических связей 2. h Q=3. k p=4. [ ] [ ] [ ] [ ] [ 1]( 1) ( ) ( ) ( ) ( ( )) (k k k k

ij ij j p j it t t t F S t yω ω α γ −′+ = − ⋅ ⋅ ⋅ )k t)k[ ] [ ] [ ] [ ]( 1) ( ) ( ) ( ) ( ( )k k k

j j j p jT t T t t t F S tα γ ′+ = + ⋅ ⋅

5. 1k k= −6. Если , то перейти к пункту 4 0k >7. 1h h= −8. Если , то перейти к пункту 3 0h >

9. 2

( ) ( )

1 1

1 ( ( ) ( )2

pnQk k

j jh j

E y t d= =

= ⋅ −∑∑ )t

n

10. Если , то перейти к пункту 2 mE E>

Задача предсказания числовых последовательностей с помощью нейронных сетей. Особенности устройства нейронных сетей для предсказания числовых последовательностей.

Пусть есть числовая последовательность x1, x2, …, xn. Задача предсказания числовых последовательностей состоит в нахождении элемента xn+1, такого что

1 1 2( , ,... )nx g x x x+ = . Если последовательность содержит значения функции, значение которой надо предсказать, то эти значения должны быть взяты с одинаковым шагом (i )x f z ih= + . Для обучения из элементов последовательности составляется выборка. Чтобы её сформировать выбирается так называемое «окно». Величина выбираемого размера окна зависит, как от сложности предсказываемой последовательности, так и от числа образов, которые хотят получить для обучения. Слишком маленький размер окна может не дать возможности сети решить задачу, слишком большой – замедлить получение верного решения или привести к неверному. Если выбрать значение окна равным r, то можно получить max(0,n-r+1) образов в обучающей выборке.

В случае если задача решается линейной нейронной сетью, то задача сводится к решению системы линейных алгебраических уравнений. В этом случае значения переменных, полученные в результате решения, могут использоваться в качестве значений весовых и пороговых коэффициентов сети. Чтобы решение было однозначным система должна иметь число уравнений не менее, чем число

переменных. Из этих соображений следует выбирать размер «окна». Если сеть не является линейной, также могут быть выявлены ограничения на размер «окна». Некоторые последовательности могут быть предсказаны только рекуррентными нейронными сетями.

Одной из трудностей, которая может возникнуть при решении задачи предсказания числовых последовательностей является ограниченная область значений функции активации, которая не позволяет получить значения для всех элементов последовательности. Путём преодоления этой трудности является поиск отображения последовательности на эту область, либо подбор соответствующей функции активации.

Реккурентные нейронные сети. Контекстный нейрон. Обучение. Сеть Элмана. Сеть Джордана.

Рекуррентные сети представляют собой развитие однонаправленных сетей персептронного типа за счет добавления в них соответствующих обратных связей. Обратная связь может исходить либо из выходного, либо из скрытого слоя нейронов. В каждом контуре такой связи присутствует элемент единичной задержки, передающий значение на так называемый контекстный нейрон, благодаря которому поток сигналов может считаться однонаправленным (выходной сигнал предыдущего временного цикла рассматривается как априори заданный, который просто увеличивает размерность входного вектора x сети, добавляя контекстные нейроны). Представленная подобным образом рекуррентная сеть с учетом способа формирования выходного сигнала функционирует как однонаправленная персептронная сеть. Тем не менее алгоритм обучения такой сети, адаптирующий значения синаптических весов, является более сложным вследствие зависимости сигналов в момент времени t от их значений в предыдущие моменты и соответственно ввиду более громоздкой формулы для расчета вектора градиента.

Отсутствие обратной связи гарантирует безусловную устойчивость сетей. Они не могут войти в режим, когда выход беспрерывно блуждает от состояния к состоянию и не пригоден к использованию. Но это весьма желательное свойство достигается не бесплатно, сети без обратных связей обладают более ограниченными возможностями по сравнению с сетями с обратными связями.

Так как сети с обратными связями имеют пути, передающие сигналы от выходов к входам, то отклик таких сетей является динамическим, т. е. после приложения нового входа вычисляется выход и, передаваясь по сети обратной связи, модифицирует вход. Затем выход повторно вычисляется, и процесс повторяется снова и снова. Для устойчивой сети последовательные итерации приводят к все меньшим изменениям выхода, пока в конце концов выход не становится постоянным. Для многих сетей процесс никогда не заканчивается, такие сети называют неустойчивыми. Неустойчивые сети обладают интересными свойствами и изучались в качестве примера хаотических систем. Сконцентрируем внимание на устойчивых сетях, т. е. на тех, которые в конце концов дают постоянный выход.

Классы сетей с обратной связью:

• релаксационные нейронные сети;

• сеть Джордана;

• сеть Элмана.

Сеть Джордана (RMLP) Один из простейших способов построения рекуррентной сети на базе

однонаправленной нейронной сети состоит во введении в персептронную сеть обратной связи. Таковой является сеть Джордана. Ее обобщенная структура представлена на рис. 11:

Рис. 11. Структура сети RMLP.

Это динамическая сеть, характеризующаяся запаздыванием входных и выходных сигналов, объединяемых во входной вектор сети. Рассуждения будут касаться только одного входного узла x(k) и одного выходного нейрона, а также одного скрытого слоя. Такая система реализует отображение:

( 1) ( ( ), ( 1),..., ( ( 1)), ( 1), ( 2),..., ( ))y k f x k x k x k N y k y k y k P+ = − − − − − − (51)

где N-1 - количество задержек входного сигнала, а P – количество задержек выходного сигнала. Обозначим K количество нейронов в скрытом слое. В этом случае сеть RMLP можно характеризовать тройкой чисел (N, P, K). Подаваемый на вход сети вектор x имеет вид: x(k) = [1, x(k), x(k-1), ..., x(k-(N-1)), y(к-Р), у(к-Р+1), ..., у(к-1)]T. Допустим, что все нейроны имеют сигмоидальную функцию активации. Обозначим ui взвешенную сумму сигналов i-го нейрона скрытого слоя, a g – взвешенную сумму сигналов выходного нейрона. При введенных обозначениях выходные сигналы конкретных нейронов описываются зависимостями:

[1]0

N Pi ij

u w+

==∑ j jx (52)

( )iv f u= i

iu

(53) [2]

0( )K

iig w f

==∑ (54)

( )y f g= (55) Сеть Элмана

Рекуррентная сеть Элмана характеризуется частичной рекуррентностью в форме обратной связи между скрытым и входным слоем, реализуемой с помощью единичных элементов запаздывания z-1. Обобщенная структура этой сети представлена на рис. 12. Каждый скрытый нейрон имеет свой аналог в контекстном слое, образующем совместно с внешними входами сети входной слой. Выходной слой состоит из нейронов однонаправленно связанных только с нейронами скрытого слоя, подобно сети RMLP. Обозначим внутренний вектор возбуждения сети x (в его состав входит также единичный сигнал поляризации), состояния скрытых нейронов – v ∈ RK, а выходные сигналы сети – y ∈ RM. При таких обозначениях входной вектор сети в момент t имеет форму

0 1 1 2( ) [ ( ), ( ),..., ( ), ( 1), ( 1),..., ( 1)]N Kx k x k x k x k v k v k v k= − − − (56)

Рис. 12. Структура сети Элмана.

Веса синаптических связей первого (скрытого) слоя сети обозначим , а )1(ijw

второго (выходного) слоя – . Если взвешенную сумму i-го нейрона скрытого )2(ijw

слоя обозначить ui, а его выходной сигнал - vi, то

[1]0

( ) ( )N Ki ijj

u k w x k+

==∑ j (57)

1( ) ( ( ))i iv k f u k= (58)

Веса образуют матрицу W)1(ijw (1) синаптических связей скрытого слоя, а f1(ui) –

функция активации i-го нейрона этого слоя. Аналогично можно обозначить взвешенную сумму i-го нейрона выходного слоя gi, а соответствующий ему выходной сигнал сети – уi. Эти сигналы описываются формулами

[2]0

( ) ( )Ki ijj

g k w v k=

=∑ j

i

(59)

2( ) ( ( ))iy k f g k= (60) В свою очередь, веса образуют матрицу W)2(

ijw (2), описывающую синаптические связи нейронов выходного слоя, a f2(gi) - функция активации i-го нейрона выходного слоя.

В общем случае можно рассмотреть объединённую сеть Джордана-Элмана.

Рециркуляционные нейронные сети. Линейная рециркуляционная сеть. Задача, решаемая линейной рециркуляционной сетью (метод главных компонент).

Рециркуляционные сети характеризуются как прямым Y=f(X), так и обратным X=f(Y) преобразованием информации. Задачей такого преобразования является достижение наилучшего автопрогноза или самовоспроизводимости вектора X. Рециркуляционные нейронные сети применяются для сжатия (прямое преобразование) и восстановления исходной (обратное преобразование) информации. Такие сети являются самоорганизующимися в процессе работы, где обучение производится без учителя. Они были предложены в 1988 году. Теоретической основой рециркуляционных нейронных сетей является анализ главных компонент (principal component analyse).

Метод главных компонент

Метод главных компонент применяется в статистике для сжатия информации без существенных потерь ее информативности. Он состоит в линейном ортогональном преобразовании входного вектора X размерности n в выходной вектор Y размерности p, где p<n. При этом компоненты вектора Y являются некоррелированными и общая дисперсия после преобразования остается неизменной. Совокупность входных паттернов представим в виде матрицы:

x11 x1

2 … x1n

x21 x2

2 … x2n

… … … … X =

xL1 xL

2 … xLn

где xk = (xk1, xk

2, …, xkn) соответствует k-му входному образу, L - общее

количество образов.

Будем считать, что матрица X является центрированной, то есть вектор математических ожиданий µ=0. Этого добиваются при помощи следующих преобразований:

i ij jx x jμ= − (61)

1

Li

jj i

x

Lμ ==

∑ (62)

Матрица ковариаций входных данных X определяется как

σ11 σ12 … σ1n

σ21 σ22 … σ2n

… … … … K =

σn1 σn2 … σnn

где σij - ковариация между i-ой и j-ой компонентой входных образов. Элементы матрицы ковариаций можно вычислить следующим образом:

( )(1

1 L k i k jij i jk

x xL

)σ μ=

= −∑ μ− (63)

где i,j = 1…,п. Таким образом, на основе матрицы входных образов можно определить

выборочную ковариационную матрицу. В дальнейшем изложении будем оперировать с входной информацией, представленной в виде вектора Х=(х1, х2…, хn).

Метод главных компонент состоит в нахождении таких линейных комбинаций исходных переменных

1 11 1 21 2 1

2 12 1 22 2 2

1 1 2 2

......

................................................

n n

n n

p p p n

y w x w x w xy w x w x w x

y w x w x w x

= + + += + + +

= + + + p n

(64)

что

1 2

( , ) 0; , 1, ;

( , ) ( );( ) ( ) ... ( )

( )

i j

i i i

p

n nii ii i

y y i j n

y y yy y

y

σ

σ σσ σ σ

σ σ

= =

=≥ ≥ ≥

=∑ ∑y (65)

Из последних выражений следует, что переменные уi некоррелированы, упорядочены по возрастанию дисперсии и сумма дисперсий входных образов остается без изменений. Тогда подмножество первых р переменных у характеризует большую часть общей дисперсии. В результате получается представление входной информации.

Переменные уi, i = 1,…,p называются главными компонентами. В матричной форме преобразование главных компонент можно представить как

Y = WTX (66) где строки матрицы WT должны удовлетворять условию ортогональности, т.е WiWj

T = 1, ∀i = j (67) WiWj

T = 0, ∀i ≠ j

при этом вектор Wi определяется как Wi=(wli, w2i…, wni) (68) Для определения главных компонент необходимо определить весовые

коэффициенты Wi, i = 1…, p. Каждая главная компонента получается как линейная комбинация yk = WkX,

где Wk-собственный вектор ковариационной матрицы К, соответствующий к-му по величине собственному значению βк этой матрицы. Для определения собственных значений β ковариационной матрицы, необходимо решить характеристическое уравнение:

det(K-βI)=0, (69) где I - единичная матрица. Так как ковариационная матрица К является симметричной, то уравнение (69)

имеет n вещественных корней: β1>=β2>=..>=βn>=0. (70) Для определения первой главной компоненты, необходимо выбрать из n

собственных значений матрицы К наибольшее (β1) и решить следующую систему уравнений:

(K-β1I) W1T= 0 (71)

где W1 T - вектор столбец.

Из системы уравнений (71) определяется собственный вектор W1. Как известно, собственные векторы действительной симметрической матрицы

являются ортогональными. Для получения ортонормированного вектора W1 необходимо пронормировать его:

111 211

1 1 1

, ,..., nww wWW W W

⎛ ⎞= ⎜ ⎟⎜ ⎟⎝ ⎠

(72)

где 2 21 11 21 ... nW w w w= + + + 2

1 .

В результате проведенных вычислений получается первая главная компонента y1=W1X, которая имеет максимальную дисперсию σ(y1). Аналогичным образом определяются остальные главные компоненты. При этом вторая компонента будет

иметь следующую по величине дисперсию и так далее. Получаемая матрица весовых коэффициентов является ортогональной, т.е

WWT = 1. (73) Собственные числа β матрицы К характеризуют дисперсию главных компонент. При этом сумма дисперсий в пространстве исходных признаков равняется

сумме дисперсий в пространстве выходных признаков:

(74) В работе [13] показано, что метод главных компонент имеет следующий

критерий информативности:

(75) Данный критерий позволяет ориентировочно определить число главных

компонент р. Так, анализируя при помощи выражения (75) изменение J в зависимости от числа р, можно подобрать необходимое количество компонент без существенной потери информативности J.

Рассмотрим отображение выходного вектора Y во входной вектор X. Такое отображение называется автопрогнозом. Пусть

X=QY+e, (76) где е - дисперсия остатка, Q – матрица размерности п×р. Теорема, определяющая матрицу Q. Теорема 4.1. Минимальное значение дисперсии остатка в выражении (76)

достигается, когда столбцы матрицы Q равняются собственным векторам Wi, вычисленных в соответствии с методом главных компонент.

Таким образом

w1

1

w1

2… w1

p

w2

1

w2

2… w2

p

… … … …

Q = W =

wn

1

wn

2… wn

pТогда наилучший автопрогноз достигается, когда X=WY. (77) Величина абсолютной ошибки прогноза выражается через собственные числа

ковариационной матрицы.

(78)

Относительная ошибка определяется, как

(79) Метод главных компонент является эффективным средством для сжатия и

восстановления данных.

Алгоритмы обучения и функционирования линейной рециркуляционной сети.

Рециркуляционная нейронная сеть представляет собой совокупность двух слоев нейронных элементов, которые соединены между собой двунаправленными связями (рис. 13).

Каждый из слоев нейронных элементов может использоваться в качестве входного или выходного. Если слой нейронных элементов служит в качестве входного, то он выполняет распределительные функции.

В противном случае нейронные элементы слоя являются обрабатывающими. Весовые коэффициенты соответствующие прямым и обратным связям характеризуются матрицей весовых коэффициентов W и W’. Для наглядности, рециркуляционную сеть можно представить в развернутом виде, как показано на рис. 14.

Такое представление сети является эквивалентным и характеризует

Рис. 13. Архитектура рециркуляционной нейронной сети

Рис. 14. Эквивалентное представление рециркуляционной сети

полный цикл преобразования информации. При этом промежуточный слой нейронных элементов производит кодирование (сжатие) входных данных X, а последний слой осуществляет восстановление сжатой информации Y. Назовем слой нейронной сети, соответствующий матрице связи W прямым, а соответствующий матрице связей W’ – обратным.

Рециркуляционная сеть предназначена как для сжатия данных, так и для восстановления сжатой информации. Сжатие данных осуществляется при прямом преобразовании информации в соответствие с выражением:

Y = F(WTX). (80) Восстановление или реконструкция данных происходит при обратном

преобразовании информации: X = F(W'T). (81) В качестве функции активации нейронных элементов F может использоваться

как линейная, так и нелинейная функции. При использовании линейной функции активации:

Y = WTX, (82) X = W'Y (83) В предыдущем разделе отмечалось, что наилучший автопрогноз достигается

тогда, когда матрица весовых коэффициентов сформирована в соответствии с методом главных компонент. При этом столбцы матрицы W равняются собственным векторам ковариационной матрицы. Тогда:

W'≡W, (84) Таким образом весовые коэффициенты линейной рециркуляционной

нейронной сети можно определить при помощи метода главных компонент. В этом случае матрица W является ортогональной и

WWT =1. (85) Линейные рециркуляционные сети, в которых весовые коэффициенты

определяются в соответствии с методом главных компонент называются РСА сетями [8]. Рассмотрим другие методы обучения рециркуляционных нейронных сетей.

4.2.3. Алгоритм обратного распространения ошибки Рециркуляционные нейронные сети должны обеспечивать такое

преобразование информации, чтобы достигалась минимальная среднеквадратичная ошибка между входным X и реконструированным образами:

(86) где xi с чертой – i-ая компонента реконструированного образа. Она

определяется следующим образом:

(87) Функция (86) достигает минимума, если в качестве уj (j = 1, …р) использовать

первые р главные компоненты вектора X. Это является теоретической основой для использования алгоритма обратного распространения ошибки, который минимизирует среднеквадратичную ошибку методом градиентного спуска. Существуют различные подходы в применении алгоритма обратного распространения ошибки для обучения рекуррентных сетей. Так Коттрел (Cottrell) для сжатия изображений использовал стандартный алгоритм обратного распространения. Хинтон (Hinton) применял кумулятивное дельта правило

(Cumulative Delta Rule), которое представляет собой незначительную модификацию стандартного backpropagation. Рассмотрим применение кумулятивного дельта правила для обучения рециркуляционных нейронных сетей.

В процессе обучения рециркуляционной сети для каждого входного образа производится три цикла распространения информации: прямое, обратное и прямое. После этого производится настройка весовых коэффициентов сети. Для наглядности процесса распространения информации введем обозначения. Пусть хi(0) входной вектор, поступающий на вход сети в начальный момент времени. Тогда выходной вектор сети в момент t = 1 определяется в результате прямого преобразования информации:

(88) где j = 1,…p. Вектор, получается в результате обратного преобразования вектора Y(l):

(89) где у = 1,…n.

На третьем этапе распространения информации определяется вектор Y(3):

(90)

где j=1,…p. Такое преобразование информации можно представить в виде цепочки,

изображенной на рис. 4.6.

Рис. 4.6. Последовательное преобразование информации в рециркуляционной

сети Тогда ошибка восстановления информации в первом слое нейронной сети

определяется как:

(91) Ошибку воспроизведения информации во втором слое нейронной сети можно представить следующим образом:

(92) Обучение рециркуляционной нейронной сети производиться как с целью

минимизации ошибки Е, так и Е'. При этом значение у (1) в выражение (92) принимается за эталонное. Тогда в соответствии с методом градиентного спуска в пространстве весовых коэффициентов:

( )( 1) ( ) ( )ij ijij

E tw t w t tw

α′∂

+ = −∂

(93)

( )( 1) ( ) ( )ji jiji

E tw t w t tw

α ∂′ ′ ′+ = −′∂

(94)

Определим производные для линейной рециркуляционной сети. Тогда:

(95)

(96) В результате, выражения для настройки весовых коэффициентов

рециркуляционной нейронной сети примут следующий вид:

( )( 1) ( ) ( ) (2) (3) (1)ij ij i j jw t w t t x y yα+ = − − (97)

( )( 1) ( ) ( ) (1) (2) (0)ij ij j i iw t w t t y x xα′ ′ ′+ = − − (98) Для получения ортонормированных весовых векторов wk для, каждого

нейрона необходимо ввести нормированное правило обучения. Пусть Wk = (wlk, w2k …, wnk) – весовой вектор k-ro нейронного элемента. Тогда длина его в момент времени t+1 равняется:

2 2 21 2( 1) ( 1) ( 1) ... ( 1k k k nkW t w t w t w t+ = + + + + + + ) (99)

В соответствии с этим нормированное правило обучения для весовых коэффициентов k-ro нейрона можно представить следующим образом:

(100) Аналогично производится формирование весовых коэффициентов W’. Как уже

отмечалось в процессе обучения рециркуляционной сети для каждого входного образа происходит три цикла распространения информации. После этого осуществляется модификация весовых коэффициентов сети. Процедура обучения осуществляется до тех пор, пока суммарная среднеквадратичная ошибка сети не станет меньше заданной. В начальный момент времени производится случайная инициализация весовых коэффициентов. Хинтон рекомендовал, чтобы веса инициализировались с нулевым средним [9]. При этом желательно обеспечивать симметричность весовых коэффициентов прямого и обратного слоя (WT = W’). Точно такие же выражения, (97) и (98), Хинтон использовал для модификации синаптических связей нелинейных рециркуляционных сетей, хотя с формальной точки зрения это является не совсем верным. Критическим параметром кумулятивного дельта правила является выбор подходящего шага обучения а, чтобы обеспечить достижение минимальной среднеквадратичной ошибки. При этом для различных задач требуются разные значения шага [9]. Для устранения этих недостатков можно использовать адаптивный шаг обучения. Тогда при настройке весовых коэффициентов прямого слоя величина скорости обучения определяется, как

21

1( )(2)n

ii

tx

α=

=∑

(101)

При модификации весовых коэффициентов обратного слоя w' значение адаптивного шага равняется:

21

1( )(1)p

jj

ty

α=

′ =∑

(102)

Технология вывода приведенных выше выражений является аналогичной той, которая была рассмотрена ранее. Приведенный алгоритм характеризуется неустойчивостью процесса обучения. Поэтому лучше использовать алгоритм послойной модификации синаптических связей, который более адекватно отражает задачи, решаемые рециркуляционной сетью.

Релаксационные нейронные сети. Синхронная сеть Хопфилда. Непрерывное и дискретное состояние. Структура, обучение, энергия, функционирование.

Дж. Хопфилд сделал важный вклад как в теорию, так и в применение систем с обратными связями. Поэтому некоторые из конфигураций известны как сети Хопфилда.

В первой работе Хопфилда функция F была просто пороговой функцией. Выход такого нейрона равен единице, если взвешенная сумма выходов с других нейронов больше порога Tj, в противном случае она равна нулю. Он вычисляется следующим образом:

∑≠

+=ji

jiijj INOUTNET w , (103)

OUT = 1, если NETj>Тj, OUT = 0, если NETj<Тj, OUT не изменяется, если NETj = Тj,

Рис. 15. Обобщённая структура сети Хопфилда

Состояние сети – это просто множество текущих значений сигналов OUT от всех нейронов. В первоначальной сети Хопфилда состояние каждого нейрона менялось в дискретные случайные моменты времени, в последующей работе состояния нейронов могли меняться одновременно. Так как выходом бинарного нейрона может быть только ноль или единица (промежуточных уровней нет), то текущее состояние сети является двоичным числом, каждый бит которого является сигналом OUT некоторого нейрона.

Функционирование сети легко визуализируется геометрически. На рис. 16 показан случай двух нейронов в выходном слое, причем каждой вершине квадрата соответствует одно из четырех состояний системы (00, 01, 10, 11). На рис. 17 показана трехнейронная система, представленная кубом (в трехмерном пространстве), имеющим восемь вершин, каждая из которых помечена трехбитовым бинарным числом. В общем случае система с n нейронами имеет 2

n

различных состояний и представляется n-мерным гиперкубом.

Рис. 16. Два нейрона порождают систему с четырьмя состояниями

Рис. 17. Три нейрона порождают систему с восемью состояниями

Когда подается новый входной вектор, сеть переходит из вершины в вершину, пока не стабилизируется. Устойчивая вершина определяется сетевыми весами, текущими входами и величиной порога. Если входной вектор частично неправилен или неполон, то сеть стабилизируется в вершине, ближайшей к желаемой.

Как и в других сетях, веса между слоями в этой сети могут рассматриваться в виде матрицы W. Сеть с обратными связями является устойчивой, если ее матрица симметрична и имеет нули на главной диагонали, т. е. если wij = wji и wii = 0 для всех i.

Устойчивость такой сети может быть доказана с помощью элегантного математического метода. Допустим, что найдена функция, которая всегда убывает при изменении состояния сети. В конце концов эта функция должна достичь минимума и прекратить изменение, гарантируя тем самым устойчивость сети. Такая функция, называемая функцией Ляпунова, для рассматриваемых сетей с обратными связями может быть введена следующим образом:

∑∑∑ ∑ +−−=j

jji j j

jjjiij OUTOUTOUTOUT21 TIwE (104)

где Е – искусственная энергия сети; wij – вес от выхода нейрона i к входу нейрона j; OUTj – выход нейрона j; Ij – внешний вход нейрона j; Тj – порог нейрона j.

Изменение энергии Е, вызванное изменением состояния j-нейрона, есть

jjjjjjiij δOUT]NET[δOUT)OUT(δji

TTIwE −−=⎥⎥⎦

⎤

⎢⎢⎣

⎡−+= ∑

≠ (105)

где δOUTj – изменение выхода j-го нейрона. Допустим, что величина NET нейрона j больше порога. Тогда выражение в

скобках будет положительным, а из Уравнения (103) следует, что выход нейрона j должен измениться в положительную сторону (или остаться без изменения). Это значит, что δOUTj может быть только положительным или нулем и δЕ должно быть отрицательным. Следовательно, энергия сети должна либо уменьшиться, либо остаться без изменения.

Далее, допустим, что величина NET меньше порога. Тогда величина δOUTj может быть только отрицательной или нулем. Следовательно, опять энергия должна уменьшиться или остаться без изменения.

И окончательно, если величина NET равна порогу, δj равна нулю и энергия остается без изменения.

Это показывает, что любое изменение состояния нейрона либо уменьшит энергию, либо оставит ее без изменения. Благодаря такому непрерывному стремлению к уменьшению энергия в конце концов должна достигнуть минимума и прекратить изменение. По определению такая сеть является устойчивой.

Симметрия сети является достаточным, но не необходимым условием для устойчивости системы. Имеется много устойчивых систем (например, все сети прямого действия!), которые ему не удовлетворяют. Можно продемонстрировать примеры, в которых незначительное отклонение от симметрии может приводить к непрерывным осцилляциям. Однако приближенной симметрии обычно достаточно для устойчивости систем.

Сеть Хопфилда называется синхронной тогда и только тогда, когда все её нейроны изменяют состояние согласно функции активации одновременно. Для дискретного состояния значение функции активации вычисляется согласно выражению (103), как значение OUT, либо согласно выражению:

1 ( 1)

( ) ( 1)

1 (

ij ji j

i i

ij ji j

w y t

y t y t

w y t

≠

≠

⎧ ∗ − >⎪⎪= −⎨⎪− ∗ −⎪⎩

∑

∑

0

1) 0<

−

, (106)

либо – для непрерывного состояния: ( ) ( ( 1))i ij ji j

y t th w y t≠

= ∗∑ . (107)

Релаксационные нейронные сети. Асинхронная сеть Хопфилда. Непрерывное и дискретное состояние. Структура, обучение, энергия, функционирование.

Сеть Хопфилда называется асинхронной тогда и только тогда, когда все её нейроны изменяют состояние согласно функции активации последовательно – каждый через n тактов, где n – число нейронов. Асинхронная сеть Хопфилда также может быть сетью с дискретным состоянием (формула 106), либо – сетью с непрерывным состоянием (формула 107).

Пусть есть сеть Хопфилда с непрерывным состоянием. yi(t+1)=th(Si(t)) (108) Si(t)= ∑WijYj-Ti (109) Чтобы изменение состояния и входной активности нейрона приводило к

уменьшению энергии такой сети, выходное значение i-го нейрона должно быть пропорционально градиенту энергии:

yi(t) = -dE(yi(t))/dSi(t) (110) Доказательство: E(yi(t)) = -∫yi(t)dSi = -yi(t)*Si(t)+∫Si(t)dyi (111) Si(t) = F-1(yi(t)) (112)

E(yi(t)) = -∫yi(t)dSi = -yi(t)*Si(t)+∫F-1(yi(t))dyi (113) ΔE(yi(t+1)) = E(yi(t+1))-E(yi(t)); (114) Для асинхронного режима: ΔE(yi(t+1)) = -yi(t+1)*Si(t+1)+∫F-1(yi(t+1))dyi+yi(t)*Si(t)-∫F-1(yi(t))dyi (115) ΔE(yi(t+1)) = -yi(t+1)*Si(t)+∫F-1(yi(t+1))dyi+yi(t)*Si(t)-∫F-1(yi(t))dyi (116) ΔE(yi(t+1)) = (yi(t)-yi(t+1))*Si(t)+∫F-1(yi(t+1))dyi -∫F-1(yi(t))dyi (117) По теореме о среднем:

ΔE(yi(t+1)) = (yi(t)-yi(t+1))*(Si(t)-F-1(ε)) (118) Если yi(t)>yi(t+1), то Si(t)=F-1(yi(t)), и в силу монотонности функции

активации: yi(t+1) ≤ ε ≤ yi(t): F-1(ε) ≤ F-1(yi(t)). Если yi(t)<yi(t+1), то Si(t)=F-1(yi(t)), и в силу монотонности функции

активации: yi(t+1) ≥ ε ≥ yi(t): F-1(ε) ≥ F-1(yi(t)). Для дискретного: E(yi(t)) = -yi(t)*Si(t) (119) Для синхронного: E(yi(t)) = -yi(t-1)*Si(t) (120)

Сеть Хэмминга. Назначение, обучение и функционирование. Сеть Хемминга – это трехслойная рекуррентная структура, которую можно

считать развитием сети Хопфилда. Она позиционируется как специализированное гетероассоциативное запоминающее устройство. Основная идея функционирования этой сети состоит в минимизации расстояния Хемминга между тестовым вектором, подаваемым на вход сети, и векторами обучающих выборок, закодированными в структуре сети.

На рис. 18 представлена обобщенная схема сети Хемминга. Первый ее слой имеет однонаправленное распространение сигналов от входа к выходу и фиксированные значения весов. Второй слой, MAXNET, состоит из нейронов связанных обратными связями по принципу "каждый с каждым", при этом в отличие от структуры Хопфилда существует ненулевая связь входа нейрона со своим собственным выходом. Веса нейронов в слое MAXNET также постоянны. Разные нейроны связаны отрицательной (подавляющей) обратной связью с весом -ε, при этом обычно величина ε обратно пропорциональна количеству образов. С собственным выходом нейрон связан положительной (возбуждающей) обратной связью с весом, равным +1. Веса поляризации нейронов принимают значения, соответствующие нулю. Нейроны этого слоя функционируют в режиме WTA (Winner Takes All), при котором в каждой фиксированной ситуации активизируется только один нейрон, а остальные пребывают в состоянии покоя. Выходной однонаправленный слой формирует выходной вектор, соответствующий входному вектору. Веса нейронов этого слоя подбираются в зависимости от входных обучающих выборок.

В процессе функционирования сети можно выделить три фазы. В первой из них на ее вход подается N-элементный вектор x. После предъявления этого вектора на выходах нейронов первого слоя генерируются сигналы, задающие начальные состояния нейронов второго слоя, т.е. MAXNET'a.

Рис. 18. Структура сети Хэмминга

Во второй фазе инициировавшие MAXNET сигналы удаляются, и из сформированного ими начального состояния запускается итерационный процесс внутри этого слоя. Итерационный процесс завершается в момент, когда все нейроны, кроме одного (победителя с выходным сигналом, равным 1), перейдут в нулевое состояние. Нейрон-победитель с ненулевым выходным сигналом становится представителем класса данных, к которому принадлежит входной вектор.

В третьей фазе этот же нейрон посредством весов, связывающих его с нейронами выходного слоя, формирует на выходе сети отклик в виде вектора у, соответствующий возбуждающему вектору х.

Сеть Хемминга считается гетероассоциативным запоминающим устройством с парой связанных между собой векторов (у, x), где x и y - это соответственно входной и выходной биполярные векторы сети со значениями элементов ±1. Входные узлы сети 1, 2, ..., N принимают значения, задаваемые аналогичными компонентами вектора x. Нейроны первого слоя рассчитывают расстояние Хемминга между фактически предъявленным входным вектором x и каждым из p закодированных векторов-образцов x(i), образующих веса нейронов первого слоя. Нейроны в слое MAXNET выбирают вектор с наименьшим расстоянием Хемминга, определяя таким образом класс, к которому принадлежит предъявленный входной вектор x. Веса нейронов выходного слоя формируют вектор, соответствующий предъявленному входному вектору. При p нейронах первого слоя емкость запоминающего устройства Хемминга также равна p, поскольку каждый нейрон представляет единственный класс.

Подбор весов сети Хемминга оказывается чрезвычайно простым. Becы первого слоя соответствуют очередным векторам образов х(i), поэтому

(1) ( )iij jw x= (121)

для i = 1, 2, ..., р. Аналогично веса выходного слоя соответствуют очередным векторам образов у(i) связанным с x(i):

(2) ( )iji jw y= . (122)

В случае нейронов слоя MAXNET, функционирующих в режиме WTA, веса сети должны усиливать собственный сигнал нейрона и ослаблять остальные. Для достижения этого эффекта принимается

( ) 1miiw = , (123)

а также ( )1 0

( 1)m

ijwp

− <−

< (124)

для i ≠ j. Для обеспечения абсолютной сходимости алгоритма веса )(mijw

должны отличаться друг от друга. Р. Липпманн в своей работе принял ( ) 1

( 1)m

ijwp

ξ= − +−

, (125)

где ξ - случайная величина с достаточно малой амплитудой. Нейроны различных слоев сети Хемминга функционируют по-разному.

Нейроны первого слоя рассчитывают расстояния Хемминга между поданными на вход сети вектором x и векторами весов w(i) = x(i) отдельных нейронов этого слоя (i = 1, 2, ..., p). Значения выходных сигналов этих нейронов определяются по формуле [10]

$( )( , )1i

Hi

d x xyN

= − , (126)

где dH(x(i), x) обозначает расстояние Хемминга между входными векторами x и x(i), т.е. количество битов, на которое различаются эти два вектора. Значение iy=1, если x = x(i) и = 0, если x=-xiy (i). В остальных случаях значения iyрасполагаются в интервале [0, 1].

Сигналы нейронов первого слоя становятся начальными состояниями iyнейронов слоя MAXNET на второй фазе функционирования сети. Задача нейронов этого слоя состоит в определении победителя, т.е. нейрона, уровень возбуждения которого наиболее близок к 1. Такой нейрон указывает на вектор образа с минимальным расстоянием Хемминга до входного вектора x. Процесс определения победителя – это рекуррентный процесс, выполняемый согласно формуле

( ) ( )( ) ( 1) ( 1) ( 1)mi ij j i ij j

j jy k f w y k f y k w y k

≠

⎛ ⎞ ⎛= − = − +⎜ ⎟ ⎜

⎝ ⎠ ⎝∑ ∑ m

i

⎞− ⎟

⎠, (127)

при начальном значении yj(0)= . Функция активации f(y) нейронов слоя iyMAXNET задается выражением

для ( )

0 для 0y y

f yy≥⎧

= ⎨ <⎩

0 . (128)

Итерационный процесс (127) завершается в момент, когда состояние нейронов стабилизируется и активность продолжает проявлять только один нейрон, тогда как остальные пребывают в нулевом состоянии. Активный нейрон

становится победителем и через веса линейных нейронов выходного слоя )2(ijw

представляет вектор y(i), который соответствует вектору x(i), признанному слоем MAXNET в качестве ближайшего к входному вектору x.

Важным достоинством сети Хемминга считается небольшое количество взвешенных связей между нейронами. Например, 100-входовая сеть Хопфилда, кодирующая 10 различных векторных классов, должна содержать 10000 взвешенных связей с подбираемыми значениями весов. При построении аналогичной сети Хемминга количество взвешенных связей уменьшается до 1100, из которых 1000 весов находятся в первом слое и 100 – в слое MAXNET. Выходной слой в этом случае не учитывается, поскольку сеть Хемминга, аналогичная сети Хопфилда, является ассоциативной.

В результате многочисленных экспериментов доказано, что рекуррентная сеть Хемминга дает лучшие результаты, чем сеть Хопфилда, особенно в ситуациях, когда взаимосвязанные векторы x и y являются случайными. В частности, реализованная в программе Mathlab сеть Хемминга, протестированная на 10 цифрах позволила почти безошибочно распознать все представленные зашумленные образы. Достигнутая эффективность распознавания зашумленных образов составила 100%. На рис. 19 и 20 изображены искаженные образы цифр 0-9, поданные на вход натренированной сети Хемминга, и соответствующие им образы, распознанные этой сетью. Для цифр с рис. 19 только искаженным образам цифр 0, 3 и 6 были ошибочно приписаны другие оригиналы. Однако такое решение не может считаться результатом неправильного функционирования сети, поскольку распознанные образы соответствовали эталонам с наименьшим расстоянием Хемминга до искаженных образов (после повреждения эталонов шумом они стали подобны остальным обучающим выборкам).

Рис. 19. Тестовые (сверху) и распознанные сетью Хэмминга (снизу) образцы цифр при обработке первой группы искажёшшых входных данных

Рис. 20. Тестовые (сверху) и распознанные сетью Хэмминга (снизу) образцы цифр при обработке второй группы искажёшшых входных данных

Единственная проблема, связанная с сетью Хемминга, проявляется в случае, когда зашумленные образы находятся на одинаковом (в смысле Хемминга) расстоянии от двух или более эталонов. В этом случае выбор сетью Хемминга одного из этих эталонов становится совершенно случайным.

Линейная ассоциативная память и ассоциативная память на основе сети Хопфилда. Функционирование, отличие.

Ассоциативная память играет роль системы, определяющей взаимную зависимость векторов. В случае, когда на взаимозависимость исследуются компоненты одного и того же вектора, говорят об ассоциативной памяти. Если же взаимозависимыми оказываются два различных вектора a и b, можно говорить о памяти гетероассоциативного типа. Типичным представителем первого класса является сеть Хопфилда, а второго – сеть Хемминга. Главная задача ассоциативной памяти сводится к запоминанию входных (обучающих) выборок таким образом, чтобы при представлении новой выборки система смогла сгенерировать ответ – какая из запомненных ранее выборок наиболее близка к вновь поступившему образу.

Хопфилд разработал ассоциативную память с непрерывными выходами, изменяющимися в пределах от +1 до –1, соответствующих двоичным значениям 0 и 1, Запоминаемая информация кодируется двоичными векторами и хранится в весах согласно следующей формуле:

∑=

=1...md

)OUT(OUT dj,di,ijw (129)

где т – число запоминаемых выходных векторов; d – номер запоминаемого выходного вектора; OUTi,j – i-компонента запоминаемого выходного вектора.

Это выражение может стать более ясным, если заметить, что весовой массив W может быть найден вычислением внешнего произведения каждого запоминаемого вектора с самим собой (если требуемый вектор имеет n компонент, то эта операция образует матрицу размером п х п) и суммированием матриц, полученных таким образом. Это может быть записано в виде

∑=i

iti DDW , (130)

где Di – i-й запоминаемый вектор-строка. Как только веса заданы, сеть может быть использована для получения

запомненного выходного вектора по данному входному вектору, который может быть частично неправильным или неполным. Для этого выходам сети сначала придают значения этого входного вектора. Затем входной вектор убирается и сети предоставляется возможность «расслабиться», опустившись в ближайший глубокий минимум. Сеть, идущая по локальному наклону функции энергии, может быть захвачена локальным минимумом, не достигнув наилучшего в глобальном смысле решения.

Двунаправленная ассоциативная память. Назначение, структура, обучение и функционирование.

Обобщением сети Хопфилда на случай двухслойной рекуррентной структуры, позволяющей кодировать множества двух взаимосвязанных векторов, считается двунаправленное ассоциативное запоминающее устройство, называемое ВАМ (англ.: Bidirectorial Associative Memory), предложенное Б. Коско. Его обобщенная структура представлена на рис. 21. Сигналы распространяются в двух направлениях: от входа к выходу и обратно. Функционирование имеет синхронный характер. Это означает, что если в первом цикле сигналы вначале проходят в одну сторону для определения состояния нейронов-получателей, то в следующем цикле они сами становятся источником, высылающим сигналы в обратную сторону. Этот процесс повторяется до достижения состояния равновесия.

Рис. 21. Структура сети ВАМ

Функция активации нейронов имеет пороговый характер: она может быть двоичной со значениями 1 или 0 либо биполярной со значениями ±1. При нулевом сигнале возбуждения нейрона его текущее состояние остается равным предыдущему состоянию. Для обеспечения лучших характеристик сети в режиме распознавания на этапе обучения используются только биполярные сигналы. Матрица весов W, связывающая обе части сети, является действительной и несимметричной. С учетом симметрии связей входного и выходного слоев сети при прямом направлении распространения сигналов веса описываются матрицей W, а при противоположном направлении - матрицей WT. Предположим, что

входные обучающие данные определены в виде множества из т биполярных пар {(ai, bi)}, где ai = [аi1, аi2,..., ain], bi = [bi1, bi2,..., bip] (векторы-строки). Этому множеству сопоставляется множество биполярных пар {(xi, yi)}, где xi – это биполярное представление ai (0 → -1, 1 → 1), а yi – биполярное представление bi.

В соответствии с определением Б. Коско [11] матрица весов W формируется на основе множества {(хi, yi)} как матрица корреляции

1W

mTi i

ix y

=

= ∑ . (131)

Показано, что использование биполярных обучающих векторов дает лучшие результаты на стадии распознавания. Определение весов межнейронных связей позволяет проследить процесс стабилизации состояния на обоих концах сети. Если допустить, что начальное состояние сети было задано парой (x0, y0), то процесс двунаправленной обработки сигналов состоит из последовательных циклов

0 1 1 1 1 2

2 2 2 3

( W) ( W ) ( W )

( W ) ( W ) ... ... ... ... ... ( W ) ( W )

T T

T T

T Tf f f

f x y f y x f x y

f y x f x y

f y x f x y

= → = → = →

→ = → =

→ = → = f

→ (132)

в результате чего формируются две стабильные величины xf и yf , свидетель-ствующие о достижении стабильного состояния сети. В случае бинарного описания начального состояния в виде (a0, b0) биполярным величинам (xf, yf) сопоставляются бинарные представления (af, bf). Каждой промежуточной точке процесса (xk, yk) можно сопоставить энергетическую функцию Ek, определяемую в виде

W Tk kE x y= − k . (133)

Доказано, что каждое очередное изменение состояния переходного процесса ведет к уменьшению значения энергетической функции сети вплоть до достижения локального минимума. Этот минимум достигается за конечное количество итераций, и он имеет значение

min W Tf fE x y= − . (134)

Иными словами, любое другое решение (в том числе и ближайшее, отличающееся лишь на 1 в смысле меры Хемминга от (xf, yf)) будет характеризоваться большим значением энергетической функции. При выполнении некоторых дополнительных условий парой (xf, yf) становится одна из обучающих пар, участвующих в формировании матрицы W, которая наиболее подобна (наиболее близка по мере Хемминга) паре, определившей начальное состояние (x0, y0).

В качестве примера рассмотрим обучение по правилу Коско сети ВАМ, имеющей 4 входа (векторы x состоят из 4 элементов) и 5 выходов (5-элементные векторы y). Задача сети состоит в запоминании множества из пяти сопряженных векторов x и y, заданных в биполярной форме. Обучающие векторы сгруппированы в приведенные ниже матрицы X и Y. Каждая строка матрицы X

представляет собой один обучающий вектор, сопряженный с соответствующей строкой матрицы Y.

1 1 1 11 1 1 1

X 1 1 1 11 1 1 11 1 1 1

⎡ ⎤⎢ ⎥−⎢ ⎥⎢= − −⎢ ⎥− − −⎢ ⎥⎢ ⎥− − − −⎣ ⎦

⎥

⎥

, (135)

1 1 1 1 11 1 1 1 1

Y 1 1 1 1 11 1 1 1 11 1 1 1 1

− − − − −⎡ ⎤⎢ ⎥− − − −⎢ ⎥⎢= − − −⎢ ⎥− −⎢ ⎥⎢ ⎥−⎣ ⎦

. (136)

Матрица весов сети, сформированная согласно формуле W= 5544332211 yxyxyxyxyx TTTTT ++++ имеет вид:

3 1 -1 3 51 1 3 5 3

W=1 3 5 3 13 5 3 1 1

− −⎡ ⎤⎢ ⎥− − − −⎢⎢− − − − −⎢ ⎥− − − −⎣ ⎦

⎥⎥. (137)

В режиме распознавания при начальных значениях векторов, совпадающих с использованными при обучении, сеть распознает их безошибочно. Значения энергии, соответствующие конечному состоянию, равны: E1= - x1Wy2

T = - 40, Е2 = - x2Wy2

T = -34, E3 = - x3Wy3

T = -32, E4 = - x4Wy4T = -34 и E5 = - x5Wy5

T = = - 40. При искажении значений векторов x и y, использовавшихся в процессе распознавания, спроектированная по алгоритму Коско сеть ВАМ не всегда способна откорректировать эти векторы, и распознает их с определенными погрешностями. Оригинальное решение, предложенное Б. Коско, характеризуется относительно невысоким качеством распознавания. Если размерности векторов x и y обозначить соответственно n и p, то удовлетворительное качество распознавания можно получить при выполнении зависимости m < ),min( pn .

Двунаправленная ассоциативная память. Метод обучения двунаправленной ассоциативной памяти с модифицированной структурой.

Заменим матрицу W расширенной матрицей W вида W [WW ]f ij= (138) при передаче сигнала в направлении от x, и матрицей вида bW

TW [W Wb = ]x , (139) при передаче сигнала в направлении от y. Вводимая таким образом поправка

разрушает симметрию передачи сигналов в противоположных направлениях. Дополнительные матрицы Wx и Wy конструируются так, что при нормальной

работе алгоритма Коско их влияние нивелируется; они включаются в работу только при возникновении ошибок распознавания.

Пусть p' и n' обозначают количество обучающих пар, для которых в процессе распознавания получены неправильные ответы для векторов y и x соответственно. Индексами y и x будем обозначать процессы, приводящие к формированию ошибочных векторов y и x соответственно. Если (xi, yi) является очередной k-й обучающей парой, для которой f (xiW) ≠ yi, то принимается 1=iky , 0=ijy для j ≠ k (k = 1, 2, ..., p'). Если для (xi, yi) выполняется условие f(xiW) = yi, то 0=iky для k= 1,2, ...,p'. Компоненты iky образуют вектор iy длиной p'. Аналогичным образом для процессов, распространяющихся в противоположном направлении, при замене векторов y на x можно получить векторы ix длиной n'. Корректирующие матрицы Wx и Wy формируются согласно формулам [12]:

1W

mT

y ii

ix y=

=∑ , (140)

1W

mT

x i ii

y x=

=∑ . (141)

На следующем шаге создаются матрицы дополнительных узлов сети Ty и Tx, причем

1T

mT

y y jj

q y y=

= ∑ j , (142)

1

Tm

Tx x j j

j

q x x=

= ∑ . (143)

Параметры qx и qy подбираются таким образом, чтобы они соответствовали условиям:

( 2) 2 min ( , )y i j iq n m d a a

≠

⎧> − − ⎨

⎩ ⎭∑ H i j

⎫⎬

H i j

⎫⎬

, (144)

( 2) 2 min ( , )y i j iq n m d b b

≠

⎧> − − ⎨

⎩ ⎭∑ . (145)

Модифицированная структура сети ВАМ, в которой учитываются связи через матрицы Tx и Ty, представлена на рис. 22. Зачерненные нейроны увеличивают размерность сети, они корректируют неточности функционирования связей, задаваемых матрицей W. После предъявления на вход сети тестовой пары (x0, y0) осуществляется аналогичный протекающему в сети Коско рекуррентный процесс, приводящий к получению конечных значений (xf, yf)

0, 0 1, 1 ,( ) ( ) ...( )f fx y x y x y→ → ,

Рис. 22. Структура расширенной сети ВАМ

при этом описание отдельных его этапов должно содержать дополнительные связи, показанные на рис. 22. При использовании введенных обозначений получаем

1 0 0( W ( W )T )y yy f x g x= + y , (146) T

1 1 1( W ( W )T )x x xx f y g y= + , (147) …=…

1 1( W ( W )T )f f y f yy f x g x− −= + y , (148) T( W ( W )T )f f y f xx f y g y= + x . (149)

где gx() и gy() обозначают векторы функций активации дополнительных корректирующих нейронов. В алгоритме Ванга эти функции подбираются

Рис. 23. Иллюстрация последовательности распознавания сетью BAM двух

сопряжённых образов, предварительно искажённых шумом следующим образом:

1 2( ) [ ( ), ( ),..., ( )]y y y yg g g g pν ν ν ν ′= , (150)

1 2( ) [ ( ), ( ),..., ( )]x x x xg g g g nν ν ν ν ′= , (151) где элементы векторов gx и gy определяются выражениями:

11 для ( )

0 для другихi

y i

ng

ν εν

> −⎧= ⎨⎩

, (152)

21 для ( )

0 для другихi

x i

ng

ν εν

> −⎧= ⎨⎩

. (153)

Величины ε1 и ε2 имеют положительные значения, удовлетворяющие условиям:

{ }10 2 min ( ,H i ji jd a aε

≠) , (154)

{ }20 2min ( ,H i ji jd b bε

≠) . (155)

Доказано, что при подобной модификации сеть ВАМ всегда обеспечивает хорошее распознавание запомненных сигналов независимо от того образуют они локальные минимумы или нет.

Сеть адаптивного резонанса. Назначение, структура, обучение и функционирование.

Мозг человека выполняет трудную задачу обработки непрерывного потока сенсорной информации, получаемой из окружающего мира. Из потока тривиальной информации он должен выделить жизненно важную информацию, обработать ее и, возможно, зарегистрировать в долговременной памяти. Понимание процесса человеческой памяти представляет собой серьезную проблему; новые образы запоминаются в такой форме, что ранее запомненные не модифицируются и не забываются. Это создает дилемму: каким образом память остается пластичной, способной к восприятию новых образов, и в то же время сохраняет стабильность, гарантирующую, что образы не уничтожатся и не разрушатся в процессе функционирования?

Традиционные искусственные нейронные сети оказались не в состоянии решить проблему стабильности-пластичности. Очень часто обучение новому образу уничтожает или изменяет результаты предшествующего обучения. В некоторых случаях это не существенно. Если имеется только фиксированный набор обучающих векторов, они могут предъявляться при обучении циклически. В сетях с обратным распространением, например, обучающие векторы подаются на вход сети последовательно до тех пор, пока сеть не обучится всему входному набору. Если, однако, полностью обученная сеть должна запомнить новый обучающий вектор, он может изменить веса настолько, что потребуется полное переобучение сети.

В реальной ситуации сеть будет подвергаться постоянно изменяющимся воздействиям; она может никогда не увидеть один и тот же обучающий вектор дважды. При таких обстоятельствах сеть часто не будет обучаться; она будет непрерывно изменять свои веса, не достигая удовлетворительных результатов.

Сети адаптивного резонанса сохраняют пластичность, необходимую для изучения новых образов, в то же время предотвращая изменение ранее запомненных образов.

СТРУКТУРА APT Сеть APT представляет собой векторный классификатор. Входной вектор

классифицируется в зависимости от того, на какой из множества ранее запомненных образов он похож. Свое классификационное решение сеть APT выражает в форме возбуждения одного из нейронов распознающего слоя. Если

входной вектор не соответствует ни одному из запомненных образов, создается новая категория посредством запоминания образа, идентичного новому входному вектору. Если определено, что входной вектор похож на один из ранее запомненных векторов с точки зрения определенного критерия сходства, запомненный вектор будет изменяться (обучаться) под воздействием нового входного вектора таким образом, чтобы стать более похожим на этот входной вектор.

Запомненный образ не будет изменяться, если текущий входной вектор не окажется достаточно похожим на него. Таким образом решается дилемма стабильности-пластичности. Новый образ может создавать дополнительные классификационные категории, однако новый входной образ не может заставить измениться существующую память.

Рис. 24. Упрощённая сеть APT

На рис. 24 показана упрощенная конфигурация сети APT, представленная в виде пяти функциональных модулей. Она включает два слоя нейронов, так называемых «слой сравнения» и «слой распознавания». Приемник 1, Приемник 2 и Сброс обеспечивают управляющие функции, необходимые для обучения и классификации.

Перед рассмотрением вопросов функционирования сети в целом необходимо рассмотреть отдельно функции модулей; далее обсуждаются функции каждого из них.

Слой сравнения. Слой сравнения получает двоичный входной вектор Х и первоначально пропускает его неизмененным для формирования выходного вектора C. На более поздней фазе в распознающем слое вырабатывается двоичный вектор R, модифицирующий вектор C, как описано ниже.

Каждый нейрон в слое сравнения (рис. 25) получает три двоичных входа (0 или 1): (1) компонента хi входного вектора X; (2) сигнал обратной связи Ri –

взвешенная сумма выходов распознающего слоя; (3) вход от Приемника 1 (один и тот же сигнал подается на все нейроны этого слоя).

Рис. 25. Упрощённый слой сравнения

Чтобы получить на выходе нейрона единичное значение, как минимум два из трех его входов должны равняться единице; в противном случае его выход будет нулевым. Первоначально выходной сигнал G1 Приемника 1 установлен в единицу, обеспечивая один из необходимых для возбуждения нейронов входов, а все компоненты вектора R установлены в 0; следовательно, в этот момент вектор C идентичен двоичному входному вектору X.

Слой распознавания. Слой распознавания осуществляет классификацию входных векторов. Каждый нейрон в слое распознавания имеет соответствующий вектор весов BBj Только один нейрон с весовым вектором, наиболее соответствующим входному вектору, возбуждается; все остальные нейроны заторможены.

Как показано на рис. 26, нейрон в распознающем •слое имеет, максимальную реакцию, если вектор C, являющийся выходом слоя сравнения, соответствует набору его весов, следовательно, веса представляют запомненный образ или экземпляр для категории входных векторов. Эти веса являются действительными числами, а не двоичными величинами. Двоичная версия этого образа также запоминается в соответствующем наборе весов слоя сравнения (рис. 25); этот набор состоит из весов связей, соединяющих определенные нейроны слоя распознавания, один вес на каждый нейрон слоя сравнения.

В процессе функционирования каждый нейрон слоя распознавания вычисляет свертку вектора собственных весов и входного вектора C. Нейрон, имеющий веса, наиболее близкие вектору C, будет иметь самый большой выход, тем самым выигрывая соревнование и одновременно затормаживая все остальные нейроны в слое.

Как показано на рис. 27, нейроны внутри слоя распознавания взаимно соединены в латерально-тормозящую сеть. В простейшем случае (единственном, рассмотренном в данной работе) предусматривается, что только один нейрон в слое возбуждается в каждый момент времени (т. е. только нейрон с наивысшим уровнем активации будет иметь единичный выход; все остальные нейроны будут иметь нулевой выход). Эта конкуренция реализуется введением связей с отрицательными весами lij с выхода каждого нейрона ri на входы остальных нейронов. Таким образом, если нейрон имеет большой выход, он тормозит все остальные нейроны в слое. Кроме того, каждый нейрон имеет связь с положительным весом со своего выхода на свой собственный вход. Если нейрон имеет единичный выходной уровень, эта обратная связь стремится усилить и поддержать его.

Рис. 26. Упрощённый слой распознавания

Приемник 2. G2, выход Приемника 2, равен единице, если входной вектор X имеет хотя бы одну единичную компоненту. Более точно, G2 является логическим ИЛИ от компонента вектора X.

Приемник 1. Как и сигнал G2, выходной сигнал G1 Приемника 1 равен 1, если хотя бы одна компонента двоичного входного вектора X равна единице;

однако если хотя бы одна компонента вектора R равна единице, G1 устанавливается в нуль. Таблица, определяющая эти соотношения:

Рис. 27. Слой распознавания с латеральным торможением

ИЛИ от компонента

вектора X ИЛИ от компонента

вектора R G1

0 0 0 1 0 1 1 1 0 0 1 0

Сброс. Модуль сброса измеряет сходство между векторами X и C. Если они

отличаются сильнее, чем требует параметр сходства, вырабатывается сигнал сброса возбужденного нейрона в слое распознавания.

В процессе функционирования модуль сброса вычисляет сходство как отношение количества единиц в векторе C к их количеству в векторе C. Если это отношение ниже значения параметра сходства, вырабатывается сигнал сброса.

Функционирование сети APT в процессе классификации Процесс классификации в APT состоит из трех основных фаз: распознавание,

сравнение и поиск. Фаза распознавания. В начальный момент времени входной вектор

отсутствует на входе сети; следовательно, все компоненты входного вектора X можно рассматривать как нулевые. Тем самым сигнал G2 устанавливается в 0 и, следовательно, в нуль устанавливаются выходы всех нейронов слоя распознавания. Поскольку все нейроны слоя распознавания начинают работу в одинаковом состоянии, они имеют равные шансы выиграть в последующей конкуренции.

Затем на вход сети подается входной вектор X, который должен быть классифицирован. Этот вектор должен иметь одну или более компонент, отличных от нуля, в результате чего и G1, и G2 становятся равными единице. Это «подкачивает» нейроны слоя сравнения, обеспечивая один из двух единичных

входов, необходимых для возбуждения нейронов в соответствии с правилом двух третей, тем самым позволяя нейрону возбуждаться, если соответствующая компонента входного вектора X равна единице. Таким образом, в течение данной фазы вектор S в точности дублирует вектор X.

Далее для каждого нейрона в слое распознавания вычисляется свертка вектора его весов Вj и вектора C (рис. 27). Нейрон с максимальным значением свертки имеет веса, наилучшим образом соответствующие входному вектору. Он выигрывает конкуренцию и возбуждается, одновременно затормаживая все остальные нейроны этого слоя. Таким образом, единственная компонента rj вектора R (рис. 24) становится равной единице, а все остальные компоненты становятся равными нулю.

В результате, сеть APT запоминает образы в весах нейронов слоя распознавания, один нейрон для каждой категории классификации. Нейрон слоя распознавания, веса которого наилучшим образом соответствуют входному вектору, возбуждается, его выход устанавливается в единичное значение, а выходы остальных нейронов этого слоя устанавливаются в нуль.

Фаза сравнения. Единственный возбужденный в слое распознавания нейрон возвращает единицу обратно в слой сравнения в виде своего выходного сигнала rj. Эта единственная единица может быть визуально представлена в виде «веерного» выхода, подающегося через отдельную связь с весом tij на каждый нейрон в слое сравнения, обеспечивая каждый нейрон сигналом рj, равным величинеtij (нулю или единице) (рис. 28).

Рис. 28. Путь сигнала отдельного возбуждённого нейрона в слое

распознавания Алгоритмы инициализации и обучения построены таким образом, что каждый

весовой вектор Тj имеет двоичные значения весов; кроме того, каждый весовой

вектор Вj представляет собой масштабированную версию соответствующего вектора Тj. Это означает, что все компоненты P (вектора возбуждения слоя сравнения) также являются двоичными величинами.

Так как вектор R не является больше нулевым, сигнал G1 устанавливается в нуль. Таким образом, в соответствии с правилом двух третей, возбудиться могут только нейроны, получающие на входе одновременно единицы от входного вектора X и вектора P.

Другими словами, обратная связь от распознающего слоя действует таким образом, чтобы установить компоненты C в нуль в случае, если входной вектор не соответствует входному образу, т. е. если X и P не имеют совпадающих компонент.

Если имеются существенные различия между X и P (малое количество совпадающих компонент векторов), несколько нейронов на фазе сравнения будут возбуждаться и C будет содержать много нулей, в то время как X содержит единицы. Это означает, что возвращенный вектор P не является искомым и возбужденные нейроны в слое распознавания должны быть заторможены. Это торможение производится блоком сброса (рис. 8.1), который сравнивает входной вектор X и вектор C и вырабатывает сигнал сброса, если степень сходства этих векторов меньше некоторого уровня. Влияние сигнала сброса заключается в установке выхода возбужденного нейрона в нуль, отключая его на время текущей классификации.

Фаза поиска. Если не выработан сигнал сброса, сходство является адекватным, и процесс классификации завершается. В противном случае другие запомненные образы должны быть исследованы с целью поиска лучшего соответствия. При этом торможение возбужденного нейрона в распознающем слое приводит к установке всех компонент вектора R в 0, G1 устанавливается в 1 и входной вектор X опять прикладывается в качестве C. В результате другой нейрон выигрывает соревнование в слое распознавания и другой запомненный образ P возвращается в слой сравнения. Если P не соответствует X, возбужденный нейрон в слое распознавания снова тормозится. Этот процесс повторяется до тех пор, пока не встретится одно из двух событий:

1. Найден запомненный образ, сходство которого с вектором X выше уровня параметра сходства, т. е. S>ρ. Если это происходит, проводится обучающий цикл, в процессе которого модифицируются веса векторов Tj и BBj, связанных с возбужденным нейроном в слое распознавания.

2. Все запомненные образы проверены, определено, что они не соответствуют входному вектору, и все нейроны слоя распознавания заторможены. В этом случае предварительно не распределенный нейрон в распознающем слое выделяется этому образу и его весовые векторы BBj и Tj устанавливаются соответствующими новому входному образу.

Проблема производительности. Описанная сеть должна производить последовательный поиск среди всех запомненных образов. В аналоговых реализациях это будет происходить очень быстро; однако при моделировании на обычных цифровых компьютерах этот процесс может оказаться очень

длительным. Если же сеть APT реализуется на параллельных процессорах, все свертки на распознающем уровне могут вычисляться одновременно. В этом случае поиск может быть очень быстрым.

Время, необходимое для стабилизации сети с латеральным торможением, может быть длительным при моделировании на последовательных цифровых компьютерах. Чтобы выбрать победителя в процессе латерального торможения, все нейроны в слое должны быть вовлечены в одновременные вычисления и передачу. Это может потребовать проведения большого объема вычислений перед достижением сходимости. Латеральные тормозящие сети, аналогичные используемым в неокогнитронах, могут существенно сократить это время (гл. 25).

ФУНКЦИОНИРОВАНИЕ APT Рассмотрим более детально пять фаз процесса функционирования APT:

инициализацию, распознавание, сравнение, поиск и обучение. Инициализация. Перед началом процесса обучения сети все весовые

векторы B Bj и Tj, а также параметр сходства ρ, должны быть установлены в начальные значения.

Веса векторов BBj все инициализируются в одинаковые малые значения. Эти значения должны удовлетворять условию

mLLb+−

<1ij для всех i, j, (156)

где т – количество компонент входного вектора, L – константа, большая 1 (обычно L = 2).

Эта величина является критической; если она слишком большая, сеть может распределить все нейроны распознающего слоя одному входному вектору.

Веса векторов Tj все инициализируются в единичные значения, так что tij = 1 для всех j,i. (157) Эти значения также являются критическими; слишком маленькие веса

приводят к отсутствию соответствия в слое сравнения и отсутствию обучения. Параметр сходства ρ устанавливается в диапазоне от 0 до 1 в зависимости от

требуемой степени сходства между запомненным образом и входным вектором. При высоких значениях ρ сеть относит к одному классу только очень слабо отличающиеся образы. С другой стороны, малое значение ρ заставляет сеть группировать образы, которые имеют слабое сходство между собой. Может оказаться желательной возможность изменять коэффициент сходства на протяжении процесса обучения, обеспечивая только грубую классификацию в начале процесса обучения, и затем постепенно увеличивая коэффициент сходства для выработки точной классификации в конце процесса обучения.

Распознавание. Появление на входе сети входного вектора X инициализирует фазу распознавания. Так как вначале выходной вектор слоя распознавания отсутствует, сигнал G1 устанавливается в 1 функцией ИЛИ вектора X, обеспечивая все нейроны слоя сравнения одним из двух входов, необходимых для их возбуждения (как требует правило двух третей). В результате любая компонента вектора X, равная единице, обеспечивает второй единичный вход, тем

самым заставляя соответствующий нейрон слоя сравнения возбуждаться и устанавливая его выход в единицу. Таким образом, в этот момент времени вектор С идентичен вектору X.

Как обсуждалось ранее, распознавание реализуется вычислением свертки для каждого нейрона слоя распознавания, определяемой следующим выражением:

NETj = (BBj • C), (158) где Вj – весовой вектор, соответствующий нейрону j в слое распознавания; С

– выходной вектор нейронов слоя сравнения; в этот момент С равно X; NETj – возбуждение нейрона j в слое распознавания.

F является пороговой функцией, определяемой следующим образом: OUTj = 1, если NETj>T, (159) OUTj = 0 в противном случае, где Т представляет собой порог. Принято, что латеральное торможение существует, но игнорируется здесь для

сохранения простоты выражении. Оно обеспечивает тот факт, что только нейрон с максимальным значением NET будет иметь выход, равный единице; все остальные нейроны будут иметь нулевой выход. Можно рассмотреть системы, в которых в распознающем слое возбуждаются несколько нейронов в каждый момент времени, однако это выходит за рамки данной работы.

Сравнение. На этой фазе сигнал обратной связи от слоя распознавания устанавливает G1 в нуль; правило двух третей позволяет возбуждаться только тем нейронам, которые имеют равные единице соответствующие компоненты векторов Р и X.

Блок сброса сравнивает вектор С и входной вектор X, вырабатывая сигнал сброса, когда их сходство S ниже порога сходства. Вычисление этого сходства упрощается тем обстоятельством, что оба вектора являются двоичными (все элементы либо 0, либо 1). Следующая процедура проводит требуемое вычисление сходства:

1. Вычислить D – количество единиц в векторе X. 2. Вычислить N – количество единиц в векторе С. Затем вычислить сходство S следующим образом: S=N/D. (160) Например, примем, что Х = 1 0 1 1 1 0 1 D = 5 С = 0 0 1 1 1 0 1 N = 4 S=N/D=0,8 S может изменяться от 1 (наилучшее соответствие) до 0 (наихудшее

соответствие). Заметим, что правило двух третей делает С логическим произведением

входного вектора Х и вектора Р. Однако Р равен Тj, весовому вектору выигравшего соревнование нейрона. Таким образом, D может быть определено как количество единиц в логическом произведении векторов Тj и X.

Поиск. Если сходство S выигравшего нейрона превышает параметр сходства, поиск не требуется. Однако если сеть предварительно была обучена, появление на входе вектора, не идентичного ни одному из предъявленных ранее, может возбудить в слое распознавания нейрон со сходством ниже требуемого уровня. В соответствии с алгоритмом обучения возможно, что другой нейрон в слое распознавания будет обеспечивать более хорошее соответствие, превышая требуемый уровень сходства несмотря на то, что свертка между его весовым вектором и входным вектором может иметь меньшее значение. Пример такой ситуации показан ниже.

Если сходство ниже требуемого уровня, запомненные образы могут быть просмотрены с целью поиска, наиболее соответствующего входному вектору образа. Если такой образ отсутствует, вводится новый несвязанный нейрон, который в дальнейшем будет обучен. Для инициализации поиска сигнал сброса тормозит возбужденный нейрон в слое распознавания на время проведения поиска, сигнал G1 устанавливается в единицу и другой нейрон в слое распознавания выигрывает соревнование. Его запомненный образ затем проверяется на сходство и процесс повторяется до тех пор, пока конкуренцию не выиграет нейрон из слоя распознавания со сходством, большим требуемого уровня (успешный поиск), либо пока все связанные нейроны не будут проверены и заторможены (неудачный поиск).

Неудачный поиск будет автоматически завершаться на несвязанном нейроне, так как его веса все равны единице, своему начальному значению. Поэтому правило двух третей приведет к идентичности вектора С входному вектору X, сходство S примет значение единицы и критерий сходства будет удовлетворен.

Обучение. Обучение представляет собой процесс, в котором набор входных векторов подается последовательно на вход сети и веса сети изменяются при этом таким образом, чтобы сходные векторы активизировали соответствующие нейроны. Заметим, что это – неуправляемое обучение, нет учителя и нет целевого вектора, определяющего требуемый ответ.

Различают два вида обучения: медленное и быстрое. При медленном обучении входной вектор предъявляется настолько кратковременно, что веса сети не имеют достаточного времени для достижения своих асимптотических значений в результате одного предъявления. В этом случае значения весов будут определяться скорее статистическими характеристиками входных векторов, чем характеристиками какого-то одного входного вектора. Динамика сети в процессе медленного обучения описывается дифференциальными уравнениями.

Быстрое обучение является специальным случаем медленного обучения, когда входной вектор прикладывается на достаточно длительный промежуток времени, чтобы позволить весам приблизиться к их окончательным значениям. В этом случае процесс обучения описывается только алгебраическими выражениями. Кроме того, компоненты весовых векторов Тj принимают двоичные значения, в отличие от непрерывного диапазона значений, требуемого в случае быстрого обучения.

Рассмотренный далее обучающий алгоритм используется как в случае успешного, так и в случае неуспешного поиска.

Пусть вектор весов Вj (связанный с возбужденным нейроном j распознающего слоя) равен нормализованной величине вектора С. Эти веса вычисляются следующим образом:

∑+−=

kk

iij 1 cL

Lcb (161)

где сi – i-я компонента выходного вектора слоя сравнения; j – номер выигравшего нейрона в слое распознавания; bij – вес связи, соединяющей нейрон i в слое сравнения с нейроном j в слое распознавания; L – константа > 1 (обычно 2).

Компоненты вектора весов Тj, связанного с новым запомненным вектором, изменяются таким образом, что они становятся равны соответствующим двоичным величинам вектора С:

tij = сi для всех i, (162)

где tij является весом связи между выигравшим нейроном j в слое распознавания и нейроном i в слое сравнения.

ПРИМЕР ОБУЧЕНИЯ СЕТИ APT В общих чертах сеть обучается посредством изменения весов таким образом,

что предъявление сети входного вектора заставляет сеть активизировать нейроны в слое распознавания, связанные с сходным запомненным вектором. Кроме этого, обучение проводится в форме, не разрушающей запомненные ранее образы, предотвращая тем самым временную нестабильность. Эта задача управляется на уровне выбора критерия сходства. Новый входной образ (который сеть не видела раньше) не будет соответствовать запомненным образам с точки зрения параметра сходства, тем самым формируя новый запоминаемый образ. Входной образ, в достаточной степени соответствующий одному из запомненных образов, не будет формировать нового экземпляра, он просто будет модифицировать тот, на который он похож. Таким образом при соответствующем выборе критерия сходства предотвращается запоминание ранее изученных образов и временная нестабильность.

Рис. 29. Процесс обучения APT

На рис. 29 показан типичный сеанс обучения сети APT. Буквы показаны состоящими из маленьких квадратов, каждая буква размерностью 8x8. Каждый квадрат в левой части представляет компоненту вектора Х с единичным значением, не показанные квадраты являются компонентами с нулевыми значениями. Буквы справа представляют запомненные образы, каждый является набором величин компонент вектора Тj.

Вначале на вход заново проинициированной системы подается буква «С». Так как отсутствуют запомненные образы, фаза поиска заканчивается неуспешно; новый нейрон выделяется в слое распознавания, и веса Тj устанавливаются равными соответствующим компонентам входного вектора, при этом веса Вj представляют масштабированную версию входного вектора.

Далее предъявляется буква «В». Она также вызывает неуспешное окончание фазы поиска и распределение нового нейрона. Аналогичный процесс повторяется для буквы «Е». Затем слабо искаженная версия буквы «Е» подается на вход сети. Она достаточно точно соответствует запомненной букве «Е», чтобы выдержать проверку на сходство, поэтому используется для обучения сети. Отсутствующий пиксель в нижней ножке буквы «Е» устанавливает в 0 соответствующую компоненту вектора С, заставляя обучающий алгоритм установить этот вес запомненного образа в нуль, тем самым воспроизводя искажения в запомненном образе. Дополнительный изолированный квадрат не изменяет запомненного образа, так как не соответствует единице в запомненном образе.

Четвертым символом является буква «Е» с двумя различными искажениями. Она не соответствует ранее запомненному образу (S меньше чем ρ), поэтому для ее запоминания выделяется новый нейрон.

Этот пример иллюстрирует важность выбора корректного значения критерия сходства. Если значение критерия слишком велико, большинство образов не будут подтверждать сходство с ранее запомненными и сеть будет выделять новый нейрон для каждого из них. Это приводит к плохому обобщению в сети, в

результате даже незначительные изменения одного образа будут создавать отдельные новые категории. Количество категорий увеличивается, все доступные нейроны распределяются, и способность системы к восприятию новых данных теряется. Наоборот, если критерий сходства слишком мал, сильно различающиеся образы будут группироваться вместе, искажая запомненный образ до тех пор, пока в результате не получится очень малое сходство с одним из них.

К сожалению, отсутствует теоретическое обоснование выбора критерия сходства, в каждом конкретном случае необходимо решить, какая степень сходства должна быть принята для отнесения образов к одной категории. Границы между категориями часто неясны, и решение задачи для большого набора входных векторов может быть чрезмерно трудным.

ЗАКЛЮЧЕНИЕ Сети APT являются интересным и важным видом систем. Они способны

решить дилемму стабильности-пластичности и хорошо работают с других точек зрения. Архитектура APT сконструирована по принципу биологического подобия; это означает, что ее механизмы во многом соответствуют механизмам мозга (как мы их понимаем). Однако они могут оказаться не в состоянии моделировать распределенную память, которую многие рассматривают как важную характеристику функций мозга. Экземпляры APT представляют собой «бабушкины узелки»; потеря одного узла разрушает всю память. Память мозга, напротив, распределена по веществу мозга, запомненные образы могут часто пережить значительные физические повреждения мозга без полной их потери.

Кажется логичным изучение архитектур, соответствующих нашему пониманию организации и функций мозга. Человеческий мозг представляет существующее доказательство того факта, что решение проблемы распознавания образов возможно. Кажется разумным эмулировать работу мозга, если мы хотим повторить его работу. Однако контраргументом является история полетов; человек не смог оторваться от земли до тех пор, пока не перестал имитировать движения крыльев и полет птиц.

Устройство и структура нейронных сетей для решения задач классификации и кластеризации. Правила обучения: WTA и CWTA.

Чаще всего для классификации векторов применяются нейроны типа WTA (англ.: Winner Takes All – Победитель получает все). Выходной сигнал такого нейрона определяется согласно формуле

0

Ni j

u w=

= ∑ ij jx (163) Группа конкурирующих между собой нейронов (рис. 30) получает одни и те

же входные сигналы X. В зависимости от фактических значений весовых коэффициентов суммарные сигналы ui отдельных нейронов могут различаться. По результатам сравнения этих сигналов победителем признается нейрон, значение ui у которого оказалось наибольшим. Нейрон-победитель вырабатывает на своем выходе состояние 1, а остальные (проигравшие) нейроны переходят в состояние 0.

Рис. 30. Схема соединения нейронов типа WTA

Для обучения нейронов типа WTA не требуется учитель. На начальном этапе случайным образом выбираются весовые коэффициенты каждого нейрона, нормализуемые относительно 1. После подачи первого входного вектора X определяется победитель этапа. Победивший в этом соревновании нейрон переходит в состояние 1, что позволяет ему провести уточнение весов его входных линий wij (правилу Гроссберга):

( 1) ( ) [ ( )]ij ij i j ijw t w t y x w tη+ = + − (164) где η – это коэффициент обучения, значение которого, как правило, выби-

рается из интервала (0,1). Проигравшие нейроны формируют на своих выходах состояние 0, что

блокирует процесс уточнения их весовых коэффициентов. Вследствие бинарности значений выходных сигналов конкурирующих нейронов (0 или 1) правило Гроссберга может быть несколько упрощено:

( 1) ( ) [ ( )ij ij j ijw t w t x w t ]η+ = + − (165) На функционирование нейронов типа WTA оказывает существенное влияние

нормализация входных векторов и весовых коэффициентов. Выходной сигнал ui, i-го нейрона в соответствии с формулой

2 1 2 1 2 1cosT Tiu 2ϕ= = =w x x x x x (166) может быть описан векторным отношением

2 2 cosTiu iϕ= =w x w x (167) Поскольку ||w|| = ||x|| = 1, значение ui определяется углом между векторами X

и W, ui = cos φi,. Поэтому победителем оказывается нейрон, вектор весов которого оказывается наиболее близким текущему обучающему вектору X. В результате победы нейрона уточняются его весовые коэффициенты, значения которых приближаются к значениям текущего обучающего вектора X. Если на вход сети будет подаваться множество близких по значениям векторов, побеждать будет один и тот же нейрон. Поэтому его веса станут равными усредненным значениям тех входных векторов, благодаря которым данный нейрон оказался победителем. Проигравшие нейроны не изменяют свои веса. Только победа при очередном представлении входного вектора позволит им произвести уточнение весовых коэффициентов и продолжить процесс обучения в случае еще одной победы.

Следствием такой конкуренции становится самоорганизация процесса обучения. Нейроны уточняют свои веса таким образом, что при предъявлении группы близких по значениям входных векторов победителем всегда оказывается

один и тот же нейрон. В процессе функционирования именно этот нейрон благодаря соперничеству распознает свою категорию входных данных.

Рис. 31. Нейронная сеть типа WTA

Рис. 32. Процесс обучения изображённой выше сети WTA

Серьезной проблемой при обучении WTA остается проблема мертвых нейронов, которые после инициализации ни одного раза не победили в конкурентной борьбе и остались в состоянии, сформированном в начальный момент времени. Каждый мертвый нейрон уменьшает эффективное количество элементов, прошедших обучение, и соответственно увеличивает общую погрешность распознавания данных. Для разрешения этой проблемы применяется модифицированное обучение (CWTA), основанное на учете прошлых побед каждого нейрона и штрафовании (временной дисквалификации) тех из них, которые побеждали чаще всего. Дисквалификация слишком активных нейронов может осуществляться либо назначением порогового числа побед, по достижении которого наступает обязательная пауза, либо уменьшением фактического значения ui, при нарастании количества побед i-го нейрона.

Структура когнитрона, неокогнитрона и свёрточных нейронных сетей, отличия. Назначение когнитрона, неокогнитрона и свёрточных нейронных сетей.

Когнитрон конструируется в виде слоев нейронов, соединенных синапсами. Как показано на рис. 33, предсинаптический нейрон в одном слое связан с постсинаптическим нейроном в следующем слое. Имеются два типа нейронов: возбуждающие узлы, которые стремятся вызвать возбуждение постсинаптического узла, и тормозящие узлы, которые тормозят это возбуждение. Возбуждение нейрона определяется взвешенной суммой его возбуждающих и тормозящих входов, однако в действительности механизм является более сложным, чем простое суммирование.

Рис. 33. Пресинаптические и постсинаптические нейроны

На рис. 34 показано, что каждый нейрон связан только с нейронами в соседней области, называемой областью связи. Это ограничение области связи согласуется с анатомией зрительной коры, в которой редко соединяются между собой нейроны, располагающиеся друг от друга на расстоянии более одного миллиметра. В рассматриваемой модели нейроны упорядочены в виде слоев со связями от одного слоя к следующему. Это также аналогично послойной структуре зрительной коры и других частей головного мозга.

Рис. 34. Область связей нейрона

Обучение На рис. 35 показано, что области связи соседних узлов значительно

перекрываются. Это расточительное дублирование функций оправдывается взаимной конкуренцией между ближайшими узлами. Даже если узлы в начальный момент имеют абсолютно идентичный выход, небольшие отклонения всегда имеют место; один из узлов всегда будет иметь более сильную реакцию на входной образ, чем соседние. Его сильное возбуждение будет оказывать сдерживающее воздействие на возбуждение соседних узлов, и только его синапсы будут усиливаться; синапсы соседних узлов останутся неизменными.

Возбуждающий нейрон. Грубо говоря, выход возбуждающего нейрона в когнитроне определяется отношением его возбуждающих входов к тормозящим входам. Эта необычная функция имеет важные преимущества, как практические, так и теоретические.

Рис. 35. Область связи с областью конкуренции

Суммарный возбуждающий вход в нейрон взвешенной суммой входов от возбуждающих предшествующем слое. Аналогично суммарный вход является взвешенной суммой входов от всех тормозящих нейронов. В символьном виде

∑=i

iiuaE , ∑=j

jjvbI , (168)

где ai – вес i-го возбуждающего синапса, ui – выход i-го возбуждающего нейрона, bj – вес j-го тормозящего синапса, vj – выход j-го тормозящего нейрона.

Заметим, что веса имеют только положительные значения. Выход нейрона затем вычисляется следующим образом:

111NET −++

=IE (169)

OUT = NET, при NET≥0, (170) OUT = 0, при NET<0. (171) Предполагая, что NET имеет положительное значение, это можно записать

следующим образом:

IIE

+−

=1

OUT (172)

Когда тормозящий вход мал (I << 1), OUT может быть аппроксимировано как OUT = Е – I, (173) что соответствует выражению для обычного линейного порогового элемента

(с нулевым порогом). Алгоритм обучения когнитрона позволяет весам синапсов возрастать без

ограничений. Благодаря отсутствию механизма уменьшения весов они просто возрастают в процессе обучения. В обычных линейных пороговых элементах это привело бы к произвольно большому выходу элемента. В когнитроне большие возбуждающие и тормозящие входы результируются в ограничивающей формуле вида:

1OUT −=IE , если E >> 1 и I >> 1. (174)

В данном случае OUT определяется отношением возбуждающих входов к тормозящим входам, а не их разностью. Таким образом, величина OUT ограничивается, если оба входа возрастают в одном и том же диапазоне X. Предположив, что это так, Е и I можно выразить следующим образом:

Е = рХ, I = qX, p,q – константы, (175) и после некоторых преобразований

⎥⎦

⎤⎢⎣

⎡⎟⎠⎞

⎜⎝⎛+•

−=

2)log(th1

2OUT pq

qqp . (176)

Эта функция возрастает по закону Вебера-Фехнера, который часто используется в нейрофизиологии для аппроксимации нелинейных соотношений входа/выхода сенсорных нейронов. При использовании этого соотношения нейрон когнитрона в точности эмулирует реакцию биологических нейронов. Это делает его как мощным вычислительным элементом, так и точной моделью для физиологического моделирования.

Тормозящие нейроны. В когнитроне слой состоит из возбуждающих и тормозящих узлов. Как показано на рис. 36, нейрон слоя 2 имеет область связи, для которой он имеет синаптические соединения с набором выходов нейронов в слое 1. Аналогично в слое 1 существует тормозящий нейрон, имеющий ту же область связи. Синаптические веса тормозящих узлов не изменяются в процессе обучения; их веса заранее установлены таким образом, что сумма весов в любом из тормозящих нейронов равна единице. В соответствии с этими ограничениями, выход тормозящего узла INHIB является взвешенной суммой его входов, которые в данном случае представляют собой среднее арифметическое выходов возбуждающих нейронов, к которым он подсоединен. Таким образом,

Рис. 36. Слои когнитрона

∑=i

iiOUTINHIB c , (177)

где , c1i

i =∑c i – возбуждающий вес i.

Процедура обучения. Как объяснялось ранее, веса возбуждающих нейронов изменяются только тогда, когда нейрон возбужден сильнее, чем любой из узлов в области конкуренции. Если это так, изменение в процессе обучения любого из его весов может быть определено следующим образом:

δai = qcjuj, (178) где сj – тормозящий вес связи нейрона j в слое 1 с тормозящим нейроном i, иj

– выход нейрона j в слое 1, аi – возбуждающий вес i, q – нормирующий коэффициент обучения.

Изменение тормозящих весов нейрона i в слое 2 пропорционально отношению взвешенной суммы возбуждающих входов к удвоенному тормозящему входу. Вычисления проводятся по формуле

i

jjj

i INHIB2δ

•=

∑ uaqb . (179)

Когда возбужденных нейронов в области конкуренции нет, для изменения весов используются другие выражения. Это необходимо, поскольку процесс обучения начинается с нулевыми значениями весов; поэтому первоначально нет возбужденных нейронов ни в одной области конкуренции, и обучение производиться не может. Во всех случаях, когда победителя в области конкуренции нейронов нет, изменение весов нейронов вычисляется следующим образом:

Δai = q’cjuj, δbi = q’INHIB, (180)

где q’ – положительный обучающий коэффициент меньший, чем q. Приведенная стратегия настройки гарантирует, что узлы с большой реакцией

заставляют возбуждающие синапсы, которыми они управляют, увеличиваться сильнее, чем тормозящие синапсы. И наоборот, узлы, имеющие малую реакцию, вызывают малое возрастание возбуждающих синапсов, но большее .возрастание тормозящих синапсов. Таким образом, если узел 1 в слое 1 имеет больший выход, синапс а1 возрастет больше, чем синапс b1. И наоборот, узлы, имеющие малый выход, обеспечат малую величину для приращения аi. Однако другие узлы в области связи будут возбуждаться, тем самым увеличивая сигнал INHIB и значения bi.

В процессе обучения веса каждого узла в слое 2 настраиваются таким образом, что вместе они составляют шаблон, соответствующий образам, которые часто предъявляются в процессе обучения. При предъявлении сходного образа шаблон соответствует ему и узел вырабатывает большой выходной сигнал. Сильно отличающийся образ вырабатывает малый выход и обычно подавляется конкуренцией.

НЕОКОГНИТРОН В попытках улучшить когнитрон была разработана мощная парадигма,

названная неокогнитрон. Неокогнитрон ориентирован на моделирование зрительной системы человека. Он получает на входе двумерные образы, аналогичные изображениям на сетчатой оболочке глаза, и обрабатывает их в последующих слоях аналогично тому, как это было обнаружено в зрительной коре человека. Конечно, в неокогнитроне нет ничего, ограничивающего его использование только для обработки визуальных данных, он достаточно универсален и может найти широкое применение как обобщенная система распознавания образов.

В зрительной коре были обнаружены узлы, реагирующие на такие элементы, как линии и углы определенной ориентации. На более высоких уровнях узлы реагируют на более сложные и абстрактные образы такие, как окружности, треугольники и прямоугольники. На еще более высоких уровнях степень абстракции возрастает до тех пор, пока не определятся узлы, реагирующие на лица и сложные формы. В общем случае узлы на более высоких уровнях получают вход от группы низкоуровневых узлов и, следовательно, реагируют на более широкую область визуального поля. Реакции узлов более высокого уровня менее зависят от позиции и более устойчивы к искажениям.

Неокогнитрон имеет иерархическую структуру, ориентированную на моделирование зрительной системы человека. Он состоит из последовательности обрабатывающих слоев, организованных в иерархическую структуру (рис. 37). Входной образ подается на первый слой и передается через плоскости, соответствующие последующим слоям, до тех пор, пока не достигнет выходного слоя, в котором идентифицируется распознаваемый образ.

Рис. 37. Структура слоёв неокогнитрона

Структура неокогнитрона трудна для представления в виде диаграммы, но концептуально проста. Чтобы подчеркнуть его многоуровневость (с целью упрощения графического представления), используется анализ верхнего уровня. Неокогнитрон показан состоящим из слоев, слои состоят из набора плоскостей и плоскости состоят из узлов.

Слои. Каждый слой неокогнитрона состоит из двух массивов плоскостей (рис. 38). Массив плоскостей, содержащих простые узлы, получает выходы предыдущего слоя, выделяет определенные образы и затем передает их в массив плоскостей, содержащих комплексные узлы, где они обрабатываются таким образом, чтобы сделать выделенные образы менее позиционно зависимыми.

Плоскости. Внутри слоя плоскости простых и комплексных узлов существуют парами, т. е. для плоскости простых узлов существует одна плоскость комплексных узлов, обрабатывающая ее выходы. Каждая плоскость может быть визуально представлена как двумерный массив узлов.

Рис. 38. Структура плоскостей неокогнитрона

Простые узлы. Все узлы в данной плоскости простых узлов реагируют на один и тот же образ. Как показано на рис. 39, плоскость простых узлов представляет массив узлов, каждый из которых «настраивается» на один специфический входной образ. Каждый простой узел чувствителен к ограниченной области входного образа, называемой его рецептивной областью. Например, все узлы в верхней плоскости простых узлов на рис. 39 реагируют на «С». Узел реагирует, если «С» встречается во входном образе и если «С» обнаружено в его рецептивной области.

На рис. 39 показано, что другие плоскости простых узлов в этом слое могут реагировать на поворот «С» на 90°, другие на поворот на 180° и т. д. Если должны быть выделены другие буквы (и их искаженные версии), дополнительные плоскости требуются для каждой из них.

Рецептивные области узлов в каждой плоскости простых узлов перекрываются с целью покрытия всего входного образа этого слоя. Каждый узел получает входы от соответствующих областей всех плоскостей комплексных узлов в предыдущем слое. Следовательно, простой узел реагирует на появление своего образа в любой сложной плоскости предыдущего слоя, если он окажется внутри его рецептивной области.

Рис. 39. Система неокогнитрона

Комплексные узлы. Задачей комплексных узлов является уменьшение зависимости реакции системы от позиции образов во входном поле. Для достижения этого каждый комплексный узел получает в качестве входного образа

выходы набора простых узлов из соответствующей плоскости того же слоя. Эти простые узлы покрывают непрерывную область простой плоскости, называемую рецептивной областью комплексного узла. Возбуждение любого простого узла в этой области является достаточным для возбуждения данного комплексного узла. Таким образом, комплексный узел реагирует на тот же образ, что и простые узлы в соответствующей ему плоскости, но он менее чувствителен к позиции образа, чем любой из них.

Таким образом, каждый слой комплексных узлов реагирует на более широкую область входного образа, чем это делалось в предшествующих слоях. Эта прогрессия возрастает линейно от слоя к слою, приводя к требуемому уменьшению позиционной чувствительности системы в целом.

Обобщение Каждый нейрон в слое, близком к входному, реагирует на определенные

образы в определенном месте, такие, как угол с определенной ориентацией в заданной позиции. Каждый слой в результате этого имеет более абстрактную, менее специфичную реакцию по сравнению с предшествующим; выходной слой реагирует на полные образы, показывая высокую степень независимости от их положения, размера и ориентации во входном поле. При использовании в качестве классификатора комплексный узел выходного слоя с наибольшей реакцией реализует выделение соответствующего образа во входном поле. В идеальном случае это выделение нечувствительно к позиции, ориентации, размерам или другим искажениям.

Вычисления Простые узлы в неокогнитроне имеют точно такие же характеристики, что и

описанные для когнитрона, и используют те же формулы для определения их выхода. Здесь они не повторяются.

Тормозящий узел вырабатывает выход, пропорциональный квадратному корню из взвешенной суммы квадратов его входов. Заметим, что входы в тормозящий узел идентичны входам соответствующего простого узла и область включает область ответа во всех комплексных плоскостях. В символьном виде

∑=i

2ii )( ubv , (181)

где v – выход тормозящего узла; i – область над всеми комплексными узлами, с которыми связан тормозящий узел; bi – вес i-й синаптической связи от комплексного узла к тормозящему узлу; ui – выход i-го комплексного узла.

Веса bi выбираются монотонно уменьшающимися с увеличением расстояния от центра области реакции, при этом сумма их значений должна быть равна единице.

Обучение Только простые узлы имеют настраиваемые веса. Это веса связей,

соединяющих узел с комплексными узлами в предыдущем слое и имеющих изменяемую силу синапсов, настраиваемую таким образом, чтобы выработать

максимальную реакцию на определенные стимулирующие свойства. Некоторые из этих синапсов являются возбуждающими и стремятся увеличить выход узлов, в то время как другие являются тормозящими и уменьшают выход узла.

Рис. 40. Связи от сложных клеток одного уровня к простым клеткам следующего уровня

На рис. 40 показана полная структура синаптических связей между простым узлом и комплексными узлами в предшествующем слое. Каждый простой узел реагирует только на набор комплексных узлов внутри своей рецептивной области. Кроме того, существует тормозящий узел, реагирующий на те же самые комплексные узлы. Веса синапсов тормозящего узла не обучаются, – они выбираются таким образом, чтобы узел реагировал на среднюю величину выходов всех узлов, к которым он подключен. Единственный тормозящий синапс от тормозящего узла к простому узлу обучается, как и другие синапсы.

Псевдооптическая нейронная сеть. Интерферирующий нейрон, устройство. Назначение, структура и функционирование сети.

Существуют сети, в которых лежат физические процессы, связанные с волновыми процессами, распространением световых волн – псевдооптические нейронные сети. Они моделируют голографический процесс, сохранения и восстановления информации.

Сеть имеет 4 слоя:

Рис. 41. Структура псевдооптической нейронной сети

В основу функционирования сети положен эффект интерференции электромагнитных волн, согласно закону:

1 2 *cosI I ϕ - интерференция световых волн; (182) φ – разность фаз. Характеристики сигнала:

• начальная фаза сигнала • временной интервал распространения • интенсивность • частота

Каждый сигнал имеет временную задержку. Каждый нейрон может иметь порог интенсивности. Он складывается, когда приходит сигнал. Все сигналы по фазе и частоте совпадают.

Сеть функционирует в двух режимах – режиме записи и восстановления. В режиме записи функционируют три первых слоя, в режиме восстановления – первый, третий и четвёртый.

Первый слой выступает как источник. Источник может быть точечным и состоять из одного нейрона либо линейным и состоять из 2*n нейронов. Исходный образ располагается на втором слое, который, как и последующие, имеет n нейронов. Записанное изображение располагается на третьем слое. Восстанавливается образ на четвёртом слое путём освещения третьего слоя источником. Все нейроны в слоях находятся на одинаковом расстоянии друг от друга. Второй и четвёртый слой должны находиться на одинаковом расстоянии от третьего слоя. Расстояние между нейронами влияет на фазу и скорость распространяющегося сигнала по соответствующим связям. Образ и его изображение кодируется на слоях величиной порога нейронов. Интенсивность приходящего сигнала увеличивает со временем потенциал каждого нейрона и если этот потенциал превышает порог, то нейрон начинает излучать сигнал со своей частотой. Когда сигнал достигает третьего слоя, потенциал нейронов на этом слое начинает возрастать, и процесс продолжается до тех пор, пока самый последний сигнал от источника не достигнет всех нейронов третьего слоя. Тогда значение потенциала сохраняется в качестве порога. При восстановлении процесс аналогичен. Полученные значения потенциала на четвёртом слое являются восстановленным образом. В силу дискретности модели восстановленный образ может содержать шумы.

Машина Больцмана, назначение. Устройство и функционирование. Машина Больцмана.

( ) 1

1ii E

T

P Se

Δ−

=+

(183)

T(t+1)=a(T) (184)

( ) ( )0

1 logTT t

t=

+ (185)

Алгоритм функционирования машины Больцмана. 1. Устанавливаются в начальное состояние нейронные элементы и

температура сети t = 0. • Случайным образом из невыбранных выбирается нейронный элемент с

номером i. Добавить его в выбранные. yi = (1| random ≤ yi’; 0| random > yi’); yi’=1/(1+exp(-Si/T(t)))

2. Вычисляется ΔEi. 3. Если ΔEi < 0, то yi(t+1) = yi. 4. Если ΔEi ≥ 0, то с вероятностью Pi yi(t+1) = yi, иначе – yi(t+1) = yi(t); 5. Повторить с пункта 2, если остались невыбранные. 6. Проверяется условие равновесия (T(t)=0 и ΔEi < 0 для всех i). Если оно

не выполняется, то t = t+1 и все нейроны сети невыбранные и перейти на шаг 2. Свойства машины Больцмана широко изучались. Скорость уменьшения

температуры должна быть обратно пропорциональна логарифму времени, чтобы была достигнута сходимость к глобальному минимуму. Скорость охлаждения в такой системе выражается следующим образом:

)log(1)( 0

tT

tT+

= (186)

где T(t) – искусственная температура как функция времени; Т0 – начальная искусственная температура; t – искусственное время.

Этот разочаровывающий результат предсказывает очень медленную скорость охлаждения (и данные вычисления). Этот вывод подтвердился экспериментально. Машины Больцмана часто требуют для обучения очень большого ресурса времени.

Предетекторы и детекторы. Поле (карта) детекторов. Детекторы новизны и тождества. Схема активного анализа на основе нейроподобных элементов.

Допустим существует объект, с которого поступают данные и обрабатываются нейросетевой моделью (предетектором). Предетектор может уменьшать количество обрабатываемых данных, т.е. уменьшать объекты входных данных (что является полезным свойством). Предетекторы могут также осуществлять переход в пространство с более удобной структурой, т.е. скаляр, α-значения которого изменяется [-k, k], можно представить в виде

1*cos nxkα

= 2*sin nxkα

=

Детектор – объект, к которому поступает информация от предетектора и

который осуществляет детектирование. Схема активного анализа на основе нейроподобных элементов:

Рис. 42. Схема активного анализа на основе нейроподобных элементов

1 – набор рецепторов, которые преобразуют энергию сигнала в энергию электронных импульсов, поступающих на вход анализаторной системы 2, выделяющей отдельные признаки. 2 может содержать 1 или более признаков. Детекторы признаков посылают в память и активизируют с этими сигналами мнемические детекторы, активация которых означает, что в памяти возникает представление, какой сигнал воздействует на вход. Образ выводится в оперативную память (ОП).

В соответствии с гипотезой активизируется селектор, осуществляющий фильтрацию несущественных для гипотезы признаков. Отфильтрованные сигналы совместно с сигналами от блока гипотез (БГ) поступают на блок сравнения, который представляет собой набор детекторов новизны и тождества и формирует сигналы новизны и тождества. Если гипотеза не совпадает с фактической от анализатора, то формируется сигнал новизны, который активирует нейроны памяти, что приведет к активации другого детектора, т.е. выдвигается новая гипотеза. Если гипотеза подтверждается, то происходит выборка сигнала тождества, которая активизирует нейроны, представляющие эту гипотезу.

Детекторы новизны – нейроны, в которых те синапсы, по которым редко проходит сигнал, приобретают наибольшее значение весового коэффициента.

В нейронах тождества наоборот, если сигнал часто проходит, тогда синапс значения весового коэффициента, по которому сигнал проходит, приобретает наибольшее значение, а по тем, по которым не проходит, – малое значение.

Аппаратная реализация нейронных сетей. Процедура проектирования систолических массивов (процессоров), на основе структуры сети.

При реализации нейросетевых моделей используются различные архитектуры. Т.к. фактически нейросети обладают параллелизмом, можно использовать архитектуру класса ОКМД и МКМД, но чаще строят на последовательной архитектуре.

При построении нейросетей в робототехнике, они строятся на базе цифровых сигнальных процессоров и программируемых интегральных схем.

Архитектура для нейросетей может также быть на классе систолических процессоров.

Систолические процессоры для двухслойной нейронной сети (первый слой – рецепторы). Эффективность. Предпочтение по эффективности.

Систолические архитектуры: 1. Однородный поток данных:

1 2 3 4

11

1 22

1 2 33

1 2 3 44

0 0 00 0

0

p p p pxtx xtx x xtx x x xt

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

2. Последовательные потоки данных: 1 2 3

1 1

2 1

3 2 1

4 2

0 0 00 0

0 00 0

4

1

0

p p p pt xt xt x xt x

⎡ ⎤⎢⎢⎢ ⎥⎢ ⎥⎣ ⎦x

⎥⎥

⎥⎥

– конвейер

3. Неоднородный поток данных:

1 2 3 4

111

12 212

13 22 313

14 23 32 414

0 0 00 0

0

p p p pwtw wtw w wtw w w wt

⎡ ⎤⎢⎢⎢ ⎥⎢ ⎥⎣ ⎦

– компоненты весовой матрицы

Рис. 43. Упрощённая структура систолического процессора

Рис. 44. Функциональная схема систолического процессора

Каждый процессорный элемент реализует следующую логику:

Рис. 45. Процессорный элемент систолического процессора

m – размерность выходного вектора n – размерность входного вектора Время:

( )0 * *t n L m α= + , α – время одного такта (187) Число операций:

( )2* 1 * *V n m= − L (188) Производительность:

( )( )0

2* 1 * ** *

n mVt n L m

γL

α−

= =+

(189)

При m : →∞

2* 1nγα−

= (190)

Систолический массив с разнонаправленными связями. Сравнение по эффективности с процессорами с однонаправленными связями.

Схема для систолического массива с разнонаправленными связями:

Рис. 46. Структура систолического массива

Каждый процессорный элемент (PE) работает по следующей схеме:

Рис. 47. Процессорный элемент систолического массива

Производительность:

( )( )3

2* 1 * ** 1 *2*n m L

n L mγ

α−

=+ −

(191)

Матричный систолический процессор. Сравнение по эффективности. Схема матричного систолического процессора:

Рис. 48. Матричный систолический процессор

Каждый процессорный элемент хранит свой весовой коэффициент.

Рис. 49. Процессорный элемент матричного систолического процессора

Производительность: ( )( )

2* 1 * *1 *m

n mn L m

γLα

−=

+ + −, α – время выполнения одного такта (192)

Систолические массивы для многослойных нейронных сетей. Структура систолического массива, объединяющего различные систолические процессоры. Эффективность.

Рис. 50.

Рис. 51. Схемы объединения различных систолических процессоров

Систолические массивы для многослойных нейронных сетей. Структура систолического массива, объединяющего идентичные систолические процессоры. Эффективность.

Рис. 52. Схема объединения однородных систолических процессоров

Рис. 53. Схема объединения матричных систолических процессоров

Рис. 54. Схема систолического массива для многослойных нейронных сетей

Систолические процессоры для реализации релаксационных нейронных сетей (сети Хопфилда).

Рис. 55.Систолический процессор с обратными связями для реализации сети

Хопфилда Логика работы процессорного элемента в этом процессоре проиллюстрирована ниже:

Рис. 56. Процессорный элемент процессора для реализации сети Хопфилда

Методы обеспечения отказоустойчивости. Скользящее резервирование. Различают два подхода к обеспечению отказоустойчивости:

• секционированное резервирование (дублируются секции),

• скользящее резервирование (дублируется каждый элемент). Секция, сводящаяся к одному элементу схемы (дублируется каждый элемент),

– большая надежность, но и большее число переключателей. Уменьшение числа переключателей достигается за счёт укрупнения секций.

Методы обеспечения отказоустойчивости. Секционированное резервирование. Схема для неоднородного потока входных данных.

Архитектура разбивается на секции, каждая из которых дублируется.

Рис. 57. Схема отказоустойчивого систолический процессора для реализации

сети Хопфилда

Рис. 58.Схема переключателя отказоустойчивого процессора

Нечёткие нейронные сети. Структура, функционирование, обучение. Модели нечеткого вывода позволяют описать выходной сигнал многомерного

процесса как нелинейную функцию входных переменных xi, i = 1, 2, …, N и параметров нечеткой системы, например, при использовании в качестве агрегатора оператора алгебраического произведения с последующей

дефазификацией относительно среднего центра. В модели Мамдани-Заде каждое из M правил определяется уровнем активации условия

( ) ( )1

M

i Aij

jy xμ μ=

−∏ (193)

где yi - значение y, при котором значение μ(yi) максимально. Пусть yi — центр Ci нечеткого множества заключения i-го правила вывода. Тогда дефазификация относительно среднего центра дает

( )

( )1 1

1 1

NM

i Ai ji j

NM

Ai ji j

C xy

x

μ

μ

= =

= =

⎡ ⎤⎢ ⎥⎣−

∑ ∏

∑∏⎦

i

)

(194)

Приведенные формулы модели Мамдани-Заде имеют модульную структуру, которая идеально подходит для системного представления в виде многослойной структуры, напоминающей структуру классических нейронных сетей. Такие сети мы будем называть нечеткими нейронными сетями. Характерной их особенностью является возможность использования нечетких правил вывода для расчета выходного сигнала. Обучение таких сетей сводится к расчету параметров функции фазификации.

Нечеткие сети TSK (Такаги-Сугено-Канга)

Схема вывода в модели TSK при использовании M правил и N переменных xi, i = 1, 2, …, N имеет вид

( )( ) ( )( ) ( )( )1 1 2 2

01

is is ... is

i iN N

N

i i ij jj

if x A x A x A

then y p p x=

= +∑ (195)

Условие реализуется функцией фазификации ( )( is ii ix A

( ) 2

1

1A bi

i i

i

xix c

μ

σ

=⎛ ⎞⎛ ⎞−⎜ ⎟+ ⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠

(196)

При M правилах агрегированный выходной результат сети имеет вид

( )( )

1

1

M

i ii

N

ii

w y xy x

w

=

=

=∑

∑ (197)

( ) 01

N

i i ij

j jy x p p x=

= +∑ (198)

Веса wi интерпретируются как значимость компонентов ( ) ( )iA xμ . Тогда

формуле (197) можно поставить в соответствие многослойную нейронную сеть рис. 59.

Рис. 59. Нечёткая нейронная сеть TSK

1. Первый слой выполняет фуззификацию каждой переменной. Это параметрический слой с параметрами cj

(i), σj(i), bj

(i), подлежащими адаптации в процессе обучения.

2. Второй слой выполняет агрегирование отдельных переменных, определяя результирующее значение коэффициента принадлежности для вектора x (непараметрический слой).

( )ii Aw μ= x

3. Третий слой – генератор функции TSK, рассчитывает значения

( ) 01

N

i i ij

j jy x p p x=

− +∑ (199)

В этом слое также производится умножение yi(x) на wi, сформированные в предыдущем слое. Здесь адаптации подлежат веса pij, i = 1,2,…,M j = 1,2,…,N, определяющие функцию следствия модели TSK.

4. Четвертый слой составляют два нейрона-сумматора, один из которых рассчитывает взвешенную сумму сигналов yk(x), а второй – сумму весов wi, i = 1,2,…,M (непараметрический слой).

5. Пятый слой из одного нейрона – это нормализующий слой, в котором выходной сигнал сети агрегируется по формуле (197).

Таким образом, в процессе обучения происходит уточнение параметров только первого (нелинейного) и третьего (линейного) слоев.

Гибридный алгоритм обучения нечетких сетей.

Параметры, подлежащие адаптации, разделяются на две группы:

• первая состоит из параметров pij линейного третьего слоя; • вторая состоит из параметров нелинейной функции принадлежности

первого слоя.

Уточнение параметров проводится в два этапа.

На первом этапе при фиксации определенных значений параметров функции принадлежности путем решения системы линейных уравнений рассчитываются параметры pij полинома TSK.

При известных значениях функции принадлежности преобразование, реализуемое сетью, можно представить в виде

( ) 01 1

M N

i i ii j

ij jy x w p p x= =

⎛= +⎜

⎝ ⎠∑ ∑

⎞⎟ (200)

( ) ( )( ) ( )

1

1 1

Ni

A jj

i NNk

A jk j

xw const

x

μ

μ

=

= =

⎡ ⎤⎢ ⎥⎣ ⎦=∏

∑∏= (201)

При p обучающих выборках ( ) ( )( ), , 1, 2,...,l lx d l = p и замене выходного сигнала сети ожидаемым значением ( )ld получим систему из p линейных уравнений вида

*W P d= , где (202)

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

1 1 111 11 1 11 1 1 1 1

2 2 221 21 1 21 2 2 1 2

1 1 1 1 1

' ' ... ' ... ' ' ... '

' ' ... ' ... ' ' ... '... ... ... ... ... ... ... ... ...

' ' ... ' ... ' ' ... '

N M M M

N M M M

p p pp p p N pM pM pM N

w w x w x w w x w x

w w x w x w w x w xW

w w x w x w w x w x

=

1

2

N

N

p

(203)

10 1 0... ... ... TN M MNP p p p p= , (204)

w’ki – уровень активации (вес) i-го правила при предъявлении k-го входного вектора x(k).

Размерность матрицы W равна ( )1p N M× + , при этом обычно количество строк (количество выборок) значительно больше количества столбцов. Решение этой системы уравнений можно получить за один шаг при помощи псевдоинверсии матрицы W:

P W d+= (205)

Псевдоинверсия матрицы заключается в решении задачи минимизации

min W W E+ − , (206)

где E – единичная матрица.

На втором этапе (линейные параметры pij, i = 1,2,…,M – фиксированы) рассчитываются фактические выходные сигналы pk, k = 1,2,…,p:

y Wp= , (207)

вектор ошибки

y dε = − (208)

и градиент целевой функции E(n) по параметрам первого слоя. Если применяется метод наискорейшего спуска, то формулы адаптации принимают вид

( ) ( ) ( ) ( ) ( )( )1i i

j j c ij

E nc n c n

cα

∂+ = −

∂ (209)

( ) ( ) ( ) ( ) ( )( )1i i

j j ij

E nn n σσ σ α

σ∂

+ = −∂

(210)

( ) ( ) ( ) ( ) ( )( )1i i

j j b ij

E nb n b n

bα

∂+ = −

∂ (211)

где n обозначает номер очередной итерации.

После уточнения нелинейных параметров вновь запускается процесс адаптации линейных параметров TSK (первый этап) и нелинейных параметров (второй этап). Этот цикл повторяется вплоть до стабилизации всех параметров процесса.

Литература. 1. Головко В.А. Нейроинтеллект: Теория и применение. Книга 1. Организация и

обучение нейронных сетей с прямыми и обратными связями. – Брест: БПИ, 1999 – 264 с.

2. Головко В.А. Нейроинтеллект: Теория и применение. Книга 2. Самоорганизация, отказоустойчивость и применение нейронных сетей. – Брест: БПИ, 1999 – 228 с.

3. Осовский С. Нейронные сети для обработки информации. – М.: Финансы и статистика, 2002 – 344 с.

4. Минский М., Пейперт С. Персептроны: Пер. с англ. / Под ред. В.А. Ковалевского. - М.: Мир, 1971 - 261 с.

5. Розенблатт Ф. Принципы нейродинамики. - М.: Мир, 1965. - 480 с. 6. Соколов Е.Н., Шмелев Л.А. Нейробионика. - М.: Наука, 1983. 7. Колмогоров А.Н. Представление непрерывных функций многих переменных

суперпозицией функций одной переменной и сложением // ДАН. – 1958. № 5. – 953-956 с.

8. Kroese B. An introduction to Neural Networks. – Amsterdam: University of Amsterdam. – 1996. – 120 p.

9. Hinton G., McClelland J. Learning Representation by Recirculation // Proceedings of IEEE Conference on Neural Information Processing Systems. – 1989.

10. Floreen P. The convergence of Hamming memory networks // IEEE Trans. – Neural Networks, 1991. – Vol. 2. – pp. 449-457.

11. Kosko B. Bidirectional associative memories // IEEE Trans. Systems, Man and Cybernetics, 1988. – Vol. 18. – pp. 49-60.

12. Wang Y. F., Cruz J., Mulligan J. Two coding strategies for bidirectional associative memory // IEEE Trans. Neural Networks, 1990. – Vol. 1. – pp. 81-92.

13. Прикладная статистика: Классификация и снижение размерности: Справ. Изд. /Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д.; Под ред. Айвазяна С.А. – М.: Финансы и статистика. – 1989. – 607 с.

Введение 2 . 9 11 12 · Двунаправленная ассоциативная...

Documents

Transcript of Введение 2 . 9 11 12 · Двунаправленная ассоциативная...