Нестеров Ю.Е. Методы выпуклой оптимизации

281
“Nesterov-final” — // — : — page — # Ю. Е. Нестеров Методы выпуклой оптимизации Издательство МЦНМО г. Москва

Transcript of Нестеров Ю.Е. Методы выпуклой оптимизации

Page 1: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Ю. Е. Нестеров

Методывыпуклой оптимизации

Издательство МЦНМОг. Москва

Page 2: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Page 3: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Оглавление

Предисловие

Благодарности

Введение

Нелинейная оптимизация § .. Задачи нелинейной оптимизации . . . . . . . . . . . . . .

... Общая формулировка задачи . . . . . . . . . . . . . . . . ... Эффективность численных методов . . . . . . . . . . . . ... Оценки вычислительной сложности задач глобаль-

ной оптимизации . . . . . . . . . . . . . . . . . . . . . . . . ... Визитные карточки областей оптимизации . . . . . . .

§ .. Локальные методы безусловной оптимизации . . . . . . ... Релаксация и аппроксимация . . . . . . . . . . . . . . . . ... Классы дифференцируемых функций . . . . . . . . . . . ... Градиентный метод . . . . . . . . . . . . . . . . . . . . . . . ... Метод Ньютона . . . . . . . . . . . . . . . . . . . . . . . . . .

§ .. Методы первого порядка в нелинейной оптимизации . ... Градиентный метод и метод Ньютона: в чем разница? ... Сопряженные градиенты . . . . . . . . . . . . . . . . . . . ... Условная минимизация . . . . . . . . . . . . . . . . . . . .

Гладкая выпуклая оптимизация § .. Минимизация гладких функций . . . . . . . . . . . . . . . .

... Гладкие выпуклые функции . . . . . . . . . . . . . . . . . ... Нижние границы аналитической сложности

для класса F∞,1L (Rn) . . . . . . . . . . . . . . . . . . . . . . .

Page 4: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Оглавление

... Сильно выпуклые функции . . . . . . . . . . . . . . . . . . ... Нижние границы аналитической сложности

для класса S ∞,1µ,L (Rn) . . . . . . . . . . . . . . . . . . . . . . .

... Градиентный метод . . . . . . . . . . . . . . . . . . . . . . . § .. Оптимальные методы . . . . . . . . . . . . . . . . . . . . . . .

... Оптимальные методы . . . . . . . . . . . . . . . . . . . . . ... Выпуклые множества . . . . . . . . . . . . . . . . . . . . . . ... Градиентное отображение . . . . . . . . . . . . . . . . . . ... Методы минимизации на простых множествах . . . .

§ .. Задача минимизации функций с гладкими компонен-тами . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

... Минимаксная задача . . . . . . . . . . . . . . . . . . . . . . ... Градиентное отображение . . . . . . . . . . . . . . . . . . ... Методы минимизации для минимаксной задачи . . . . ... Оптимизация при функциональных ограничениях . . ... Метод условной минимизации . . . . . . . . . . . . . . .

Негладкая выпуклая оптимизация § .. Выпуклые функции общего вида . . . . . . . . . . . . . . .

... Мотивировка и определения . . . . . . . . . . . . . . . . . ... Операции с выпуклыми функциями . . . . . . . . . . . . ... Непрерывность и дифференцируемость . . . . . . . . . ... Теоремы отделимости . . . . . . . . . . . . . . . . . . . . . ... Субградиенты . . . . . . . . . . . . . . . . . . . . . . . . . . . ... Вычисление субградиентов . . . . . . . . . . . . . . . . . .

§ .. Методы негладкой минимизации . . . . . . . . . . . . . . . ... Нижние границы сложности для общего случая . . . . ... Основная лемма . . . . . . . . . . . . . . . . . . . . . . . . . ... Субградиентный метод . . . . . . . . . . . . . . . . . . . . ... Минимизация при функциональных ограничениях . . ... Границы сложности в конечномерном случае . . . . . ... Методы отсекающей гиперплоскости . . . . . . . . . . .

§ .. Методы с полной информацией . . . . . . . . . . . . . . . . ... Модель негладкой функции . . . . . . . . . . . . . . . . . . ... Метод Келли . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... Метод уровней . . . . . . . . . . . . . . . . . . . . . . . . . . ... Условная минимизация . . . . . . . . . . . . . . . . . . . .

Page 5: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Оглавление

Структурная оптимизация § .. Самосогласованные функции . . . . . . . . . . . . . . . . .

... Концепция «черного ящика» в выпуклой оптимизации ... Как работает метод Ньютона? . . . . . . . . . . . . . . . . ... Определение самосогласованной функции . . . . . . . ... Основные неравенства . . . . . . . . . . . . . . . . . . . . . ... Минимизация самосогласованных функций . . . . . . .

§ .. Самосогласованные барьеры . . . . . . . . . . . . . . . . . . ... Мотивировка . . . . . . . . . . . . . . . . . . . . . . . . . . . ... Определение самосогласованных барьеров . . . . . . . ... Основные неравенства . . . . . . . . . . . . . . . . . . . . . ... Метод отслеживания траектории . . . . . . . . . . . . . . ... Нахождение аналитического центра . . . . . . . . . . . . ... Задачи с функциональными ограничениями . . . . . .

§ .. Приложения структурной оптимизации . . . . . . . . . . ... Границы параметров самосогласованных барьеров . . ... Линейная и квадратичная оптимизация . . . . . . . . . ... Полуопределенная оптимизация . . . . . . . . . . . . . . ... Экстремальные эллипсоиды . . . . . . . . . . . . . . . . . ... Сепарабельная оптимизация . . . . . . . . . . . . . . . . . ... Выбор схемы минимизации . . . . . . . . . . . . . . . . .

Библиографический комментарий

Литература

Page 6: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Page 7: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Предисловие редактора

Новая эра в нелинейной оптимизации открылась выдающейся ста-тьей Н. Кармаркара, появившейся в середине -х гг. Значениеэтой работы, в которой предлагался новый полиномиальный ал-горитм для задач линейной оптимизации, состояло не только вустановлении границ вычислительной сложности. В то время со-вершенно замечательной особенностью этого алгоритма являлосьто, что теоретические оценки его высокой эффективности блестя-ще подтверждались результатами численных экспериментов. Этотнеобычный по тем временам факт радикально изменил стиль инаправление исследований в области нелинейной оптимизации. Стех пор появление новых методов все чаще стало сопровождатьсятеоретическим анализом их вычислительной сложности, которыйтеперь обычно рассматривается как более веское доказательствоих качества, чем численные эксперименты. В новой и быстро раз-вивающейся области оптимизации, получившей название поли-номиальные методы внутренней точки, такое обоснование сталообязательной нормой.

Основные результаты первых пятнадцати лет серьезных исследо-ваний вошли в монографии [, , ––]. Однако эти книги труд-нодоступны российскому читателю. Более того, они не решают за-дачи изложения нового взгляда на предмет и цели выпуклой опти-мизации. Дело в том, что к тому времени лишь теория методов внут-ренней точки для задач линейной оптимизации была разработанадостаточно подробно, а общая теория самосогласованных функцийсуществовала в печатном виде лишь в форме монографии []. Кро-ме того, было понятно, что новая теория методов внутренней точкипредставляет собой только часть общей теории выпуклой оптими-зации –– технически довольно сложной дисциплины, включающейтакие разделы, как границы вычислительной сложности, оптималь-ные методы и т. д.

Page 8: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Предисловие

Автор настоящей книги, предлагаемой вниманию читателя, пред-принял попытку преодолеть все эти трудности и изложить сложныевопросы в элементарной форме. На мой взгляд, попытка оказаласьуспешной. Ю. Е. Нестеров внес выдающийся вклад в развитие совре-менной теории и методов выпуклой оптимизации. Еще в -е годыпрошлого века он развил теорию эффективных методов оптимиза-ции; см. []. Позже он совместно с А. С. Немировским предложилновый подход, основанный на самосогласованных функциях и ба-рьерах (см. []), что привело к созданию полиномиальных методовоптимизации. В последние годы он опубликовал много работ, по-священных усовершенствованию методов для основных классовоптимизационных задач. Это помогло ему умело произвести отборматериала для книги. Ключевыми стали такие понятия, как вычис-лительная сложность оптимизационных задач и гарантированнаяэффективность численных методов, подкрепленная анализом гра-ниц сложности. При этом жесткие рамки объема книги обусловилипрагматизм изложения –– каждое понятие или факт, приводимые вмонографии, абсолютно необходимы для полноценного анализа покрайней мере одной оптимизационной схемы. До некоторой сте-пени удивительным оказалось то, что при изложении совершенноне потребовалось сведений из теории двойственности, и поэтомуэтот раздел полностью опущен. Основная цель книги –– добитьсяправильного понимания сложности различных задач оптимиза-ции, и цель эта выбрана не случайно. Пользователи постоянноинтересуются тем, какой численный метод наиболее разумен дляоптимизационных моделей, которыми они заняты. Оказывается,если модель построена без учета возможностей численных про-цедур, то шансы найти приемлемое численное решение близки кнулю. Что бы ни создавал человек в любой области своей деятель-ности, он знает заранее, почему действует так, а не иначе, и чтособирается делать с тем, что получится. И лишь в области числен-ного моделирования картина почему-то совершенно иная: сначаласоздается модель, а затем начинаются поиски численного метода.Если учесть сложность оптимизационных задач, становится ясно,что шансы на успех при таком подходе крайне невелики.

Книга состоит из четырех глав: которые в большой степени неза-висимы друг от друга и могут использоваться самостоятельно. Кни-га рассчитана на широкую аудиторию; от читателя предполагаются

Page 9: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Предисловие

лишь знания в объеме стандартных университетских курсов мате-матического анализа и линейной алгебры. Включенный в книгукраткий библиографический комментарий призван помочь болееблизкому ознакомлению с предметом.

Английский вариант книги (Nesterov Yu. «Introductory lectureson convex optimizatin: a basic course») был выпущен издательствомKluwer в г. и встретил заинтересованный отклик. Я надеюсь,что издание монографии Ю. Е. Нестерова на русском языке будетзаметным событием и даст возможность российским читателямвпервые познакомиться с новым перспективным направлением ис-следований.

Б. Т. Поляк

Page 10: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Page 11: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Моей жене Светлане

Page 12: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Page 13: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Благодарности

Эта книга отражает основные достижения в выпуклой оптимиза-ции –– научном направлении, в котором мне довелось работать более лет. В течение этого времени я имел редкую возможность свобод-ного общения и сотрудничества со многими выдающимися ученымив этой области; им я выражаю свою глубокую признательность.

Мне посчастливилось начать свою научную карьеру в Москве, впериод максимального размаха научной деятельности в СоветскомСоюзе. В этот момент в одном городе оказались собранными прак-тически все выдающиеся умы трехсотмиллионной страны. Встречии научные контакты с А. Антипиным, Ю. Евтушенко, Е. Гольштей-ном, А. Иоффе, В. Кармановым, Л. Хачияном, Р. Поляком, В. Пше-ничным, Н. Шором, Н. Третьяковым, Ф. Васильевым, Д. Юдиными, конечно же, с А. Немировским и Б. Поляком оказали определяю-щее влияние на формирование моих научных интересов и на выборнаправления исследований.

Как выяснилось потом, момент моего переезда на Запад тожебыл весьма специфическим. В нелинейной оптимизации только чтоначалась эра методов внутренней точки. Новые статьи со свежимиидеями появлялись почти каждый день, и многочисленные конфе-ренции открывали редкую возможность для интересных научныхконтактов и активной совместной работы. Я очень благодаренмоим коллегам, таким как Курт Анштрейхер, Альфред Ауслендер,Аарон Бен-Тал, Стивен Бойд, Кловис Гонзага, Дональд Гольдфарб,Жан-Луи Гоффен, Осман Гуллер, Иньюй Е, Кеннет Кортанек, КлодЛемарешаль, Оливер Мангасарян, Флориан Потра, Джеймс Ренегар,Корнелиус Рооз, Тамаш Терлаки, Андреас Титц, Майкл Тодд, ЛевентТунсел, Роберт Фрёйнд, Флориан Ярре, за стимулирующие обсуж-дения и плодотворное сотрудничество. Особую благодарность мнехотелось бы выразить Жану-Филиппу Виалу, подтолкнувшему меняк написанию этой книги.

Page 14: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Благодарности

В конце концов, мне повезло обосноваться в Центре исследова-ния операций и эконометрики (CORE) в Лувэн-ла-Нёве, Бельгия, ко-торый при ближайшем рассмотрении оказался миниатюрной копи-ей моего родного института ЦЭМИ РАН (Москва). Замечательныеусловия работы в этом научном центре и исключительное окруже-ние помогали мне все эти годы. Трудно переоценить значение тойатмосферы научных исследований, которую продолжают неустан-но поддерживать мои коллеги из CORE и Центра системных иссле-дований и прикладной механики (CESAME): Винсент Блондель, ИвЖене, Мишель Геверс, Этьен Лут, Ив Пошэ, Ив Смеерс, Поль Ван До-орен, Лоуренс Вулси. Моя работа в течение многих лет финансиро-вались Бельгийской общенациональной программой по развитиюфундаментальных исследований, созданной по инициативе прави-тельства Бельгии и Комитета по научной политике.

Я признателен Б. Т. Поляку и Московскому центру непрерывно-го математического образования за смелую инициативу перевода ииздания этой книги на русском языке.

Page 15: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Введение

Задачи оптимизации совершенно естественно возникают в раз-личных прикладных областях. Во многих жизненных ситуациях унас появляется желание или необходимость организовать свою де-ятельность наилучшим из возможных способов. Это намерение,облеченное в математическую форму, приобретает вид той илииной оптимизационной задачи. В зависимости от конкретной обла-сти приложения это может быть задача оптимального управленияили задача оптимального размещения, составление оптимальнойдиеты или задача оптимального раскроя. Однако уже следующийшаг –– нахождение решения поставленной модельной задачи –– со-всем нетривиален. На первый взгляд, все выглядит просто: на рынкеимеется огромное количество легкодоступных коммерческих про-граммных оптимизационных пакетов, и любой пользователь можетполучить «решение» задачи простым нажатием на иконку на экранесвоего персонального компьютера. Вопрос заключается в том, чтоименно он получит в качестве решения и насколько можно доверятьрезультату.

Одна из целей данной книги –– показать, что, несмотря на всюсвою привлекательность, «решения» общих оптимизационных за-дач, получаемые таким образом, очень часто не соответствуютожиданиям доверчивого пользователя. На мой взгляд, главное, чтоследует знать каждому работающему с оптимизационными моде-лями, –– это то, что задачи оптимизации, вообще говоря, численнонеразрешимы. Это утверждение, часто не упоминаемое в стандарт-ных курсах по оптимизации, крайне необходимо для пониманиятеории оптимизации и ее развития как в прошлом, так и в будущем.

Во многих практических приложениях процесс формализации иприведения реальной проблемы к какому-либо стандарному ви-ду требует большого времени и усилий. Поэтому исследовательдолжен иметь ясное представление о свойствах модели, которую

Page 16: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Введение

он строит. На этапе моделирования обычно применяются различ-ные средства для аппроксимации реального явления, и при этомсовершенно необходимо осознавать, к каким вычислительным по-следствиям приведет каждое из принимаемых решений. Оченьчасто приходится выбирать между «хорошей» модельной задачей,которую не удается решить, и «плохой» задачей, решение которойзаведомо возможно. Какая из них лучше?

В действительности ответ часто может быть подсказан вычисли-тельной практикой. Дело в том, что в настоящее время наиболеераспространенные оптимизационные модели по-прежнему пред-ставлены задачами линейной оптимизации. Крайне маловероятно,чтобы такие модели могли адекватно описывать явления нашегонелинейного мира; тем не менее, они весьма популярны, посколькупрактики предпочитают иметь дело с разрешимыми задачами. Разу-меется, очень часто линейная аппроксимация оказывается грубой,но зато обычно удается предсказать последствия такого плохогоприближения и внести поправку в интерпретацию полученногорезультата. По-видимому, на практике такой подход предпочти-тельнее попыток решения общей нелинейной задачи без какой-либо гарантии на успех.

Другая цель настоящего курса –– обсуждение численных методовдля разрешимых нелинейных задач, а именно задач выпуклой оп-тимизации. Развитие теории выпуклой оптимизации в последниегоды протекало бурно и захватывающе. Сегодня она представле-на несколькими «соперничающими» направлениями, имеющимисвои сильные и слабые стороны. Мы подробно обсудим их свойства,принимая во внимание и историческую ретроспективу; точнее го-воря, мы попытаемся понять внутреннюю логику развития каждогоиз этих направлений. До сих пор основные результаты развитиятеории выпуклой оптимизации можно найти лишь в специальныхжурналах или научных монографиях, однако, по моему мнению,она уже созрела настолько, что ее можно донести до конечногопользователя, будь то специалист по организации производства,экономист или студент той или иной специализации. С другойстороны, я надеюсь, что книга будет интересна и специалистамв теории оптимизации, так как в ней содержится большое количе-

Точнее, которую можно пытаться решать.

Page 17: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Введение

ство материала, никогда не публиковавшегося в виде законченноймонографии.

Я попытаюсь убедить читателя в том, что для успешного приме-нения оптимизационных формулировок задач необходимо иметьопределенные сведения из теории оптимизации, которая помогаетпонять, чего можно и чего нельзя достигнуть при решении задачиоптимизации. Элементы этой простой философии нетрудно найтив каждой главе предлагаемой книги. Мы постараемся показать, чтовыпуклая оптимизация является отличным примером законченнойприкладной теории, которая проста, легка в изучении и может бытьвесьма полезной при решении практических задач.

Эту книгу можно также рассматривать как курс лекций, в кото-ром мы обсуждаем наиболее эффективные современные схемы оп-тимизации и устанавливаем границы их эффективности. Курс яв-ляется автономным, и мы доказываем все необходимые результаты,рассчитывая на то, что доказательства, рассуждения и соображенияне будут представлять трудности даже для студентов-старшекурсни-ков.

Книга состоит из четырех относительно независимых глав, каж-дая из которых включает в себя три параграфа. Материал каждо-го параграфа примерно соответствует объему двухчасовой лекции,поэтому книга может почти без изменений использоваться при чте-нии односеместрового курса.

Первая глава посвящена общим задачам оптимизации. В §. об-суждается терминология и вводятся понятия оракула, черного ящи-ка, функциональной модели оптимизационной задачи и сложностиитеративных схем общего вида. Мы покажем, что задачи глобаль-ной оптимизации «нерешаемы», и обсудим основные характерныечерты различных разделов теории оптимизации. В §. рассматри-ваются две принципиальные схемы локальной безусловной мини-мизации: градиентный метод и метод Ньютона. Мы установим ихлокальную скорость сходимости и обсудим возможные неприятно-сти (расходимость, сходимость к седловой точке). В §. мы сравнимструктуры градиентного метода и метода Ньютона. Это приведетнас к идее переменной метрики, и мы опишем далее семейства ква-зиньютоновских методов и методов сопряженных градиентов. За-вершается глава анализом схем последовательной безусловной ми-нимизации.

Page 18: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Введение

Во второй главе рассматриваются методы гладкой выпуклой оп-тимизации. В §. анализируются основные причины упомянутыхвыше трудностей; в результате этого анализа мы придем к двумудобным классам функций: гладким выпуклым и гладким сильновыпуклым. Для соответствующих задач безусловной минимизациибудут установлены нижние границы сложности. В заключение па-раграфа мы проанализируем градиентный метод и покажем, что онне является оптимальным. Оптимальные методы для задач гладкойвыпуклой минимизации обсуждаются в §.. Изложение начина-ется с задач безусловной минимизации. Далее вводятся выпуклыемножества и определяется понятие градиентного отображения длязадач минимизации с простыми ограничениями. Мы покажем, чтоградиентное отображение формально заменяет шаг градиентногометода в оптимизационных схемах. В §. обсуждаются более слож-ные задачи, включающие несколько гладких выпуклых функций,а именно минимаксная задача и задача условной минимизации.Для обеих задач вводится понятие градиентного отображения иприводятся оптимальные схемы минимизации.

Третья глава посвящена теории негладкой выпуклой оптимиза-ции. Не предполагая у читателя наличия специальных знаний повыпуклому анализу, мы начинаем главу §., в котором компактноизлагаются все необходимые для дальнейшего сведения. Конечнойцелью этого параграфа является обоснование правил вычислениясубградиентов выпуклой функции. Следующий §. начинается сустановления нижних границ сложности для задач негладкой оп-тимизации. Далее предлагается общая схема анализа сложностисоответствующих методов, которая потом применяется для нахож-дения скорости сходимости субградиентного метода, метода центратяжести и метода эллипсоидов. Мы также обсудим некоторые ме-тоды отсекающей гиперплоскости. Параграф . посвящен схемамминимизации, в которых используется кусочно линейная модельвыпуклой функции. Мы рассмотрим метод Келли и покажем, чтоон может быть чрезвычайно медленным. Наконец, мы опишем такназываемый метод уровней и обоснуем оценки его эффективностина задачах безусловной и условной минимизации.

В четвертой главе рассматриваются задачи выпуклой минимиза-ции, имеющие явную структуру. Сначала в §. мы обсудим опре-деленную противоречивость концепции черного ящика примени-

Page 19: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Введение

тельно к задаче выпуклой минимизации. Мы определим барьердля оптимизационной задачи исходя из понятия самосогласованнойфункции. Для таких функций оракул второго порядка не являетсялокальным; их можно легко минимизировать с помощью методаНьютона. Мы изучим свойства таких функций и оценим скоростьсходимости метода Ньютона. В §. вводятся самосогласованныебарьеры –– подкласс самосогласованных функций, удобных для при-менения схем последовательной безусловной минимизации. Далеемы изучаем свойства таких барьеров и находим оценку эффектив-ности схемы отслеживания траектории. В §. приведено несколькопримеров оптимизационных задач, для которых удается постро-ить самосогласованный барьер, так что к этим задачам применимасхема отслеживания траектории. Здесь рассматриваются задачилинейной и квадратичной оптимизации, задачи полуопределеннойоптимизации, сепарабельной и геометрической оптимизации, за-дачи с экстремальными эллипсоидами и задачи аппроксимации вlp-нормах. Глава и вся книга завершаются сравнением метода внут-ренней точки и метода негладкой оптимизации применительно крешению конкретной оптимизационной задачи.

Page 20: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Page 21: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава

Нелинейная оптимизация§ .. Задачи нелинейной оптимизации

Общая формулировка задачи. Примеры задач оптимизации. Черный ящик иитеративные методы. Аналитическая и арифметическая сложность. Метод пе-ребора на равномерной сетке. Нижние оценки вычислительной сложности.Нижние оценки для глобальной оптимизации. Правила игры.

... Общая формулировка задачи

Обозначим через x вещественный вектор размерности n:

x =�

x(1), …, x(n)�T ∈Rn,

а через S –– некоторое множество из пространства Rn. Пусть f0(x), …… , fm(x) являются вещественнозначными функциями от x. В этойкниге мы будем, как правило, рассматривать один из вариантов сле-дующей общей задачи минимизации:

min f0(x)

при f j(x) & 0, j = 1, …, m,

x ∈ S,

(.)

где в качестве бинарного отношения & берется ¶, ¾ либо =.В дальнейшем f0(x) будем называть целевой функцией нашей за-

дачи, а векторную функцию

f (x)=�

f1(x), …, fm(x)�T

–– вектором функциональных ограничений. Множество S называет-ся базовым допустимым множеством, а множество

Q=�

x ∈ S | f j (x)¶ 0, j = 1, …, m

называется просто допустимым множеством задачи (.). Для опре-деленности мы всегда будем рассматривать задачи минимизации.

Page 22: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Любая задача максимизации может быть переписана в этом виде спомощью изменения знака целевой функции.

Приведем названия некоторых важных типов задач минимизации.

◦ Условные задачи: Q⊂Rn.◦ Безусловные задачи: Q≡Rn.◦ Гладкие задачи: все функции f j(x) дифференцируемы.◦ Негладкие задачи: существует по крайней мере одна недиффе-

ренцируемая компонента fk(x).◦ Задачи с линейными ограничениями: все функциональные огра-

ничения являются линейными функциями:

f j (x)=n∑

i=1

a(i)j x(i)

+ b j ≡ ⟨a j , x⟩+ b j , j = 1, …, m

(здесь ⟨·, ·⟩ обозначает скалярное произведение), а базовое множе-ство S является многогранником.

Если f0(x) также является линейной функцией, то задача (.)называется задачей линейной оптимизации. Если функция f0(x)является квадратичной, то задача (.) называется задачей квад-ратичной оптимизации. Если все функции f j квадратичные, томы получаем задачу квадратичной оптимизации с квадратич-ными ограничениями.

Существует также классификация задач, основанная на свой-ствах их допустимых множеств.

◦ Задача (.) называется допустимой, если Q 6=∅.◦ Задача (.) называется строго допустимой, если существует та-

кой вектор x ∈ int Q, что f j (x)< 0 (или > 0) для всех ограниче-ний-неравенств и f j (x)= 0 для всех ограничений-равенств (усло-вие Слэйтера).

Наконец, можно говорить о различных типах решений зада-чи (.).

◦ точка x∗ называется оптимальным глобальным решением задачи(.), если f0(x∗)¶ f0(x) для всех x ∈Q (глобальный минимум). Вэтом случае f0(x∗) называется (глобальным) оптимальным зна-чением задачи.

Page 23: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задачи нелинейной оптимизации

◦ точка x∗ называется локальным решением задачи (.), если длявсех x ∈ int ¯Q ⊂Q выполнено неравенство f0(x∗)¶ f0(x) (локаль-ный минимум).

Покажем на нескольких примерах, как могут возникать задачиоптимизации.

Пример ... Обозначим через x(1), …, x(n) параметры проекти-рования. По ним мы сможем вычислить значения некоторых ха-рактеристик нашего решения: f0(x), …, fm(x). В качестве такиххарактеристик можно взять, например, стоимость проекта, коли-чество необходимых ресурсов, надежность системы и т. д. Затемсамую важную характеристику f0(x) мы выбираем в качестве целе-вой функции. Остальным характеристикам разрешается меняться вопределенных пределах: a j ¶ f j (x)¶ b j . Таким образом, возникаетследующая задача:

min f0(x)

при a j ¶ f j (x)¶ b j , j = 1, …, m,

x ∈ S,

где множество S определяет структурные ограничения, такие как,например, естественный интервал изменения, неотрицательностьзначений и т. д.

Пример ... Пусть наша исходная задача состоит в следующем:

найти такое x ∈Rn, что f j (x)= a j , j = 1, …, m. (.)

В этом случае можно перейти к следующей задаче минимизации:

m∑

j=1

f j (x)− a j

�2→minx

,

возможно, даже при некоторых дополнительных ограничениях на x.Если оптимальное значение в этой задаче равно нулю, то и исходнаязадача (.) разрешима.

Заметим, что постановка (.) является почти универсальнойзадачей численного анализа. К такому виду приводятся системыобыкновенных дифференциальных уравнений и уравнений в част-ных производных, задачи поиска равновесных решений и многиедругие.

Page 24: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Пример ... Иногда переменные проектирования x(1), …, x(n) посвоему смыслу должны быть целыми числами. Это условие можетбыть записано с помощью следующего ограничения:

sin(πx(i))= 0, i= 1, …, n.

Таким образом, общая задача нелинейной оптимизации включает всебя как частный случай задачи целочисленной оптимизации:

min f0(x)→min

при a j ¶ f j (x)¶ b j , j = 1, …, m,

x ∈ S,

sin(πx(i))= 0, i= 1, …, n.

После рассмотренных примеров становится понятным оптимизмпионеров нелинейной оптимизации, который легко распознается вработах -х и -х гг. XX в. Наше первое впечатление, конечно же,должно было бы быть таким:

Нелинейная оптимизация является очень важной имногообещающей прикладной наукой. Она покры-вает почти все нужды теории исследования опера-ций и различных областей численного анализа.

С другой стороны, после просмотра тех же самых примеров, осо-бенно примеров .. и .., у более опытного читателя могли бызародиться некоторые сомнения. Действительно, окружающая насдействительность слишком сложна для того, чтобы надеяться на су-ществование универсального средства от всех болезней. Здоровыйскептицизм должен привести нас к следующей догадке:

Задачи нелинейной оптимизации, в их самой общейформе, являются численно неразрешимыми.

Однако неподтвержденные догадки никогда особенно не цени-лись в математических науках. Поэтому трудно переоценить зна-чение теории, созданной в середине -х годов, которая позволиладоказать вышеупомянутое предположение. Это доказательство на-столько просто и поучительно, что мы никак не можем опустить егов нашем курсе. Но прежде всего мы должны ввести специальнуютерминологию, необходимую для обсуждения подобных вопросов.

Page 25: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задачи нелинейной оптимизации

... Эффективность численных методов

Представим себе следующую ситуацию: мы собираемся решитьнекоторую задачу P . Нам известно, что для решения задач такоготипа разработано много различных численных методов. И, конечноже, нам бы хотелось применить метод, который является наилуч-шим для нашей задачи P . Как нам его найти? Оказывается, такаяпостановка вопроса просто неправомерна, т. е. победителя в подоб-ном соревновании обнаружить нетрудно, но мы вряд ли захотим (исможем) воспользоваться его услугами.

Действительно, представим себе «метод» решения задачи (.),который только и умеет, что сообщать пользователю, что глобаль-ный оптимум достигается в точке x∗ = 0. Конечно же, такой ответневерен для всех задач, кроме тех, у которых оптимальное реше-ние на самом деле есть нуль. И для таких задач эффективностьподобного метода превзойти просто невозможно.

Таким образом, невозможно разумно определить наилучший ме-тод решения отдельной задачи P . Однако это можно сделать длянекоторого класса задач F ⊃P . Действительно, обычно численныеметоды разрабатываются для решения многих однотипных задач сблизкими характеристиками. Поэтому эффективность метода Mна всем классе задач F можно считать естественной характеристи-кой его качества.

Так как мы собираемся говорить об эффективности методаM наклассе F , приходится предполагать, что наш метод с самого началане имеет полной информации о решаемой задаче.

Заранее известная численному методу «часть» зада-чи P называется моделью решаемой задачи.

Для обозначения модели мы будем использовать символ Σ. Обыч-но в модель включаются формулировка задачи, описание свойствфункциональных компонент и т. д.

Для того чтобы распознать задачу P среди всех прочих задач изданного класса (и тем самым решить ее), численный метод долженуметь накапливать специфическую информацию о решаемой задаче.Этот процесс удобно описывать с помощью понятия оракула. Ора-кул O проще всего представить в виде некоторого устройства, которое

Page 26: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

отвечает на последовательные вопросы численного метода. МетодMпытается решить задачу P , собирая и анализируя ответы оракула.

В общем случае каждая задача может быть описана с помощьюразличных моделей. Более того, для одной и той же задачи мож-но разработать различные оракулы, от самых простых до самыхсложных . Однако мы зафиксируем Σ и O . В этом случае естествен-но определить эффективность метода M на паре (Σ, O ) как егоэффективность на наихудшем представителеPw из (Σ, O ). Заметим,что задача Pw может быть трудной только для этого конкретногометодаM .

Далее, что такое эффективность методаM на задаче P ? Начнемс интуитивного определения.

Эффективность методаM на задаче P определяет-ся через общие вычислительные затраты методаM ,необходимые для того, чтобы решить задачу P .

В этом определении появляются два новых понятия. Прежде все-го, что значит «решить задачу»? В некоторых ситуациях это можетозначать нахождение точного решения. Однако для большинствачисленных задач (в том числе и для многих задач оптимизации) этопросто невозможно. Поэтому нам придется довольствоваться следу-ющей формулировкой.

Решить задачу P означает найти ее приближенноерешение с заранее заданной точностью ǫ > 0.

Реальное значение слов решение с точностью ǫ > 0 очень важнодля дальнейшего. Но мы пока отложим подробное обсуждение этоговопроса и только введем обозначение Tǫ для некоторого критерияостановки, способного оценить качество предлагаемого кандидата.Теперь мы сможем формально определить класс решаемых задач

F ≡�

Σ, O , Tǫ�

.

Для решения конкретной задачи P ∈ F естественно применитьнекую итеративную процедуру. Именно в таком виде удобно запи-сывать любой методM , работающий с оракулом.

В принципе, можно включить в рассмотрение и оракул, выдающий по запросуточный ответ решаемой задачи.

Page 27: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задачи нелинейной оптимизации

Общая итеративная схема

Вводные данные: начальная точка x0 и требуемаяточность ǫ > 0.

Настройка. Полагаем k = 0 и I−1 = ∅. Здесь k ––это счетчик итераций, а Ik –– это накапливаемая ин-формационная модель решаемой задачи.

Основной цикл. Задаем вопрос оракулу O в точке xk.. Пересчитываем информационную модель:

Ik = Ik−1 ∪�

xk, O (xk)�

.

. Применяем правила методаM для анализа моде-ли Ik и формируем точку xk+1.

. Проверяем критерий остановки Tǫ. Если ответположительный, то генерируем ответ x. В против-ном случае полагаем k := k + 1 и переходим нашаг .

(.)

Теперь мы можем определить слова вычислительные затратыв нашем определении эффективности. В схеме (.) нетрудно об-наружить два потенциально дорогих шага. Первый из них –– этошаг , на котором происходит обращение к оракулу. Второй же ––это шаг , на котором анализируется накопленная модель и фор-мируется следующая тестовая точка. Таким образом, можно ввестидве меры сложности задачи P для методаM .

Аналитическая сложность. Это число обращений коракулу, необходимое для решения задачи P с точ-ностью ǫ.

Арифметическая сложность. Это общее число всехвычислений (включая как работу оракула, так и ра-боту метода), необходимых для решения задачи P сточностью ǫ.

Сравним эти два понятия. Конечно же, арифметическая слож-ность оценивает вычислительные затраты более реалистично. Од-нако, как правило, эту оценку нетрудно получить из первой харак-

Page 28: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

теристики. Поэтому в большинстве рассматриваемых ситуаций мыбудем следовать традиции и обсуждать в основном аналитическуюсложность различных классов задач минимизации.

Нам осталось ввести одно стандартное предположение, котороесовершенно необходимо для получения большинства результатов тео-рии сложности задач оптимизации. Это предположение называетсяконцепцией черного ящика, и выглядит оно следующим образом.

Концепция черного ящика

. Единственной информацией, получаемой в ходеработы итеративного метода, являются ответыоракула.

. Ответы оракула являются локальными: неболь-шое изменение задачи, произведенное достаточ-но далеко от тестовой точки x и согласованное сописанием данного класса задач, не обязано при-вести к изменению исходного ответа в точке x.

Эта концепция является одной из самых полезных изобретений вчисленном анализе. Конечно же, ее первый постулат выглядит какнекоторая стена, искусственно возведенная между оракулом и ме-тодом. Казалось бы, почему не дать методу возможность анализи-ровать, например, всю промежуточную информацию, полученнуюпри вычислениях оракула? Однако в этом случае, если вдруг появ-ляется такая необходимость, ответ оракула можно и расширить. Ктому же, как мы увидим в дальнейшем, концепция черного ящикаособенно полезна в задачах с очень сложной структурой и сложныморакулом, когда промежуточных вычислений просто слишком мно-го, чтобы в них разобраться. В более простых ситуациях, как будетпоказано в последней главе этой книги, ее можно заменить на кон-цепцию структурной оптимизации.

Заканчивая этот пункт, стоит упомянуть, что стандартная форму-лировка (.) называется функциональной моделью для задач мини-мизации. Обычно для такой модели стандартные предположения свя-заны с гладкостью функциональных компонент. В соответствии состепенью гладкости можно пользоваться разными типами оракулов.

◦ Оракул нулевого порядка: возвращает значение функции f (x).

Page 29: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задачи нелинейной оптимизации

◦ Оракул первого порядка: возвращает значение функции f (x) и ееградиент f ′(x).

◦ Оракул второго порядка: возвращает f (x), f ′(x) и матрицу гес-сиана f ′′(x).

... Оценки вычислительной сложности задач глобальнойоптимизации

Теперь мы попытаемся применить формальные понятия, введен-ные в предыдущем пункте, к конкретному классу задач оптимиза-ции. Рассмотрим следующую задачу:

minx∈Bn

f (x). (.)

В соответствии с нашей терминологией это есть задача условнойминимизации, но без функциональных ограничений. Допустимыммножеством задачи является n-мерный куб Bn в пространстве Rn:

Bn=�

x ∈Rn | 0¶ x(i)¶ 1, i= 1, …, n

.

Введем l∞-норму в Rn:

‖x‖∞= max1¶i¶n|x(i)|.

Предположим, что относительно этой нормы

целевая функция f (x) будет липшицевой на Bn:

| f (x)− f ( y)|¶ L‖x− y‖∞ ∀ x, y ∈ Bn

с некоторой константой L (константа Липшица).

(.)

Рассмотрим простейший метод решения задачи (.), называ-емый методом равномерного перебора. У этого метода G (p) естьтолько один входной целочисленный параметр p ¾ 1. Его схемавыглядит следующим образом.

Page 30: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Метод G (p). Формируем (p+ 1)n точек

cx(i1,…,in) =

i1

p,

i2

p, …,

in

p

�T

,

где (i1, …, in)∈ {0, …, p}n.. Среди всех точек x(i1,…,in) находим точку x с наи-

меньшим значением целевой функции.. Представляем пару (x, f (x)) как результат работы

метода.

(.)

Таким образом, наш метод просто перебирает точки равномер-ной сетки, сформированной внутри куба Bn, выбирает среди нихточку с минимальным значением целевой функции и выдает ее вкачестве приближенного решения задачи (.). В соответствии с на-шей терминологией это метод нулевого порядка с отсутствием како-го бы то ни было влияния накопленной информации на формирова-ние последовательности пробных точек. Выведем оценку эффектив-ности этого алгоритма.

Теорема ... Обозначим через f ∗ оптимальное значение целевойфункции в задаче (.). Тогда

f (x)− f ∗ ¶L

2p.

Доказательство. Пусть точка x∗ будет глобальным решением на-шей задачи. Тогда найдется такой мультииндекс (i1, i2, …, in), что

x≡ x(i1,i2,…,in) ¶ x∗¶ x(i1+1,i2+1,…,in+1) ≡ y

(здесь и в дальнейшем соотношение x ¶ y для векторов x, y ∈ Rn

означает, что x(i)¶ y(i) для всех индексов i= 1, …, n). Заметим, что

y(i)− x(i)= 1/p при всех i= 1, …, n и

x(i)∗ ∈ [x(i), y(i)], i= 1, …, n.

Пусть x = (x+ y)/2. Зададим координаты точки x следующим обра-зом:

x(i)=

¨

y(i), если x(i)∗ ¾ x(i),

x(i) в противном случае.

Page 31: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задачи нелинейной оптимизации

Понятно, что | x(i)− x(i)∗ |¶

12p

, i= 1, …, n. Поэтому

‖ x − x∗‖∞ = max1¶i¶n| x(i)− x(i)

∗ |¶1p

.

Поскольку точка x принадлежит сформированной сетке, можноутверждать, что

f (x)− f (x∗)¶ f (x)− f (x∗)¶ L‖ x− x∗‖∞ ¶L

2p.

Теперь мы завершим описание рассматриваемого класса задач.Для этого нужно задать конечную цель наших действий:

найти такую точку x ∈ Bn, что f (x)− f ∗ ¶ ǫ. (.)

Теперь мы можем утверждать следующее.

Следствие ... Аналитическая сложность класса задач миними-зации (.), (.), (.) для метода G не превосходит

A (G)=�j

L2ǫ

k

+ 2�n

вызовов оракула (здесь, как и в дальнейшем, ⌊a⌋ обозначает целуючасть числа a).

Доказательство. Выберем p=j

L2ǫ

k

+ 1. Тогда p¾L

2ǫ, и в силу тео-

ремы .. получаем

f (x)− f ∗ ¶L

2p¶ ǫ.

Осталось заметить, что было просмотрено (p+ 1)n пробных точек.

Таким образом, величина A (G) устанавливает верхнюю границусложности для рассматриваемого класса задач.

Полученный результат достаточно информативен. Однако у насвсе еще остаются вопросы. Может, например, оказаться, что дляоценки эффективности метода G (p) мы применили слишком грубоедоказательство и его реальная производительность гораздо вы-ше. Может также оказаться, что существуют другие, гораздо болееэффективные методы решения задачи (.).

Для устранения подобных сомнений необходимо получить ниж-ние оценки сложности для класса задач (.), (.), (.). Отметимглавные особенности таких оценок.

Page 32: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

◦ Они основаны на применении концепции черного ящика.◦ Полученные оценки верны для всех мыслимых итеративных ме-

тодов. Таким образом, устанавливается нижняя оценка для ана-литической сложности рассматриваемого класса задач.◦ Очень часто эти оценки выводятся с помощью сопротивляюще-

гося оракула.

В приведенном списке только понятие сопротивляющегося ора-кула является новым для нас. Поэтому сейчас мы обсудим его болееподробно.

Сопротивляющийся оракул создает наихудшую задачу для каждо-го конкретного метода. Каждый раз он начинает работу с «пустой»задачи и старается отвечать на вопросы метода наихудшим обра-зом. Однако эти ответы должны быть согласованы как с предыду-щими ответами, так и с характеристиками данного класса задач.В этом случае после завершения работы возможна реконструкциязадачи, которая полностью соответствует информации, собраннойтестируемым методом оптимизации. Если теперь запустить этот ме-тод на созданной таким образом задаче, то он, шаг за шагом по-лучая те же самые ответы, воспроизведет прежнюю последователь-ность пробных точек.

Покажем, как все это работает, на задаче (.). Рассмотрим классзадач минимимизации C , определенный следующим образом.

Модель: minx∈Bn

f (x),

f (x) является l∞-липшицевой функцией на Bn.

Оракул: черный ящик нулевого порядка.

Приближенное решение:найти x ∈ Bn : f (x)− f ∗ ¶ ǫ.

Теорема ... Пусть ǫ < (1/2)L. Тогда аналитическая сложностькласса C составляет по крайней мере (⌊L/2ǫ⌋)n вызовов оракула.

Доказательство. Положим p= ⌊L/2ǫ⌋ (¾ 1). Пусть существует неко-

торый метод, которому требуется N < pn вызовов оракула для того,чтобы решить любую задачу из класса C . Применим для этого ме-тода следующий сопротивляющийся оракул:

Page 33: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задачи нелинейной оптимизации

сообщается, что f (x)= 0 в любой тестовой точке x.

В этом случае метод может обнаружить только x ∈ Bn со значени-ем f (x)= 0. Однако нетрудно заметить, что существует такая точкаx ∈ Bn, что

x +1p

e∈ Bn, e= (1, …, 1)T ∈Rn,

и при этом не существует ни одной тестовой точки внутри куба

B=n

x | x ¶ x ¶ x +1p

eo

.

Обозначим x∗= x +1

2pe и рассмотрим функцию

f (x)=min{0, L ‖x − x∗‖∞− ǫ}.

Ясно, что эта функция будет l∞-липшицевой с константой L и чтозначение ее глобального минимума равно −ǫ. Более того, функцияf (x) отлична от нуля только внутри куба B′ = {x : ‖x − x∗‖∞ ¶ ǫ/L}.Поскольку 2p¶ L/ǫ, нетрудно видеть, что

B′ ⊆ B≡n

x : ‖x − x‖∞ ¶1

2p

o

.

Таким образом, функция f (x) равна нулю во всех тестовых точкахнашего метода. Так как точность полученного ответа никак не луч-ше, чем ǫ, мы приходим к следующему заключению:

за число обращений к оракулу, меньшее, чем pn, нель-зя гарантировать, что достигнутая абсолютная точ-ность будет лучше, чем заранее заданное ǫ > 0.

Теперь мы можем сказать гораздо больше об эффективностиметода перебора по равномерной сетке. Сравним его оценку эффек-тивности с нижней оценкой сложности рассматриваемого классазадач минимизации:

метод G :�j

L2ǫ

k

+ 2�n

, нижняя оценка сложности:�j

L2ǫ

k�n

.

Таким образом, если ǫ ¶ O(L/n), то нижние и верхние оценки эф-фективности совпадают с точностью до мультипликативной абсо-лютной константы. Это означает, что метод перебора G (p) являетсяасимптотически оптимальным методом на классе C .

Page 34: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

В то же время, теорема .. подтверждает нашу исходную догадкуо неразрешимости общей задачи глобальной нелинейной оптимиза-ции. Рассмотрим следующий пример.

Пример ... Пусть класс задач минимизацииF имеет следующиепараметры:

L= 2, n= 10, ǫ= 0,01.

Отметим здесь, что размерность рассматриваемых задач крайне ма-ла. Да и требуемую точность в 1% никак нельзя признать слишкомвысокой.

Однако, как мы видели, нижняя оценка сложности для данно-го класса составляет (L/2ǫ)n вызовов оракула. Посмотрим, что этоозначает для нашего примера.

Нижняя оценка: 1020 обращений к оракулу.

Сложность оракула:не меньше n арифметических операций (а. о.).

Общий объем вычислений: 1021 а. о.

Производительность компьютера:106 а. о. в секунду.

Общее время: 1015 секунд.

Один год: меньше чем 3, 2 · 107 секунд.

Нам нужно: лет!

Приведенная оценка является настолько обескураживающей инастолько важной для правильного понимания сложности задачоптимизации, что мы будем неоднократно к ней возвращаться. Ктому же понятно, что нельзя всерьез рассчитывать на улучшениеситуации в будущем за счет увеличения мощности компьютеров.Действительно, если мы прибавим к n единицу, то оценку необхо-димого времени придется увеличить в сто раз . С другой стороны,если требуемая точность ǫ умножается на два, то оценка количества

За время, прошедшее между появлением английского текста этих лекций и ихрусского варианта, именно это и случилось: быстродействие современных персо-нальных компьютеров достигает 108 а. о./сек. Так что сейчас в приведенном при-мере надо брать n= 11.

Page 35: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задачи нелинейной оптимизации

вычислений уменьшается в тысячу раз. Таким образом, для ǫ = 8%

потребуется всего две недели вычислений.

Следует отметить, что нижние оценки сложности для задач сгладкими функциональными компонентами, так же как и гаранти-рованная эффективность методов более высокого порядка для задачглобальной минимизации, не намного лучше оценки из теоре-мы ... Соответствующий анализ может быть проведен с помощьюпрактически тех же рассуждений, и мы оставляем его читателю вкачестве упражнения.

Интересно сравнить полученные оценки с верхними оценкамитрудоемкости для NP-сложных задач, которые часто используют-ся в качестве примера громоздких вычислений. Оказывается, длярешения труднейших комбинаторных задач достаточно выполнитьвсего 2n арифметических операций!

Заканчивая этот параграф, сравним возникшую ситуацию с поло-жением в других областях численного анализа. Ведь хорошо извест-но, что вычисления на равномерной сетке широко используются длярешения многих важных задач. Рассмотрим, например, задачу при-ближенного вычисления значения интеграла от функции одной пе-ременной:

I =1∫

0

f (x) dx.

Стандартная рекомендация в этом случае как раз и состоит в ис-пользовании равномерной сетки:

Sn=1N

n∑

i=1

f�

xi

, xi =iN

, i= 1, …, N .

Если функция f (x) является липшицевой с константой L, то можнооценить погрешность найденного приближения для I :

N =Lǫ⇒ |I − SN |¶ ǫ.

Приведенный способ действия широко используется на практике.Почему же он работает здесь и не работает в оптимизации? При-чина этого расхождения состоит в размерности задач. Если для ин-тегрирования типичная размерность крайне невелика (не большетрех), то в оптимизации часто возникают задачи с миллионами пе-ременных.

Page 36: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

... Визитные карточки областей оптимизации

После пессимистических результатов предыдущего пункта намнужно, так или иначе, вновь обрести точку опоры и найти новыеориентиры для теоретического анализа задач оптимизации. По-ви-димому, с общей задачей глобальной минимизации уже все ясно.Но, может быть, мы ставим перед собой слишком амбициозныецели? Может быть, в некоторых практических задачах нам вполнехватило бы и гораздо менее «оптимального» решения? Или, можетбыть, существуют гораздо более узкие классы оптимизационныхзадач, у которых легко находить глобальное решение?

На самом деле каждый из этих вопросов допускает разные от-веты. И каждый из ответов определяет свой стиль исследований(или правил игры) в соответствующей области нелинейной опти-мизации. Философия этих направлений различается в следующихаспектах.

◦ Конечная цель численного анализа.◦ Классы функциональных компонент.◦ Тип оракула.

Эти характеристики естественным образом определяют набор воз-можных теоретических результатов и желаемых свойств численныхметодов. В заключение приведем визитные карточки четырех ос-новных областей нелинейной оптимизации, рассматриваемых вэтой книге.

Название. Общая глобальная оптимизация (§ .).

Цель. Найти глобальное решение.

Функциональный класс. Непрерывные функции.

Оракул. Черный ящик порядка –.

Желаемые свойства. Сходимость к глобальному ре-шению.

Особенности. Теоретический анализ в большинствеслучаев приводит к крайне пессимистическимвыводам.

Page 37: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задачи нелинейной оптимизации

Размеры задач. Иногда появляются сообщения орешенных задачах очень большого размера. Од-нако невозможно заранее гарантировать успехдаже для маломерных задач.

История. Начинается с г. Наблюдаются регу-лярные всплески интереса, связанные с появле-нием очередной увлекательной эмпирическойидеи (алгоритмы типа simulated annealing, ней-ронные сети, генетические алгоритмы).

Название. Общая нелинейная оптимизация(§ ., .).

Цель. Найти локальный минимум.

Функциональный класс.Дифференцируемые функции.

Оракул. Черный ящик порядка –.

Желаемые свойства. Быстрая сходимость к локаль-ному минимуму.

Особенности. Многообразие подходов. Широко до-ступное программное обеспечение. Цель не все-гда достижима.

Размеры задач. До переменных.

История. Начинается с г. Пиковый период:––. Теоретическая активность сейчас до-статочно

Название. Выпуклая оптимизация (гл. и ).

Цель. Найти глобальный минимум.

Функциональный класс. Выпуклые функции.

Оракул. Черный ящик -го порядка.

Желаемые свойства. Сходимость к глобальномуминимуму. Скорость сходимости может зави-сеть от размерности.

Page 38: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Особенности. Очень богатая и интересная теория,включающая теорию сложности. Эффективныеалгоритмы. Класс задач не очень широк.

Размеры задач. До переменных.

История. Начинается с г. Пик интереса: –– (прервался с появлением методов внутрен-ней точки). Возрастающая теоретическая актив-ность.

Название. Полиномиальные методы внутреннейточки (гл. ).

Цель. Найти глобальный минимум.

Функциональный класс: Выпуклые множества ифункции с явно заданной структурой.

Оракул. Черный ящик -го порядка (не локаль-ный!).

Желаемые свойства. Быстрая сходимость к гло-бальному минимуму. Скорость сходимости за-висит от структуры задачи.

Особенности. Новая и перспективная теория. Уда-лось избавиться от черного ящика. Класс задачфактически такой же, как и у выпуклой оптими-зации.

Размеры задач. До переменных.

История. Начинается с г. Пик интереса: ––. Высокая теоретическая активность.

§ .. Локальные методы безусловной оптимизации

Релаксация и аппроксимация. Необходимые условия оптимальности. Доста-точные условия оптимальности. Класс дифференцируемых функций. Классдважды дифференцируемых функций. Градиентный метод. Скорость сходимо-сти. Метод Ньютона.

Page 39: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

... Релаксация и аппроксимация

Простейшей общей задачей нелинейной оптимизации являетсяпоиск локального минимума дифференцируемой функции. Вообщеговоря, глобальная структура такой функции не проще, чем структу-ра липшицевых функций. Поэтому для решения даже такой частнойзадачи необходимо следовать некоторым специальным принципам,гарантирующим сходимость алгоритма минимизации.

Большинство методов нелинейной оптимизации базируются наидее релаксации.

Назовем последовательность {ak}∞k=0

релаксацион-ной, если

ak+1¶ ak ∀k¾ 0.

В этом параграфе мы рассмотрим несколько методов решенияследующей задачи безусловной минимизации:

minx∈Rn

f (x), (.)

где f (x) –– гладкая функция. Для этого будем формировать релакса-ционную последовательность { f (xk)}∞

k=0:

f (xk+1)¶ f (xk), k= 0, 1, …

Эта стратегия имеет следующие важные преимущества.

. Если функция f (x) ограничена снизу в Rn, то последовательность{ f (xk)}∞

k=0сходится.

. В любом случае мы улучшаем начальное значение целевой функ-ции.

Однако было бы невозможно применить идею релаксации без ис-пользования другого фундаментального понятия численного анали-за, а именно аппроксимации.

Построить аппроксимацию означает заменить на-чальный сложный объект на более простой, но близ-кий по своим свойствам к начальному.

В нелинейной оптимизации мы обычно применяем локальныеаппроксимации с использованием некоторого набора производных

Page 40: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

аппроксимируемых функций. Например, аппроксимации первого ивторого порядка (или линейные и квадратичные аппроксимации).

Пусть функция f (x) дифференцируема в точке x. Тогда для y ∈Rn

имеемf ( y)= f (x)+ ⟨ f ′(x), y − x⟩+ o(‖ y − x‖),

где o(r) –– некоторая функция от r¾ 0, удовлетворяющая условиям

limr↓0

1r

o(r)= 0, o(0)= 0.

В дальнейшем будем обозначать через ‖ · ‖ стандартную евклидовувекторную норму в пространстве Rn:

‖x‖= ⟨x, x⟩1/2 =� n∑

i=1

x(i)�2�1/2

.

Линейная функция f (x)+ ⟨ f ′(x), y − x⟩ называется линейной ап-проксимацией функции f в точке x. Напомним, что вектор f ′(x) на-зывается градиентом функции f (x). Рассматривая точки yi = x + ǫei,где ei –– i-й ортонормированный вектор в Rn, и переходя к преде-лу при ǫ→ 0, мы получим следующее координатное представлениеградиента:

f ′(x)=

∂ f (x)

∂x(1), …,

∂ f (x)

∂x(n)

�T

.

Приведем здесь два важных свойства градиента. Обозначим че-рез L f (α) множество уровней функции f (x):

L f (α)=�

x ∈Rn | f (x)¶α

.

Рассмотрим множество направлений, касательных к L f ( f (x)) вточке x:

S f (x)=

§

s ∈Rn | s= limyk→x,

f (yk)= f (x)

yk − x

‖ yk − x‖

ª

.

Лемма ... Если s ∈ S f (x), то ⟨ f ′(x), s⟩= 0.

Доказательство. Поскольку f ( yk)= f (x), мы получаем

f ( yk)= f (x)+ ⟨ f ′(x), yk − x⟩+ o�

‖ yk − x‖�

= f (x).

Поэтому ⟨ f ′(x), yk − x⟩+ o(‖ yk − x‖)= 0. Разделив левую часть это-го уравнения на ‖ yk − x‖ и переходя к пределу при yk→ x, получимискомый результат.

Page 41: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

Пусть s задает некое направление в пространстве Rn, ‖s‖= 1. Рас-смотрим локальное поведение функции f (x) вдоль s:

∆(s)= limα↓0

f (x +αs)− f (x)�

.

Заметим, что f (x+αs)− f (x)=α

f ′(x), s�

+ o(α). Поэтому

∆(s)=

f ′(x), s�

.

Используя неравенство Коши––Буняковского

−‖x‖ · ‖ y‖¶ ⟨x, y⟩¶ ‖x‖ · ‖ y‖,получим ∆(s)=

f ′(x), s�

¾−‖ f ′(x)‖. Возьмем теперь

s=− f ′(x)/‖ f ′(x)‖.Тогда

∆(s)=−

f ′(x), f ′(x)�

/‖ f ′(x)‖=−‖(x)‖.Таким образом, направление − f ′(x) (антиградиент) является на-правлением наискорейшего локального убывания функции f (x) вточке x.

Следующее утверждение, возможно, является самым важнымфактом в теории оптимизации.

Теорема .. (условие оптимальности первого порядка). Пустьx∗ –– точка локального минимума дифференцируемой функции f (x).Тогда

f ′(x∗)= 0.

Доказательство. Так как x∗ –– точка локального минимума функ-ции f (x), существует такое r > 0, что для всех y, ‖ y − x∗‖¶ r, имеетместо неравенство f ( y)¾ f (x∗). Поскольку функция f дифференци-руема, мы получаем

f ( y)= f (x∗)+

f ′(x∗), y − x∗�

+ o�

‖ y − x∗‖�

¾ f (x∗).

Таким образом, для всех таких s, что ‖s‖= 1, выполнено неравен-ство ⟨ f ′(x∗), s⟩¾ 0. Рассмотрим направления s и −s; тогда

f ′(x∗), s�

= 0 ∀s : ‖s‖= 1.

Наконец, выбрав s= ei, i= 1, …, n, где ei –– i-й координатный векторв Rn, получаем f ′(x∗)= 0.

Page 42: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Следствие ... Пусть x∗ –– точка локального минимума диффе-ренцируемой функции f (x) при ограничениях в виде линейных ра-венств

x ∈L ≡�

x ∈Rn | Ax = b

6=∅,

где A –– (m× n)-матрица, а b ∈Rm, m< n. Тогда существует такойвектор множителей λ∗, что

f ′(x∗)= ATλ∗. (.)

Доказательство. Рассмотрим некоторые векторы ui, i= 1, …, k, ко-торые формируют базис нуль-пространства матрицы A. Тогда лю-бой вектор x ∈L может быть представлен в виде

x = x( y)≡ x∗+k∑

i=1

y(i)ui, y ∈Rk.

Более того, точка y = 0 представляет собой локальный минимумфункции ϕ( y) = f (x( y)). Из теоремы .. следует, что ϕ′(0) = 0.Отсюда получаем

∂ϕ(0)

∂ y(i)=

f ′(x∗), ui

= 0, i= 1, …, k,

и равенство (.) доказано.

Заметим, что мы доказали только необходимое условие суще-ствования локального минимума функции. Все точки, удовлетворя-ющие этому условию, называются стационарными точками функ-ции f . Для того чтобы показать, что такие точки не всегда являютсяточками локального минимума, достаточно рассмотреть функциюf (x)= x3, x ∈R1, в окрестности x = 0.

Теперь введем в рассмотрение аппроксимации второго порядка.Предположим, что функция f (x) является дважды дифференцируе-мой в точке x. Тогда

f ( y)= f (x)+

f ′(x), y − x�

+12

f ′′(x)( y− x), y − x�

+ o�

‖ y − x‖2�

.

Квадратичная функция

f (x)+

f ′(x), y − x�

+12

f ′′(x)( y− x), y − x�

называется квадратичной аппроксимацией (или аппроксимациейвторого порядка) функции f в точке x. Напомним, что (n × n)-

Page 43: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

матрица f ′′(x) имеет следующие компоненты:

f ′′(x)�(i, j)

=∂2 f (x)

∂x(i)∂x( j).

Она называется гессианом функции f в точке x. Отметим, что гесси-ан есть симметрическая матрица:

f ′′(x)=�

f ′′(x)�T

,

которую можно рассматривать как производную вектор-функцииf ′(x):

f ′( y)= f ′(x)+ f ′′(x)( y − x)+ o�

‖ y − x‖�

,

где o(r) –– такая вектор-функция, что limr↓0 1/r ‖o(r)‖= 0 и o(0)= 0.Используя квадратичную аппроксимацию, мы можем выписать

условия оптимальности второго порядка. Оговорим предваритель-но, что запись A� 0 будет означать, что матрица A является сим-метрической неотрицательно определенной:

⟨Ax, x⟩¾ 0, ∀x ∈Rn. (.)

Аналогично запись A ≻ 0 означает, что матрица A положительноопределенная (неравенство (.) при этом должно быть строгим дляx 6= 0).

Теорема .. (Условие оптимальности второго порядка). Пустьx∗ –– точка локального минимума дважды дифференцируемой функ-ции f (x). Тогда

f ′(x∗)= 0, f ′′(x∗)� 0.

Доказательство. Поскольку x∗ –– точка локального минимума функ-ции f (x), существует такое r> 0, что при всех y, удовлетворяющихусловию ‖ y − x∗‖¶ r, выполнено неравенство

f ( y)¾ f (x∗).

Из теоремы .. следует, что f ′(x∗)= 0. Поэтому для любых таких yверно соотношение

f ( y)= f (x∗)+

f ′′(x∗)( y − x∗), y − x∗�

+ o�

‖ y − x∗‖2�

¾ f (x∗).

Таким образом, ⟨ f ′′(x∗)s, s⟩¾ 0 для всех векторов s, удовлетворяю-щих условию ‖s‖= 1.

Page 44: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Снова заметим, что приведенная теорема дает только необходи-мое условие (второго порядка) для локального минимума. Теперьдокажем достаточное условие.

Теорема ... Пусть функция f (x) дважды дифференцируема в Rn,и пусть точка x∗ удовлетворяет условию

f ′(x∗)= 0, f ′′(x∗)≻ 0.

Тогда x∗ является точкой строгого (изолированного) локальногоминимума функции f (x).

Доказательство. Заметим, что в малой окрестности точки x∗ функ-цию f (x) можно представить как

f ( y)= f (x∗)+12

f ′′(x∗)( y − x∗), y − x∗�

+ o�

‖ y − x∗‖2�

.

Так как (o(r))/r→ 0, существует такая величина r, что для всехr ∈ [0, r] имеет место неравенство

|o(r)|¶ r4λ1

f ′′(x∗)�

,

где λ1

f ′′(x∗)�

–– наименьшее собственное значение матрицы f ′′(x∗).Напомним, что из предположений теоремы следует положитель-ность этого собственного значения. Отсюда следует, что для всех y,удовлетворяющих условию ‖ y − x∗‖¶ r, выполняется неравенство

f ( y)¾ f (x∗)+12λ1

f ′′(x∗)�

‖ y − x∗‖2 + o�

‖ y − x∗‖2�

¾

¾ f (x∗)+14λ1

f ′′(x∗)�

‖ y − x∗‖2> f (x∗).

... Классы дифференцируемых функций

Хорошо известно, что любую непрерывную функцию можно при-близить гладкой функцией со сколь угодно высокой точностью. Поэто-му, предполагая только дифференцируемость целевой функции, мыне сможем сильно улучшить сходимость соответствующих методов.Следовательно, нам необходимо накладывать некоторые дополни-тельные предположения на величину ее производных. Традиционнов теории оптимизации такие предположения представляются в формеусловия Липшица для производной определенного порядка.

Пусть Q есть подмножество пространства Rn. Обозначим черезCk,p

L (Q) класс функций со следующими свойствами:

Page 45: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

◦ любая функция f ∈ Ck,pL (Q) k раз непрерывно дифференцируема

на Q;

◦ ее p-я производная удовлетворяет условию Липшица на Q с кон-стантой L:

‖ f (p)(x)− f (p)( y)‖¶ L‖x− y‖

для всех x, y ∈Q.

Очевидно, что всегда p ¶ k. Если q¾ k, то Cq,pL (Q)⊆ Ck,p

L (Q), напри-мер, C2,1

L (Q) ⊆ C1,1L (Q). Отметим также, что эти классы обладают

следующим свойством: если f1 ∈ Ck,pL1

(Q), f2 ∈ Ck,pL2

(Q) и α, β ∈R1, тодля

L3= |α|L1+ |β |L2

выполняется включение α f1 +β f2 ∈ Ck,pL3

(Q).

Будем использовать обозначение f ∈ Ck(Q) для функции f , кото-рая k раз непрерывно дифференцируема на Q.

Наиболее важным классом функций из перечисленных для насбудет C1,1

L (Rn), т. е. класс функций, градиент которых удовлетворяетусловию Липшица. По определению включение f ∈ C1,1

L (Rn) означа-ет, что

‖ f ′(x)− f ′( y)‖¶ L‖x− y‖ (.)

для всех x, y ∈Rn. Приведем достаточное условие для такого вклю-чения.

Лемма ... Функция f (x) принадлежит классу C2,1L (Rn)⊂ C1,1

L (Rn)тогда и только тогда, когда

‖ f ′′(x)‖¶ L ∀x ∈Rn. (.)

Доказательство. В самом деле, для любых x, y ∈ Rn имеет месторавенство

f ′( y)= f ′(x)+1∫

0

f ′′(x +τ( y − x))( y− x) dτ=

= f ′(x)+

1∫

0

f ′′(x+ τ( y− x)) dτ

· ( y − x).

Page 46: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Поэтому если условие (.) выполнено, то

‖ f ′( y)− f ′(x)‖=

1∫

0

f ′′(x +τ( y − x)) dτ

· ( y − x)

1∫

0

f ′′(x+ τ( y− x)) dτ

· ‖ y − x‖¶

1∫

0

‖ f ′′(x +τ( y − x))‖ dτ · ‖ y − x‖¶ L‖ y − x‖.

С другой стороны, если f ∈ C2,1L (Rn), то для любого s ∈ Rn и α > 0

имеем

α∫

0

f ′′(x+ τs) dτ

· s

= ‖ f ′(x+αs)− f ′(x)‖¶αL‖s‖

Разделив это неравенство на α и перейдя к пределу при α ↓ 0, полу-чим неравенство (.).

Этот простой результат порождает много примеров функций слипшицевым градиентом.

Пример ... . Линейная функция f (x)= α+ ⟨a, x⟩ принадлежитклассу C1,1

0 (Rn), поскольку

f ′(x)= a, f ′′(x)= 0.

. Для квадратичной функции f (x)= α+ ⟨a, x⟩+ 12⟨Ax, x⟩, A= AT ,

имеют место равенства

f ′(x)= a+ Ax, f ′′(x)= A.

Поэтому f (x)∈ C1,1L (Rn) с L= ‖A‖.

. Рассмотрим функцию одной переменной f (x)=p

1+ x2, x ∈ R1.Тогда

f ′(x)=xp

1+ x2, f ′′(x)=

1

(1+ x2)3/2¶ 1.

Значит, f (x)∈ C1,11 (R).

Следующее утверждение важно с точки зрения геометрическойинтерпретации функций из класса C1,1

L (Rn).

Page 47: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

Лемма ... Пусть f ∈ C1,1L (Rn). Тогда для любых x, y из Rn имеет

место неравенство

| f ( y)− f (x)− ⟨ f ′(x), y − x⟩|¶ L2‖ y − x‖2. (.)

Доказательство. Для любых x, y ∈Rn имеем

f ( y)= f (x)+1∫

0

f ′(x +τ( y − x)), y − x�

dτ=

= f (x)+ ⟨ f ′(x), y − x⟩+1∫

0

f ′(x+ τ( y − x))− f ′(x), y − x�

dτ.

Поэтому

| f ( y)− f (x)− ⟨ f ′(x), y − x⟩|=

=

1∫

0

⟨ f ′(x+ τ( y− x))− f ′(x), y − x⟩ dτ�

1∫

0

|⟨ f ′(x+ τ( y− x))− f ′(x), y − x⟩| dτ¶

1∫

0

‖ f ′(x +τ( y − x))− f ′(x)‖ · ‖ y − x‖ dτ¶

1∫

0

τL‖ y − x‖2 dτ=L2‖ y − x‖2.

Геометрически мы можем представить себе следующую картину.Рассмотрим функцию f из C1,1

L (Rn). Зафиксируем некоторую точкуx0 ∈Rn и определим две квадратичные функции

ϕ1(x)= f (x0)+ ⟨ f ′(x0), x − x0⟩+L2‖x − x0‖2,

ϕ2(x)= f (x0)+ ⟨ f ′(x0), x − x0⟩ −L2‖x − x0‖2.

Тогда график функции f расположен между графиками функций ϕ1

и ϕ2:ϕ1(x)¾ f (x)¾ϕ2(x) ∀x ∈Rn.

Докажем похожий результат для класса дважды дифференцируе-мых функций. Основным для нас в этом случае будет класс функций

Page 48: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

C2,2M (Rn), т. е. класс дважды дифференцируемых функций с липшице-

вым гессианом. Вспомним, что для f ∈ C2,2M (Rn) верно неравенство

‖ f ′′(x)− f ′′( y)‖¶M‖x − y‖ (.)

для всех x, y ∈Rn.

Лемма ... Пусть f ∈ C2,2M (Rn). Тогда для любых x, y ∈Rn выпол-

няются неравенства

‖ f ′( y)− f ′(x)− f ′′(x)( y− x)‖¶ M2‖ y − x‖2, (.)

| f ( y)− f (x)− ⟨ f ′(x), y − x⟩− 12⟨ f ′′(x)( y− x), y − x⟩|¶

¶M6‖ y − x‖3. (.)

Доказательство. Зафиксируем некоторые x, y ∈Rn. Тогда

f ′( y)= f ′(x)+1∫

0

f ′′(x +τ( y − x))( y− x) dτ=

= f ′(x)+ f ′′(x)( y− x)+1∫

0

f ′′(x +τ( y − x))− f ′′(x)�

( y − x) dτ.

Поэтому

‖ f ′( y)− f ′(x)− f ′′(x)( y− x)‖=

=

1∫

0

f ′′(x +τ( y − x))− f ′′(x)�

( y − x) dτ

1∫

0

‖�

f ′′(x+ τ( y− x))− f ′′(x)�

( y − x)‖ dτ¶

1∫

0

‖ f ′′(x +τ( y − x))− f ′′(x)‖ · ‖ y − x‖ dτ¶

1∫

0

τM‖ y − x‖2 dτ=M2‖ y − x‖2.

Неравенство (.) доказывается аналогично.

Следствие ... Пусть f ∈ C2,2M (Rn) и ‖ y − x‖= r. Тогда

f ′′(x)−MrIn� f ′′( y)� f ′′(x)+MrIn,

Page 49: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

где In –– единичная матрица в Rn. (Напомним, что для матриц A и Bмы пишем A� B, если A− B� 0.)

Доказательство. Введем обозначение G = f ′′( y) − f ′′(x). Так какf ∈ C2,2

M (Rn), мы имеем ‖G‖ ¶Mr. Следовательно, собственные зна-чения λi(G) симметрической матрицы G удовлетворяют неравен-ству

|λi(G)|¶Mr, i= 1, …, n.

Отсюда следует, что −MrIn�G≡ f ′′( y)− f ′′(x)�MrIn.

... Градиентный метод

Теперь мы можем попробовать оценить скорость сходимостинекоторых методов безусловной минимизации. Начнем с наиболеепростой схемы. Мы уже знаем, что антиградиент является направ-лением наискорейшего локального убывания дифференцируемойфункции. Поскольку мы собираемся искать локальный минимумтакой функции, в первую очередь имеет смысл рассмотреть следу-ющую итеративную схему.

Градиентный метод

Выберем x0 ∈Rn.Вычислим xk+1= xk − hk f ′(xk), k= 0, 1, …

(.)

Будем называть эту схему градиентным методом. Скалярныймножитель hk перед градиентом будем называть длиной шага. Оче-видно, он должен быть положительным.

Существует много разновидностей этого метода, которые разли-чаются друг от друга стратегией выбора длины шага.

Рассмотрим наиболее важные из них.

. Последовательность�

hk

k=0 выбирается заранее. Например,

hk = h> 0 (постоянный шаг),

hk =hp

k+ 1.

. Полная релаксация:

hk = arg minh¾0

f�

xk − hf ′(xk)�

.

Page 50: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

. Правило Голдштейна––Армийо: найти такое xk+1 = xk − hf ′(xk),что

α

f ′(xk), xk − xk+1

¶ f (xk)− f (xk+1), (.)

β

f ′(xk), xk − xk+1

¾ f (xk)− f (xk+1) (.)

где α, β , 0<α<β < 1, –– некоторые фиксированные параметры.

Сравнивая эти стратегии, видим, что первая из них является са-мой простой. Действительно, она часто используется, но главнымобразом в контексте задач выпуклой оптимизации. В таких задачахповедение функций наиболее благоприятно по сравнению с общимнелинейным случаем.

Вторая стратегия интересна только с теоретической точки зре-ния. Она никогда не используется на практике, так как даже в одно-мерном случае мы не можем найти точного минимума за конечноевремя.

Третья стратегия используется в большинстве практических ал-горитмов. Она имеет следующую геометрическую интерпретацию.Зафиксируем x ∈Rn. Рассмотрим функцию одной переменной

ϕ(h)= f (x− hf ′(x)), h¾ 0.

Тогда длина шага, допустимая в этой стратегии, принадлежит тойчасти графика функции ϕ, которая расположена между графикамидвух линейных функций:

ϕ1(h)= f (x)−αh‖ f ′(x)‖2, ϕ2(h)= f (x)− βh‖ f ′(x)‖2.

Заметим, что ϕ(0)= ϕ1(0)= ϕ2(0) и ϕ′(0)<ϕ′2(0)< ϕ′1(0)< 0. По-этому допустимые значения существуют, если функция ϕ(h) ограни-чена снизу. Имеется несколько очень быстрых одномерных процедурдля поиска точки, удовлетворяющей условиям этой стратегии. Однакоих детальное описание сейчас не представляется необходимым.

Оценим эффективность градиентного метода. Для этого рассмот-рим задачу

minx∈Rn

f (x)

с функцией f ∈ C1,1L (Rn) и предположим, что функция f (x) ограни-

чена снизу в Rn. Оценим результат одной итерации градиентногометода. Рассмотрим точку y = x − hf ′(x). Тогда из неравенства (.)

Page 51: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

следует, что

f ( y)¶ f (x)+ ⟨ f ′(x), y − x⟩+ L2‖ y − x‖2=

= f (x)− h‖ f ′(x)‖2+ h2

2L‖ f ′(x)‖2=

= f (x)− h

1− h2

L

‖ f ′(x)‖2. (.)

Таким образом, чтобы получить наилучшую гарантированнуюоценку для убывания целевой функции, необходимо решить следу-ющую одномерную задачу:

∆(h)=−h

1− h2

L

→minh

.

Вычислив производную этой функции, получаем, что оптимальнаядлина шага должна удовлетворять равенству∆′(h)= hL− 1= 0. Сле-довательно, поскольку ∆′′(h)= L> 0, точка h∗ = 1/L, является точ-кой глобального минимума для ∆(h).

Таким образом, наше рассуждение доказывает, что один шаг гра-диентного метода уменьшает величину целевой функции по крайнеймере следующим образом:

f ( y)¶ f (x)− 12L‖ f ′(x)‖2.

Проверим, как обстоят дела с приведенными выше стратегиямидлины шага.

Пусть xk+1= xk − hk f ′(xk). Тогда при постоянном шаге hk = h имеем

f (xk)− f (xk+1)¾ h

1− 12

Lh

‖ f ′(xk)‖2.

Поэтому если выбрать hk =2αL

, α∈ (0, 1), то

f (xk)− f (xk+1)¾2Lα(1−α)‖ f ′(xk)‖2.

Очевидно, что оптимальным шагом будет hk = 1/L.Для стратегии с полной релаксацией имеем

f (xk)− f (xk+1)¾1

2L‖ f ′(xk)‖2,

так как максимальное убывание не хуже, чем при hk = 1/L.

Page 52: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Наконец, в силу неравенства (.) для правила Голдштейна––Ар-михо имеем

f (xk)− f (xk+1)¶ β⟨ f ′(xk), xk − xk+1⟩= βhk‖ f ′(xk)‖2.

Из соотношения (.) получаем

f (xk)− f (xk+1)¾ hk

1− hk

2L

‖ f ′(xk)‖2.

Поэтому hk ¾2L

(1−β). Далее, используя неравенство (.), имеем

f (xk)− f (xk+1)¾α⟨ f ′(xk), xk − xk+1⟩=αhk‖ f ′(xk)‖2.

Объединяя это неравенство с предыдущим, заключаем, что

f (xk)− f (xk+1)¾2Lα(1−β)‖ f ′(xk)‖2.

Таким образом, мы доказали, что во всех случаях имеет местонеравенство

f (xk)− f (xk+1)¾ω

L‖ f ′(xk)‖2, (.)

где ω –– некоторое положительное число.Приступим теперь к оценке эффективности градиентной схемы.

Просуммировав неравенства (.) при k= 0, …, N , получим

ω

L

N∑

k=0

‖ f ′(xk)‖2¶ f (x0)− f (xN+1)¶ f (x0)− f ∗, (.)

где f ∗ есть оптимальное значение для задачи (.). Как простое след-ствие из неравенства (.) получаем

‖ f ′(xk)‖→ 0 при k→∞.

Однако здесь можно также что-то сказать и о скорости сходимостиметода. В самом деле, обозначим

g∗N = min0¶k¶N

gk,

где gk = ‖ f ′(xk)‖. Тогда в силу неравенства (.) мы приходим кследующему неравенству:

g∗N ¶1p

N + 1

h

L( f (x0)− f ∗)i1/2

. (.)

Page 53: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

Правая часть этого неравенства описывает скорость сходимостипоследовательности {g∗N } к нулю. Заметим, что о скорости сходимо-сти последовательностей { f (xk)} и {xk} ничего сказать нельзя.

Напомним, что в общей задаче нелинейной оптимизации нашейцелью является поиск только локального, а не глобального минимума.Тем не менее, даже при такой постановке задачи для градиентногометода эта цель недостижима. Рассмотрим следующий пример.

Пример ... Возьмем функцию двух переменных

f (x)≡ f�

x(1), x(2)�=

12

x(1)�2+

14

x(2)�4 − 12

x(2)�2.

Градиент этой функции равен f ′(x)=�

x(1), (x(2))3 − x(2)�T , откуда

следует, что существуют только три точки, которые могут претен-довать на локальный минимум:

x∗1= (0, 0), x∗2= (0,−1), x∗3= (0, 1).

Вычисляя гессиан

f ′′(x)=

1 0

0 3(x(2))2− 1

,

заключаем, что x∗2 и x∗3 являются точками изолированного локаль-ного минимума , в то время как x∗1 есть только стационарная точканашей функции. Действительно, f (x∗1)= 0 и f (x∗1 + ǫe2)= (ǫ4/4) −− (ǫ2/2)< 0 при достаточно малых ǫ.

Теперь рассмотрим траекторию градиентного метода, начинаю-щуюся в точке x0 = (1, 0). Обратим внимание на то, что вторая ко-ордината этой точки равна нулю, поэтому вторая координата дляf ′(x0) также есть нуль. Следовательно, вторая координата точки x1

равна нулю и т. д. Таким образом, вся последовательность точек,образованная градиентным методом, будет иметь нулевую вторуюкоординату, что означает сходимость этой последовательности к x∗1.

В заключение нашего примера отметим, что эта ситуация типич-на для всех методов первого порядка безусловной оптимизации. Бездополнительных более строгих предположений невозможно гаран-тировать их глобальную сходимость к точке локального минимума.В общем случае гарантируется только сходимость к стационарнойточке.

В действительности в нашем примере они являются глобальными решениями.

Page 54: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Заметим, что неравенство (.) иллюстрирует нам понятие ско-рости сходимости алгоритма минимизации. Как мы можем егоиспользовать при анализе вычислительной сложности различныхзадач? Дело в том, что скорость сходимости дает верхние границысложности для некого класса задач. Эти границы всегда устанав-ливаются с помощью численных методов. Если существует метод,для которого верхние границы вычислительной сложности пропор-циональны соответствующим нижним границам, то мы называемэтот метод оптимальным. Вспомним, что в § . мы уже приводилипример оптимального метода.

Рассмотрим пример вычисления верхних границ сложности.

Пример ... Введем следующий класс задач.

Модель:. безусловная минимизация;. f ∈ C1,1

L (Rn);. f (x) ограничена снизу.

Оракул: черный ящик первого порядка.

ǫ-решение: f (x)¶ f (x0), ‖ f ′(x)‖¶ ǫ.

(.)

Заметим, что неравенство (.) можно использовать для получе-ния верхней границы числа для шагов (равных числу вызовов ора-кула), которые необходимы для нахождения точки с малой нормойградиента. Для этого запишем следующее неравенство:

g∗N ¶1p

N + 1

L�

f (x0)− f ∗�

�1/2

¶ ǫ.

Отсюда следует, что если N + 1¾ L/ωǫ2�

f (x0)− f ∗�

, то мы с необхо-димостью имеем g∗N ¶ ǫ.

Таким образом, мы можем использовать значение L/(ωǫ2)( f (x0)−− f ∗) как верхнюю границу сложности для рассматриваемого классазадач. Сравнивая эту оценку с результатом из теоремы .., можноувидеть, что она намного лучше; по крайней мере она не зависитот n. Нижняя граница сложности для класса (.) неизвестна.

Выясним, что можно сказать о локальной сходимости градиент-ного метода. Рассмотрим задачу безусловной минимизации:

minx∈Rn

f (x)

Page 55: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

при следующих предположениях:

. f ∈ C2,2M (Rn);

. существует точка локального минимума функции f , в которойгессиан является положительно определенным;

. известны некоторые границы 0 < l ¶ L <∞ для гессиана в точ-ке x∗:

l In � f ′′(x∗)� LIn; (.)

. начальная точка x0 расположена достаточно близко к x∗.Рассмотрим следующую процедуру: xk+1 = xk − hk f ′(xk). Заме-

тим, что f ′(x∗)= 0. Отсюда следует, что

f ′(xk)= f ′(xk)− f ′(x∗)=1∫

0

f ′′(x∗+ τ(xk− x∗))(xk− x∗) dτ=

=Gk(xk − x∗),

где Gk =

∫ 1

0f ′′(x∗+ τ(xk− x∗)) dτ. Поэтому

xk+1− x∗ = xk − x∗− hkGk(xk − x∗)= (I − hkGk)(xk− x∗).

Существует стандартная техника для анализа такого типа алго-ритмов, основанная на сжимающих отображениях.

Пусть последовательность {ak} определена следующим образом:

a0 ∈Rn, ak+1= Akak,

где Ak такие (n× n)-матрицы, что ‖Ak‖¶ 1− q, q ∈ (0, 1). Тогда мыможем оценить скорость сходимости последовательности {ak} к ну-лю:

‖ak+1‖¶ (1− q)‖ak‖¶ (1− q)k+1‖a0‖→ 0.

В нашем случае нам нужно оценить ‖In − hkGk‖. Обозначимrk = ‖xk − x∗‖. Из следствия .. имеем

f ′′(x∗)−τMrkIn � f ′′(x∗+ τ(xk − x∗))� f ′′(x∗)+ τMrkIn.

Поэтому, используя предположение (.), получаем�

l− rk

2M

In �Gk ��

L+rk

2M

In.

Page 56: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Отсюда следует, что�

1− hk

L+rk

2M

��

In ¶ In − hkGk ¶

1− hk

l− rk

2M

��

In,

и мы заключаем, что

‖In− hkGk‖¶max{ak(hk), bk(hk)}, (.)

где ak(h)= 1− h(l− (rk/2)Mr) и bk(h)= h(L+ (rk/2)M)− 1.

Заметим, что ak(0)= 1 и bk(0)=−1. Поэтому если rk < r ≡ 2lM

, то

ak(h) –– строго убывающая функция от h, и мы убеждаемся, что

‖In − hkGk‖< 1

при достаточно малых hk. В этом случае мы получим rk+1< rk.Существует много разных стратегий выбора длины шага. Напри-

мер, можно взять hk = 1/L. Рассмотрим «оптимальную» стратегию,заключающуюся в минимизации правой части неравенства (.):

max{ak(h), bk(h)}→minh

.

Предположим, что r0< r. Тогда если мы формируем последователь-ность {xk}, используя оптимальную стратегию, то можно быть уве-ренным, что rk+1< rk < r. Далее, оптимальная длина шага h∗

kможет

быть найдена из уравнения

ak(h)= bk(h) ⇐⇒ 1− h

l− rk

2M

= h

L+rk

2M

− 1.

Отсюда следует, что

h∗k =2

L+ l(.)

(достаточно неожиданно, что оптимальный шаг не зависит от M).При таком выборе h∗

kполучим

rk+1¶(L− l)rk

L+ l+

Mr2k

L+ l.

Оценим скорость сходимости процесса. Обозначим q=2l

L+ lи ak =

=M

L+ lrk (< q). Тогда

ak+1¶ (1− q)ak + a2k = ak(1+ (ak − q))=

ak(1− (ak − q)2)

1− (ak − q)¶

ak

1+ q− ak

.

Page 57: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

Значит, 1ak+1¾

1+ q

ak− 1, или

q

ak+1

− 1¾q(1+ q)

ak

− q− 1= (1+ q)

q

ak

− 1

.

Отсюда следует, что

q

ak

− 1¾ (1+ q)k�

q

a0

− 1

= (1+ q)k�

2l

L+ l· L+ l

r0 M− 1

=

= (1+ q)k�

rr0

− 1

.

Таким образом,

ak ¶qr0

r0 + (1+ q)k(r− r0)¶

qr0

r− r0

11+ q

�k

,

откуда вытекает следующая теорема.

Теорема ... Пусть функция f (x) удовлетворяет нашим предпо-ложениям, а начальная точка x0 расположена достаточно близко кточке локального минимума:

r0= ‖x0− x∗‖< r=2lM

.

Тогда градиентный метод с длиной шага (.) сходится следующимобразом:

‖xk − x∗‖¶ rr0

r− r0

1− 2l

L+ 3l

�k

.

Такая скорость сходимости называется линейной.

... Метод Ньютона

Метод Ньютона широко известен как способ нахождения корняфункции одной переменной. Пусть ϕ(t): R→ R. Рассмотрим урав-нение

ϕ(t∗)= 0.

Метод Ньютона основан на его линейной аппроксимации. Выберемнекоторое t, достаточно близкое к t∗. Тогда

ϕ(t+∆t)=ϕ(t)+ϕ′(t)∆t+ o(|∆t |).

Поэтому уравнение ϕ(t+∆t)= 0 можно приблизить следующим ли-нейным уравнением:

ϕ(t)+ϕ′(t)∆t= 0.

Page 58: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Можно ожидать, что решение этого уравнения, т. е. отклонение ∆t,будет хорошей аппроксимацией оптимального отклонения ∆t∗ == t∗ − t. Представив наши рассуждения в алгоритмической форме,получаем процедуру

tk+1= tk −ϕ(tk)

ϕ′(tk).

Эту схему можно естественным образом обобщить на задачу ре-шения системы нелинейных уравнений

F(x)= 0,

где x ∈Rn и F(x): Rn→Rn. В этом случае требуется определить сме-щение ∆x как решение следующей системы линейных уравнений:

F(x)+ F ′(x)∆x = 0

(она называется системой Ньютона). Если якобиан F ′(x) невырож-ден, то можно вычислить смещение по формуле∆x =−[F ′(x)]−1F(x).Соответствующая итеративная схема выглядит следующим образом:

xk+1= xk −�

F ′(xk)�−1

F(xk).

Наконец, из теоремы .. следует, что можно заменить зада-чу безусловной минимизации задачей отыскания корней системынелинейных уравнений

f ′(x)= 0 (.)

(эта замена не является полностью эквивалентной, но она работаетв невырожденных случаях). Далее, для решения системы (.) мож-но применить стандартный метод Ньютона для систем нелинейныхуравнений. В этом случае система линейных уравнений для смеще-ния принимает вид

f ′(x)+ f ′′(x)∆x= 0

Таким образом, метод Ньютона для задач оптимизации записыва-ется как

xk+1= xk −�

f ′′(xk)�−1

f ′(xk). (.)

Заметим, что мы можем получить процесс (.), используя идеюквадратичной аппроксимации. Рассмотрим эту аппроксимацию от-носительно точки xk:

ϕ(x)= f (xk)+

f ′(xk), x− xk

+12

f ′′(xk)(x− xk), x − xk

.

Page 59: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

Предположим, что f ′′(xk)≻ 0. Тогда можно выбрать xk+1 как точкуминимума квадратичной функции ϕ(x). Это означает, что

ϕ′(xk+1)= f ′(xk)+ f ′′(xk)(xk+1− xk)= 0,

и мы снова приходим к схеме Ньютона (.).Мы увидим, что скорость сходимости метода Ньютона в окрест-

ности точки строго локального минимума очень велика. Однакоэтот метод имеет два серьезных недостатка. Во-первых, он не ра-ботает, если гессиан f ′′(xk) вырожден. Во-вторых, метод Ньютонаможет расходиться. Рассмотрим следующий пример.

Пример ... Применим метод Ньютона для отыскания корня сле-дующей функции одной переменной:

ϕ(t)=tp

1+ t2.

Очевидно, t∗ = 0. Заметим, что

ϕ′(t)=1

[1+ t2]3/2.

Поэтому схема Ньютона запишется в виде

tk+1= tk −ϕ(tk)

ϕ′(tk)= tk −

tkp

1+ t2k

·�

1+ t2k

�3/2=−t3

k .

Таким образом, если |t0 |< 1, то метод сходится очень быстро, точ-ки ±1 –– это точки осцилляции, а при |t0 |> 1 метод расходится.

Для того чтобы избежать возможной расходимости, на практикеприменяют демпфированный метод Ньютона:

xk+1= xk − hk

f ′′(xk)�−1

f ′(xk),

где hk > 0 –– параметр длины шага. На начальном этапе метода мож-но использовать ту же стратегию выбора длины шага, что и у гради-ентного метода. На заключительном этапе разумно выбирать hk = 1.

Изучим локальную сходимость метода Ньютона. Рассмотрим за-дачу

minx∈Rn

f (x)

при следующих предположениях:

. f ∈ C2,2M (Rn);

Page 60: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

. существует точка локального минимума функции f с положи-тельно определенным гессианом:

f ′′(x∗)� lIn, l> 0; (.)

. начальная точка x0 расположена достаточно близко к x∗.

Рассмотрим следующий алгоритм: xk+1 = xk −�

f ′′(xk)�−1

f ′(xk).Используя те же рассуждения, что и для градиентного метода, по-лучим представление

xk+1− x∗ = xk − x∗−�

f ′′(xk)�−1

f ′(xk)=

= xk − x∗−�

f ′′(xk)�−1

1∫

0

f ′′(x∗+ τ(xk− x∗))(xk − x∗) dτ=

=�

f ′′(xk)�−1

Gk(xk − x∗),

где Gk =

∫ 1

0

f ′′(xk)− f ′′(x∗+τ(xk − x∗))�

dτ.Введем обозначение rk = ‖xk − x∗‖. Тогда

‖Gk‖=

1∫

0

f ′′(xk)− f ′′(x∗+τ(xk − x∗))�

1∫

0

‖ f ′′(xk)− f ′′(x∗+ τ(xk − x∗))‖ dτ¶

1∫

0

M(1− τ)rk dτ=rk

2M .

На основании следствия (..) и условия (.) имеем

f ′′(xk)¾ f ′′(x∗)−MrkIn ¾ (l−Mrk)In.

Поэтому если rk < l/M , то матрица f ′′(xk) положительно определенаи

‖[ f ′′(xk)]−1‖¶ (l−Mrk)−1.

Отсюда при достаточно малом rk (rk < 2l/3M) получим

rk+1¶Mr2

k

2(l −Mrk)(< rk).

Скорость сходимости такого типа называется квадратичной.Таким образом, доказана следующая теорема.

Page 61: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Локальные методы безусловной оптимизации

Теорема ... Пусть функция f (x) удовлетворяет нашим предпо-ложениям. Если начальная точка x0 достаточно близка к x∗:

‖x0− x∗‖< r =2l

3M,

то ‖xk − x∗‖< r для всех k ¾ 0 и метод Ньютона сходится квадра-тично:

‖xk+1− x∗‖¶ M‖xk − x∗‖22(l −M‖xk − x∗‖) .

Сравнивая этот результат со скоростью сходимости градиентно-го метода, мы видим, что метод Ньютона намного быстрее. Приэтом оказывается, что область квадратичной сходимости методаНьютона почти такая же, как и область линейной сходимости гра-диентного метода. Это обстоятельство объясняет стандартную ре-комендацию использовать градиентный метод только на начальномэтапе процесса минимизации, стараясь приблизиться на достаточномалое расстояние к точке локального минимума. Заключительныйэтап лучше проводить с помощью метода Ньютона.

В этом параграфе мы привели несколько примеров скорости схо-димости. Установим соответствие между этими скоростями и гра-ницами аналитической сложности. Как мы видели в примере ..,верхняя граница сложности для некоторого класса задач есть обрат-ная функция скорости сходимости.

. Сублинейная скорость. Эта скорость задается степенной функци-ей от числа итераций. Например, если rk ¶ c/

pk, то верхняя граница

сложности соответствующего класса задач равна (c/ǫ)2.Сублинейная скорость является достаточно низкой. С точки зре-

ния вычислительной трудоемкости можно сказать, что для улучше-ния точности ответа еще на один знак требуется количество опера-ций, сравнимое с общим объемом всех предшествующих вычисле-ний. Отметим также, что константа c играет существенную роль всоответствующей оценке.

. Линейная скорость. Эта скорость определяется с помощью пока-зательной функции от числа итераций. Например,

rk ¶ c(1− q)k.

Отметим, что соответствующая граница сложности равна

1/q(ln c+ ln 1/ǫ).

Page 62: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Линейная скорость является достаточно быстрой: увеличениеточности ответа на один знак требует постоянного количествавычислительных операций. Зависимость оценки сложности от кон-станты c очень слабая.

. Квадратичная скорость. Эта скорость имеет форму двойной пока-зательной функции от числа итераций и выводится из неравенства

rk+1¶ cr2k .

Соответствующая оценка сложности зависит от двойного логариф-ма желаемой точности: ln ln 1/ǫ.

Эта скорость сходимости чрезвычайно велика: каждая итера-ция удваивает число правильных цифр в ответе. Константа c важнатолько для определения начального момента квадратичной сходи-мости (crk < 1).

§ .. Методы первого порядка в нелинейнойоптимизации

Градиентный метод и метод Ньютона: в чем разница? Идея переменной мет-рики. Методы переменной метрики. Методы сопряженных градиентов. Услов-ная минимизация. Штрафные функции и методы штрафных функций. Барьер-ные функции и методы барьерных функций.

... Градиентный метод и метод Ньютона: в чем разница?

В предыдущем параграфе были представлены локальных методапоиска локального минимума в простейшей задаче минимизации

minx∈Rn

f (x),

где f ∈ C2,2L (Rn). Это градиентный метод:

xk+1= xk − hk f ′(xk), hk > 0,

и метод Ньютона:

xk+1= xk − [ f ′′(xk)]−1 f ′(xk).

Вспомним, что локальная скорость сходимости этих методов суще-ственно различается. Градиентный метод имеет линейную скоростьсходимости, а метод Ньютона сходится квадратично. Какова причи-на этого различия?

Page 63: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы первого порядка в нелинейной оптимизации

Если посмотреть на аналитическую форму двух методов, то можноувидеть по крайней мере следующие формальные отличия: в гради-ентном методе направление одномерного поиска совпадает с антигра-диентом, тогда как в методе Ньютона мы умножаем антиградиент нанекоторую матрицу, равную обратной к гессиану. Попытаемся опре-делить эти направления, используя некие «общие» соображения.

Зафиксируем точку x ∈Rn. Рассмотрим следующую аппроксима-цию функции f (x):

ϕ1(x)= f (x)+ ⟨ f ′(x), x − x⟩+ 1

2h‖x − x‖2,

где параметр h положителен. Условие оптимальности первого по-рядка дает следующее уравнение для точки x∗1, являющейся точкойбезусловного минимума функции ϕ1(x):

ϕ′1(x∗1)= f ′(x)+1

h(x∗1− x)= 0.

Таким образом, x∗1 = x − hf ′(x), что в точности совпадает с итера-цией градиентного метода. Отметим, что если h∈ (0, 1/L], то функ-ция ϕ1(x) представляет собой глобальную верхнюю аппроксимациюфункции f (x):

f (x)¶ϕ1(x) ∀x ∈Rn

(см. лемму ..). Это обстоятельство предопределяет глобальнуюсходимость градиентного метода.

Далее, рассмотрим квадратичное приближение функции f (x):

ϕ2(x)= f (x)+

f ′(x), x − x�

+12

f ′′(x)(x− x), x − x�

.

Минимум этой функции достигается в точке

x∗2= x −�

f ′′(x)�−1

f ′(x),

что в точности совпадает с итерацией в методе Ньютона.Исходя из этого можно попытаться использовать другие аппрок-

симации функции f (x), более точные, чем ϕ1(x), но менее сложные,чем ϕ2(x).

Пусть G –– положительно определенная (n× n)-матрица. Введемобозначение

ϕG(x)= f (x)+

f ′(x), x − x�

+12

G(x − x), x − x�

.

Page 64: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Вычисляя минимум этой функции с помощью уравнения

ϕ′G�

x∗G�

= f ′(x)+G�

x∗G − x�

= 0,

получаем

x∗G = x −G−1 f ′(x). (.)

Методы первого порядка, формирующие последовательность матриц

{Gk}: Gk→ f ′′(x∗)

(или {Hk}: Hk ≡ G−1k→�

f ′′(x∗)�−1), называются методами перемен-

ной метрики; их иногда называют также квазиньютоновскими мето-дами. Для генерации последовательностей {Gk} и {Hk} в этих методахиспользуются только градиенты целевой функции.

Правило движения (.) является весьма распространенным втеории оптимизации. Приведем для него еще одну интерпретацию.

Заметим, что вектор градиента и матрица гессиана нелинейнойфункции f (x) обычно определяются относительно стандартногоевклидова скалярного произведения на Rn:

⟨x, y⟩=n∑

i=1

x(i) y(i), x, y ∈Rn, ‖x‖= ⟨x, x⟩1/2.

В самом деле, определение градиента дается выражением

f (x+ h)= f (x)+ ⟨ f ′(x), h⟩+ o�

‖h‖�

,

и из этого уравнения выводится его покоординатное представление:

f ′(x)=

∂ f (x)

∂x(1), …,

∂ f (x)

∂x(n)

�T

.

Введем теперь новое скалярное произведение. Рассмотрим сим-метрическую положительно определенную (n× n)-матрицу A. Дляx, y ∈Rn введем обозначения

⟨x, y⟩A = ⟨Ax, y⟩, ‖x‖A = ⟨Ax, x⟩1/2.

Функция ‖x‖A задает новую норму на Rn (метрику). Заметим, чтотопологически эта новая метрика эквивалентна старой:

λn(A)1/2‖x‖¶ ‖x‖A ¶ λ1(A)1/2‖x‖,

Page 65: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы первого порядка в нелинейной оптимизации

где λn(A) и λ1(A) –– соответственно наименьшее и наибольшее соб-ственные значения матрицы A. Однако градиент и гессиан, вычис-ленные относительно нового скалярного произведения, изменяются:

f (x + h)= f (x)+

f ′(x), h�

+12

f ′′(x)h, h�

+ o�

‖h‖�

=

= f (x)+

A−1 f ′(x), h�

A +12

A−1 f ′′(x)h, h�

A + o�

‖h‖A

.

Отсюда следует, что f ′A(x)= A−1 f ′(x) –– новый градиент, а f ′′A (x)== A−1 f ′′(x) –– новый гессиан.

Таким образом, направление, используемое в методе Ньютона,можно рассматривать как градиент, вычисленный относительнометрики, определяемой матрицей A= f ′′(x). Заметим, что гессианфункции f (x) в точке x, вычисленный в метрике A= f ′′(x), равен In.

Пример ... Рассмотрим квадратичную функцию

f (x)=α+ ⟨a, x⟩+ 12⟨Ax, x⟩,

где A= AT ≻ 0. Заметим, что f ′(x)= Ax + a, f ′′(x)= A и

f ′(x∗)= Ax∗ + a= 0

для x∗ =−A−1a. Вычислим ньютоновское направление в некоторойточке x ∈Rn:

dN (x)=�

f ′′(x)�−1

f ′(x)= A−1(Ax + a)= x + A−1a.

Поэтому для любого x ∈Rn верно равенство x − dN (x)=−A−1a= x∗.Таким образом, для квадратичной функции метод Ньютона сходит-ся за одну итерацию. Отметим также, что

f (x)=α+ ⟨A−1a, x⟩A +12‖x‖2A,

f ′A(x)= A−1 f ′(x)= dN (x),

f ′′A (x)= A−1 f ′′(x)= In.

Выпишем общую схему методов переменной метрики.

Page 66: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Метод переменной метрики

. Выберем x0 ∈Rn. Положим H0= In.Вычислим f (x0) и f ′(x0).

. k-я итерация (k¾ 0).a) Положим pk =Hk f ′(xk).б) Найдем xk+1= xk − hk pk (выбор правила дли-

ны шага см. в п. ..).c) Вычислим f (xk+1) и f ′(xk+1).d) Обновим матрицу Hk : Hk→ Hk+1.

Схемы переменной метрики различаются друг от друга толькореализацией шага d, на котором обновляется матрица Hk. Дляэтого используется новая информация в виде значения градиентаf ′(xk+1), вычисленного на шаге c. Возможность «улучшения» мат-рицы Hk вытекает из следующего свойства квадратичной функции.Пусть

f (x)=α+ ⟨a, x⟩+ 12⟨Ax, x⟩, f ′(x)= Ax + a.

Тогда для любых x, y ∈Rn имеем f ′(x)− f ′( y)= A(x − y). Это тож-дество объясняет происхождение так называемого квазиньютонов-ского правила.

Квазиньютоновское правилоВыберем Hk+1 так, чтобы выполнялось равенство

Hk+1( f ′(xk+1)− f ′(xk))= xk+1− xk.

Нетрудно видеть, что существует много способов удовлетворитьэто соотношение. Ниже приводится несколько наиболее популярныхверсий.

Пример ... Обозначим

∆Hk =Hk+1−Hk, γk = f ′(xk+1)− f ′(xk), δk = xk+1− xk.

Тогда квазиньютоновское соотношение обеспечивается следующи-ми правилами пересчета.

. Правило одноранговой коррекции:

∆Hk =(δk − Hkγk)(δk − Hkγk)T

⟨δk −Hkγk , γk⟩.

Page 67: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы первого порядка в нелинейной оптимизации

. Правило Давидона––Флетчера––Пауэла (ДФП):

∆Hk =δkδ

Tk

⟨γk , δk⟩−

HkγkγTk

Hk

⟨Hkγk , γk⟩.

. Правило Бройдена––Флетчера––Гольдфарба––Шенно (БФГШ):

∆Hk =Hkγkδ

Tk+ δkγ

Tk

Hk

⟨Hkγk , γk⟩−βk

HkγkγTk

Hk

⟨Hkγk , γk⟩,

где βk = 1+ ⟨γk, δk⟩/⟨Hkγk, γk⟩.Очевидно, что существует и много других возможностей. Третье

правило (БФГШ) обычно упоминается как наиболее устойчивое квычислительным погрешностям.

Отметим, что для квадратичных функций методы переменнойметрики завершают работу не позже чем за n итераций. В окрест-ности точки строгого минимума эти методы имеют сверхлинейнуюскорость сходимости: для любого x0 ∈Rn существует такое число N ,что при всех k¾ N выполняется неравенство

‖xk+1− x∗‖¶ const · ‖xk − x∗‖ · ‖xk−n− x∗‖(строгое доказательство этого факта довольно громоздко). Глобаль-ная же сходимость этих методов не лучше, чем у градиентного метода(по крайней мере, с теоретической точки зрения).

Заметим, что в схемах переменной метрики необходимо посто-янно держать в памяти и обновлять симметрическую (n× n)-матри-цу. Поэтому каждая итерация требует O(n2) вспомогательных ариф-метических операций, что рассматривалось в течение многих леткак один из основных недостатков квазиньютоновских методов. Этостимулировало интерес к так называемым схемам сопряженных гра-диентов, которые имеют заметно меньшую трудоемкость каждойитерации (см. п. ..). Однако ввиду резкого роста вычислитель-ных мощностей в последние десятилетия приведенные возражениябольше не представляются существенными.

... Сопряженные градиенты

Методы сопряженных градиентов были изначально предложеныдля минимизации квадратичных функций. Рассмотрим задачу

minx∈Rn

f (x), (.)

Page 68: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

где f (x)= α+ ⟨a, x⟩+ 1/2⟨Ax, x⟩ и A= AT ≻ 0. Как известно, реше-ние этой задачи есть x∗ =−A−1a. Поэтому нашу целевую функциюможно переписать в следующем виде:

f (x)=α+ ⟨a, x⟩+ 12⟨Ax, x⟩=α− ⟨Ax∗, x⟩+ 1

2⟨Ax, x⟩=

=α− 12⟨Ax∗, x∗⟩+ 1

2⟨A(x − x∗), x − x∗⟩.

Таким образом, f ∗ =α− 1/2⟨Ax∗, x∗⟩ и f ′(x)= A(x − x∗).Предположим, что нам задана начальная точка x0. Рассмотрим

линейные подпространства Крылова

Lk = Lin{A(x0− x∗), …, Ak(x0− x∗)}, k¾ 1,

где Ak –– k-я степень матрицы A. Последовательность точек {xk}, об-разованная методом сопряженных градиентов, определяется следу-ющим образом:

xk = arg min�

f (x) | x ∈ x0+Lk

, k¾ 1. (.)

Это определение выглядит достаточно искусственным. Однако мыскоро увидим, что такой метод можно записать в чисто «алгоритми-ческой» форме. Представление (.) нам понадобится только длятеоретического анализа.

Лемма ... Для любого k¾ 1 имеет место равенство

Lk = Lin�

f ′(x0), …, f ′(xk−1)

.

Доказательство. Для k= 1 утверждение верно: f ′(x0)= A(x0− x∗).Предположим, что оно также выполняется для некоторого k¾ 1. Тогда

xk = x0+

k∑

i=1

λ(i) Ai(x0− x∗)

с некоторыми множителями λ∈Rk. Поэтому

f ′(xk)= A(x0− x∗)+k∑

i=1

λ(i) Ai+1(x0− x∗)= y +λ(k) Ak+1(x0− x∗),

для некоторой точки y из Lk. Таким образом,

Lk+1≡ Lin�

Lk, Ak+1(x0− x∗)

= Lin�

Lk, f ′(xk)

=

= Lin�

f ′(x0), …, f ′(xk)

.

Page 69: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы первого порядка в нелинейной оптимизации

Следующая лемма помогает понять поведение последовательно-сти {xk}.

Лемма ... Для любых k, i ¾ 0, k 6= i имеет место равенство⟨ f ′(xk), f ′(xi)⟩= 0.

Доказательство. Пусть k> i. Рассмотрим функцию

ϕ(λ)= f

x0+

k∑

j=1

λ( j) f ′(x j−1)

, λ∈Rk.

В силу леммы .. для некоторогоλ∗ имеем xk = x0+∑k

j=1 λ( j)∗ f ′(x j−1).

Однако по определению xk есть точка минимума функции f (x)на Lk. Поэтому ϕ′(λ∗)= 0. Остается вычислить компоненты этоговектора:

0=∂ϕ(λ∗)

∂λ(i)=

f ′(xk), f ′(xi)�

.

Следствие ... Последовательность, образованная методом со-пряженных градиентов для задачи (.), конечна.

Доказательство. Количество ортогональных направлений в Rn непревышает n.

Следствие ... Для любого p ∈Lk верно равенство

f ′(xk), p�

= 0.

Последний вспомогательный результат объясняет название мето-да. Обозначим δi = xi+1− xi. Очевидно, что Lk = Lin{δ0, …, δk−1}.

Лемма ... Для любого k 6= i верно равенство ⟨Aδk, δi⟩= 0. (Такиенаправления называются сопряженными относительно матрицы A.)

Доказательство. Без потери общности можно предположить, чтоk> i. Тогда

⟨Aδk, δi⟩= ⟨A(xk+1− xk), δi⟩ = ⟨ f ′(xk+1)− f ′(xk), δi⟩= 0,

поскольку δi = xi+1− xi ∈Li+1⊆Lk.

Попытаемся переписать метод сопряженных градиентов в алго-ритмической форме. Так как Lk = Lin{δ0, …, δk−1}, можно предста-вить xk+1 в виде

xk+1= xk − hk f ′(xk)+k−1∑

j=0

λ( j)δ j .

Page 70: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

В наших обозначениях это есть

δk =−hk f ′(xk)+k−1∑

j=0

λ( j)δ j . (.)

Вычислим коэффициенты этого представления. Умножая соотноше-ние (.) на A и δi, 0¶ i¶ k− 1, и используя лемму .., получим

0= ⟨Aδk, δi⟩=−hk⟨Af ′(xk), δi⟩+k−1∑

j=0

λ( j)⟨Aδ j , δi⟩=

=−hk⟨Af ′(xk), δi⟩+ λ(i)⟨Aδi, δi⟩==−hk⟨ f ′(xk), f ′(xi+1)− f ′(xi)⟩+ λ(i)⟨Aδi, δi⟩.

Отсюда, следуя лемме .., получаем что λi = 0 при i < k − 1. Дляi= k− 1 имеем

λ(k−1)=

hk‖ f ′(xk)‖2⟨Aδk−1, δk−1⟩

=hk‖ f ′(xk)‖2

⟨ f ′(xk)− f ′(xk−1), δk−1⟩.

Таким образом, xk+1= xk − hk pk, где

pk = f ′(xk)− ‖ f ′(xk)‖2δk−1

⟨ f ′(xk)− f ′(xk−1), δk−1⟩= f ′(xk)− ‖ f ′(xk)‖2 pk−1

⟨ f ′(xk)− f ′(xk−1), pk−1⟩,

так как δk−1=−hk−1 pk−1 в силу определения последовательности {pk}.Заметим, что нам удалось записать метод сопряженных гра-

диентов в терминах градиентов целевой функции f (x). Это даетвозможность формально применить метод к общей задаче миними-зации нелинейной функции. Конечно, это обобщение ликвидируетвсе специфические свойства процесса, характерные для квадратич-ных функций. Однако можно ожидать, что в окрестности точкистрогого локального минимума целевая функция будет близка кквадратичной. Поэтому асимптотически этот метод должен схо-диться быстро.

Приведем общую схему метода сопряженных градиентов для за-дачи минимизации нелинейной функции.

Page 71: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы первого порядка в нелинейной оптимизации

Метод сопряженных градиентов

. Пусть x0 ∈ Rn. Вычислим f (x0), f ′(x0). Положимp0= f ′(x0).

. k-я итерация (k¾ 0).a) Найдем xk+1= xk + hk pk

(с помощью «точного» одномерного поиска).б) Вычислим f (xk+1) и f ′(xk+1).в) Вычислим коэффициент βk.г) Положим pk+1= f ′(xk+1)−βk pk.

В этой схеме мы пока не определили, как вычислять коэффици-ент βk. В действительности существует множество формул для этогопараметра. Все они дают одинаковый результат на квадратичныхфункциях, но в общем нелинейном случае образуют разные после-довательности. Представим здесь три наиболее распространенныеверсии:

. βk =‖ f ′(xk+1)‖2

⟨ f ′(xk+1)− f ′(xk), pk⟩;

. формула Флетчера––Ривса: βk =−‖ f ′(xk+1)‖2‖ f ′(xk)‖2 ;

. формула Полака––Рибьера: βk =−⟨ f ′(xk+1), f ′(xk+1)− f ′(xk)⟩

‖ f ′(xk)‖2 .

Напомним, что в квадратичном случае метод сопряженных гра-диентов завершает работу за n итераций (или быстрее). Алгорит-мически это означает, что pn+1 = 0. В нелинейном случае это нетак. После n итераций квадратичная интерпретация теряет смысл.Поэтому на практике часто используется стратегия обновления, ко-торая в определенный момент устанавливает βk = 0 (обычно послекаждой n-й итерации). Это обеспечивает глобальную сходимостьданной схемы (так как сразу после обновления идет обычная гра-диентная итерация, а все остальные итерации только уменьшаютзначение функции). В окрестности точки строгого минимума схемысопряженных градиентов имеют локальную n-шаговую квадратич-ную сходимость:

‖xn+1− x∗‖¶ const · ‖x0− x∗‖2.

Page 72: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Отметим, что асимптотическая скорость этой локальной сходимо-сти меньше, чем скорость сходимости методов переменной метри-ки. Однако схемы сопряженных градиентов имеют преимуществомалой вычислительной сложности каждой итерации. Глобальная жесходимость метода сопряженных градиентов в общем случае не луч-ше, чем у градиентного метода.

... Условная минимизация

Кратко обсудим основные идеи, лежащие в основе методов задачусловной минимизации общего вида. Рассмотрим следующую задачу:

min f0(x),

fi(x)¶ 0, i= 1, …, m,(.)

где fi(x) –– гладкие функции. Например, можно взять fi(x)∈ C1,1L (Rn).

Так как в задаче (.) присутствуют нелинейные функции обще-го вида, мы не можем ожидать, что она окажется проще, чем задачабезусловной минимизации. В самом деле, даже стандартные трудно-сти со стационарными точками, имеющиеся в задаче безусловнойминимизации, проявляются в задаче (.) в намного более сильнойформе. Заметим, что стационарная точка этой задачи (как бы мы еени определили) может не удовлетворять системе функциональныхограничений. Отсюда следует, что любой метод минимизации мо-жет не сойтись к допустимой точке задачи (.), даже если такая исуществует.

Поэтому следующие соображения выглядят весьма убедитель-ными.

. У нас есть эффективные методы решения задач безусловнойминимизации.

На самом деле это утверждение не является абсолютно верным. Мы увидим, чтодля использования методов безусловной минимизации при решении задач с ограни-чениями необходимо по крайней мере уметь находить строгий локальный минимум.А мы уже видели на примере .., что с этим могут возникнуть сложности.

Page 73: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы первого порядка в нелинейной оптимизации

. Задача без ограничений проще, чем задача с ограничениями.

. Поэтому попытаемся приблизить решение задачи (.) после-довательностью решений некоторых вспомогательных задач без-условной минимизации.

Эта философия осуществляется в схемах последовательной безуслов-ной минимизации. Существуют две основные группы таких методов:методы штрафных функций и барьерные методы. Опишем основныеидеи, используемые в этих подходах.

Начнем с методов штрафных функций.

Определение ... Непрерывная функция Φ(x) называется штраф-ной функцией для замкнутого множества Q, если

◦ Φ(x)= 0 для любого x ∈Q,◦ Φ(x)> 0 для любого x /∈Q.

Штрафную функцию иногда называют просто штрафом. Наибо-лее полезным свойством штрафной функции является следующееутверждение.

Если Φ1(x) –– штраф для Q1, а Φ2(x) –– штраф дляQ2, то Φ1(x)+Φ2(x) будет штрафом для пересеченияQ1 ∩Q2.

Приведем несколько примеров таких функций.

Пример ... Введем обозначение (a)+=max{a, 0}. Пусть

Q=�

x ∈Rn | fi(x)¶ 0, i= 1, …, m

.

Тогда следующие функции являются штрафными для Q:

) квадратичный штраф: Φ(x)=∑m

i=1( fi(x))2+

;

) негладкий штраф: Φ(x)=∑m

i=1( fi(x))+.

Читатель с легкостью может продолжить этот список.

Здесь имеется в виду «строгое неравенство». Мы не будем обсуждать коррект-ность этого утверждения для нелинейных задач общего вида. Просто здесь хочетсянапомнить читателю об опасности «очевидных» истин. В следующей главе у нас бу-дет возможность убедиться в том, что для подобного оптимизма нет достаточныхоснований.

Page 74: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Общая схема метода штрафных функций выглядит следующимобразом.

Метод штрафных функций

. Выберем x0 ∈ Rn. Выберем последовательностьштрафных коэффициентов: 0< tk < tk+1 и tk→∞.

. k-я итерация (k¾ 0).Найдем точку xk+1= arg minx∈Rn

f0(x)+ tkΦ(x)

,используя в качестве начальной точку xk.

Легко доказать сходимость этой схемы, полагая, что xk+1 –– точ-ка глобального минимума вспомогательной функции . Введем обо-значения

Ψk(x)= f0(x)+ tkΦ(x), Ψ∗k =min

x∈RnΨk(x)

(Ψ∗k

–– глобальное оптимальное значение функции Ψk(x)). Обозна-чим через x∗ глобальное решение задачи (.).

Теорема ... Пусть существует такое число t > 0, что множе-ство

S=�

x ∈Rn | f0(x)+ tΦ(x)¶ f0(x∗)

ограничено. Тогда

limk→∞

f (xk)= f0(x∗), limk→∞

Φ(xk)= 0.

Доказательство. Заметим, что Ψ∗k¶Ψk(x∗)= f0(x∗). В то же время,

для любого x ∈Rn имеет место неравенство Ψk+1(x)¾Ψk(x). Поэто-му Ψ∗

k+1¾Ψ

∗k. Таким образом, предел limk→∞ Ψ

∗k≡Ψ∗ ¶ f ∗ существу-

ет. Если tk > t, то

f0(xk)+ tΦ(xk)¶ f0(xk)+ tkΦ(xk)=Ψ∗k ¶ f0(x∗).

Поэтому последовательность {xk} имеет предельные точки. По-скольку limk→∞ tk = +∞, для любой такой точки x∗ выполняютсяусловия Φ(x∗)= 0 и f0(x∗)¶ f0(x∗). Таким образом, x∗ ∈Q, и

Ψ∗= f0(x∗)+Φ(x∗)= f0(x∗)¾ f0(x∗).

Если предполагать, что это точка строгого локального минимума, то результатбудет заметно слабее.

Page 75: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы первого порядка в нелинейной оптимизации

Хотя этот результат и является очень общим, но он малоинформа-тивен. Остается еще много вопросов, требующих ответа. Например,нам неизвестно, функцию какого типа лучше всего использовать вкачестве штрафной. Каковы должны быть правила выбора штрафныхкоэффициентов? Какова должна быть точность решения вспомога-тельных задач? Основной особенностью всех этих вопросов являетсято, что на них трудно ответить в рамках общей теории нелинейнойоптимизации. Традиционно считается, что этим должна заниматьсявычислительная практика.

Рассмотрим теперь барьерные методы.

Определение ... Пусть Q –– замкнутое множество, имеющеевнутреннюю точку. Непрерывная функция F(x) называется барьер-ной функцией для Q, если множества F(·)→∞ для точек, приближа-ющихся к границе множества Q.

Барьерную функцию иногда для краткости называют барьером.Аналогично штрафным функциям барьеры обладают следующимсвойством.

Если F1(x) –– барьер для Q1, а F2(x) –– барьер для Q2,то F1(x)+ F2(x) является барьером для пересеченияQ1 ∩Q2.

Для того чтобы мы могли применять барьерные функции, зада-ча (.) должна удовлетворять условию Слейтера:

∃x : fi(x)< 0, i= 1, …, m.

Приведем несколько примеров барьерных функций.

Пример ... Пусть Q =�

x ∈ Rn | fi(x)¶ 0, i = 1, …, m

. Тогда всеперечисленные ниже функции являются барьерами для Q:

) степенной барьер: F(x)=∑m

i=1

1

(− fi(x))p , p¾ 1;

) логарифмический барьер: F(x)=−∑m

i=1 ln(− fi(x));

) экспоненциальный барьер: F(x)=∑m

i=1 exp�

1

− fi(x)

.

Список можно продолжать до бесконечности.

Page 76: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Нелинейная оптимизация

Схема барьерного метода выглядит следующим образом.

Метод барьерных функций

. Выберем x0 ∈ int Q. Выберем последовательностьштрафных коэффициентов: 0< tk < tk+1 и tk→∞.

. k-я итерация (k¾ 0).Найдем точку

xk+1= arg minx∈Q

§

f0(x)+1tk

F(x)

ª

,

используя в качестве начальной точку xk.

Докажем сходимость этого метода, полагая, что xk+1 есть точкаглобального минимума вспомогательной функции. Обозначим

Ψk(x)= f0(x)+1tk

F(x), Ψ∗k =min

x∈QΨk(x)

(Ψ∗k

–– глобальное оптимальное значение функции Ψk(x)). Пусть f ∗

является оптимальным значением для задачи (.).

Теорема ... Пусть барьер F(x) ограничен снизу на множестве Q.Тогда

limk→∞

Ψ∗k = f ∗.

Доказательство. Пусть F(x)¾ F∗ для всех x ∈Q. Для произвольногоx ∈ int Q имеет место неравенство

sup limk→∞

Ψ∗k ¶ lim

k→∞

f0(x)+1tk

F(x)

= f0(x).

Поэтому sup limk→∞

Ψ∗k¶ f ∗. С другой стороны,

Ψ∗k =min

x∈Q

§

f0(x)+1tk

F(x)

ª

¾minx∈Q

§

f0(x)+1tk

F∗ª

= f ∗ +1tk

F∗.

Таким образом, limk→∞ Ψ∗k= f ∗.

Аналогично методу штрафных функций здесь также имеется мно-го открытых вопросов. Например, мы не знаем, как искать началь-ную точку x0 и как выбирать наилучшую барьерную функцию. Намтакже неизвестны теоретически обоснованные правила пересчета

Page 77: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы первого порядка в нелинейной оптимизации

штрафных коэффициентов и необходимая точность решения вспо-могательных задач. Наконец, у нас нет никакого представления обоценках эффективности этого процесса. Причина всех этих пробе-лов заключается не в отсутствии желания разработать соответству-ющую теорию. Наша задача (.) просто слишком сложна. В даль-нейшем мы увидим, что все приведенные здесь вопросы получаютточные ответы в рамках теории выпуклой оптимизации.

На этом мы завершаем краткое изучение общей теории нелиней-ной оптимизации. Наше изложение было действительно очень крат-ким, и оно не затронуло много интересных теоретических тем. Од-нако основной целью данной книги является описание тех областейтеории оптимизации, в которых мы можем получить ясные и завер-шенные результаты о поведении численных методов. К сожалению,общая задача нелинейной оптимизации оказывается для этого слиш-ком сложной. Тем не менее, было бы неправильно совсем опустить этуобласть, поскольку много фундаментальных идей, лежащих в основеметодов выпуклой оптимизации, имеют свои истоки в общей теориинелинейной оптимизации. Градиентный метод и метод Ньютона, ал-горитмы последовательной безусловной минимизации и барьерныефункции были изначально разработаны и использованы для решенияобщих задач. Но только рамки теории выпуклой оптимизации поз-воляют по-настоящему раскрыть потенциал и силу этих подходов.В последующих главах мы не раз встретимся с примерами второгорождения старых идей и концепций.

Page 78: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Page 79: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава

Гладкая выпуклаяоптимизация§ .. Минимизация гладких функций

Гладкие выпуклые функции. Нижние границы аналитической сложности дляклассаF∞,1

L (Rn). Сильно выпуклые функции. Нижние границы аналитической

сложности для класса S ∞,1µ,L (Rn). Градиентный метод.

... Гладкие выпуклые функции

В этом пункте мы будем рассматривать задачу безусловной ми-нимизации

minx∈Rn

f (x) (.)

с достаточно гладкой функцией f (x). Вспомним, что в предыду-щей главе такая задача уже ставилась при слабых предположени-ях о свойствах функции f . При этом было показано, что в такойобщей постановке нельзя достичь многого. Например, невозмож-но гарантировать сходимость методов даже к точке локальногоминимума, невозможно получить приемлемые границы вычисли-тельной эффективности алгоритмов минимизации и т. д. В связи сэтим мы попытаемся ввести некоторые разумные предположения офункции f , упрощающие нашу задачу. Иначе говоря, попытаемсяопределить, какими минимальными свойствами должен обладатьинтересующий нас класс дифференцируемых функций F .

Результаты предыдущей главы могут создать впечатление, чтоосновной причиной всех неприятностей является слабость условийоптимальности первого порядка (теорема ..). В самом деле, гра-диентный метод в общем случае сходится только к стационарнойточке функции f (см. неравенство . и пример ..). Поэтому впервую очередь потребуем выполнения следующего дополнитель-ного свойства.

Page 80: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Предположение ... Для любой функции f ∈ F условие опти-мальности первого порядка является достаточной характеристикойглобального решения задачи (.).

Далее, важной особенностью искомого класса функций F долж-на быть возможность простой проверки включения f ∈ F . Этоможет быть обеспечено заданием множества базисных элементовданного класса и набором всевозможных операций с элементамикласса F , которые не выводят результат за рамки этого класса(такие операции называются инвариантными). Прекрасным при-мером здесь может служить класс дифференцируемых функций: длятого чтобы проверить, дифференцируема ли функция, достаточнопросто взглянуть на ее аналитическое выражение.

С другой стороны, нам не хотелось бы слишком сужать классфункций F . Поэтому введем в рассмотрение только одну инвари-антную операцию на этом классе.

Предположение ... Если f1, f2 ∈F и α, β ¾ 0, то α f1+ β f2 ∈F .

Ограничение на знак коэффициентов α и β в данном предполо-жении является очевидным, поскольку, например, функция x2 при-надлежит классу F , тогда как −x2 –– нет.

Наконец, добавим в F некоторые базисные элементы.

Предположение ... Любая линейная функция f (x)= α+ ⟨a, x⟩принадлежит классу F .

Заметим, что линейная функция f (x) удовлетворяет предположе-нию ... Действительно, из равенства f ′(x)= 0 следует, что функ-ция f –– константа и любая точка в Rn есть точка ее глобальногоминимума.

Сделанных предположений оказывается достаточно для выведе-ния требуемого класса функций. Рассмотрим f ∈ F . Зафиксируемнекоторое x0 ∈Rn и сформируем функцию

ϕ( y)= f ( y)−

f ′(x0), y�

.

Данное предположение не является описанием всех базисных элементов рас-сматриваемого класса. Мы просто хотим иметь семейство линейных функций вклассе F .

Page 81: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Минимизация гладких функций

Тогда в силу предположений .. и .. справедливо предположитьϕ ∈F . Заметим, что

ϕ′( y) |y=x0= f ′(x0)− f ′(x0)= 0.

Поэтому, принимая во внимание предположение .., заключаемчто точка x0 оказывается точкой глобального минимума функции ϕи для любого y ∈Rn имеет место соотношение

ϕ( y)¾ϕ(x0)= f (x0)−

f ′(x0), x0

.

Отсюда следует неравенство f ( y)¾ f (x0)+

f ′(x0), y − x0

.Это неравенство хорошо известно в теории оптимизации. Оно

определяет класс дифференцируемых выпуклых функций.

Определение ... Непрерывно дифференцируемая функция f (x)

называется выпуклой в Rn (обозначение: f ∈F 1(Rn)), если для лю-бых x, y ∈Rn выполнено неравенство

f ( y)¾ f (x)+

f ′(x), y − x�

. (.)

Если функция − f (x) выпукла, то функция f (x) называется вогну-той.

В дальнейшем мы будем рассматривать также и классы выпук-лых функций F k,l

L (Q); здесь индексы имеют тот же смысл, что и для

Ck,lL (Q).

Подтвердим справедливость наших предположений, которые ста-новятся теперь свойствами рассматриваемого функциональногокласса.

Теорема ... Если f ∈F 1(Rn) и f ′(x∗)= 0, то x∗ есть точка гло-бального минимума функции f (x) на Rn.

Доказательство. В силу неравенства (.) для любого x ∈Rn имеем

f (x)¾ f (x∗)+

f ′(x∗), x − x∗�

= f (x∗).

Таким образом, предположение .. выполнено. Проверим пред-положение ...

Лемма ... Для f1 и f2 из класса F 1(Rn) функция f = α f1 + β f2,α, β ¾ 0 также принадлежит классу F 1(Rn).

Page 82: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Доказательство. Для любых x, y ∈Rn имеют место неравенства

f1( y)¾ f1(x)+

f ′1(x), y − x�

,

f2( y)¾ f2(x)+

f ′2(x), y − x�

.

Остается домножить первое неравенство на α, второе на β и сло-жить результаты.

Таким образом, для дифференцируемых функций наш гипотети-ческий класс совпадает с классом выпуклых функций. Представимих основные свойства.

Следующее утверждение существенно увеличивает наши воз-можности в построении выпуклых функций.

Лемма ... Если f ∈F 1(Rm), b∈Rm и A :Rn→Rm, то

ϕ(x)= f (Ax + b)∈F 1(Rn).

Доказательство. В самом деле, пусть x, y ∈ Rn. Введем обозначе-ния x = Ax + b, y = Ay + b. Так как ϕ′(x)= AT f ′(Ax + b), мы полу-чаем

ϕ( y)= f ( y)¾ f (x)+

f ′(x), y − x�

=

=ϕ(x)+

f ′(x), A( y − x)�

=ϕ(x)+

AT f ′(x), y − x�

=

=ϕ(x)+

ϕ′(x), y − x�

.

Для того чтобы упростить проверку включения f ∈ F 1(Rn), да-дим этому классу несколько эквивалентных определений.

Теорема ... Непрерывно дифференцируемая функция f принадле-жит классуF 1(Rn) тогда и только тогда, когда для любых x, y ∈Rn

и α∈ [0, 1] выполняется неравенство

f (αx + (1−α) y)¶α f (x)+ (1−α) f ( y). (.)

Заметим, что неравенство (.) без предположения о дифференцируемостифункции f представляет собой определение общих выпуклых функций. Мы будемдетально изучать эти функции в следующей главе.

Page 83: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Минимизация гладких функций

Доказательство. Введем обозначение xα = αx + (1 − α) y. Пустьf ∈F 1(Rn). Тогда

f (xα)¶ f ( y)−

f ′(xα), y − xα�

= f ( y)−α

f ′(xα), y − x�

,

f (xα)¶ f (x)−

f ′(xα), x− xα�

= f (x)+ (1−α)

f ′(xα), y − x�

.

Домножив первое неравенство на 1− α, а второе –– на α и сложиврезультаты, получим неравенство (.).

Пусть неравенство (.) верно для всех x, y ∈Rn и α∈ [0, 1]. Вы-берем некоторое α∈ [0, 1). Тогда

f ( y)¾1

1−α�

f (xα)−α f (x)�

= f (x)+1

1−α[ f (xα)− f (x)]=

= f (x)+1

1−α�

f (x + (1−α)( y − x))− f (x)�

.

Переходя к пределу α→ 1, получаем неравенство (.).

Теорема ... Непрерывно дифференцируемая функция f принадле-жит классуF 1(Rn) тогда и только тогда, когда для любых x, y ∈Rn

выполнено неравенство

f ′(x)− f ′( y), x − y�

¾ 0. (.)

Доказательство. Пусть f есть выпуклая непрерывно дифференци-руемая функция. Тогда

f (x)¾ f ( y)+

f ′( y), x− y�

, f ( y)¾ f (x)+

f ′(x), y − x�

.

Складывая эти неравенства, получаем неравенство (.).Пусть (.) верно для всех x, y ∈Rn. Введем обозначение xτ= x +

+ τ( y− x). Тогда

f ( y)= f (x)+1∫

0

f ′(x +τ( y − x)), y − x�

dτ=

= f (x)+ ⟨ f ′(x), y − x⟩+1∫

0

f ′(xτ)− f ′(x), y − x�

dτ=

= f (x)+

f ′(x), y − x�

+

1∫

0

f ′(xτ)− f ′(x), xτ− x�

dτ¶

¾ f (x)+

f ′(x), y − x�

.

Page 84: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Иногда удобнее работать с функциями из классаF 2(Rn)⊂F 1(Rn).

Теорема ... Дважды непрерывно дифференцируемая функция fпринадлежит классу F 2(Rn) тогда и только тогда, когда для лю-бого x ∈Rn выполнено условие

f (x)� 0. (.)

Доказательство. Пусть функция f ∈ C2(Rn) выпукла. Обозначимxτ= x + τs, τ> 0. Тогда, исходя из неравенства (.) имеем

0¶1τ

f ′(xτ)− f ′(x), xτ− x�

=1τ

f ′(xτ)− f ′(x), s�

=

=1τ

τ∫

0

f (x+ λs)s, s�

dλ,

откуда, перейдя к пределу τ→ 0, получаем условие (.).Пусть условие (.) выполнено для всех x ∈Rn. Тогда

f ( y)= f (x)+

f ′(x), y − x�

+

+

1∫

0

τ∫

0

f (x+ λ( y − x))( y− x), y − x�

dλ dτ¶

¾ f (x)+

f ′(x), y − x�

.

Приведем несколько примеров дифференцируемых выпуклыхфункций.

Пример ... . Линейная функция f (x)=α+ ⟨a, x⟩ выпукла.

. Если матрица A симметрическая и неотрицательно определен-ная, то квадратичная функция

f (x)=α+ ⟨a, x⟩+ 12⟨Ax, x⟩

выпукла (поскольку f ′′(x)= A� 0).

. Следующие функции одной переменной лежат в классе F 1(R):

f (x)= ex ,

f (x)= |x |p, p> 1,

f (x)=x2

1− |x | ,

f (x)= |x | − ln�

1+ |x |�

.

Page 85: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Минимизация гладких функций

Это можно легко проверить, используя теорему ... Поэтому, на-пример, функция

f (x)=m∑

i=1

eαi+⟨ai ,x⟩,

возникающая в геометрическом программировании, выпукла (см.лемму ..). Аналогично функция

f (x)=m∑

i=1

|⟨ai, x⟩− bi |p,

возникающая в задачах аппроксимации в lp-нормах, также выпукла.

Как и в случае с нелинейными функциями общего вида, диффе-ренцируемость сама по себе не способна обеспечить хороших то-пологических свойств выпуклых функций. Потому необходимо рас-сматривать класс задач с липшицевыми производными определен-ного порядка. Наиболее важным из них является класс F 1,1

L (Rn) ––класс выпуклых функций с липшицевым градиентом. Дадим несколь-ко необходимых и достаточных условий для этого класса.

Теорема ... Все приведенные ниже условия, выполняющиеся длявсех x, y ∈Rn и α∈ [0, 1], эквивалентны включению f ∈F 1,1

L (Rn):

0¶ f ( y)− f (x)−

f ′(x), y − x�

¶L2‖x − y‖2, (.)

f (x)+

f ′(x), y − x�

+1

2L‖ f ′(x)− f ′( y)‖2¶ f ( y), (.)

1L‖ f ′(x)− f ′( y)‖2¶

f ′(x)− f ′( y), x− y�

, (.)

f ′(x)− f ′( y), x − y�

¶ L‖x − y‖2, (.)

α f (x)+ (1−α) f ( y)¾ f�

αx + (1−α) y�

+

+α(1−α)

2L‖ f ′(x)− f ′( y)‖2, (.)

0¶α f (x)+ (1−α) f ( y)− f�

αx + (1−α) y�

¶α(1−α)L2‖x − y‖2. (.)

Page 86: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Доказательство. В самом деле, условие (.) следует из определе-ния выпуклых функций и леммы ... Далее, зафиксируем x0 ∈Rn.Рассмотрим функцию

ϕ( y)= f ( y)−

f ′(x0), y�

.

Заметим, что ϕ принадлежит классу F 1,1L (Rn), а ее точка оптимума

есть y∗ = x0. Поэтому из условия (.) следует, что

ϕ( y∗)¶ϕ�

y − 1Lϕ′( y)�

¶ϕ( y)− 12L‖ϕ′( y)‖2.

Так как ϕ′( y)= f ′( y)− f ′(x0), неравенство (.) доказано.Условие (.) получается напрямую из неравенства (.) путем

сложения двух записей (.) с переставленными x и y. Применяятеперь неравенство Коши––Буняковского к неравенству (.), полу-чим ‖ f ′(x)− f ′( y)‖¶ L‖x − y‖.

Таким же способом можно получить неравенство (.) из (.).Для того чтобы получить неравенство (.) из (.), применим ин-тегрирование:

f ( y)− f (x)−

f ′(x), y − x�

=

=

1∫

0

f ′(x +τ( y − x))− f ′(x), y − x�

dτ¶12

L‖ y − x‖2.

Докажем два последних неравенства. Введем обозначение xα=αx ++ (1−α) y. Тогда, используя неравенство (.), получаем

f (x)¾ f (xα)+

f ′(xα), (1−α)(x− y)�

+1

2L‖ f ′(x)− f ′(xα)‖2,

f ( y)¾ f (xα)+

f ′(xα), α( y − x)�

+1

2L‖ f ′( y)− f ′(xα)‖2.

Складывая эти неравенства, домноженные на α и 1 − α соответ-ственно, и используя неравенство

α‖g1− u‖2+ (1−α)‖g2− u‖2¾α(1−α)‖g1− g2‖2,

получаем неравенство (.). Легко проверить, что неравенство(.) следует из (.), если перейти к пределу при α→ 1.

Аналогичным образом из неравенства (.) получаем

f (x)¶ f (xα)+

f ′(xα), (1−α)(x− y)�

+L2‖(1−α)(x − y)‖2,

f ( y)¶ f (xα)+

f ′(xα), α( y − x)�

+L2‖α( y − x)‖2.

Page 87: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Минимизация гладких функций

Складывая эти неравенства, домноженные на α и 1 − α соответ-ственно, получаем неравенство (.). Утверждение в обратнуюсторону доказывается переходом к пределу при α→ 1.

В заключение опишем класс функций F 2,1L (Rn).

Теорема ... Дважды непрерывно дифференцируемая функция

f (x) лежит в классе F 2,1L (Rn) тогда и только тогда, когда для

любого x ∈Rn выполнено условие

0� f ′′(x)� LIn. (.)

Доказательство. Утверждение следует из теоремы .. и неравен-ства (.).

... Нижние границы аналитической сложностидля класса F∞,1

L (Rn)

Прежде чем перейти к методам оптимизации, определим потен-циальные возможности задач минимизации гладких выпуклых функ-ций. В этом пункте мы получим нижние границы аналитическойсложности для задач оптимизации, в которых целевые функции при-надлежат классу F∞,1

L (Rn) (и, соответственно, классу F 1,1L (Rn)).

Напомним, что мы рассматриваем следующий класс задач.

Модель: minx∈Rn

f (x), f ∈F 1,1L (Rn).

Оракул: локальный черный ящик первого порядка.

Приближенное решение: x ∈Rn, f (x)− f ∗ ¶ ǫ.

Для того чтобы упростить наши рассуждения, введем следующеепредположение об итеративном процессе.

Предположение ... Итеративный методM образует последова-тельность тестовых таких точек {xk}, что

xk ∈ x0+ Lin�

f ′(x0), …, f ′(xk−1)

, k¾ 1.

Это предположение не носит обязательного характера и в опреде-ленных случаях может быть опущено. Однако оно выполняется длябольшинства практических методов.

Можно указать нижнюю границу сложности для нашего классазадач, не прибегая к построению сопротивляющегося оракула. Вме-сто этого мы построим «наихудшую функцию» из класса F∞,1

L (Rn).

Page 88: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Эта функция оказывается сложной для всех методов, удовлетворяю-щих предположению ...

Зафиксируем константу L> 0. Рассмотрим следующее семействоквадратичных функций:

fk(x)=L4

§

12

(x(1))2+

k−1∑

i=1

(x(i)− x(i+1))2+ (x(k))2�

− x(1)ª

при k= 1, …, n. Заметим, что для всех s ∈Rn имеют место неравен-ства

f ′′k (x)s, s�

=L4

(s(1))2+

k−1∑

i=1

s(i)− s(i+1)�2+ (s(k))2

¾ 0

и

f ′′k (x)s, s�

¶L4

(s(1))2+

k−1∑

i=1

2�

(s(i))2+ (s(i+1))2�

+ (s(k))2

¶ Ln∑

i=1

(s(i))2.

Таким образом, 0� f ′′k

(x)� LIn. Поэтому fk(x)∈F∞,1L (Rn), 1¶ k¶ n.

Вычислим минимум функции fk. Легко увидеть, что f ′′k

(x) == (L/4)Ak с матрицей

Ak =

k строк�

2 −1

−1 2 −1 0

−1 2 −1

.. ... .

. . .

−1 2 −1

0 −1 2 −1

−1 2

0n−k,k

0n−k,k 0n−k,n−k

где 0k,p –– нулевая матрица размера k× p. Поэтому уравнение

f ′k (x)= Ak x − e1= 0

Page 89: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Минимизация гладких функций

имеет единственное решение

x(i)k=

(

1− i

k+ 1, i= 1, …, k,

0, k+ 1¶ i¶ n.

Следовательно, оптимальное значение функции fk равно

f ∗k =L4

12⟨Ak xk, xk⟩ − ⟨e1, xk⟩

=− L8⟨e1, xk⟩=

L8

−1+1

k+ 1

. (.)

Заметим также, что

k∑

i=1

i2=

k(k+ 1)(2k+ 1)

(k+ 1)3

3. (.)

Поэтому

‖ xk‖2 =n∑

i=1

x(i)k

�2=

k∑

i=1

1− i

k+ 1

�2

=

= k− 2

k+ 1

k∑

i=1

i+1

(k+ 1)2

k∑

i=1

i2¶

¶ k− 2

k+ 1· k(k+ 1)

2+

1

(k+ 1)2· (k+ 1)3

3=

13

(k+ 1). (.)

Обозначим Rk,n= {x ∈ Rn | x(i)

= 0, k + 1¶ i ¶ n}. Таким образом,R

k,n есть подпространство в Rn, в точках которого только первые kкомпонент не равны нулю. Из аналитической записи функций { fk}легко увидеть, что для всех x ∈Rk,n верно равенство

fp(x)= fk(x), p= k, …, n.

Зафиксируем такое p, что 1¶ p¶ n.

Лемма ... Пусть x0 = 0. Тогда для любой последовательности{xk}

p

k=0, удовлетворяющей условию

xk ∈Lkdef= Lin�

f ′p(x0), …, f ′p

,

имеет место включение Lk ⊆Rk,n.

Доказательство. Так как x0 = 0, мы имеем f ′p(x0)= −L/4e1 ∈ R1,n.Отсюда следует, что L1≡R1,n.

Page 90: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

ПустьLk ⊆Rk,n для некоторого k< p. Поскольку матрица Ap трех-диагональна, для любого x ∈ Rk,n выполняется включение f ′p(x) ∈∈Rk+1,n. Таким образом, Lk+1⊆Rk+1,n, и лемма доказана по индук-ции.

Следствие ... Для любой такой последовательности точек{xk}

p

k=0, что x0= 0 и xk ∈Lk, имеет место неравенство

fp(xk)¾ f ∗k .

Доказательство. Действительно, xk ∈ Lk ⊆ Rk,n. Поэтому fp(xk) == fk(xk)¾ f ∗

k.

Теперь мы можем доказать основное утверждение этого пункта.

Теорема ... Для любого k, 1 ¶ k ¶ 1/2(n − 1), и любого x0 ∈ Rn

найдется такая функция f ∈F∞,1L (Rn), что для любого метода пер-

вого порядкаM , удовлетворяющего предположению .., выполня-ются неравенства

f (xk)− f ∗ ¾3L‖x0 − x∗‖2

32(k+ 1)2,

‖xk − x∗‖2 ¾ 18‖x0− x∗‖2,

где x∗ –– точка минимума функции f (x), а f ∗ = f (x∗).

Доказательство. Очевидно, что методы этого типа инвариант-ны по отношению к преобразованию сдвига в пространстве пере-менных. Поэтому последовательность точек, которая формируетсятаким методом для функции f (x) начиная с произвольного x0,представляет собой не что иное, как сдвиг последовательности,получаемой для f (x)= f (x + x0) при старте из начала координат.Таким образом, можно предположить, что x0= 0.

Докажем первое неравенство. Для этого зафиксируем k и при-меним метод M для минимизации функции f (x)= f2k+1(x). Тогдаx∗ = x2k+1 и f ∗ = f ∗

2k+1. Используя следствие .., заключаем, что

f (xk)≡ f2k+1(xk)= fk(xk)¾ f ∗k .

Page 91: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Минимизация гладких функций

Так как x0= 0, в силу соотношений (.) и (.) получаем оценку

f (xk)− f ∗

‖x0 − x∗‖2 ¾L8

−1+1

k+ 1+ 1− 1

2k+ 2

13

(2k+ 2)=

38

L · 1

4(k+ 1)2.

Докажем второе неравенство. Поскольку xk ∈Rk,n и x0= 0, мы по-лучаем

‖xk − x∗‖2 ¾2k+1∑

i=k+1

x(i)2k+1

�2=

2k+1∑

i=k+1

1− i

2k+ 2

�2

=

= k+ 1− 1

k+ 1

2k+1∑

i=k+1

i+1

4(k+ 1)2

2k+1∑

i=k+1

i2.

Из неравенства (.) следует, что

2k+1∑

i=k+1

i2=

16

(2k+ 1)(2k+ 2)(4k+ 3)− k(k+ 1)(2k+ 1)�

=

=16

(k+ 1)(2k+ 1)(7k+ 6).

Поэтому, используя соотношение (.), мы получаем

‖xk − x∗‖2 ¾ k+ 1− 1

k+ 1· (3k+ 2)(k+ 1)

2+

(2k+ 1)(7k+ 6)

24(k+ 1)=

=(2k+ 1)(7k+ 6)

24(k+ 1)− k

2=

2k2+ 7k+ 6

24(k+ 1)¾

¾2k2+ 7k+ 6

16(k+ 1)2‖x0− x2k+1‖2¾

18‖x0− x∗‖2.

Приведенная теорема верна только в предположении, что числошагов метода не слишком велико по сравнению с размерностьюпространства (k ¶ (1/2)(n − 1)). Границы сложности такого типаназываются равномерными по размерности пространства перемен-ных. Очевидно, что они информативны для очень больших задач, вкоторых нет возможности ждать даже до завершения n-й итерацииметода. Однако для задач с небольшой размерностью эти границытакже дают некоторую дополнительную информацию. Во-первых,они описывают потенциальную эффективность численных мето-дов на начальном этапе процесса минимизации. И во-вторых, они

Page 92: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

предупреждают нас о том, что без прямого использования конеч-номерных свойств выпуклых множеств мы не сможем улучшитьграницы сложности для любой мыслимой численной схемы.

Заканчивая пункт, отметим, что полученная нижняя граница длязначения целевой функции представляется довольно оптимистичной.В самом деле, после выполнения ста итераций мы можем уменьшитьошибку начального приближения по функции в 104 раз. Однако воз-можное поведение точек минимизирующей последовательности разо-чаровывает: сходимость к оптимальному решению может оказать-ся сколь угодно медленной. Так как это нижняя граница сложности,данная неприятность неустранима для рассматриваемого класса за-дач. Единственное, что можно попытаться сделать, это найти другиеклассы, в которых ситуация окажется лучше. Следующий пункт ипосвящен этой цели.

... Сильно выпуклые функции

Итак, мы ищем некое сужение функционального классаF 1,1L (Rn),

при котором можно гарантировать приемлемую скорость сходимо-сти к единственному решению задачи минимизации

minx∈Rn

f (x), f ∈F 1(Rn).

Вспомним, что в п. .. была доказана линейная скорость сходимо-сти градиентного метода для некой малой окрестности точки невы-рожденного локального минимума. Попытаемся придать предполо-жению о невырожденности глобальный характер. А именно, пред-положим, что существует такая константа µ> 0, что для любого x,f ′(x)= 0, и любого x ∈Rn выполнено неравенство

f (x)¾ f (x)+12µ‖x− x‖2.

Пользуясь теми же рассуждениями, что и в п. .., мы получаемкласс сильно выпуклых функций.

Определение ... Непрерывно дифференцируемая функция f (x)называется сильно выпуклой в Rn (обозначение: f ∈ S 1

µ (Rn)), еслинайдется такая константа µ> 0, что для любых x, y ∈Rn выполненонеравенство

f ( y)¾ f (x)+

f ′(x), y − x�

+12µ‖ y − x‖2. (.)

Page 93: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Минимизация гладких функций

Константа µ называется параметром сильной выпуклости функ-ции f .

Мы будем также рассматривать классы функций S k,lµ,L (Q); здесь

индексы k, l и L имеют тот же смысл, что и для класса Ck,lL (Q).

Выпишем некоторые свойства сильно выпуклых функций.

Теорема ... Если f ∈S 1µ (Rn), и f ′(x∗)= 0, то

f (x)¾ f (x∗)+12µ‖x − x∗‖2

для всех x ∈Rn.

Доказательство. Так как f ′(x∗)= 0, в силу неравенства (.) длялюбого x ∈Rn имеет место соотношение

f (x)¾ f (x∗)+

f ′(x∗), x − x∗�

+12µ‖x− x∗‖2 =

= f (x∗)+12µ‖x − x∗‖2.

Посмотрим, что происходит с суммой сильно выпуклых функций.

Лемма ... Если f1 ∈S 1µ1

(Rn), f2 ∈S 1µ2

(Rn) и α, β ¾ 0, то

f =α f1 +β f2 ∈S 1αµ1+βµ2

(Rn).

Доказательство. Для любого x, y ∈Rn имеем

f1( y)¾ f1(x)+

f ′1(x), y − x�

+12µ1‖ y − x‖2,

f2( y)¾ f2(x)+

f ′2(x), y − x�

+12µ2‖ y − x‖2.

Остается сложить эти равенства, умножив их соответственно на αи β .

Заметим, что класс S 10 (Rn) совпадает с F 1(Rn). Поэтому сумма

выпуклой функции с сильно выпуклой есть сильно выпуклая функ-ция с тем же параметром выпуклости.

Приведем несколько эквивалентных определений сильно выпук-лых функций.

Page 94: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Теорема ... Пусть функция f непрерывно дифференцируема. То-гда оба приведенных ниже условия, выполненные при всех x, y ∈Rn иα∈ [0, 1], эквивалентны включению f ∈S 1

µ (Rn):

f ′(x)− f ′( y), x − y�

¾ µ‖x − y‖2, (.)

α f (x)+ (1−α) f ( y)¾ f (αx + (1−α) y)+α(1−α)µ

2‖x − y‖2. (.)

Доказательство этого утверждения проводится аналогично дока-зательству теоремы .., и мы оставляем его читателю в качествеупражнения.

Весьма полезным представляется следующее утверждение.

Теорема ... Если f ∈S 1µ (Rn), то для любых x и y из Rn выпол-

няются неравенства

f ( y)¶ f (x)+

f ′(x), y − x�

+1

2µ‖ f ′(x)− f ′( y)‖2, (.)

f ′(x)− f ′( y), x − y�

¶1µ‖ f ′(x)− f ′( y)‖2. (.)

Доказательство. Зафиксируем некоторую точку x ∈ Rn. Рассмот-рим функцию

ϕ( y)= f ( y)−

f ′(x), y�

∈S 1µ (Rn).

Поскольку ϕ′(x)= 0, в силу неравенства (.) для любого y ∈ Rn

получаем

ϕ(x)=minυϕ(υ)¾min

υ

h

ϕ( y)+

ϕ′( y), υ− y�

+12µ‖υ− y‖2i

=

=ϕ( y)− 12µ‖ϕ′( y)‖2,

а это есть в точности неравенство (.). Складывая две записинеравенства (.) с переставленными x и y, получаем неравен-ство (.).

В заключение приведем условие второго порядка для классаS 1µ (Rn).

Теорема ... Дважды непрерывно дифференцируемая функция fлежит в классе S 2

µ (Rn) тогда и только тогда, когда для любого

Page 95: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Минимизация гладких функций

x ∈Rn выполняется условие

f ′′(x)� µIn. (.)

Доказательство. легко провести, применяя неравенство (.).

Рассмотрим два примера сильно выпуклых функций.

Пример ... . f (x)= 1/2‖x‖2 принадлежит классу S 21 (Rn), так

как f ′′(x)= In.

. Пусть симметрическая матрица A удовлетворяет условию µIn �� A� LIn. Тогда

f (x)=α+ ⟨a, x⟩+ 12⟨Ax, x⟩ ∈ S ∞,1

µ,L (Rn)⊂S 1,1µ,L (Rn),

поскольку f ′′(x)= A. Другие примеры можно получить как суммувыпуклых и сильно выпуклых функций.

Наиболее интересным функциональным классом для нас служитS 1,1µ,L (Rn). Этот класс описывается следующими неравенствами:

f ′(x)− f ′( y), x − y�

¾ µ‖x − y‖2, (.)

‖ f ′(x)− f ′( y)‖¶ L‖x− y‖. (.)

Значение Q f = L/µ ¾ 1 называется числом обусловленности функ-ции f .

Оказывается, неравенство (.) можно усилить, используя до-полнительную информацию (.).

Теорема ... Если f ∈S 1,1µ,L (Rn), то для любых x, y ∈Rn выполня-

ется неравенство

f ′(x)− f ′( y), x − y�

¾µL

µ+ L‖x − y‖2 +

=+1

µ+ L‖ f ′(x)− f ′( y)‖2. (.)

Доказательство. Обозначим ϕ(x)= f (x)− 1/2µ‖x‖2. Тогда ϕ′(x)== f ′(x)− µx; отсюда в силу неравенств (.) и (.) получаем вклю-чение ϕ ∈F 1,1

L−µ(Rn). Если µ= L, то неравенство (.) доказано. Ес-ли µ< L, то из неравенства (.) получаем

ϕ′(x)−ϕ′( y), y − x�

¾1

L−µ‖ϕ′(x)−ϕ′( y)‖2,

Page 96: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

что в точности эквивалентно неравенству (.).

... Нижние границы аналитической сложностидля класса S ∞,1

µ,L (Rn)

Получим нижние границы аналитической сложности для задачбезусловной минимизации функций из класса S ∞,1

µ,L (Rn)⊂S 1,1µ,L (Rn).

Рассмотрим следующий класс задач.

Модель: f (x)→minx∈Rn , f ∈S ∞,1µ,L (Rn), µ> 0.

Оракул: локальный черный ящик первого порядка.

Приближенное решение:

x : f (x)− f ∗ ¶ ǫ, ‖ x − x∗‖2¶ ǫ.

Как и в предыдущем пункте, мы рассматриваем методы, удовле-творяющие предположению ... Будем искать нижние границысложности через число обусловленности Q f = L/µ нашей задачи.

Заметим, что в описании нашего класса задач ничего не сказаноо размерности пространства переменных. Поэтому формально мысчитаем, что этот класс также включает в себя бесконечномерныезадачи.

Мы собираемся привести пример некоторой плохой функции,определенной в бесконечномерном пространстве. Можно былобы провести доказательство и в конечномерном пространстве, носоответствующие рассуждения оказались бы более сложными.

Рассмотрим пространство R∞ ≡ l2 –– пространство всех последо-вательностей x = {x(i)}∞

i=1 с конечной нормой

‖x‖2=∞∑

i=1

x(i)�2<∞.

Выберем некоторые параметры µ> 0 и Q f > 1, определяющие сле-дующую функцию:

fµ,Q f(x)=

µ(Q f − 1)

8

§

(x(1))2+

∞∑

i=1

x(i)− x(i+1)�2− 2x(1)ª

2‖x‖2.

Page 97: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Минимизация гладких функций

Введем матрицу

A=

2 −1 0 0− 1 2 −1 00 −1 2

. ..0 0

.. .. ..

Тогда f ′′(x)= ((µ(Q f − 1))/4)A+ µI, где I –– единичный оператор вR

∞. В предыдущем пункте было установлено, что 0� A� 4I. Поэтому

µI � f ′′(x)� (µ(Q f − 1)+ µ)I =µQ f I.

Это означает, что fµ,Q f∈S ∞,1

µ,µQ f(R∞). Заметим, что число обусловлен-

ности функции fµ,Q fравно

Q fµ,Q f=µQ f

µ=Q f .

Найдем минимум функции fµ,µQ f. Условия оптимальности перво-

го порядка

f ′µ,µQ f(x)≡�

µ(Q f − 1)

4A+µI

x −µ(Q f − 1)

4e1= 0

можно записать как�

A+4

Q f − 1

x = e1.

Координатная форма этого уравнения выглядит так:

2Q f + 1

Q f − 1x(1) − x(2)

= 1,

x(k+1)− 2Q f + 1

Q f − 1x(k)+ x(k−1)

= 0, k= 2, …(.)

Пусть q есть наименьший корень уравнения

q2− 2Q f + 1

Q f − 1q+ 1= 0,

который равен q =

p

Q f − 1p

Q f + 1. Тогда последовательность (x∗)(k)

= qk,

k= 1, 2, … , удовлетворяет системе (.). Таким образом, мы при-ходим к следующему результату.

Page 98: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Теорема ... Для любого x0 ∈ R∞ и произвольных константµ > 0 и Q f > 1 найдется такая функция f ∈ S ∞,1

µ,µQ f(R∞), что для

любого метода первого порядкаM , удовлетворяющего предположе-нию .., верны оценки

‖xk − x∗‖2 ¾�p

Q f − 1p

Q f + 1

�2k

‖x0− x∗‖2,

f (xk)− f ∗ ¾µ

2

�p

Q f − 1p

Q f + 1

�2k

‖x0− x∗‖2,

где x∗ –– точка минимума функции f и f ∗ = f (x∗).

Доказательство. В самом деле, предположим, что x0 = 0. Выберемf (x)= fµ,µQ f

(x). Тогда

‖x0− x∗‖2 =∞∑

i=1

[(x∗)(i)]2=

∞∑

i=1

q2i=

q2

1− q2.

Поскольку f ′′µ,µQ f(x) –– трехдиагональный оператор, а f ′µ,µQ f

(0)= e1,

мы заключаем, что xk ∈Rk,∞. Поэтому

‖xk − x∗‖2 ¾∞∑

i=k+1

[(x∗)(i)]2=

∞∑

i=k+1

q2i=

q2(k+1)

1− q2= q2k‖x0− x∗‖2.

Вторая оценка в утверждении теоремы следует из первой и изтеоремы ...

... Градиентный метод

Проверим, как работает градиентный метод, на задаче

minx∈Rn

f (x)

с функцией f ∈F 1,1L (Rn). Вспомним, что схема градиентного метода

выглядит следующим образом.

Градиентный метод

. Выберем x0 ∈Rn.. k-я итерация (k¾ 0).

a) Вычислим f (xk) и f ′(xk).б) Найдем xk+1= xk − hk f ′(xk) (см. в § . выбор

правила длины шага).

Page 99: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Минимизация гладких функций

В этом пункте мы изучим простейший вариант градиентной схе-мы с hk = h> 0. Можно показать, что для всех других приемлемыхправил длины шага скорость сходимости метода такая же. Обозна-чим через x∗ точку оптимума нашей задачи, и пусть f ∗ = f (x∗).

Теорема ... Пусть f ∈ F 1,1L (Rn) и 0< h< 2/L. Тогда градиент-

ный метод образует последовательность {xk}, которая сходитсякак

f (xk)− f ∗ ¶2�

f (x0)− f ∗�

‖x0 − x∗‖22‖x0 − x∗‖2 + k · h(2− Lh) ·

f (x0)− f ∗� .

Доказательство. Введем обозначение rk = ‖xk − x∗‖. Тогда

r2k+1= ‖xk − x∗ − hf ′(xk)‖2=

= r2k − 2h

f ′(xk), xk − x∗�

+ h2‖ f ′(xk)‖2¶

¶ r2k − h�

2L− h�

‖ f ′(xk)‖2

(здесь мы использовали неравенство (.) и условие f ′(x∗)= 0). По-этому rk ¶ r0. В силу неравенства (.) получаем

f (xk+1)¶ f (xk)+

f ′(xk), xk+1− xk

+L2‖xk+1− xk‖2 =

= f (xk)−ω‖ f ′(xk)‖2,

где ω= h(1− (L/2)hr). Обозначим ∆k = f (xk)− f ∗. Тогда

∆k ¶

f ′(xk), xk − x∗�

¶ r0‖ f ′(xk)‖.

Отсюда следует, что ∆k+1¶∆k − (ω/r20 )∆2

k. Таким образом,

1∆k+1

¾1∆k

r20

· ∆k

∆k+1

¾1∆k

r20

.

Складывая эти неравенства, получаем

1∆k+1

¾1∆0

r20

(k+ 1).

Для того чтобы выбрать оптимальную длину шага, нужно мак-симизировать ϕ(h)= h(2− Lh) как функцию от h. Из условия оп-тимальности первого порядка ϕ′(h)= 2− 2Lh= 0 находим значение

Page 100: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

h∗ = 1/L. В этом случае мы получаем следующую оценку эффектив-ности градиентного метода:

f (xk)− f ∗ ¶2L( f (x0)− f ∗)‖x0 − x∗‖2

2L‖x0 − x∗‖2 + k · ( f (x0)− f ∗). (.)

Далее, в силу неравенства (.) имеет место соотношение

f (x0) ¶ f ∗ +

f ′(x∗), x0 − x∗�

+L2‖x0 − x∗‖2 = f ∗ +

L2‖x0 − x∗‖2.

Поскольку правая часть неравенства (.) возрастает с ростомf (x0)− f ∗, мы получаем следующий результат.

Следствие ... Если h= 1/L и f ∈F 1,1L (Rn), то

f (xk)− f ∗ ¶2L‖x0 − x∗‖2

k+ 4. (.)

Оценим эффективность градиентного метода на классе сильновыпуклых функций.

Теорема ... Если f ∈S 1,1µ,L (Rn) и 0< h¶ 2/(µ+ L), то градиент-

ный метод образует такую последовательность {xk}, что

‖xk − x∗‖2 ¶�

1− 2hµL

µ+ L

�k

‖x0− x∗‖2.

Если h= 2/(µ+ L), то

‖xk − x∗‖¶�

Q f − 1

Q f + 1

�k

‖x0− x∗‖,

f (xk)− f ∗ ¶L2

Q f − 1

Q f + 1

�2k

‖x0− x∗‖2,

где Q f = L/µ.

Доказательство. Введем обозначение rk = ‖xk − x∗‖. Тогда

r2k+1= ‖xk − x∗ − hf ′(xk)‖2=

= r2k − 2h

f ′(xk), xk − x∗�

+ h2‖ f ′(xk)‖2¶

1− 2hµL

µ+ L

r2k + h

h− 2µ+ L

‖ f ′(xk)‖2

(здесь мы использовали неравенство (.) и условие f ′(x∗) = 0).Последнее неравенство в утверждении теоремы следует из преды-дущего и из неравенства (.).

Page 101: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

Вспомним, что в п. .. (теорема ..) мы уже рассматривалидлину шага h= 2/(µ+ L) и установили линейную скорость сходимо-сти градиентного метода. Но это был только локальный результат.

Сравнивая скорость сходимости градиентного метода с нижни-ми границами сложности (теоремы .. и ..), можно увидеть,что они далеки от наших нижних оценок сложности для классовF 1,1

L (Rn) и S 1,1µ,L (Rn). Также следует отметить, что на этих классах

задач стандартные методы безусловной минимизации (методы со-пряженных градиентов, методы переменной метрики) также имеютплохую оценку глобальной эффективности. Оптимальные методыминимизации гладких выпуклых и сильно выпуклых функций будутрассмотрены в следующем параграфе.

§ .. Оптимальные методыОптимальные методы. Выпуклые множества. Задача условной минимизации.Градиентное отображение. Методы минимизации на простых множествах.

... Оптимальные методы

Рассмотрим задачу безусловной оптимизации

minx∈Rn

f (x),

где f –– сильно выпуклая функция: f ∈ S 1,1µ,L (Rn), µ¾ 0. Формально

это семейство классов содержит также класс выпуклых функций слипшицевым градиентом (S 1,1

0,L (Rn)≡F 1,1L (Rn)).

В предыдущем параграфе были доказаны следующие оценки эф-фективности градиентного метода:

F 1,1L (Rn) : f (xk)− f ∗ ¶

2L‖x0 − x∗‖2k+ 4

;

S 1,1µ,L (Rn) : f (xk)− f ∗ ¶

L2

L−µL+µ

�2k

‖x0− x∗‖2.

Эти оценки на порядок хуже нижних границ сложности (см. тео-ремы .. и ..). Разумеется, это не означает, что градиентныйметод в общей ситуации не является оптимальным, поскольку ниж-ние границы могут быть слишком оптимистичными. Однако мыувидим, что в нашем случае нижние границы являются точны-ми (с точностью до постоянного множителя). Мы докажем это

Page 102: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

построением метода, который имеет соответствующие границыэффективности.

Вспомним, что градиентный метод формирует релаксационнуюпоследовательность:

f (xk+1)¶ f (xk).

Это обстоятельство является ключевым для обоснования его ско-рости сходимости (теорема ..). Однако в теории выпуклой оп-тимизации оптимальные методы никогда не основываются на ре-лаксации. Во-первых, для некоторых классов задач это свойствооказывается слишком дорогим. Во-вторых, схемы оптимальныхметодов и их оценки эффективности выводятся из некоторых гло-бальных топологических свойств выпуклых функций. С этой точкизрения, принцип релаксации оказывается малоинтересным по при-чине своей локальности.

Схемы оптимальных методов и их оценки эффективности осно-вываются на понятии оценивающих последовательностей.

Определение ... Последовательности {ϕk(x)}∞k=0

и {λk}∞k=0

, λk ¾

¾ 0, называются оценивающими последовательностями функцииf (x), если

λk→ 0

и для любого x ∈Rn и всех k¾ 0 верно неравенство

ϕk(x)¶ (1−λk) f (x)+ λkϕ0(x). (.)

Следующее утверждение объясняет, зачем это нужно.

Лемма ... Если для некоторой последовательности {xk} выпол-няется неравенство

f (xk)¶ϕ∗k ≡minx∈Rn

ϕk(x), (.)

то f (xk)− f ∗ ¶ λk

ϕ0(x∗)− f ∗�

→ 0.

Доказательство. Действительно,

f (xk)¶ϕ∗k =minx∈Rn

ϕk(x)¶minx∈Rn

(1−λk) f (x)+ λkϕ0(x)�

¶ (1− λk) f (x∗)+ λkϕ0(x∗).

Page 103: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

Таким образом, для любой последовательности {xk}, удовлетво-ряющей условию (.), можно получить ее скорость сходимостинепосредственно из скорости сходимости последовательности {λk}.Однако на данном этапе у нас имеется два серьезных вопроса. Пер-вый заключается в том, как строить оценивающие последователь-ности. А второй –– как обеспечить выполнение условия (.). От-ветим на первый, более простой вопрос.

Лемма ... Предположим, что

) f ∈S 1,1µ,L (Rn),

) ϕ0(x) произвольная функция на Rn,

) {yk}∞k=0

произвольная последовательность в Rn,

) {αk}∞k=0

:αk ∈ (0, 1),∑∞

k=0 αk =∞,

) λ0= 1.

Тогда последовательности {ϕk(x)}∞k=0

и {λk}∞k=0

, рекуррентно опре-деляемые соотношениями

λk+1= (1−αk)λk,

ϕk+1(x)= (1−αk)ϕk(x)+

+αk[ f ( yk)+ ⟨ f ′( yk), x − yk⟩+µ

2‖x − yk‖2], (.)

являются оценивающими последовательностями.

Доказательство. В самом деле, ϕ0(x) ¶ (1 − λ0) f (x) + λ0ϕ0(x) ≡≡ ϕ0(x). Далее, пусть неравенство (.) верно для некоторогоk¾ 0. Тогда

ϕk+1(x)¶ (1−αk)ϕk(x)+αk f (x)=

= (1− (1−αk)λk) f (x)+ (1−αk)(ϕk(x)− (1− λk) f (x))¶

¶ (1− (1−αk)λk) f (x)+ (1−αk)λkϕ0(x)=

= (1−λk+1) f (x)+λk+1ϕ0(x).

Остается отметить, что условие обеспечивает выполнение условияλk→ 0.

Таким образом, данное утверждение предоставляет некие прави-ла для построения оценивающих последовательностей. Теперь у насимеются две управляющие последовательности, которые помогают

Page 104: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

добиться выполнения неравенства (.). Заметим, что начальнуюфункцию ϕ0(x) можно также выбирать произвольно. Возьмем в ка-честве ϕ0(x) простую квадратичную функцию. Тогда можно полу-чить точное описание динамики изменения ϕ∗

k.

Лемма ... Пусть ϕ0(x)= ϕ∗0 +γ0

2‖x − υ0‖2. Тогда процесс (.)

сохраняет каноническую форму функций {ϕk(x)}:

ϕk(x)≡ϕ∗k +γk

2‖x −υk‖2, (.)

где последовательности {γk}, {υk} и {ϕ∗k} определяются следующим

образом:

γk+1= (1−αk)γk +αkµ,

υk+1=1γk+1

(1−αk)γkυk +αkµyk −αk f ′( yk)�

,

ϕ∗k+1= (1−αk)ϕk +αk f ( yk)−α2

k

2γk+1

‖ f ′( yk)‖2+

+αk(1−αk)γk

γk+1

µ

2‖ yk −υk‖2 +

f ′( yk), υk − yk

.

Доказательство. Заметим, что ϕ′′0 (x)= γ0In. Докажем, что ϕ′′k

(x)== γkIn для всех k ¾ 0. Действительно, если это условие выполненопри некотором k, то

ϕ′′k+1(x)= (1−αk)ϕ′′k (x)+αkµIn=�

(1−αk)γk +αkµ�

In ≡ γk+1In,

откуда и следует каноническая форма (.) функций ϕk(x).Далее,

ϕk+1(x)= (1−αk)�

ϕ∗k +γk

2‖x −υk‖2�

+

+αk[ f ( yk)+

f ′( yk), x − yk

2‖x − yk‖2].

Поэтому уравнение ϕ′k+1

(x)= 0, которое является условием опти-мальности первого порядка для функции ϕk+1(x), переписываетсяв виде

(1−αk)γk(x −υk)+αk f ′( yk)+αkµ(x− yk)= 0.

Отсюда получаем уравнение для точки минимума υk+1 функцииϕk+1(x).

Page 105: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

Наконец, вычислим ϕ∗k+1

. Принимая во внимание правило рекур-сии для последовательности {ϕk(x)}, имеем

ϕ∗k+1 +γk+1

2‖ yk −υk+1‖2 =ϕk+1( yk)=

= (1−αk)�

ϕ∗k +γk

2‖ yk −υk‖2�

+αk f ( yk). (.)

Заметим, что в силу соотношения для υk+1 справедливо равенство

υk+1− yk =1γk+1

(1−αk)γk(υk − yk)−αk f ′( yk)�

.

Поэтому

γk+1

2‖υk+1− yk‖2 =

12γk+1

h

(1−αk)2γ2k‖υk − yk‖2−

− 2αk(1−αk)γk

f ′( yk), υk − yk

+α2k‖ f ′( yk)‖2i

.

Остается подставить это соотношение в формулу (.), обративвнимание на то, что множитель при ‖ yk − υk‖2 в этом выраженииравен

(1−αk)γk

2− 1

2γk+1

(1−αk)2γ2k = (1−αk)

γk

2

1− (1−αk)γk

γk+1

=

= (1−αk)γk

2· αkµ

γk+1

.

Теперь ситуация прояснилась, и мы близки к тому, чтобы выпи-сать алгоритмическую схему. В самом деле, предположим, что у насуже имеется такое xk, что

ϕ∗k ¾ f (xk).

Тогда из предыдущей леммы следует, что

ϕ∗k+1¾ (1−αk) f (xk)+αk f ( yk)−α2

k

2γk+1

‖ f ′( yk)‖2+

+αk(1−αk)γk

γk+1

f ′( yk), υk − yk

.

Page 106: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Поскольку f (xk) ¾ f ( yk) + ⟨ f ′( yk), xk − yk⟩, получаем следующуюоценку:

ϕ∗k+1¾ f ( yk)−α2

k

2γk+1

‖ f ′( yk)‖2+

+ (1−αk)

f ′( yk),αkγk

γk+1

(υk − yk)+ xk − yk

.

Посмотрим на это неравенство. Мы хотим, чтобы выполнялось усло-вие ϕ∗

k+1¾ f (xk+1). Напомним, что мы можем обеспечить выполне-

ние неравенства

f ( yk)− 12L‖ f ′( yk)‖2¾ f (xk+1)

разными способами. Самым простым будет сделать один градиент-ный шаг:

xk+1= yk − hk f ′(xk),

hk = 1/L (см. неравенство (.)). Определим αk ∈ (0, 1) из уравнения

Lα2k = (1−αk)γk +αkµ (= γk+1).

Тогда α2k/2γk+1 = 1/2L и можно заменить предыдущее неравенство

следующим:

ϕ∗k+1¾ f (xk+1)+ (1−αk)

f ′( yk),αkγk

γk+1

(υk − yk)+ xk − yk

.

Теперь можно использовать свободу выбора yk. Найдем его из урав-нения

αkγk

γk+1

(υk − yk)+ xk − yk = 0.

Мы получим

yk =αkγkυk + γk+1 xk

γk +αkµ.

Таким образом, мы приходим к следующему методу.

Page 107: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

Общая схема оптимального метода

. Выберем x0 ∈Rn и γ0> 0. Положим υ0= x0.. k-я итерация (k¾ 0).

а) Вычислим αk ∈ (0, 1) из уравнения

Lα2k = (1−αk)γk +αkµ.

Положим γk+1= (1−αk)γk +αkµ.б) Выберем

yk =αkγkυk + γk+1 xk

γk +αkµ

и вычислим f ( yk) и f ′( yk).в) Найдем такое xk+1, что

f (xk+1)¶ f ( yk)− 12L‖ f ′( yk)‖2

(выбор правила длины шага см. в п. ..).

г) Положимυk+1=(1−αk)γkυk +αkµyk −αk f ′( yk)

γk+1

.

(.)

Отметим, что на шаге в) этой схемы можно выбирать любуюточку xk+1, удовлетворяющую неравенству

f (xk+1)¶ f ( yk)− ω2‖ f ′( yk)‖2

с некоторым ω> 0. Тогда константа 1/ω заменяет L в уравнении изшага а).

Теорема ... Схема (.) формирует такую последовательность{xk}∞

k=0, что

f (xk)− f ∗ ¶ λk

f (x0)− f ∗ +γ0

2‖x0− x∗‖2�

,

где λ0= 1 и λk =∏k−1

i=0 (1−αi).

Доказательство. Действительно, выберем

ϕ0(x)= f (x0)+ γ0/2‖x −υ0‖2.

Тогда f (x0)=ϕ∗0, и получаем f (xk)¶ϕ∗k

по построению данной схе-мы. Остается использовать лемму ...

Таким образом, для того чтобы оценить скорость сходимости схе-мы (.), нужно понять, насколько быстро λk стремится к нулю.

Page 108: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Лемма ... Если в схеме (.) γ0¾µ, то

λk ¶min

¨

1−q

µ

L

�k

,4L

(2p

L+ kpγ0)2

«

. (.)

Доказательство. В самом деле, если γk ¾ µ, то

γk+1= Lα2k = (1−αk)γk +αkµ¾ µ.

Так как γ0¾ µ, мы заключаем, что это неравенство выполняется для

всех γk. Отсюда следует, что αk ¾

p

µ/L, и первое неравенство в фор-муле (.) доказано.

Далее, докажем, что γk ¾ γ0λk. Поскольку γ0= γ0λ0, по индукцииполучаем, что

γk+1¾ (1−αk)γk ¾ (1−αk)γ0λk = γ0λk+1.

Поэтому Lα2k= γk+1¾ γ0λk+1.

Введем обозначение ak = 1/p

λk. Так как последовательность{λk} убывающая, мы имеем

ak+1− ak =

p

λk −p

λk+1p

λkλk+1

=λk −λk+1

p

λkλk+1(p

λk +

p

λk+1)¾

¾λk −λk+1

2λk

p

λk+1

=λk − (1−αk)λk

2λk

p

λk+1

=αk

2p

λk+1

¾12

q

γ0

L.

Таким образом, ak ¾ 1+ k/2p

γ0/L, и лемма доказана.

Приведем точное утверждение об оптимальности схемы (.).

Теорема ... Пусть в схеме (.) выполняется условие γ0= L. То-гда эта схема генерирует такую последовательность {xk}∞

k=0, что

f (xk)− f ∗ ¶ L min

¨

1−q

µ

L

�k

,4

(k+ 2)2

«

‖x0− x∗‖2.

Это означает, что схема (.) оптимальна для задачи безусловнойминимизации функций из класса S 1,1

µ,L (Rn), µ¾ 0.

Доказательство. Приведенное неравенство выводится из соотно-шения f (x0)− f ∗ ¶ L/2‖x0 − x∗‖2, а также из теоремы .. и лем-мы ...

Page 109: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

Пусть µ> 0. Из нижних границ сложности для рассматриваемогокласса функций (см. теорему ..) получаем

f (xk)− f ∗ ¾µ

2

�p

Q f − 1p

Q f + 1

�2k

R2¾µ

2exp

− 4kp

Q f − 1

R2,

где Q f = L/µ и R= ‖x0 − x∗‖. Поэтому нижняя граница числа ите-раций для построения точки xk, удовлетворяющей неравенствуf (xk)− f ∗ ¶ ǫ, не может быть больше чем

p

Q f − 1

4

h

ln1ǫ+ ln

µ

2+ 2 ln Ri

.

Для нашей схемы имеет место оценка

f (xk)− f ∗ ¶ LR2�

1−q

µ

L

�k

¶ LR2 exp�

− kp

Q f

.

Поэтому мы гарантируем, что k ¶p

Q f

ln(1/ǫ)+ ln L+ 2 ln R�

. Та-

ким образом, основной член в этой оценкеp

Q f ln(1/ǫ) пропорци-онален нижней границе. Аналогичное рассуждение можно исполь-зовать для класса S 1,1

0,L (Rn).

Рассмотрим один их вариантов схемы (.), в котором использу-ется градиентный шаг для нахождения точки xk+1.

Схема с постоянным шагом, I

. Выберем x0 ∈Rn и γ0> 0. Положим υ0= x0.. k-я итерация (k¾ 0).

а) Вычислим αk ∈ (0, 1) из уравнения

Lα2k = (1−αk)γk +αkµ.

Установим γk+1= (1−αk)γk +αkµ.

б) Выберем yk =αkγkυk + γk+1 xk

γk +αkµ.

Вычислим f ( yk) и f ′( yk).в) Положим xk+1= yk − 1/Lf ′( yk) и

υk+1=1γk+1

(1−αk)γkυk +αkµyk −αk f ′( yk)�

.

(.)

Page 110: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Покажем, что эту схему можно переписать в более простой фор-ме. Для этого заметим, что

yk =1

γk +αkµ(αkγkυk + γk+1xk),

xk+1= yk −1L

f ′( yk),

υk+1=1γk+1

(1−αk)γkυk +αkµyk −αk f ′( yk)�

.

Поэтому

υk+1=1γk+1

§

(1−αk)

αk

(γk +αkµ) yk − γk+1xk

+αkµyk −αk f ′( yk)

ª

=

=1γk+1

§

(1−αk)γk

αk

yk + µyk

ª

− 1−αk

αk

xk −αk

γk+1

f ′( yk)=

= xk +1αk

( yk − xk)− 1αk L

f ′( yk)=

= xk +1αk

(xk+1− xk).

Отсюда получаем

yk+1=1

γk+1 +αk+1µ(αk+1γk+1υk+1+ γk+2xk+1)=

= xk+1+αk+1γk+1(υk+1 − xk+1)

γk+1 +αk+1µ= xk+1+βk(xk+1− xk),

где

βk =αk+1γk+1(1−αk)

αk(γk+1 +αk+1µ).

Таким образом, нам удалось избавиться от {υk}. Можно также ис-ключить и γk. Итак,

α2k L= (1−αk)γk + µαk ≡ γk+1.

Поэтому

βk =αk+1γk+1(1−αk)

αk(γk+1 +αk+1µ)=

αk+1γk+1(1−αk)

αk(γk+1 +α2k+1

L− (1−αk+1)γk+1)=

=γk+1(1−αk)

αk(γk+1 +αk+1 L)=αk(1−αk)

α2k+αk+1

.

Заметим также, что α2k+1= (1−αk+1)α2

k+ qαk+1, где q= µ/L, и

α20L= (1−α0)γ0+ µα0.

Page 111: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

Последнее соотношение означает, что γ0 можно рассматривать какфункцию от α0. Таким образом, можно полностью исключить после-довательность {γk}. Выпишем соответствующую схему.

Схема с постоянным шагом, II

. Выберем x0 ∈Rn и α0 ∈ (0, 1).Положим y0= x0 и q=µ/L.

. k-я итерация (k¾ 0).a) Вычислим f ( yk) и f ′( yk). Положим

xk+1= yk −1L

f ′( yk).

б) Вычислим αk+1 ∈ (0, 1) из уравнения

α2k+1= (1−αk+1)α2

k + qαk+1

и положим βk =αk(1−αk)

α2k+αk+1

,

yk+1= xk+1+βk(xk+1− xk).

(.)

Скорость сходимости данной схемы можно вывести из теоре-мы .. и леммы ... Выпишем соответствующее утверждение,используя α0 в качестве основного параметра.

Теорема ... Если в схеме (.) выполняется условие

α0¾

q

µ

L, (.)

то

f (xk)− f ∗ ¶min

1−q

µ

L

�k

,4L

(2p

L+ kpγ0)2

«

×

�

f (x0)− f ∗ +γ0

2‖x0− x∗‖2�

,

где γ0=α0(α0 L−µ)

1−α0

.

Нет необходимости доказывать эту теорему, поскольку первона-чальная схема не изменилась. Поменялись только обозначения. Втеореме .. условие (.) эквивалентно неравенству γ0¾µ.

Page 112: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Схема (.) становится еще проще, если выбрать α0 =

p

µ/L (этосоответствует γ0=µ). Тогда

αk =

q

µ

L, βk =

pL−pµp

L+pµ

для всех k¾ 0. Таким образом, мы приходим к следующему алгоритму.

Схема с постоянным шагом, III

. Выберем y0= x0 ∈Rn.. k-я итерация (k¾ 0):

xk+1= yk −1L

f ′( yk),

yk+1= xk+1+

pL−pµp

L+pµ

(xk+1− xk).

(.)

Однако отметим, что эта схема не работает при µ= 0. С этой точ-ки зрения, выбор γ0= L (который изменяет соответствующее значе-ние α0) является более надежным.

... Выпуклые множества

Попытаемся понять, какие задачи условной минимизации мы мо-жем эффективно решать. Начнем с простейшей задачи, в которойнет функциональных ограничений:

minx∈Q

f (x),

где Q –– некоторое множество в пространстве Rn. Возможность ре-шения этой задачи зависит как от свойств целевой функции, так иот свойств множества Q. Прежде всего ответим на такой вопрос:какие множества наиболее естественно соответствуют классу вы-пуклых функций? Из определения выпуклой функции

f (αx + (1−α) y)¶α f (x)+ (1−α) f ( y) ∀x, y ∈Rn, α∈ [0, 1]

неявным образом следует, что можно проверять это неравенство влюбой точке сегмента [x, y]:

[x, y]=�

z=αx + (1−α) y, α∈ [0, 1]

.

Page 113: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

Таким образом, было бы естественным рассмотреть множество, ко-торое полностью содержит сегмент [x, y] при условии, что конеч-ные точки x и y тоже принадлежат этому множеству. Такие множе-ства называются выпуклыми.

Определение ... Множество Q называется выпуклым, если длялюбых x, y ∈Q и α из [0, 1] выполнено включение

αx + (1−α) y ∈Q.

Точка αx + (1−α) y, где α∈ [0, 1], называется выпуклой комбина-цией двух рассматриваемых точек.

По сути мы уже встречались с некоторыми выпуклыми множе-ствами.

Лемма ... Если f (x) –– выпуклая функция, то для любого β ∈R1

соответствующие множества уровней

L f (β)=�

x ∈Rn | f (x)¶β

являются либо выпуклыми, либо пустыми.

Доказательство. Действительно, пусть x и y лежат в L f (β). Тогдаf (x)¶ β и f ( y)¶ β . Поэтому

f (αx + (1−α) y)¶α f (x)+ (1−α) f ( y)¶β .

Лемма ... Пусть функция f (x) выпукла. Тогда ее надграфик

E f =�

(x, τ)∈Rn+1 | f (x)¶τ

есть выпуклое множество.

Доказательство. Пусть z1 = (x1, τ1) ∈ E f и z2 = (x2, τ2) ∈ E f . Тогдадля любого α∈ [0, 1] имеем

zα≡αz1+ (1−α)z2= (αx1+ (1−α)x2, ατ1+ (1−α)τ2),

f (αx1+ (1−α)x2)¶α f (x1)+ (1−α) f (x2)¶ατ1+ (1−α)τ2.

Таким образом, zα ∈E f .

Рассмотрим некоторые свойства выпуклых множеств.

Page 114: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Теорема ... Пусть Q1 ⊆Rn и Q2 ⊆Rm –– выпуклые множества иA (x) –– линейный оператор,

A (x)= Ax + b :Rn→Rm.

Тогда все множества, приведенные ниже, являются выпуклыми:

) пересечение (m= n): Q1 ∩Q2=�

x ∈Rn | x ∈Q1, x ∈Q2

;) сумма (m= n): Q1+Q2=

z= x + y | x ∈Q1, y ∈Q2

;) прямая сумма: Q1×Q2=

(x, y)∈Rn+m | x ∈Q1, y ∈Q2

;) коническая оболочка: K (Q1)=

z ∈Rn | z=β x, x ∈Q1, β ¾ 0

;) выпуклая оболочка:

Conv(Q1, Q2)=�

z ∈Rn |z=αx + (1−α),

y, x ∈Q1, y ∈Q2, α∈ [0, 1]

;

) аффинный образ: A (Q1)=�

y ∈Rm | y =A (x), x ∈Q1

;) аффинный прообраз: A −1(Q2)= {x ∈Rn |A (x)∈Q2}.

Доказательство. . Если x1 ∈Q1 ∩Q2, x2 ∈Q1 ∩Q2, то [x1, x2]⊂Q1 и[x1, x2]⊂Q2. Поэтому [x1, x2]⊂Q1 ∩Q2.

. Если z1= x1+ x2, x1 ∈Q1, x2 ∈Q2, и z2= y1+ y2, y1 ∈Q1, y2 ∈Q2, тоαz1+ (1−α)z2= (αx1+ (1−α) y1)1+ (αx2+ (1−α) y2)2,

где (·)1 ∈Q1 и (·)2 ∈Q2.

. Если z1 = (x1, x2), x1 ∈Q1, x2 ∈Q2, и z2 = ( y1, y2), y1 ∈Q1, y2 ∈ Q2,то

αz1+ (1−α)z2= ((αx1+ (1−α) y1)1, (αx2+ (1−α) y2)2),

где (·)1 ∈Q1 и (·)2 ∈Q2.

. Если z1 = β1 x1, x1 ∈Q1, β1 ¾ 0, и z2 = β2 x2, x2 ∈ Q1, β2 ¾ 0, то длялюбого α∈ [0, 1] имеем

αz1+ (1−α)z2=αβ1 x1+ (1−α)β2 x2= γ(αx1+ (1− α)x2),

где γ=αβ1+ (1−α)β2 и α=αβ1/γ∈ [0, 1].

. Если z1 = β1 x1 + (1 − β1)x2, x1 ∈ Q1, x2 ∈ Q2, β1 ∈ [0, 1], и z2 =

= β2 y1 + (1 − β2) y2, y1 ∈ Q1, y2 ∈ Q2, β2 ∈ [0, 1], то для любого α ∈∈ [0, 1] имеем

αz1+ (1−α)z2=α(β1 x1+ (1−β1)x2)+

+ (1−α)(β2 y1+ (1− β2) y2)= α(β1 x1+ (1− β1) y1)+

+ (1− α)(β2x2+ (1− β2) y2),

Page 115: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

где α=αβ1 + (1−α)β2 и β1=αβ1/α, β2=α(1−β1)/(1− α).

. Если y1, y2 ∈A (Q1), то y1 = Ax1 + b и y2= Ax2 + b для некоторыхx1, x2 ∈Q1. Поэтому для y(α)=αy1 + (1−α) y2, 0¶α¶ 1, выполненосоотношение

y(α)=α(Ax1+ b)+ (1−α)(Ax2+ b)= A(αx1+ (1−α)x2)+ b.

Таким образом, y(α)∈A (Q1).

. Если x1, x2 ∈A −1(Q2), то Ax1+ b= y1 и Ax2+ b= y2 для некоторыхy1, y2 ∈Q2. Поэтому для x(α)=αx1+ (1−α)x2, 0¶α¶ 1, имеем

A (x(α))= A(αx1+ (1−α)x2)+ b=

=α(Ax1+ b)+ (1−α)(Ax2+ b)=αy1 + (1−α) y2 ∈Q2.

Приведем несколько примеров выпуклых множеств.

Пример ... . Полупространство�

x ∈Rn | ⟨a, x⟩¶β

–– выпуклоемножество, поскольку линейная функция выпукла.

. Многогранник�

x ∈Rn | ⟨ai, x⟩¶ bi, i= 1, …, m

является выпуклымкак пересечение выпуклых множеств.

. Эллипсоид. Пусть A= AT � 0. Тогда множество�

x ∈ Rn | ⟨Ax, x⟩¶¶ r2

является выпуклым, поскольку функция ⟨Ax, x⟩ выпукла.

Выпишем условия оптимальности для задачи

minx∈Q

f (x), f ∈F 1(Rn), (.)

где Q –– выпуклое замкнутое множество. Очевидно, что прежнееусловие

f ′(x)= 0

здесь не работает.

Пример ... Рассмотрим одномерную задачу:

x→minx¾0

.

Здесь x ∈ R1, Q = {x | x ¾ 0} и f (x) = x. Заметим, что x∗ = 0, ноf ′(x∗)= 1> 0.

Page 116: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Теорема ... Пусть f ∈F 1(Rn) и Q есть выпуклое замкнутое мно-жество. Точка x∗ является решением задачи (.) тогда и толькотогда, когда

f ′(x∗), x − x∗�

¾ 0 (.)

для всех x ∈Q.

Доказательство. В самом деле, если верно неравенство (.), то

f (x)¾ f (x∗)+

f ′(x∗), x − x∗�

¾ f (x∗)

при всех x ∈Q.Пусть x∗ является решением задачи (.). Предположим, что су-

ществует такая точка x ∈Q, что

f ′(x∗), x − x∗�

< 0.

Рассмотрим функцию ϕ(α)= f (x∗ + α(x − x∗)), α ∈ [0, 1]. Заметим,что

ϕ(0)= f (x∗), ϕ′(0)=

f ′(x∗), x − x∗�

< 0.

Поэтому при достаточно малых α имеем

f (x∗+α(x− x∗))=ϕ(α)<ϕ(0)= f (x∗).

Получили противоречие. Теорема доказана.

Теорема ... Пусть f ∈ S 1µ (Rn) и Q есть выпуклое замкнутое

множество. Тогда решение x∗ задачи (.) существует и единствен-но.

Доказательство. Пусть x0 ∈Q. Рассмотрим множество ¯Q =�

x ∈Q || f (x)¶ f (x0)

. Заметим, что задача (.) эквивалентна следующей

minx∈¯Q

f (x). (.)

Однако множество ¯Q ограничено: для всех x ∈ ¯Q имеем

f (x0)¾ f (x)¾ f (x0)+

f ′(x0), x − x0

2‖x − x0‖2.

Отсюда следует, что ‖x − x0‖¶ 2/µ‖ f ′(x0)‖.Таким образом, решение x∗ задачи (.) (≡ (.)) существует.

Докажем, что оно единственно. Действительно, если x∗1 также есть

Page 117: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

оптимальное решение задачи (.), то

f ∗ = f (x∗1)¾ f (x∗)+

f ′(x∗), x∗1− x∗�

2‖x∗1− x∗‖2¾

¾ f ∗ +µ

2‖x∗1− x∗‖2

(здесь мы использовали теорему ..). Отсюда следует, что x∗1= x∗.

... Градиентное отображение

В задачах условной минимизации градиент целевой функции ин-терпретируется не так, как в задачах без ограничений. В предыду-щем параграфе уже упоминалось об изменении роли градиента вусловиях оптимальности. Кроме того, из-за возможности получениянедопустимой точки здесь больше нельзя использовать градиент-ный шаг.

Среди свойств градиента функции f ∈F 1,1L (Rn) можно выделить

два основных. Первое заключается в том, что градиентный шагуменьшает значение функции на величину, сравнимую с квадратомнормы градиента:

f�

x − 1L

f ′(x)�

¶ f (x)− 12L‖ f ′(x)‖2.

Второе свойство выражается неравенством

f ′(x), x − x∗�

¾1L‖ f ′(x)‖2.

Оказывается, для задач условной минимизации можно ввести но-вое понятие, которое унаследует наиболее важные свойства гради-ента.

Определение ... Зафиксируем некоторое γ> 0. Обозначим

xQ(x; γ)= arg minx∈Q

h

f (x)+

f ′(x), x − x�

2‖x − x‖2i

,

gQ(x; γ)= γ(x − xQ(x; γ)).

Тогда gQ(γ, x) называется градиентным отображением функции f ,определенной на множестве Q.

Для Q≡Rn имеем

xQ(x; γ)= x − 1γ

f ′(x), gQ(x; γ)= f ′(x).

Page 118: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Таким образом, значение 1/γ можно рассматривать как длину «гра-диентного» шага

x→ xQ(x; γ).

Заметим, что определение градиентного отображения коррект-но (это следует из теоремы ..). Более того, направление gQ(x; γ)определено при всех x ∈Rn, не обязательно принадлежащих Q.

Представим основное свойство градиентного отображения.

Теорема ... Пусть f ∈S 1,1µ,L (Rn), γ¾ L и x ∈Rn. Тогда для любого

x ∈Q верно неравенство

f (x)¾ f (xQ(x; γ))+

gQ(x; γ), x − x�

+

+1

2γ‖gQ(x; γ)‖2+ µ

2‖x − x‖2. (.)

Доказательство. Введем обознвчения xQ = xQ(γ, x), gQ = gQ(γ, x), ипусть

ϕ(x)= f (x)+

f ′(x), x − x�

2‖x − x‖2.

Тогда ϕ′(x)= f ′(x)+ γ(x − x) и для любого x ∈Q выполняется усло-вие

f ′(x)− gQ, x − xQ

=

ϕ′(xQ), x − xQ

¾ 0.

Поэтому

f (x)− µ2‖x − x‖2¾ f (x)+

f ′(x), x − x�

=

= f (x)+

f ′(x), xQ − x�

+

f ′(x), x − xQ

¾

¾ f (x)+

f ′(x), xQ − x�

+

gQ, x − xQ

=

=ϕ(xQ)− γ2‖xQ − x‖2+

gQ, x − xQ

=

=ϕ(xQ)− 12γ‖gQ‖2 +

gQ, x − xQ

=

=ϕ(xQ)+1

2γ‖gQ‖2 +

gQ, x − x�

и ϕ(xQ)¾ f (xQ), так как γ¾ L.

Следствие ... Пусть f ∈S 1,1µ,L (Rn), γ¾ L и x ∈Rn. Тогда

f (xQ(x; γ))¶ f (x)− 12γ‖gQ(x; γ)‖2, (.)

Page 119: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

gQ(x; γ), x − x∗�

¾1

2γ‖gQ(x; γ)‖2+ µ

2‖x − x‖2. (.)

Доказательство. В самом деле, используя неравенство (.) сx = x, получаем оценку (.). С другой стороны, используя неравен-ство (.) с x = x∗, получаем оценку (.), поскольку f (xQ(x; γ))¾¾ f (x∗).

... Методы минимизации на простых множествах

Покажем, как можно использовать градиентное отображение длярешения следующей задачи:

minx∈Q

f (x),

где f ∈ S 1,1µ,L (Rn) и Q –– выпуклое замкнутое множество. Предполо-

жим, что множество Q устроено достаточно просто, так что длянего явным образом можно вычислить градиентное отображение.Это предположение верно, например, для положительного ортанта,для n-мерного прямоугольного параллелепипеда, для симплекса,для евклидова шара и некоторых других множеств.

Начнем с градиентного метода.

Градиентный метод для простых множеств

. Выберем x0 ∈Q.. k-я итерация (k¾ 0):

xk+1= xk − hgQ(xk; L).

(.)

Анализ эффективности этой схемы схож с анализом ее вариантадля задачи без ограничений. Приведем пример этих рассуждений.

Теорема ... Пусть f ∈S 1,1µ,L (Rn). Если в схеме (.) h= 1/L, то

‖xk − x∗‖2 ¶�

1− µL

�k

‖x0− x∗‖2.

Доказательство. Обозначим rk = ‖xk − x∗‖, gQ = gQ(xk; L). Тогда,используя неравенство (.), получим

r2k+1= ‖xk − x∗ − hgQ‖2 = r2

k − 2h

gQ, xk − x∗�

+h2‖gQ‖2 ¶

¶ (1− hµ)r2k + h�

h− 1L

‖gG‖=�

1− µL

r2k .

Page 120: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Заметим, что для шага h= 1/L выполняется равенство

xk+1= xk −1L

gQ(xk; L)= xQ(xk; L).

Рассмотрим теперь оптимальные методы. Опишем рассужде-ния в общих чертах, поскольку они очень схожи с изложеннымив п. ...

Прежде всего определим оценивающую последовательность.Предположим, что x0 ∈Q. Определим

ϕ0(x)= f (x0)+γ0

2‖x − x0‖2,

ϕk+1(x)= (1−αk)ϕk(x)+αk

h

f (xQ( yk; L))+1

2L‖gQ( yk; L)‖2+

+ ⟨gQ( yk; L), x − yk⟩+µ

2‖x − yk‖2i

.

Поскольку вместо неравенства (.) мы используем теперь (.),рекуррентные формулы для ϕk(x) выглядят по-другому. Однако ана-литическая структура этих функций остается неизменной. Поэтомувсе результаты о сходимости, описанные в п. .., сохраняются.

Легко увидеть, что оценивающую последовательность {ϕk(x)}можно переписать как

ϕk(x)=ϕ∗k +γk

2‖x −υk‖2

со следующими рекуррентными правилами для γk, υk и ϕ∗k:

γk+1=(1−αk)γk +αkµ,

υk+1=1γk+1

(1−αk)γkυk +αkµyk −αk gQ( yk; L)�

,

ϕ∗k+1= (1−αk)ϕk +αk f (xQ( yk; L))+�

αk

2L−

α2k

2γk+1

‖gQ( yk; L)‖2+

+αk(1−αk)γk

γk+1

µ

2‖ yk −υk‖2 +

gQ( yk; L), υk − yk

.

Далее, предполагая, что ϕ∗k¾ f (xk), и используя неравенство

f (xk)¾ f (xQ( yk; L))+

gQ( yk; L), xk − yk

+

+1

2L‖gQ( yk; L)‖2+ µ

2‖xk − yk‖2,

Page 121: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Оптимальные методы

приходим к следующей нижней границе:

ϕ∗k+1¾ (1−αk) f (xk)+αk f (xQ( yk; L))+

+

αk

2L−

α2k

2γk+1

‖gQ( yk; L)‖2+ αk(1−αk)γk

γk+1

gQ( yk; L), υk − yk

¾

¾ f (xQ( yk; L))+�

12L−

α2k

2γk+1

‖gQ( yk; L)‖2+

+ (1−αk)

gQ( yk; L),αkγk

γk+1

(υk − yk)+ xk − yk

.

Таким образом, снова можно выбрать

xk+1= xQ( yk; L),

Lα2k = (1−αk)γk +αkµ≡ γk+1,

yk =1

γk +αkµ(αkγkυk + γk+1xk).

Выпишем соответствующий вариант схемы (.).

Схема с постоянным шагом, II.Простые множества

. Выберем x0 ∈Rn и α0 ∈ (0, 1).Положим y0= x0 и q=µ/L.

. k-я итерация (k¾ 0).

a) Вычислим f ( yk) и f ′( yk). Положим

xk+1= xQ( yk; L).

б) Вычислим αk+1 ∈ (0, 1) из уравнения

α2k+1= (1−αk+1)α2

k + qαk+1

и положим βk =αk(1−αk)

α2k+αk+1

,

yk+1= xk+1+βk(xk+1− xk).

(.)

Очевидно, что скорость сходимости этого метода определяетсятеоремой ... В данной схеме только точки {xk} являются допусти-мыми для Q, в то время как точки последовательности {yk}, которыеиспользуются для вычисления градиентного отображения, могут ине быть допустимыми.

Page 122: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

§ .. Задача минимизации функций с гладкимикомпонентами

Минимаксная задача: градиентное отображение, градиентный метод, опти-мальные методы. Задачи при функциональных ограничениях. Методы услов-ной минимизации.

... Минимаксная задача

Зачастую целевая функция в задачах оптимизации состоит изнескольких компонент. Например, надежность сложных системыобычно определяется как минимальная надежность ее составныхчастей. Задача минимизации при функциональных ограниченияхпредставляет собой другой пример взаимосвязи нескольких нели-нейных функций и т. д.

Простейшей задачей такого типа является минимаксная задача.В этом пункте мы будем рассматривать гладкую минимаксную за-дачу:

minx∈Q

f (x)= max1¶i¶m

fi(x), (.)

где fi ∈ S 1,1µ,L (Rn), i = 1, …, m, и Q –– выпуклое замкнутое множе-

ство. Назовем функцию f (x) функцией типа максимума, если онасформирована компонентами fi(x) (см. задачу (.)). Включениеf ∈S 1,1

µ,L (Rn) означает, что все компоненты функции f принадлежатэтому классу.

Заметим, что в общем случае функция f (x) не является диффе-ренцируемой. Однако при условии, что все fi –– дифференцируемыефункции, можно ввести в рассмотрение объект, который ведет себяв точности как линейная аппроксимация гладкой функции.

Определение ... Пусть f является функцией типа максимума:

f (x)= max1¶i¶m

fi(x).

Кусочнолинейная функция

f (x; x)= max1¶i¶m

fi(x)+ ⟨ f ′i (x), x − x⟩�

называется линеаризацией функции f (x) в точке x.

Сравним следующий результат с неравенствами (.) и (.).

Page 123: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задача минимизации функций с гладкими компонентами

Лемма ... Для любого x ∈Rn имеют место неравенства

f (x)¾ f (x; x)+µ

2‖x − x‖2, (.)

f (x)¶ f (x; x)+L2‖x − x‖2. (.)

Доказательство. В самом деле,

fi(x)¾ fi(x)+

f ′i (x), x − x�

2‖x − x‖2

(см. неравенство (.)). Взяв максимум по i, получим оценку (.).Для доказательства неравенства (.) используем оценку

fi(x)¶ fi(x)+

f ′i (x), x − x�

+L2‖x − x‖2

(см. неравенство (.)).

Запишем условия оптимальности для задачи (.) (ср. с теоре-мой ..).

Теорема ... Точка x∗ ∈Q является решением задачи (.) тогдаи только тогда, когда для любого x ∈Q выполняется неравенство

f (x∗; x)¾ f (x∗; x∗)= f (x∗). (.)

Доказательство. Действительно, если выполнено неравенство (.),то

f (x)¾ f (x∗; x)¾ f (x∗; x∗)= f (x∗)

при всех x ∈Q.Пусть x∗ есть решение задачи (.). Предположим, что существу-

ет такая точка x ∈Q, что f (x∗; x)< f (x∗). Рассмотрим функции

ϕi(α)= fi(x∗+α(x− x∗)), i= 1, …, m.

Заметим, что для всех i, 1¶ i¶m, выполнено неравенство

fi(x∗)+

f ′i (x∗), x − x∗�

< f (x∗)= max1¶i¶m

fi(x∗).

Поэтому либо ϕi(0)≡ fi(x∗)< f (x∗), либо

ϕi(0)= f (x∗), ϕ′i (0)=

f ′i (x∗), x − x∗�

< 0.

Значит, при достаточно малом α получаем

fi(x∗+α(x − x∗))=ϕi(α)< f (x∗)

для всех i, 1¶ i¶m. Приходим к противоречию.

Page 124: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Следствие ... Пусть x∗ есть минимум функции типа максимумаf (x) на множестве Q. Если f принадлежит S 1

µ (Rn), то

f (x)¾ f (x∗)+µ

2‖x − x∗‖2

при всех x ∈Q.

Доказательство. В силу неравенства (.) и теоремы .. для лю-бого x ∈Q получаем

f (x)¾ f (x∗; x)+µ

2‖x − x∗‖2¾

¾ f (x∗; x∗)+µ

2‖x − x∗‖2 = f (x∗)+

µ

2‖x − x∗‖2.

Наконец, докажем теорему существования.

Теорема ... Пусть функция типа максимума f (x) принадлежитклассу S 1

µ (Rn), µ > 0, и пусть Q есть выпуклое замкнутое множе-

ство. Тогда оптимальное решение x∗ задачи (.) существует иединственно.

Доказательство. Пусть x ∈ Q. Рассмотрим множество ¯Q =�

x ∈ Q || f (x)¶ f (x)

. Заметим, что задача (.) эквивалентна следующейзадаче

min�

f (x) | x ∈ ¯Q

. (.)

Но ¯Q ограничено: для любого x ∈ ¯Q выполняется неравенство

f (x)¾ fi(x)¾ fi(x)+

f ′i (x), x − x�

2‖x − x‖2,

следовательно,

µ

2‖x − x‖2¶ ‖ f ′(x)‖ · ‖x − x‖+ f (x)− fi(x).

Таким образом, решение x∗ задачи (.) (и задачи (.)) существу-ет.

Если x∗1 является другим решением задачи (.), то

f (x∗)= f (x∗1)¾ f (x∗; x∗1)+µ

2‖x∗1− x∗‖2 ¾ f (x∗)+

µ

2‖x∗1− x∗‖2

(ввиду неравенства (.)). Поэтому x∗1= x∗.

Page 125: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задача минимизации функций с гладкими компонентами

... Градиентное отображение

В п. .. было введено градиентное отображение, которое иг-рает роль градиента в задачах условной минимизации на простыхмножествах. Так как линеаризация функции типа максимума ведетсебя так же, как и линеаризация гладкой функции, можно попы-таться адаптировать понятие градиентного отображения к нашейситуации.

Зафиксируем некоторые γ> 0 и x ∈Rn. Рассмотрим функцию ти-па максимума f (x). Введем обозначение

fγ(x; x)= f (x; x)+γ

2‖x − x‖2.

Следующее определение является обобщением определения ...

Определение ... Пусть

f ∗(x; γ)=minx∈Q

fγ(x; x),

x f (x; γ)= arg minx∈Q

fγ(x; x),

g f (x; γ)= γ(x− x f (x; γ)).

Функция g f (x; γ) называется градиентным отображением функциитипа максимума f на Q.

Для m= 1 это определение эквивалентно определению ... Ана-логично точка x, в которой проводится линеаризация, не обязатель-но должна принадлежать множеству Q.

Очевидно, что fγ(x; x) есть функция типа максимума, составлен-ная из компонент

fi(x)+

f ′i (x), x − x�

2‖x − x‖2 ∈S 1,1

γ,γ (Rn), i= 0, …, m.

Поэтому градиентное отображение определено корректно (теоре-ма ..).

Докажем основной результат этого пункта, который подчеркива-ет сходство между свойствами градиентного отображения и свой-ствами градиента (ср. с теоремой ..).

Теорема ... Пусть f ∈S 1,1µ,L (Rn). Тогда для всех x ∈Q имеет ме-

сто неравенство

f (x; x)¾ f ∗(x; γ)+

g f (x; γ), x − x�

+1

2γ‖g f (x; γ)‖2. (.)

Page 126: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Доказательство. Введем обозначения x f = x f (x; γ), g f = g f (x; γ).Очевидно, что fγ(x; x) ∈ S 1,1

γ,γ (Rn) и что fγ(x; x) –– функция типамаксимума. Поэтому все результаты предыдущего пункта можнотакже применить и к fγ.

Поскольку x f = arg minx∈Q

fγ(x; x), в силу следствия .. и теоре-

мы .. получаем

f (x; x)= fγ(x; x)− γ2‖x − x‖2 ¾

¾ fγ(x; x f )+γ

2

‖x − x f ‖2 −‖x − x‖2�

¾

¾ f ∗(x; γ)+γ

2⟨x − x f , 2x − x f − x⟩=

= f ∗(x; γ)+γ

2

x − x f , 2(x − x)+ x − x f

=

= f ∗(x; γ)+ ⟨g f , x − x⟩+ 12γ‖g f ‖2.

В дальнейшем нам понадобится такое следствие из теоремы ...

Следствие ... Пусть f ∈S 1,1µ,L (Rn) и γ¾ L. Тогда

. для любого x ∈Q и x ∈Rn имеет место неравенство

f (x)¾ f (x f (x; γ))+ ⟨g f (x; γ), x − x⟩+

+1

2γ‖g f (x; γ)‖2+ µ

2‖x − x‖2; (.)

. если x ∈Q, то

f (x f (x; γ))¶ f (x)− 12γ‖g f (x; γ)‖2; (.)

. для любого x ∈Rn верно неравенство

⟨g f (x; γ), x − x∗⟩¾ 12γ‖g f (x; γ)‖2+ µ

2‖x∗ − x‖2. (.)

Доказательство. Предположение γ ¾ L обеспечивает неравенствоf ∗(x; γ) ¾ f (x f (x; γ)). Поэтому оценка (.) следует из неравен-ства (.), поскольку

f (x)¾ f (x; x)+µ

2‖x − x‖2

при всех x ∈Rn (см. лемму ..).

Page 127: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задача минимизации функций с гладкими компонентами

Используя неравенство (.) с x = x, получим оценку (.). Ис-пользуя неравенство (.) с x = x∗, получим оценку (.) ввидунеравенства f (x f (x; γ))− f (x∗)¾ 0.

Наконец, оценим изменение величины f ∗(x; γ) в зависимости отпараметра γ.

Лемма ... Для любых γ1, γ2 > 0 и x ∈ Rn выполняется неравен-ство

f ∗(x; γ2)¾ f ∗(x; γ1)+γ2 − γ1

2γ1γ2

‖g f (x; γ1)‖2.

Доказательство. Введем обозначения xi = x f (x; γi), gi = g f (x; γi),i= 1, 2. Из неравенства (.) следует, что

f (x; x)+γ2

2‖x − x‖2¾ f ∗(x; γ1)+ ⟨g1, x − x⟩+

+1

2γ1

‖g1‖2 +γ2

2‖x − x‖2 (.)

для всех x ∈Q. В частности, для x = x2 получаем

f ∗(x; γ2)= f (x; x2)+γ2

2‖x2− x‖2¾

¾ f ∗(x; γ1)+ ⟨g1, x2− x⟩+ 12γ1

‖g1‖2 +γ2

2‖x2− x‖2 =

= f ∗(x; γ1)+1

2γ1

‖g1‖2 −1γ2

⟨g1, g2⟩+1

2γ2

‖g2‖2¾

¾ f ∗(x; γ1)+1

2γ1

‖g1‖2 −1

2γ2

‖g1‖2.

... Методы минимизации для минимаксной задачи

Начнем изучение численных методов решения задачи (.) с«градиентного» метода с постоянным шагом.

Градиентный метод для минимаксной задачи

. Выберем x0 ∈Q и h> 0:. k-я итерация (k¾ 0).

xk+1= xk − h g f (xk; L).

(.)

Page 128: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Теорема ... Пусть f ∈ S 1,1µ,L (Rn). Если в схеме (.) выбрать

h¶ 1/L, то

‖xk − x∗‖2 ¶ (1−µh)k‖x0− x∗‖2.

Доказательство. Введем обозначения rk = ‖xk − x∗‖, g = g f (xk; L).Тогда в силу неравенства (.) получим

r2k+1= ‖xk − x∗ − hgQ‖2 = r2

k − 2h⟨g, xk − x∗⟩+ h2‖g‖2 ¶

¶ (1− hµ)r2k + h�

h− 1L

‖g‖2¶ (1−µh)r2k .

Заметим, что при h= 1/L выполняется равенство

xk+1= xk −1L

g f (xk; L)= x f (xk; L).

Скорость сходимости схемы (.) с такой длиной шага дается нера-венством

‖xk − x∗‖2 ¶�

1− µL

�k

‖x0− x∗‖2.

Сравнивая этот результат с теоремой .., можно увидеть, что вминимаксной задаче градиентный метод имеет ту же скорость схо-димости, что и в случае минимизации гладкой функции.

Проверим, как ведут себя здесь оптимальные методы. Вспомним,что для построения оптимального метода необходимо ввести оце-нивающие последовательности с некими правилами рекуррентногообновления. Формально говоря, минимаксная задача отличается отзадачи безусловной минимизации только видом нижней аппроксима-ции целевой функции. Для задачи без ограничений для пересчета оце-нивающей последовательности использовалось неравенство (.).Теперь же его необходимо заменить на неравенство (.).

Введем оценивающую последовательность для задачи (.). За-фиксируем некоторые x0 ∈Q и γ0 > 0. Рассмотрим последовательно-

Page 129: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задача минимизации функций с гладкими компонентами

сти {yk}⊂Rn и {αk}⊂ (0, 1). Определим

ϕ0(x)= f (x0)+γ0

2‖x − x0‖2,

ϕk+1(x)= (1−αk)ϕk(x)+

+αk

f (x f ( yk; L))+1

2L‖g f ( yk; L)‖2 +

+ ⟨g f ( yk; L), x − yk⟩+µ

2‖x − yk‖2�

.

При сравнении этих соотношений с формулой (.) разница обна-руживается только в постоянной компоненте, обведенной рамкой.В формуле (.) на этом месте стоит f ( yk). Это отличие приводитк тривиальной модификации утверждений леммы ..: все компо-ненты f ( yk) надо формально заменить на выражение, расположен-ное в рамке, а f ′( yk) надо заменить на g f ( yk; L). Таким образом,приходим к следующей лемме.

Лемма ... При всех k¾ 0 имеет место соотношение

ϕk(x)≡ϕ∗k +γk

2‖x −υk‖2,

где последовательности {γk}, {υk} и {ϕ∗k} определены следующим

образом: υ0= x0, ϕ∗0= f (x0) и

γk+1= (1−αk)γk +αkµ,

υk+1=1γk+1

(1−αk)γkυk +αkµyk −αk g f ( yk; L)�

,

ϕ∗k+1= (1−αk)ϕk +αk

f (x f ( yk; L))+1

2L‖g f ( yk; L)‖2�

+

+α2

k

2γk+1

‖g f ( yk; L)‖2+

+αk(1−αk)γk

γk+1

µ

2‖ yk −υk‖2+

g f ( yk; L), υk − yk

.

Продолжим рассуждения, аналогичные приведенным в § ..Предположим, что ϕ∗

k¾ f (xk). Неравенство (.) с x = xk и x = yk

Page 130: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

запишется как

f (xk)¾ f (x f ( yk; L))+

g f ( yk; L), xk − yk

+

+1

2L‖g f ( yk; L)‖2+ µ

2‖xk − yk‖2.

Отсюда следует, что

ϕ∗k+1¾ (1−αk) f (xk)+αk f (x f ( yk; L))+

+

αk

2L−

α2k

2γk+1

‖g f ( yk; L)‖2+ αk(1−αk)γk

γk+1

g f ( yk; L), υk − yk

¾

¾ f (x f ( yk; L))+�

12L−

α2k

2γk+1

‖g f ( yk; L)‖2+

+ (1−αk)D

g f ( yk; L),αkγk

γk+1(υk − yk)+ xk − yk

E

.

Таким образом, снова можно выбрать

xk+1= x f ( yk; L),

Lα2k = (1−αk)γk +αkµ≡ γk+1,

yk =1

γk +αkµ(αkγkυk + γk+1xk).

Выпишем получившийся метод в форме (.), исключив из негопоследовательности {υk} и {γk}.

Метод с постоянным шагом, II.Минимаксная задача

. Выберем x0 ∈Rn и α0 ∈ (0, 1).Положим y0= x0 и q= µ/L.

. k-я итерация (k¾ 0).a) Вычислим { fi( yk)} и { f ′i ( yk)}. Положим

xk+1= x f ( yk; L).

б) Вычислим αk+1 ∈ (0, 1) из уравнения

α2k+1= (1−αk+1)α2

k + qαk+1

и положим βk =αk(1−αk)

α2k+αk+1

,

yk+1= xk+1+ βk(xk+1− xk).

(.)

Page 131: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задача минимизации функций с гладкими компонентами

Так как анализ сходимости этого метода ничем не отличается отобоснования метода (.), мы приводим лишь конечный результат.

Теорема ... Пусть функция типа максимума f лежит в классе

S 1,1µ,L (Rn). Если в схеме (.) взять α0 ¾

p

µ/L, то

f (xk)− f ∗ ¶min

¨

1−q

µ

L

�k,

4L

(2p

L+ kpγ0)2

«

×

×h

f (x0)− f ∗ +γ0

2‖x0− x∗‖2i

,

где γ0= (α0(α0L− µ))/(1−α0).

Заметим, что метод (.) работает при всех µ¾ 0. Приведем ме-тод решения задачи (.) со строго выпуклыми компонентами.

Метод для f ∈S 1,1µ,L (Rn)

. Выберем x0 ∈Q. Положим y0= x0,

β =

pL−pµp

L+pµ

.

. k-я итерация (k¾ 0):Вычислим�

fi( yk)

и�

f ′i ( yk)

. Положим

xk+1= x f ( yk; L), yk+1= xk+1+β(xk+1− xk).

(.)

Теорема ... Для метода (.) справедлива оценка

f (xk)− f ∗ ¶ 2

1−q

µ

L

�k�

f (x0)− f ∗�

. (.)

Доказательство. Метод (.) является одним из вариантов мето-

да (.) с α0 =

p

µ/L. При таком выборе имеем γ0 = µ и получаемоценку (.) из теоремы .., поскольку в силу следствия .. име-ет место неравенство µ/2‖x0− x∗‖2 ¶ f (x0)− f ∗.

В завершении этого пункта рассмотрим вспомогательную задачу,которую приходится решать при вычислении градиентного отобра-жения минимаксной задачи:

max1¶i¶m

fi(x0)+

f ′i (x0), x − x0

��

2‖x − x0‖2→min

x∈Q.

Page 132: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Вводя дополнительную переменную t ∈R, эту задачу можно перепи-сать следующим образом:

t+γ

2‖x − x0‖2→min

при fi(x0)+

f ′i (x0), x − x0

¶ t, i= 1…m,

x ∈Q, t ∈R,

(.)

Заметим, что если Q является многогранником, то задача (.)есть задача квадратичной оптимизации. Она может быть решена спомощью некоторых специальных конечных методов (алгоритмовтипа симплекс-метода). Эта задача также может быть решена и ме-тодами внутренней точки; при этом мы можем работать с множе-ством Q, имеющим более сложную нелинейную структуру.

... Оптимизация при функциональных ограничениях

Покажем, что методы, описанные в предыдущем пункте, могутбыть использованы для решения задачи минимизации с ограниче-ниями в виде гладких функций. Напомним, что аналитическая фор-ма такой задачи выглядит так:

f0(x)→min

при fi(x)¶ 0, i= 1, …, m,

x ∈Q,

(.)

где функции fi выпуклые и гладкие, а Q есть выпуклое замкну-тое множество. В этом пункте мы предполагаем, что fi ∈ S 1,1

µ,L (Rn),i= 0, …, m, с некоторым µ> 0.

Взаимосвязь между задачей (.) и минимаксными задачамиустанавливается специальной функцией от одной переменной. Рас-смотрим параметрическую функцию типа максимума

f (t; x)=max�

f0(x)− t, fi(x), i= 1, …, m

, t ∈R1, x ∈Q.

Введем функциюf ∗(t)=min

x∈Qf (t; x). (.)

Заметим, что компоненты функции типа максимума f (t; ·) сильновыпуклы по x. Поэтому для любого t ∈ R решение задачи (.),которое мы обозначим x∗(t), существует и единственно (см. теоре-му ..).

Page 133: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задача минимизации функций с гладкими компонентами

Попытаемся приблизиться к решению задачи (.), используяпроцедуру, основанную на приближенных значениях функции f ∗(t).Этот подход является одним из вариантов последовательной квадра-тичной оптимизации. Его можно также применять к невыпуклымзадачам.

Установим некоторые свойства функции f ∗(t).

Лемма ... Пусть t∗ есть оптимальное значение задачи (.).Тогда

f ∗(t)¶ 0 для всех t¾ t∗,

f ∗(t)> 0 для всех t< t∗.

Доказательство. Пусть x∗ является решением задачи (.). Еслиt¾ t∗, то

f ∗(t)¶ f (t; x∗)=max�

f0(x∗)− t; fi(x∗)

¶max�

t∗ − t; fi(x∗)

¶ 0.

Предположим, что t < t∗ и f ∗(t)¶ 0. Тогда существует такая точкаy ∈Q, что

f0( y)¶ t< t∗, fi( y)¶ 0, i= 1, …, m.

Значит, t∗ не может быть оптимальным значением для задачи (.).

Таким образом, наименьший корень функции f ∗(t) соответствуетоптимальному значению задачи (.). Отметим также, что, исполь-зуя методы из предыдущего параграфа, можно вычислить прибли-женное значение функции f ∗(t). Основываясь на этом, мы постро-им процедуру нахождения этого корня. Нам потребуются некото-рые свойства функции f ∗(t).

Лемма ... Для любого ∆¾ 0 выполняется неравенство

f ∗(t)−∆¶ f ∗(t+∆)¶ f ∗(t).

Page 134: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Доказательство. В самом деле,

f ∗(t+∆)=minx∈Q

max1¶i¶m

f0(x)− t−∆; fi(x)

¶minx∈Q

max1¶i¶m

f0(x)− t; fi(x)

= f ∗(t),

f ∗(t+∆)=minx∈Q

max1¶i¶m

f0(x)− t; fi(x)+∆

−∆¾

¾minx∈Q

max1¶i¶m

f0(x)− t; fi(x)

−∆= f ∗(t)−∆.

Другими словами, функция f ∗(t) убывает по t и удовлетворяетусловию Липшица с константой, равной .

Лемма ... Для любых t1< t2 и ∆¾ 0 выполняется неравенство

f ∗(t1−∆)¾ f ∗(t1)+∆f ∗(t1)− f ∗(t2)

t2 − t1

. (.)

Доказательство. Введем обозначения

t0= t1−∆, α=∆/(t2− t0)≡∆/(t2− t1+∆)∈ [0, 1].

Тогда t1= (1−α)t0+αt2 и неравенство (.) можно записать в ви-де

f ∗(t1)¶ (1−α) f ∗(t0)+α f ∗(t2). (.)

Положим xα= (1−α)x∗(t0)+αx∗(t2). Тогда

f ∗(t1)¶ max1¶i¶m

f0(xα)− t1; fi(xα)

¶ max1¶i¶m

(1−α)( f0(x∗(t0))− t0)+α( f0(x∗(t2))− t2);

(1−α) fi(x∗(t0))+α fi(x∗(t2))

¶ (1−α) max1¶i¶m

f0(x∗(t0))− t0; fi(x∗(t0))

+

+α max1¶i¶m

f0(x∗(t2))− t2; fi(x∗(t2))

=

= (1−α) f ∗(t0)+α f ∗(t2),

и мы получаем оценку (.).

Заметим, что леммы .. и .. выполняются для любых пара-метрических функций типа максимума, а не только для тех, которыеобразованы функциональными компонентами задачи (.).

Page 135: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задача минимизации функций с гладкими компонентами

Перейдем теперь к изучению свойств градиентного отображениядля параметрических функций типа максимума f (t; x). Для этогосначала введем линеаризацию для f (t; x):

f (t; x; x)= max1¶i¶m

f0(x)+ ⟨ f ′0(x), x − x⟩ − t; fi(x)+ ⟨ f ′i (x), x − x⟩

.

Теперь можно записать градиентное отображение стандартным об-разом. Зафиксируем некоторое γ> 0. Введем обозначения

fγ(t; x; x)= f (t; x; x)+γ

2‖x − x‖2,

f ∗(t; x; γ)=minx∈Q

fγ(t; x; x),

x f (t; x; γ)= arg minx∈Q

fγ(t; x; x),

g f (t; x; γ)= γ(x − x f (t; x; γ)).

Назовем функцию g f (t; x; γ) условным градиентным отображени-ем задачи (.). При этом точка линеаризации x не обязательнодолжна является допустимой для множества Q.

Отметим, что сама функция fγ(t; x; x) есть функция типа макси-мума, образованная компонентами

f0(x)+

f ′0(x), x − x�

− t+γ

2‖x − x‖2,

fi(x)+

f ′i (x), x − x�

2‖x − x‖2, i= 1, …, m.

Более того, fγ(t; x; x)∈ S 1,1γ,γ (Rn). Поэтому в силу теоремы .. для

любого t ∈ R1 условное градиентное отображение определено кор-ректно.

Поскольку f (t; x)∈S 1,1µ,L (Rn), мы имеем

fµ(t; x; x)¶ f (t; x)¶ fL(t; x; x)

при всех x ∈Rn. Тогда f ∗(t; x; µ)¶ f ∗(t)¶ f ∗(t; x; L). Кроме того, ис-пользуя лемму .., получаем следующий результат.

Для любых x ∈Rn, γ> 0, ∆¾ 0 и t1< t2 выполняется неравенство

f ∗(t1−∆; x; γ)¾

¾ f ∗(t1; x; γ)+∆

t2− t1

( f ∗(t1; x; γ)− f ∗(t2; x; γ)). (.)

Для нас важными являются два значения γ: γ= L и γ= µ. При-меняя лемму .. к функции типа максимума fγ(t; x; x) с γ1 = L и

Page 136: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

γ2= µ, получаем следующее неравенство:

f ∗(t; x; µ)¾ f ∗(t; x; L)− L−µ2µL‖g f (t; x; L)‖2. (.)

Так как нас интересует поиск корня функции f ∗(t), опишем по-ведение корней функции f ∗(t; x; γ), которую можно рассматриватькак аппроксимацию для f ∗(t).

Введем обозначение

t∗(x)= root t( f ∗(t; x; µ))

(root t(·) есть корень по t соответствующей функции (·)).

Лемма ... Пусть x ∈Rn и t< t∗ таковы, что

f ∗(t; x; µ)¾ (1−κ) f ∗(t; x; L)

для некоторого κ∈ (0, 1). Тогда t< t∗(x)¶ t∗. Кроме того, для любыхt< t и x ∈Rn выполнено неравенство

f ∗(t; x; L)¾ 2(1− κ) f ∗(t; x; L)

Ç

t− t

t∗(x)− t.

Доказательство. Так как t< t∗, мы имеем

0< f ∗(t)¶ f ∗(t; x; L)¶1

1−κ f ∗(t; x; µ).

Отсюда следует, что f ∗(t; x; µ)> 0, и, поскольку f ∗(t; x; µ) убываетпо t, мы получаем

t∗(x)> t.

Обозначим ∆= t− t. Тогда в силу неравенства (.) имеет местооценка

f ∗(t; x; L)¾ f ∗(t)¾ f ∗(t; x; µ)¾ f ∗(t; x; µ)+∆

t∗(x)− tf ∗(t; x; µ)¾

¾ (1− κ)�

1+∆

t∗(x)− t

f ∗(t; x; L)¾

¾ 2(1− κ) f ∗(t; x; L)

Ç

t∗(x)− t.

... Метод условной минимизации

Рассмотрим следующий процесс.

Page 137: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задача минимизации функций с гладкими компонентами

Метод условной минимизации

. Выберем x0 ∈Q, κ∈ (0, 1/2), t0< t∗ и параметрточности ǫ > 0.

. k-я итерация (k¾ 0).a) Генерируем последовательность {xk, j} с

помощью метода (.), применяемогок функции f (tk; x) с начальной точкойxk,0= xk. Если

f ∗(tk; xk, j; µ)¾ (1−κ) f ∗(tk; xk, j; L),

то внутреннюю процедуру надо остано-вить, положив j(k)= j,

j∗(k)= arg min0¶ j¶ j(k)

f ∗(tk; xk, j; L),

xk+1= x f (tk; xk, j∗(k); L).

Глобальная остановка: если вовремя итерации внутренней процеду-ры оказывается выполнено условиеf ∗(tk; xk, j; L)¶ ǫ.

б) Положим tk+1= t∗(xk, j(k)).

(.)

Здесь мы впервые встретились с двухуровневым методом ми-нимизации, анализ которого, разумеется, потребует некоторыхусилий. Сначала нам необходимо оценить скорость сходимостипроцесса верхнего уровня в схеме (.) (назовем его главнымпроцессом). Затем надо будет оценивать общую вычислительнуюсложность процессов нижнего уровня на шаге a). Поскольку наминтересна аналитическая сложность этого метода, арифметическиезатраты на вычисление t∗(x) и f ∗(t; x, γ) мы в расчет не берем.

Охарактеризуем сходимость главного процесса.

Лемма ... Справедливо неравенство

f ∗(tk; xk+1; L)¶t∗ − t0

1− κh

12(1−κ)

ik

.

Доказательство. Введем обозначение β = 1/(2(1− κ)) (< 1) и

δk =f ∗(tk; xk, j(k); L)p

tk+1 − tk

.

Page 138: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Поскольку tk+1= t∗(xk, j(k)), в силу леммы .. при k¾ 1 получим

2(1− κ)f ∗(tk; xk, j(k); L)p

tk+1− tk

¶f ∗(tk−1; xk−1, j(k−1); L))p

tk − tk−1

.

Значит, δk ¶βδk−1, и

f ∗(tk; xk, j(k); L)=δk

p

tk+1− tk ¶ βkδ0

p

tk+1− tk =

=β k f ∗(t0; x0, j(0); L)

Ç

tk+1− tk

t1 − t0

.

Далее, в силу леммы .. мы имеем: t1− t0¾ f ∗(t0; x0, j(0); µ). Отсю-да следует, что

f ∗(tk; xk, j(k); L)¶ β k f ∗(t0; x0, j(0); L)

Ç

tk+1− tk

f ∗(t0; x0, j(0); µ)¶

¶βk

1− κp

f ∗(t0; x0, j(0); µ)(tk+1− tk)¶

¶βk

1− κp

f ∗(t0)(t∗− t0).

Остается отметить, что f ∗(t0)¶ t∗ − t0∗ (лемма ..) и

f ∗(tk; xk+1; L)≡ f ∗(tk; xk, j∗(k); L)¶ f ∗(tk; xk, j(k); L).

Приведенный результат дает оценку числа итераций главногопроцесса, которые необходимы для нахождения ǫ-решения задачи(.). Действительно, пусть f ∗(tk; xk, j; L)¶ ǫ. Тогда для x∗ = x f (tk;xk, j; L) имеет место соотношение

f (tk; x∗)= max1¶i¶m

f0(x∗)− tk; fi(x∗)

¶ f ∗(tk; xk, j; L)¶ ǫ.

Поскольку tk ¶ t∗, мы делаем вывод, что

f0(x∗)¶ t∗ + ǫ,

fi(x∗)¶ ǫ, i= 1, …, m.(.)

В силу леммы .. мы можем получить условия (.) не более чемза

N(ǫ)=1

ln[2(1− κ)]ln

t∗ − t0

(1− κ)ǫ(.)

полных итераций главного процесса (последняя итерация процессав общем случае не осуществляется полностью, так как процесс за-

Page 139: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задача минимизации функций с гладкими компонентами

канчивается правилом глобальной остановки). Заметим, что в этойоценке κ –– положительная постоянная (например, κ= 1/4).

Проанализируем сложность процесса нижнего уровня. Пусть по-следовательность {xk, j} образована схемой (.) с начальной точ-кой xk,0= xk. Из теоремы .. получаем

f (tk; xk, j)− f ∗(tk)¶ 2

1−q

µ

L

� j

( f (tk; xk)− f ∗(tk))¶

¶ 2e−σ· j( f (tk; xk)− f ∗(tk))¶ 2e−σ· j f (tk; xk),

где σ=p

µ/L.Обозначим через N число полных итераций процесса (.) (N ¶¶ N(ǫ)). Тогда j(k) определено при всех таких k, что 0¶ k¶ N . От-метим, что tk = t∗(xk−1, j(k−1))> tk−1. Поэтому

f (tk; xk)¶ f (tk−1; xk)¶ f ∗(tk−1; xk−1, j∗(k−1), L).

Введем обозначения

∆k = f ∗(tk−1; xk−1, j∗(k−1), L), k¾ 1, ∆0= f (t0; x0).

Тогда при всех k¾ 0 имеет место неравенство

f (tk; xk)− f ∗(tk)¶∆k.

Лемма ... Для всех таких k, что 0¶ k¶ N, процесс нижнего уров-ня будет продолжаться до тех пор, пока не выполнится условие

f (tk; xk, j)− f ∗(tk)¶µκ

L−µ · f ∗(tk; xk, j; L). (.)

Доказательство. Предположим, что выполнено условие (.). То-гда из неравенства (.) следует, что

12L‖g f (tk; xk, j; L‖2¶ f (tk; xk, j)− f (tk; x f (tk; xk, j; L))¶

¶ f (tk; xk, j)− f ∗(tk).

Поэтому, используя оценку (.), получаем

f ∗(tk; xk, j; µ)¾ f ∗(tk; xk, j; L)− L−µ2µL‖g f (tk; xk, j; L‖2¾

¾ f ∗(tk; xk, j; L)− L−µµ

f (tk; xk, j)− f ∗(tk)�

¾

¾ (1− κ) f ∗(tk; xk, j; L),

Page 140: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

что и является критерием остановки процесса нижнего уровня нашаге a) в схеме (.).

Следующий результат позволяет получить общую оценку сложно-сти всех завершенных процессов нижнего уровня в рассматривае-мой схеме условной минимизации.

Лемма ... Для всех таких k, что 0¶ k¶ N, выполняется нера-венство

j(k)¶ 1+

Ç

Lµ· ln 2(L−µ)∆k

κµ∆k+1

.

Доказательство. Предположим, что

j(k)− 1>1σ

ln2(L−µ)∆k

κµ∆k+1

,

где σ =p

µ/L. Напомним, что ∆k+1 =min0¶ j¶ j(k) f ∗(tk; xk, j; L). По-скольку критерий остановки процесса нижнего уровня не выполня-ется при j = j(k)− 1, в силу леммы .. имеет место оценка

f ∗(tk; xk, j; L)¶L−µµκ

f (tk; xk, j)− f ∗(tk)�

¶ 2L−µµκ

e−σ· j∆k <∆k+1.

Получили противоречие с определением ∆k+1.

Следствие ... Справедливо неравенство

N∑

k=0

j(k)¶ (N + 1)

1+

q

Lµ· ln 2(L−µ)

κµ

+

q

Lµ· ln ∆0

∆N+1

.

Остается оценить число итераций нижнего уровня для последне-го шага главного процесса. Обозначим это число через j∗.

Лемма ... Справедливо неравенство

j∗ ¶ 1+

Ç

Lµ· ln 2(L−µ)∆N+1

κµǫ.

Доказательство. Обоснование утверждения этой леммы похоже надоказательство леммы ... Предположим, что

j∗ − 1>

Ç

Lµ· ln 2(L−µ)∆N+1

κµǫ.

Page 141: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Задача минимизации функций с гладкими компонентами

Заметим, что при j = j∗ − 1 выполняются неравенства

ǫ¶ f ∗(tN+1; xN+1, j; L)¶L−µµκ

f (tN+1; xN+1, j)− f ∗(tN+1)�

¶ 2L−µµκ

e−σ· j∆N+1< ǫ.

Получили противоречие.

Следствие ... Справедливо неравенство

j∗ +N∑

k=0

j(k)¶ (N + 2)

1+

q

Lµ· ln 2(L−µ)

κµ

+

q

Lµ· ln ∆0

ǫ.

Подытожим полученные результаты. Подставляя оценку (.)числа полных итераций N в оценку из следствия .., приходим кследующей границе для общего числа внутренних итераций про-цесса (.):�

1

ln[2(1−κ)]ln

t∗ − t0

(1− κ)ǫ+ 2

·�

1+

Ç

Lµ· ln 2(L−µ)

κµ

+

+

Ç

Lµ· ln�

1ǫ· max

1¶i¶m

f0(x0)− t0; fi(x0)

. (.)

Заметим, что метод (.), реализующий процесс нижнего уровня вметоде (.), обращается к оракулу задачи (.) на каждой итера-ции только один раз. Поэтому оценка (.) является верхней грани-цей аналитической сложности получения ǫ-решения задачи (.),определяемого условием (.). Проверим, насколько эта оценка да-лека от нижних границ.

Основная составляющая в оценке (.) имеет порядок

lnt∗ − t0

ǫ·Ç

Lµ· ln L

µ.

Данное значение отличается от нижней границы для задачи без-условной минимизации на множитель ln L/µ. Это означает, чтодля задачи условной минимизации метод (.) является по край-ней мере субоптимальным. Большего здесь сказать нельзя из-заотсутствия точных результатов о нижней границе аналитическойсложности рассматриваемого класса задач.

В заключение ответим на два технических вопроса. Во-первых,в методе (.) предполагается известной некоторая оценка t0 < t∗.

Page 142: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Гладкая выпуклая оптимизация

Это предположение не является обременительным, так как можновыбрать t0 равным оптимальному значению задачиh

f (x0)+

f ′(x0), x − x0

2‖x − x0‖2i

→minx∈Q

.

Очевидно, что это значение не больше t∗.Далее, предполагалось, что мы умеем вычислять корень t∗(x)

функцииf ∗(t; x; µ)=min

x∈Qfµ(t; x; x),

где fµ(t; x; x) –– функция типа максимума, составленная из компо-нент

f0(x)+

f ′0(x), x − x�

2‖x − x‖2 − t,

fi(x)+

f ′i (x), x − x�

2‖x − x‖2, i= 1, …, m.

Из леммы .. следует, что этот корень есть оптимальное значениеследующей задачи минимизации:�

f0(x)+

f ′0(x), x − x�

2‖x − x‖2�

→min

при fi(x)+

f ′i (x), x − x�

2‖x − x‖2 ¶ 0, i= 1, …, m,

x ∈Q.

Эта задача не является квадратичной, так как ограничения нели-нейны. Однако ее можно решить за конечное время с помощьюалгоритмов типа симплекс-метода, поскольку у целевой функции иограничений одинаковый гессиан. Эту задачу можно также решитьметодами внутренней точки.

Page 143: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава

Негладкая выпуклаяоптимизация§ .. Выпуклые функции общего вида

Эквивалентные определения. Замкнутые функции. Непрерывность выпуклыхфункций. Теоремы отделимости. Субградиенты и правила их вычисления. Ус-ловия оптимальности.

... Мотивировка и определения

Настоящая глава посвящена методам решения задачи выпуклойминимизации общего вида

min f0(x)

при fi(x)¶ 0, i= 1, …, m,

x ∈Q⊆Rn,

(.)

где Q –– замкнутое выпуклое множество, а fi(x), i = 0, …, m, –– вы-пуклые функции общего вида. Общий вид функций подразумевает,что они могут быть недифференцируемыми. Несомненно, такая за-дача представляется более сложной, чем гладкая.

Заметим, что задачи негладкой минимизации часто возникают вразличных приложениях. Зачастую некоторые компоненты моделимогут быть составлены из функций типа максимума:

f (x)= max1¶ j¶p

ϕ j(x),

где функции ϕ j(x) выпуклы и дифференцируемы. В предыдущемпараграфе было показано, что работать с такими функцией можнос помощью градиентного отображения. Однако если число гладкихкомпонент p в этой функции оказывается очень большим, то вычис-ление градиентного отображения становится слишком трудоемким.В этом случае разумным является представление функции типа

Page 144: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

максимума как выпуклой функции общего вида. Другим мощнымисточником возникновения недифференцируемых функций явля-ется ситуация, когда некоторые компоненты задачи (.) задаютсяв неявном виде через решение вспомогательных задач. Такие функ-ции называются функциями с неявной структурой. Как правило,эти функции оказываются негладкими.

Начнем с определения понятия выпуклой функции общего вида(в дальнейшем термин «общего вида» будем часто опускать).

Обозначим через

dom f =�

x ∈Rn : | f (x)|<∞

область определения функции f . Всегда полагаем, что dom f 6=∅.

Определение ... Функция f (x) называется выпуклой, если ееобласть определения является выпуклым множеством и при всех x,y ∈ dom f и α∈ [0, 1] выполняется неравенство

f (αx + (1−α) y)¶α f (x)+ (1−α) f ( y).

Функция f называется вогнутой, если функция − f выпукла.

Прежде чем перейти к построению методов решения задачи (.),отметим следующее. В предыдущей главе мы рассматривали мето-ды оптимизации, использующие градиенты гладких функций. Длянегладких функций градиент не существует. По этой причине длянегладкого случая необходимо разработать альтернативную техни-ку поиска оптимального решения. Однако прежде всего нам нужноизучить свойства обобщенных выпуклых функций и наметить воз-можности для введения понятия обобщенного градиента. Достиже-ние поставленной цели сопряжено со многими трудностями, однаконам необходимо их преодолеть.

Из определения .. напрямую следует такой результат.

Лемма ... (Неравенство Йенсена.) Для любых x1, …, xm ∈ dom fи таких коэффициентов α1, …, αm, что

m∑

i=1

αi = 1, αi ¾ 0, i= 1, …, m, (.)

выполнено неравенство

f

� m∑

i=1

αi xi

m∑

i=1

αi f (xi).

Page 145: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

Доказательство. Покажем верность этого утверждения индукциейпо m. Определение .. обеспечивает выполнение данного неравен-ства для m= 2. Предположим, что оно верно при некотором m¾ 2.Для набора m+ 1 точек имеет место представление

m+1∑

i=1

αi xi =α1 x1+ (1−α1)m∑

i=1

βi xi,

где βi =αi+1

1−α1

. Очевидно, что

m∑

i=1

βi = 1, βi ¾ 0, i= 1, …, m.

Поэтому, используя определение .. и индуктивное предположе-ние, получаем

f

�m+1∑

i=1

αi xi

= f

α1 x1+ (1−α1)m∑

i=1

βi xi

¶α1 f (x1)+ (1−α1) f

� m∑

i=1

βi xi

m+1∑

i=1

αi f (xi).

Точка x =∑m

i=1 αi xi с коэффициентами αi, удовлетворяющимиусловию (.), называется выпуклой комбинацией точек xi.

Обратим внимание на два важных следствия из неравенства Йен-сена.

Следствие ... Пусть x есть выпуклая комбинация точек x1, …… , xm. Тогда

f (x)¶ max1¶i¶m

f (xi).

Доказательство. В самом деле, в силу неравенства Йенсена и соот-

ношений αi ¾ 0,m∑

i=1

αi = 1 получаем

f (x)= f

� m∑

i=1

αi xi

m∑

i=1

αi f (xi)¶ max1¶i¶m

f (xi).

Следствие ... Пусть

∆=Conv{x1, …, xm}≡§

x =m∑

i=1

αi xi | αi ¾ 0,m∑

i=1

αi = 1

ª

.

Тогда maxx∈∆ f (x)= max1¶i¶n

f (xi).

Page 146: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Приведем два эквивалентных определения выпуклых функций.

Теорема ... Функция f является выпуклой тогда и только то-гда, когда для всех таких x, y ∈ dom f и β ¾ 0, что y + β( y − x) ∈∈ dom f , выполнено неравенство

f ( y + β( y− x))¾ f ( y)+ β( f ( y)− f (x)). (.)

Доказательство. Пусть функция f выпукла. Введем обозначение

α=β

1+βи u= y +β( y − x). Тогда

y =1

1+ β(u+β x)= (1−α)u+αx.

Поэтому

f ( y)¶ (1−α) f (u)+α f (x)=1

1+ βf (u)+

β

1+βf (x).

Пусть верно неравенство (.). Зафиксируем α ∈ (0, 1] и x, y ∈∈ dom f . Введем обозначение β = 1−α

αи u=αx + (1−α) y. Тогда

x =1α

(u− (1−α) y)= u+β(u− y).

Поэтому

f (x)¾ f (u)+ β( f (u)− f ( y))=1α

f (u)− 1−αα

f ( y).

Теорема ... Функция f является выпуклой тогда и только то-гда, когда ее надграфик

epi( f )=�

(x, t)∈ dom f ×R | t¾ f (x)

есть выпуклое множество.

Доказательство. Действительно, если (x1, t1) и (x2, t2) принадле-жат надграфику функции f , то для любого α ∈ [0, 1] выполненонеравенство

αt1+ (1−α)t2¾α f (x1)+ (1−α) f (x2)¾ f (αx1+ (1−α)x2).

Таким образом, (αx1+ (1−α)x2, αt1+ (1−α)t2)∈ epi( f ).С другой стороны, пусть надграфик epi( f ) является выпуклым.

Заметим, что для x1, x2 ∈ dom f выполняются включения

(x1, f (x1))∈ epi( f ), (x1, f (x2))∈ epi( f ).

Page 147: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

Поэтому (αx1+ (1−α)x2, α f (x1)+ (1−α) f (x2))∈ epi( f ). Значит,

f (αx1+ (1−α)x2)¶α f (x1)+ (1−α) f (x2).

Нам также понадобится следующее свойство множеств уровнейвыпуклых функций.

Теорема ... Если функция f выпукла, то все ее множества уров-ней

L f (β)=�

x ∈ dom f | f (x)¶ β

являются либо выпуклыми, либо пустыми.

Доказательство. В самом деле, если x1 ∈L f (β) и x2 ∈L f (β), то длялюбого α∈ [0, 1] имеем

f (αx1+ (1−α)x2)¶α f (x1)+ (1−α) f (x2)¶αβ + (1−α)β = β .

В дальнейшем мы увидим, что поведение обобщенных выпуклыхфункций на границе областей определения иногда бывает непред-сказуемым. По этой причине введем в рассмотрение следующее по-лезное понятие.

Определение ... Выпуклая функция f называется замкнутой,если ее надграфик является замкнутым множеством.

Непосредственно из этого определения вытекает следующая тео-рема.

Теорема ... Если выпуклая функция f замкнута, то все ее мно-жества уровней являются либо пустыми, либо замкнутыми.

Доказательство. По определению (L f (β), β)= epi( f ) ∩ {(x, t) | t == β}. Поэтому надграфик L f (β) является выпуклым и замкнутыммножеством, как пересечение двух выпуклых замкнутых множеств.

Заметим, что если f –– выпуклая и непрерывная функция и ееобласть определения dom f –– замкнутое множество, то f являетсязамкнутой функцией. Однако в общем случае выпуклая замкнутаяфункция не обязательно может быть непрерывной.

Рассмотрим несколько примеров выпуклых функций.

Page 148: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Пример ... . Линейная функция является замкнутой и выпуклой.

. Функция f (x)= |x |, x ∈ R, замкнутая и выпуклая, поскольку еенадграфик

(x, t) | t¾ x, t¾−x

,

является пересечением двух замкнутых выпуклых множеств (см.теорему ..).

. Все дифференцируемые и выпуклые на Rn функции принадлежатклассу обобщенных замкнутых выпуклых функций.

. Функция f (x)= 1/x, x > 0, выпукла и замкнута. Однако ее областьопределения dom f = int R+ есть открытое множество.

. Функция f (x)= ‖x‖, где ‖ · ‖ –– любая норма в Rn, является за-мкнутой и выпуклой:

f (αx1+ (1−α)x2)= ‖αx1+ (1−α)x2‖¶¶ ‖αx1‖+ ‖(1−α)x2‖==α‖x1‖+ (1−α)‖x2‖

для любых x1, x2 ∈Rn и α∈ [0, 1]. Наиболее важными типами нормв численном анализе являются так называемые lp-нормы:

‖x‖p =

� n∑

i=1

|x(i)|p�1/p

, p¾ 1.

Среди них обычно используются три следующие:

◦ евклидова норма: ‖x‖=h

∑n

i=1(x(i))2i1/2

, p= 2;

◦ l1-норма: ‖x‖1=∑n

i=1 |x(i) |, p= 1;

◦ l∞-норма (норма Чебышева, равномерная норма, бесконечность-норма):

‖x‖∞= max1¶i¶n|x(i)|.

Любая норма определяет систему так называемых шаровых мно-жеств

B‖·‖(x0, r)=�

x ∈Rn | ‖x − x0‖¶ r

, r¾ 0,

где r есть радиус шара, а x0 ∈Rn –– его центр. Шар вида B‖·‖(0, 1) на-зовем единичным шаром в норме ‖ · ‖. Очевидно, что эти шаровые

Page 149: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

множества являются выпуклыми (см. теорему ..). Для lp-шара ра-диуса r будем использовать обозначение

Bp(x0, r)=�

x ∈Rn | ‖x − x0‖p ¶ r

.

Отметим следующие соотношения между евклидовым и l1-шаром:

B1(x0, r)⊂ B2(x0, r)⊂ B1(x0, rp

n).

Эти соотношения следуют из стандартных неравенств

n∑

i=1

(x(i))2¶

� n∑

i=1

|x(i)|�2

,

1n

n∑

i=1

|x(i) |�2

¶1n

n∑

i=1

|x(i)|2.

. В предыдущих примерах нам не попадались выпуклые функциис необычными или нежелательными характеристиками. Однако по-смотрим на следующую функцию двух переменных:

f (x, y)=

¨

0, если x2+ y2< 1,

ϕ(x, y), если x2+ y2

= 1,

где ϕ(x, y) есть произвольная неотрицательная функция, опреде-ленная на единичной окружности. Областью определения этойфункции является единичный евклидов круг (замкнутое и выпуклоемножество). Кроме того, легко увидеть, что функция f выпукла. Од-нако она обладает плохими свойствами на границе своей областиопределения. Естественным образом возникает желание исключитьтакие функции из рассмотрения. Проще всего это сделать с помо-щью понятия замкнутой функции. Очевидно, что функция f (x, y)не является замкнутой, кроме случая ϕ(x, y)≡ 0.

... Операции с выпуклыми функциями

В предыдущем параграфе мы рассмотрели несколько примероввыпуклых функций общего вида. Определим теперь для этого клас-са функций некоторый набор инвариантных операций, которыйпозволит перейти к рассмотрению более сложных объектов.

Теорема ... Пусть функции f1 и f2 замкнуты и выпуклы, и пустьβ ¾ 0. Тогда все нижеследующие функции также замкнуты и выпуклы:

Page 150: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

) f (x)= β f1(x), dom f = dom f1;) f (x)= f1(x)+ f2(x), dom f = (dom f1)∩ (dom f2);) f (x)=max{ f1(x), f2(x)}, dom f = (dom f1)∩ (dom f2).

Доказательство. . Для первой функции утверждение очевидно:

f (αx1+ (1−α)x2)¶β(α f1(x1)+ (1−α) f1(x2)).

. Для всех x1, x2 ∈ (dom f1)∩ (dom f2) и α∈ [0, 1] имеем

f1(αx1+ (1−α)x2)+ f2(αx1+ (1−α)x2)¶

¶α f1(x1)+ (1−α) f1(x2)+α f2(x1)+ (1−α) f2(x2)=

=α( f1(x1)+ f2(x1))+ (1−α)( f1(x2)+ f2(x2)).

Таким образом, функция f (x) выпукла. Докажем ее замкнутость.Рассмотрим последовательность {(xk, tk)}⊂ epi( f ):

tk ¾ f1(xk)+ f2(xk), limk→∞

xk = x ∈ dom f , limk→∞

tk = t.

Поскольку f1 и f2 –– замкнутые функции, справедливо неравенство

inf limk→∞

f1(xk)¾ f1(x), inf limk→∞

f2(xk)¾ f2(x).

Поэтому

t= limk→∞

tk ¾ inf limk→∞

f1(xk)+ inf limk→∞

f2(xk)¾ f (x).

Значит , (x, t)∈ epi f .

. Надграфик функции f (x) запишется в виде

epi f =�

(x, t) | t¾ f1(x)t¾ f2(x)x ∈ (dom f1)∩ (dom f2)

≡≡ epi f1 ∩ epi f2.

Значит, epi f –– замкнутое и выпуклое множество как пересечениедвух замкнутых и выпуклых множеств. Остается применить теоре-му ...

Важно понимать, что в общем случае для неограниченных выпуклых мно-жеств это свойство не выполняется. Например, для двумерного случая возьмемQ1 = {(x, y) | y ¾ 1/x, x > 0}, а Q2 = {(x, y) | y = 0, x ¶ 0}. Оба эти множества замкну-ты и выпуклы. Однако их сумма Q1 + Q2 = {(x, y) | y > 0} –– выпуклое, но открытоемножество.

Page 151: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

Следующая теорема показывает, что выпуклость является аффин-но-инвариантным свойством.

Теорема ... Пусть функция ϕ( y), y ∈ Rm, является выпуклой изамкнутой. Рассмотрим линейный оператор

A (x)= Ax + b : Rn→Rm.

Тогда f (x)=ϕ(A (x)) есть выпуклая и замкнутая функция с обла-стью определения

dom f =�

x ∈Rn |A (x)∈ dom ϕ

.

Доказательство. Для x1 и x2 из dom f определим y1 =A (x1), y2 =

=A ( y2). Тогда для α∈ [0, 1] имеем

f (αx1+ (1−α)x2)=ϕ(A (αx1+ (1−α)x2))=

=ϕ(αy1+ (1−α) y2)¶

¶αϕ( y1)+ (1−α)ϕ( y2)=

=α f (x1)+ (1−α) f (x2).

Таким образом, функция f (x) выпукла. Замкнутость ее надграфикаследует из непрерывности линейного оператораA (x).

Одним из основных поставщиков выпуклых функций с неявнойструктурой является следующее утверждение.

Теорема ... Пусть ∆ есть некоторое множество и

f (x)= supy

ϕ( y, x) | y ∈∆

.

Предположим, что для любого фиксированного y ∈∆ функцияϕ( y, x)замкнута и выпукла по x. Тогда f (x) является замкнутой и выпук-лой функцией с областью определения

dom f =

§

x ∈⋂

y∈∆dom ϕ( y, ·) | ∃γ :ϕ( y, x)¶ γ∀y ∈∆

ª

. (.)

Доказательство. Действительно, если x принадлежит множествуиз правой части уравнения (.), то f (x) < ∞ и, следовательно,x ∈ dom f . Если x не лежит в этом множестве, то тогда найдет-ся такая последовательность {yk}, что ϕ( yk, x)→∞. Поэтому x непринадлежит dom f .

Page 152: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Наконец, очевидно, что (x, t) ∈ epi f тогда и только тогда, когдавыполнены условия

x ∈ dom ϕ( y, ·), t¾ϕ( y, x)

при всех y ∈∆. Это означает, что

epi f =⋂

y∈∆epi ϕ( y, ·).

Поэтому f является выпуклой и замкнутой функцией, так как каж-дый надграфик epi ϕ( y, ·) является выпуклым и замкнутым.

Перейдем теперь к рассмотрению более сложных примеров вы-пуклых функций.

Пример ... . Функция f (x)= max1¶i¶n

{x(i)} выпукла и замкнута.

. Пусть λ = (λ(1), …, λ(m)), а ∆ –– множество в Rm+

. Рассмотримфункцию

f (x)= supλ∈∆

m∑

i=1

λ(i) fi(x),

где функции fi выпуклые и замкнутые. Из теоремы .. следует, чтонадграфики функций

ϕλ(x)=m∑

i=1

λ(i) fi(x)

есть выпуклые и замкнутые множества. Значит, функция f (x) вы-пукла и замкнута в силу теоремы ... Заметим, что мы не делалиникаких предположений относительно структуры множества ∆.

. Пусть Q –– выпуклое множество. Рассмотрим функцию

ψQ(x)= sup�

⟨g, x⟩ | g ∈Q

.

Функция ψQ(x) называется опорной функцией множества Q. Из тео-ремы .. видно, что функция ψQ(x) замкнута и выпукла. Эта функ-ция является однородной:

ψQ(tx)= tψQ(x), x ∈ dom Q, t¾ 0.

Page 153: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

Если множество Q ограничено, то domψQ =Rn.

. Пусть Q –– множество в Rn. Рассмотрим функцию ψ(g, γ)== supy∈Q ϕ( y, g, γ), где

ϕ( y, g, γ)= ⟨g, y⟩ − γ2‖ y‖2.

Из теоремы .. следует, что функцияψ(g, γ) замкнутая и выпуклаяпо (g, γ). Изучим ее свойства.

Если Q ограничено, то domψ=Rn+1. Рассмотрим случай Q=Rn.Опишем область определения функции ψ. Если γ< 0, то для любогоg 6= 0 можно взять yα=αg. Ясно, что для таких точек ϕ( yα, g, γ)→∞

при α→∞. Таким образом, domψ содержит только такие точки, длякоторых γ¾ 0.

Если γ= 0, то единственное возможное значение g равно нулю,так как иначе функция ϕ( y, g, 0) была бы неограничена.

Наконец, если γ> 0, то точка, дающая минимум функции ϕ( y, g, γ)по переменной y, равна y∗(g, γ)= 1/γg. В этом случае получаем сле-дующее выражение для ψ:

ψ(g, γ)=‖g‖2

2γ.

Таким образом,

ψ(g, γ)=

(

0, если g= 0, γ= 0,‖g‖2

2γ, если γ> 0,

с областью определения domψ=�

Rn × {γ > 0}�

∪ (0, 0). Заметим,что эта область является выпуклой, но не замкнутой или открытой.Тем не менее, ψ есть замкнутая и выпуклая функция. В то же времяэта функция разрывна в начале координат:

ψ(pγg, γ)≡ 1

2‖g‖2, γ 6= 0.

... Непрерывность и дифференцируемость

В предыдущем пункте мы показали, что поведение выпуклыхфункций в граничных точках их областей определения может бытьнеудовлетворительным (см. примеры .. (), .. ()). Это, одна-ко, единственный недостаток выпуклых функций. Продемонстри-руем здесь, что структура выпуклых функций во внутренних точкахих областей определения оказывается предельно простой.

Page 154: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Лемма ... Пусть функция f выпукла и x0 ∈ int(dom f ). Тогда fограничена сверху в окрестности точки x0.

Доказательство. Выберем такое ǫ > 0, что x0 ± ǫei ∈ int(dom f ),i= 1, …, n, где ei –– координатный вектор в Rn. Введем обозначение

∆=Conv{x0± ǫei, i= 1, …, n}.

Покажем, что ∆⊃ B2(x0, ǫ), где ǫ = ǫ/p

n. Действительно, рассмот-рим

x = x0+

n∑

i=1

hiei,n∑

i=1

(hi)2¶ ǫ.

Можно предположить, что hi ¾ 0 (иначе в этом представлении мож-но выбрать −ei вместо ei). Тогда

β ≡n∑

i=1

hi ¶p

nn∑

i=1

(hi)2¶ ǫ.

Поэтому для hi = (1/β)hi имеют место следующие соотношения:

x = x0+βn∑

i=1

hiei = x0+β

ǫ

n∑

i=1

hiǫei =

=

1− βǫ

x0+β

ǫ

n∑

i=1

hi(x0+ ǫei)∈∆.

Таким образом, используя следствие .., получаем

M ≡ maxx∈B2(x0 ,ǫ)

f (x)¶maxx∈∆

f (x)¶ max1¶i¶n

f (x0± ǫei).

Удивительно, что результат этой леммы обеспечивает непрерыв-ность выпуклой функции внутри области определения.

Теорема ... Пусть функция f выпукла и x0 ∈ int(dom f ). Тогда fлокально липшицева в точке x0.

Доказательство. Пусть B2(x0, ǫ)⊆ dom f и sup{ f (x) | x ∈ B2(x0, ǫ)}не превосходит M (число M конечно в силу леммы ..). Рассмот-рим y ∈ B2(x0, ǫ), y 6= x0. Введем обозначение

α=1ǫ‖ y − x0‖, z= x0+

( y − x0).

Page 155: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

Очевидно, что ‖z− x0‖= (1/α)‖ y − x0‖= ǫ. Поэтому α¶ 1 и y =αz++ (1−α)x0. Отсюда следует, что

f ( y)¶α f (z)+ (1−α) f (x0)¶ f (x0)+α(M − f (x0))=

= f (x0)+M − f (x0)

ǫ‖ y − x0‖.

Далее, пусть u = x0 + 1/α(x0 − y). Тогда ‖u − x0‖ = ǫ и y = x0 +

+α(x0− u). Поэтому, принимая во внимание теорему .., получаем

f ( y)¾ f (x0)+α( f (x0)− f (u))¾ f (x0)−α(M − f (x0))=

= f (x0)− M − f (x0)

ǫ‖ y − x0‖.

Таким образом, | f ( y)− f (x0)|¶ M − f (x0)

ǫ‖ y − x0‖.

Покажем, что выпуклые функции обладают свойством, близкимк дифференцируемости.

Определение ... Пусть x ∈ dom f . Назовем функцию f диффе-ренцируемой по направлению p в точке x, если существует следую-щий предел:

f ′(x; p)= limα↓0

f (x+αp)− f (x)�

. (.)

Значение f ′(x; p) называется производной по направлению функцииf в точке x.

Теорема ... Выпуклая функция f дифференцируема по любомунаправлению внутри своей области определения.

Доказательство. Пусть x ∈ int(dom f ). Рассмотрим функцию

ϕ(α)=1α

f (x+αp)− f (x)�

, α> 0.

Выберем γ ∈ (0, 1] и α∈ (0, ǫ] достаточно малыми, чтобы выполня-лось условие x + ǫp ∈ dom f . Тогда

f (x +αβ p)= f ((1− β)x+β(x+αp))¶ (1− β) f (x)+ β f (x +αp).

Поэтому

ϕ(αβ)=1αβ

f (x +αβ p)− f (x0)�

¶1α

f (x+αp)− f (x)�

=ϕ(α).

Page 156: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Таким образом, ϕ(α) убывает при α ↓ 0. Выберем γ > 0 достаточномалым, чтобы выполнялось условие x − γp ∈ dom f . Тогда из нера-венства (.) следует, что

ϕ(α)¾1γ

f (x)− f (x − γp)�

.

Таким образом, предел в формуле (.) существует.

Докажем, что для выпуклых функций производная по направле-нию является глобальной нижней аппроксмацией.

Лемма ... Пусть функция f выпуклая и x ∈ int(dom f ). Тогдаf ′(x; p) –– выпуклая функция по p, которая является однороднойстепени 1. Для любого y ∈ dom f имеет место неравенство

f ( y)¾ f (x)+ f ′(x; y − x). (.)

Доказательство. Покажем, что производная по направлению поло-жительно однородна. Действительно, для p ∈Rn и τ> 0 имеем

f ′(x; τp)= limα↓0

f (x +ταp)− f (x)�

=

= τ limβ↓0

f (x +β p)− f (x)�

=τ f ′(x0; p).

Далее, для любых p1, p2 ∈Rn и β ∈ [0, 1] получаем

f ′(x; β p1+ (1− β)p2)= limα↓0

f (x+α(β p1+ (1− β)p2))− f (x)�

¶ limα↓0

β[ f (x +αp1)− f (x)]+

+ (1− β)[ f (x+αp2)− f (x)]

=

=β f ′(x; p1)+ (1−β) f ′(x; p2).

Таким образом, функция f ′(x; p) выпукла по p. Наконец, пустьα ∈ (0, 1], y ∈ dom f и yα = x + α( y − x). Тогда в силу теоремы ..выполняется неравенство

f ( y)= f ( yα+1α

(1−α)( yα− x))¾ f ( yα)+1α

(1−α)�

f ( yα)− f (x)�

,

и мы получаем соотношение (.), перейдя к пределу при α ↓ 0.

Page 157: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

... Теоремы отделимости

До сих пор мы изучали свойства выпуклых функций, основыва-ясь только на их значениях и при этом ничего не говоря о возмож-ных направлениях убывания функции. Но такие направления могутоказаться полезными для построения алгоритмов минимизации. Ввыпуклом анализе они определяются посредством теорем отдели-мости, являющихся предметом изучения данного пункта.

Определение ... Пусть Q –– выпуклое множество. Будем гово-рить, что гиперплоскость

H (g, γ)=�

x ∈Rn | ⟨g, x⟩= γ

, g 6= 0,

является опорной для Q, если любая точка x ∈Q удовлетворяет нера-венству ⟨g, x⟩¶ γ.

Будем также говорить, что гиперплоскость H (g, γ) отделяетточку x0 от множества Q, если

⟨g, x⟩¶ γ¶ ⟨g, x0⟩ (.)

при всех x ∈Q. Если правое неравенство в формуле (.) строгое, тобудем говорить о строгой отделимости.

Теоремы отделимости можно вывести из свойств проекций.

Определение ... Пусть Q –– замкнутое множество и x0 ∈Rn. Вве-дем обозначение

πQ(x0)= arg min�

‖x − x0‖: x ∈Q

.

Назовем πQ(x0) проекцией точки x0 на множество Q.

Теорема ... Если Q –– выпуклое множество, то существует про-екция πQ(x0), причем единственная.

Доказательство. В самом деле, πQ(x0)= arg min{ϕ(x) | x ∈ Q}, где

функция ϕ(x)= 1/2‖x − x0‖2 принадлежит классу S 1,11,1 (Rn). Поэто-

му проекция πQ(x0) единственна и корректно определена в силутеоремы ...

Очевидно, что πQ(x0)= x0 тогда и только тогда, когда x0 ∈Q.

Page 158: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Лемма ... Пусть Q –– замкнутое выпуклое замкнутое множе-ство и x0 /∈Q. Тогда для любого x ∈Q выполняется неравенство

πQ(x0)− x0, x −πQ(x0)�

¾ 0. (.)

Доказательство. Заметим, что πQ(x0) есть решение задачи мини-мизации min

x∈Qϕ(x) с функцией ϕ(x)= (1/2)‖x − x0‖2. Поэтому в силу

теоремы .. имеет место неравенство

ϕ′(πQ(x0)), x −πQ(x0)�

¾ 0

для всех x ∈Q. Остается отметить, что ϕ′(x)= x − x0.

В заключение нам понадобится также обобщенное неравенстватреугольника для проекций.

Лемма ... Для любого x ∈Q выполняется неравенство

‖x −πQ(x0)‖2+ ‖πQ(x0)− x0‖2 ¶ ‖x − x0‖2.

Доказательство. Действительно, из неравенства (.) следует, что

‖x −πQ(x0)‖2− ‖x − x0‖2=

x0−πQ(x0), 2x −πQ(x0)− x0

¶−‖x0−πQ(x0)‖2.

Теперь можно перейти к доказательству теорем отделимости.Сформулируем две из них. Первая обеспечивает возможность стро-гой отделимости.

Теорема ... Пусть Q является выпуклым замкнутым множе-ством и x0 /∈Q. Тогда найдется такая гиперплоскость H (g, γ), ко-торая строго отделяет точку x0 от Q. А именно, можно взять

g= x0−πQ(x0) 6= 0, γ=

x0−πQ(x0), πQ(x0)�

.

Доказательство. Действительно, из неравенства (.) вытекает,что для любого x ∈Q выполняется неравенство

x0−πQ(x0), x�

x0−πQ(x0), πQ(x0)�

=

=

x0−πQ(x0), x0

− ‖x0−πQ(x0)‖2.

Приведем пример применения данной теоремы.

Page 159: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

Следствие ... Пусть Q1 и Q2 –– два выпуклых и замкнутых мно-жества.

. Если для любого g ∈ domψQ2выполнено неравенство ψQ1

(g) ¶¶ψQ2

(g), то Q1⊆Q2.

. Пусть domψQ1= domψQ2

и для любого g ∈ domψQ1выполняется

равенство ψQ1(g)=ψQ2

(p). Тогда Q1≡Q2.

Доказательство. . Предположим, что существует точка x0 ∈Q1, непринадлежащая множеству Q2. Тогда в силу теоремы .. существу-ет такое направление g, что

⟨g, x0⟩>γ¾ ⟨g, x⟩

при всех x ∈Q2. Отсюда следует, что g ∈ domψQ2и ψQ1

(g)>ψQ2(g).

Получили противоречие.

. Из первого пункта следует, что Q1⊆Q2 и Q2⊆Q1. Поэтому Q1≡Q2.

Вторая теорема отделимости рассматривает граничные точкивыпуклых множеств.

Теорема ... Пусть Q –– выпуклое замкнутое множество, а точ-ка x0 лежит на его границе. Тогда найдется гиперплоскостьH (g, γ),опорная к Q и проходящая через x0.

(Вектор g при этом называется опорным к Q в точке x0.)

Доказательство. Рассмотрим такую последовательность {yk}, чтоyk /∈Q и yk→ x0. Обозначим

gk =yk −πQ( yk )

‖ yk −πQ( yk )‖ , γk =

gk, πQ( yk)�

.

В силу теоремы .. при всех x ∈Q имеет место неравенство

⟨gk, x⟩¶ γk ¶ ⟨gk, yk⟩. (.)

Однако ‖gk‖= 1, и последовательность {γk} ограничена:

|γk |= |⟨gk, πQ( yk)− x0⟩+ ⟨gk, x0⟩|¶¶ ‖πQ( yk)− x0‖+ ‖x0‖¶ ‖ yk − x0‖+ ‖x0‖

Page 160: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Первое неравенство следует из леммы ... Поэтому без поте-ри общности можно предположить, что найдутся g∗ = limk→∞ gk иγ∗ = limk→∞ γk. Остается перейти к пределу в неравенстве (.).

... Субградиенты

Теперь у нас есть все возможности для введения понятия обоб-щенного градиента.

Определение ... Пусть f –– выпуклая функция. Вектор g называ-ется субградиентом функции f в точке x0 ∈ dom f , если для любогоx ∈ dom f выполняется неравенство

f (x)¾ f (x0)+ ⟨g, x − x0⟩. (.)

Множество ∂ f (x0) всех субградиентов для f в x0 называется субдиф-ференциалом функции f в точке x0.

Необходимость введения понятия субдифференциала вытекаетиз следующего примера.

Пример ... Рассмотрим функцию f (x)= |x |, x ∈R. Для всех y ∈Rи g ∈ [−1, 1] имеет место неравенство

f ( y)= | y |¾ g · y = f (0)+ g · ( y − 0).

Поэтому субградиент для f в точке x = 0 не является единственным.В нашем примере он равен всему отрезку [−1, 1].

Все множество неравенств (.), x ∈ dom f , можно рассматри-вать как семейство линейных ограничений, определяющих множе-ство ∂ f (x0). Поэтому по определению субдифференциал являетсявыпуклым замкнутым множеством.

Заметим, что субдифференцируемость функции подразумеваетее выпуклость.

Лемма ... Пусть для любого x ∈ dom f субдифференциал ∂ f (x)непуст. Тогда f –– выпуклая функция.

Доказательство. В самом деле, пусть x, y ∈ dom f , α ∈ [0, 1]. Рас-смотрим yα = x +α( y − x). Пусть g ∈ ∂ f ( yα). Тогда

f ( y)¾ f ( yα)+ ⟨g, y − yα⟩= f ( yα)+ (1−α)⟨g, y − x⟩,f (x)¾ f ( yα)+ ⟨g, x − yα⟩= f ( yα)−α⟨g, y − x⟩.

Page 161: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

Складывая эти неравенства, умноженные на α и 1−α соответствен-но, получим

α f ( y)+ (1−α) f (x)¾ f ( yα).

С другой стороны, можно доказать и обратное утверждение.

Теорема ... Пусть функция f (x) выпукла и замкнута и x0 ∈∈ int(dom f ). Тогда ∂ f (x0) –– непустое ограниченное множество.

Доказательство. Заметим, что точка ( f (x0), x0) принадлежит гра-нице надграфика epi( f ). Значит, по теореме .. найдется гипер-плоскость, опорная к epi( f ) в ( f (x0), x0):

−ατ+ ⟨d, x⟩¶−α f (x0)+ ⟨d, x0⟩ (.)

при всех (τ, x)∈ epi( f ). Отметим, что можно взять

‖d‖2+α2= 1. (.)

Так как при всех τ¾ f (x0) точка (τ, x0) принадлежит epi( f ), мызаключаем, что α¾ 0.

Вспомним, что выпуклая функция является локально ограничен-ной сверху внутри своей области определения (лемма ..). Этоозначает, что найдутся такие ǫ > 0 и M > 0, что B2(x0, ǫ)⊆ dom f и

f (x)− f (x0)¶M‖x− x0‖при всех x ∈ B2(x0, ǫ). Поэтому из неравенства (.) следует, что длялюбого x ∈ B2(x0, ǫ) выполняются неравенства

⟨d, x − x0⟩¶α( f (x)− f (x0))¶αM‖x− x0‖.Выбирая x = x0 + ǫd, получаем ‖d‖2 ¶ Mα‖d‖. Таким образом, изусловия нормировки (.) следует, что

α¾1p

1+M2.

Отсюда, выбирая g= d/α, получаем

f (x)¾ f (x0)+ ⟨g, x − x0⟩при всех x ∈ dom f .

В заключение, если g ∈ ∂ f (x0), g 6= 0, то, выбирая x = x0+ ǫg/‖g‖,получим

ǫ‖g‖= ⟨g, x − x0⟩¶ f (x)− f (x0)¶M‖x− x0‖=Mǫ.

Page 162: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Значит, ∂ f (x0) –– ограниченное множество.

Покажем, что условие этой теоремы нельзя ослабить.

Пример ... Рассмотрим функцию f (x) = −px на множестве{x ∈ R | x ¾ 0}. Эта функция выпукла и замкнута, но ее субдиффе-ренциал в точке x = 0 не существует.

Установим важную взаимосвязь между субдифференциалом вы-пуклой функции и производной по направлению.

Теорема ... Пусть f –– выпуклая замкнутая функция. Тогда длялюбых x0 ∈ int(dom f ) и p ∈Rn имеет место равенство

f ′(x0; p)=max�

⟨g, p⟩ | g ∈ ∂ f (x0)

.

Доказательство. Заметим, что

f ′(x0; p)= limα↓0

f (x0+αp)− f (x0)�

¾ ⟨g, p⟩, (.)

где g –– произвольный вектор из ∂ f (x0). Поэтому субдифференци-ал функции f ′(x0; p) в точке p = 0 является непустым и ∂ f (x0) ⊆⊆ ∂p f ′(x0; 0). С другой стороны, поскольку производная f ′(x0; p)выпукла по p, из леммы .. следует, что для любого y ∈ dom fвыполняются неравенства

f ( y)¾ f (x0)+ f ′(x0; y − x0)¾ f (x0)+ ⟨g, y − x0⟩,где g ∈ ∂p f ′(x0; 0). Таким образом, ∂p f ′(x0; 0) ⊆ ∂ f (x0), и, значит,∂ f (x0)≡ ∂p f ′(x0; 0).

Рассмотрим gp ∈ ∂p f ′(x0; p). В силу неравенства (.) для любыхυ∈Rn и τ> 0 имеем

τ f ′(x0; υ)= f ′(x0; τυ)¾ f ′(x0; p)+ ⟨gp, τυ− p⟩.Переходя к пределу при τ→∞, заключаем, что

f ′(x0; υ)¾ ⟨gp, υ⟩, (.)

а переходя к пределу при τ→ 0, получаем

f ′(x0; p)− ⟨gp, p⟩¶ 0. (.)

Однако неравенство (.) подразумевает, что gp ∈ ∂p f ′(x0; 0). По-этому, сравнивая неравенства (.) и (.), делаем вывод, что⟨gp, p⟩= f ′(x0; p).

Page 163: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

В заключение этого пункта отметим несколько свойств субгради-ентов, чрезвычайно важных в теории оптимизации. Начнем с усло-вия оптимальности.

Теорема ... Равенство f (x∗)=minx∈dom f f (x) имеет место то-гда и только тогда, когда

0∈ ∂ f (x∗).

Доказательство. Действительно, если 0∈ ∂ f (x∗), то f (x)¾ f (x∗)++ ⟨0, x − x∗⟩ = f (x∗) для всех x ∈ dom f . С другой стороны, еслиf (x)¾ f (x∗) при всех x ∈ dom f , то 0 ∈ ∂ f (x∗), как следует из опре-деления ...

Следующий результат закладывает основу для построения мето-дов отсекающей гиперплоскости.

Теорема ... Для любого x0 ∈ dom f все векторы g ∈ ∂ f (x0) явля-ются опорными к множеству уровней L f ( f (x0)):

⟨g, x0− x⟩¾ 0 ∀x ∈L f ( f (x0))≡�

x ∈ dom f | f (x)¶ f (x0)

.

Доказательство. В самом деле, если f (x)¶ f (x0) и g ∈ ∂ f (x0), то

f (x0)+ ⟨g, x − x0⟩¶ f (x)¶ f (x0).

Следствие ... Пусть Q⊆ dom f –– выпуклое и замкнутое множе-ство, x0 ∈Q и

x∗= arg min�

f (x) | x ∈Q

.

Тогда для любого g ∈ ∂ f (x0) имеет место неравенство ⟨g, x0− x∗⟩¾ 0.

... Вычисление субградиентов

Введенные в предыдущем пункте субградиенты будут в даль-нейшем использоваться при построении схем минимизации. Од-нако для применения этих схем на практике необходимо бытьуверенным, что субградиенты могут быть эффективно вычислены.Приведем здесь некоторые правила таких вычислений.

Лемма ... Пусть функция f выпукла и замкнута. Предположим,что она дифференцируема на всей своей области определения. Тогда∂ f (x)= { f ′(x)} для всех x ∈ int(dom f ).

Page 164: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Доказательство. Зафиксируем некоторую точку x ∈ int(dom f ). Потеореме .. для любого направления p ∈ Rn и любого g ∈ ∂ f (x)

имеем

f ′(x), p�

= f ′(x; p)¾ ⟨g, p⟩.

Меняя знак p, получаем, что ⟨ f ′(x), p⟩ = ⟨g, p⟩ при всех g ∈ ∂ f (x).Наконец, рассматривая p= ek, k= 1, …, n, получаем g= f ′(x).

Рассмотрим операции с выпуклыми функциями, описанные вп. ... Покажем, как при этом меняется субградиент.

Лемма ... Пусть функция f ( y) выпукла и замкнута на dom f ⊆⊆Rm. Рассмотрим линейный оператор

A (x)= Ax + b : Rn→Rm.

Функция ϕ(x)= f (A (x)) также будет выпуклой и замкнутой с об-ластью определения dom ϕ= {x | A (x)∈ dom f }. При этом для лю-бого x ∈ int(dom ϕ) выполняется неравенство

∂ϕ(x)= AT ∂ f (A (x)).

Доказательство. Мы уже доказали первую часть этой леммы в тео-реме ... Обоснуем теперь формулу для субдифференциала.

Действительно, пусть y0 =A (x0). Тогда для всех p ∈Rn имеет ме-сто равенство

ϕ′(x0, p)= f ′( y0; Ap)=max�

⟨g, Ap⟩ | g ∈ ∂ f ( y0)

=

=max�

⟨g, p⟩ | g ∈ AT ∂ f ( y0)

.

Используя теорему .. и следствие .., получаем

∂ϕ(x0)= AT ∂ f (A (x0)).

Лемма ... Пусть f1(x) и f2(x) –– выпуклые замкнутые функции иα1, α2 ¾ 0. Тогда функция f (x)= α1 f1(x)+ α2 f2(x) является выпук-лой и замкнутой и

∂ f (x)=α1∂ f1(x)+α2∂ f2(x) (.)

для любого x ∈ int(dom f )= int(dom f1)∩ int(dom f2).

Page 165: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

Доказательство. В силу теоремы .. нам нужно доказать толькосоотношение для субдифференциалов. Рассмотрим x0 ∈ int(dom f1)∩∩ int(dom f2). Тогда для любого p ∈Rn имеем

f ′(x0; p)=α1 f ′1(x0; p)+α2 f ′2(x0; p)=

=max�

⟨g1, α1 p⟩ | g1 ∈ ∂ f1(x0)

+

+max�

⟨g2, α2 p⟩ | g2 ∈ ∂ f2(x0)

=

=max�

⟨α1 g1+α2g2, p⟩ | g1 ∈ ∂ f1(x0), g2 ∈ ∂ f2(x0)

=

=max�

⟨g, p⟩ | g ∈α1∂ f1(x0)+α2∂ f2(x0)

.

Заметим, что оба множества ∂ f1(x0) и ∂ f1(x0) ограничены. Отсю-да, используя теорему .. и следствие .., получаем соотноше-ние (.).

Лемма ... Пусть функции fi(x), i= 1, …, m, выпуклые и замкну-тые. Тогда функция f (x)=max1¶i¶m fi(x) также является выпук-лой и замкнутой. Для любого x ∈ int(dom f )=

⋂m

i=1 int(dom fi) име-ет место равенство

∂ f (x)=Conv�

∂ fi(x) | i ∈ I(x)

, (.)

где I(x)= {i | fi(x)= f (x)}.

Доказательство. Как и раньше, в силу теоремы .. нам остаетсятолько получить выражение для субдифференциалов. Рассмотримx ∈⋂m

i=1 int(dom fi). Пусть I(x)= {1, …, k}. Тогда для любого p ∈Rn

имеет место соотношение

f ′(x; p)= max1¶i¶k

f ′i (x; p)= max1¶i¶k

max�

⟨gi, p⟩ | gi ∈ ∂ fi(x)

.

Заметим, что для любого множества значений a1, …, ak выполненоравенство

max1¶i¶k

ai =max

§ k∑

i=1

λiai | {λi}∈∆k

ª

,

Page 166: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

где ∆k =�

λi ¾ 0,∑k

i=1 λi = 1

–– k-мерный симплекс. Поэтому

f ′(x; p)= max{λi }∈∆k

§ k∑

i=1

λi max�

⟨gi, p⟩ | gi ∈ ∂ fi(x)

ª

=

=max

§­ k∑

i=1

λi gi, p

·

| gi ∈ ∂ fi(x), {λi}∈∆k

ª

=

=max

§

⟨g, p⟩ | g=k∑

i=1

λi gi, gi ∈ ∂ fi(x), {λi}∈∆k

ª

=

=max�

⟨g, p⟩ | g ∈Conv{∂ fi(x), i ∈ I(x)}

.

Последнее утверждение полезно в тех случаях, когда нам доста-точно вычислить лишь один элемент субдифференциала выпуклойфункции.

Лемма ... f (x)= sup{ϕ( y, x) | y ∈∆}, где∆ –– некоторое множе-ство. Предположим, что для любого фиксированного y ∈∆ функцияϕ( y, x) выпукла и замкнута по x. Тогда функция f (x) является за-мкнутой и выпуклой.

Кроме того, для любого x из множества

dom f =�

x ∈Rn | ∃γ: ϕ( y, x)¶ γ∀y ∈∆

выполнено включение

∂ f (x)⊇Conv�

∂ϕx( y, x) | y ∈ I(x)

,

где I(x)= {y |ϕ( y, x)= f (x)}.

Доказательство. Из теоремы .. следует, что необходимо уста-новить только последнее включение. Итак, для любых x ∈ dom f ,y ∈ I(x) и g ∈ ∂ϕx( y, x) имеет место цепочка неравенств

f (x)¾ϕ( y, x)¾ϕ( y, x0)+ ⟨g, x − x0⟩= f (x0)+ ⟨g, x − x0⟩.

Приведем несколько примеров субдифференциалов.

Пример ... . Пусть f (x)= |x | , x ∈ R. Тогда ∂ f (0)= [−1, 1], по-скольку

f (x)= max−1¶g¶1

g · x.

Page 167: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Выпуклые функции общего вида

. Рассмотрим функцию f (x)=∑m

i=1 |⟨ai, x⟩ − bi |. Введем обозначе-ния

I−(x)= {i | ⟨ai, x⟩ − bi < 0},

I+(x)= {i | ⟨ai, x⟩ − bi > 0},

I0(x)= {i | ⟨ai, x⟩ − bi = 0}.

Тогда ∂ f (x)=∑

i∈I+(x)

ai −∑

i∈I−(x)

ai +∑

i∈I0(x)

[−ai, ai].

. Рассмотрим функцию f (x)=max1¶i¶n x(i). Пусть I(x)= {i : x(i)=

= f (x)}. Тогда ∂ f (x)=Conv{ei | i ∈ I(x)}. Для x = 0 получаем

∂ f (0)=Conv�

ei | 1¶ i¶ n

≡∆n.

. Для евклидовой нормы f (x)= ‖x‖ имеют место равенства

∂ f (0)= B2(0, 1)=�

x ∈Rn | ‖x‖¶ 1

,

∂ f (x)=�

x/‖x‖

, x 6= 0.

. Для l1-нормы f (x)= ‖x‖1=∑n

i=1 |x(i)| получаем

∂ f (0)= B∞(0, 1)=�

x ∈Rn | max1¶i¶n|x(i)|¶ 1

,

∂ f (x)=∑

i∈I+(x)

ei −∑

i∈I−(x)

ei +∑

i∈I0(x)

[−ei, ei], x 6= 0,

где I+(x)= {i | x(i)> 0}, I−(x)= {i | x(i)< 0} и I0(x)= {i | x(i)= 0}.

Проверку данных представлений мы оставляем читателю в каче-стве упражнения.

В заключение этого параграфа приведем пример применения из-ложенной техники для вывода условия оптимальности гладкой за-дачи минимизации с функциональными ограничениями.

Теорема ... (Теорема Куна––Таккера). Пусть fi(x) –– диффе-ренцируемые выпуклые функции, i = 0, …, m. Предположим, чтонайдется такая точка x, что fi(x)< 0 при всех i= 1, …, m (условиеСлэйтера).

Точка x∗ является решением задачи

min�

f0(x) | fi(x)¶ 0, i= 1, …, m

(.)

Page 168: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

тогда и только тогда, когда она удовлетворяет приведенным вы-ше ограничениям и найдутся такие неотрицательные числа λi,i= 1, …, m, что

f ′0(x∗)+∑

i∈I∗λi f ′i (x∗)= 0,

где I∗ = {i ∈ [1, m] : fi(x∗)= 0}.

Доказательство. В силу леммы .. точка x∗ доставляет решениезадачи (.) тогда и только тогда, когда она является точкой гло-бального минимума функции

ϕ(x)=max�

f0(x)− f ∗; fi(x), i= 1, …, m

.

Ввиду теоремы .. это имеет место в том и только в том случае, ес-ли 0∈ ∂ϕ(x∗). Далее, по лемме .. это верно тогда и только тогда,когда существуют такие неотрицательные числа λi, что

λ0 f ′0(x∗)+∑

i∈I∗λi f ′i (x∗)= 0, λ0 +

i∈I∗λi = 1.

Таким образом, осталось доказать, что λ0 > 0. Действительно, еслиλ0= 0, то∑

i∈I∗λi fi(x)¾∑

i∈I∗λi

fi(x∗)+ ⟨ f ′i (x∗), x − x∗⟩�

= 0,

что противоречит условию Слэйтера. Поэтому λ0 > 0, и можно взятьλi = λi/λ0, i ∈ I∗.

Теорема .. часто применяется при решении простых задач оп-тимизации.

Лемма ... Пусть A≻ 0. Тогда

maxx

⟨c, x⟩ : ⟨Ax, x⟩¶ 1

= ⟨A−1c, c⟩1/2.

Доказательство. Заметим, что все условия теоремы .. выполне-ны и решение x∗ рассматриваемой задачи достигается на границедопустимого множества. Поэтому в соответствии с теоремой ..нужно решить следующие уравнения:

c= λAx∗, ⟨Ax∗, x∗⟩= 1.

Таким образом, λ= ⟨A−1c, c⟩1/2, и x∗= (1/λ)A−1c.

Page 169: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

§ .. Методы негладкой минимизацииНижние границы сложности для общего случая. Основная лемма. Локализую-щие множества. Субградиентный метод. Схема условной минимизации. Опти-мизация в конечномерном случае и нижние границы аналитической сложно-сти. Схема отсекающей гиперплоскости. Метод центра тяжести. Метод эллип-соидов. Другие методы.

... Нижние границы сложности для общего случая

В предыдущем параграфе мы ввели в рассмотрение класс выпук-лых функций общего вида. Эти функции могут быть негладкими, из-за чего решение соответствующих задач минимизации существен-но усложняется. Попытаемся, как и для гладких задач, получитьнижние границы аналитической сложности для этого более общегослучая, что даст нам возможность правильно оценивать эффектив-ность различных методов негладкой минимизации.

Получим нижние границы сложности для следующей задачи без-условной минимизации:

minx∈Rn

f (x), (.)

где f –– выпуклая функция. Итак, рассматриваемый нами класс за-дач выглядит следующим образом.

Модель: . Безусловная минимизация.. Функция f выпукла на Rn и липшицева нанеком ограниченном множестве.

Оракул: Черный ящик первого порядка:в каждой точке x можно вычислить f (x),g(x)∈ ∂ f (x), g(x) есть произвольный субгра-диент.

Приближенное решение:Найти x ∈Rn | f (x)− f ∗ ¶ ǫ.

Методы: Формируют последовательность{xk}: xk ∈ x0+ Lin{g(x0), …, g(xk−1)}.

(.)

По аналогии с п. .., для вывода нижней границы сложностирассматриваемого класса задач изучим поведение численных мето-дов на примере некоторых плохих функций.

Page 170: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Зафиксируем две константы µ> 0 и γ> 0. Рассмотрим семействофункций

fk(x)= γ max1¶i¶k

x(i)+µ

2‖x‖2, k= 1, …, n.

Используя правила вычисления субградиентов, описанные в п. ..,можно получить выражение для субдифференциала функции fk вточке x:

∂ fk(x)=µx + γ Conv�

ei | i ∈ I(x)

,

I(x)=n

j | 1¶ j ¶ k, x( j)= max

1¶i¶kx(i)o

.

Таким образом, для любых x, y ∈ B2(0, ρ), ρ > 0 и gk( y)∈ ∂ fk( y) име-ем

fk( y)− fk(x)¶ ⟨gk( y), y − x⟩¶¶ ‖gk( y)‖ · ‖ y − x‖¶ (µρ+ γ)‖ y − x‖.

Поэтому fk липшицева на B2(0, ρ) с константой Липшица M = µρ+ γ.Далее, рассмотрим точку x∗

kс координатами

(x∗k)(i)=

¨

− γµk

, 1¶ i¶ k,

0, k+ 1¶ i¶ n.

Легко проверить, что 0∈ ∂ fk(x∗k). Поэтому x∗

kесть минимум функ-

ции fk(x) (см. теорему ..). Заметим, что

Rk ≡ ‖x∗k‖=γ

µp

k, f ∗k =−

γ2

µk+µ

2R

2k =−

γ2

2µk.

Опишем теперь сопротивляющийся оракул для функции fk(x). По-скольку аналитическая форма этой функции зафиксирована, сопро-тивление оракула может состоять только в предоставлении наихуд-шего из возможных субградиентов в каждой пробной точке. Алго-ритмическая схема такого оракула выглядит следующим образом.

Page 171: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

Вход: x ∈Rn.Ядро: f :=−∞; i∗ := 0;

for j := 1 to k do

if x( j)> f then { f := x( j); i∗ := j};

f := γ f +µ

2‖x‖2; g := γei∗ +µx;

Выход: fk(x) := f , gk(x) := g ∈Rn.

На первый взгляд в приведенной схеме нет ничего специфическо-го. Ядро оракула представляет собой стандартную процедуру поискамаксимальной координаты вектора из Rn. Однако очень важно, чтосубградиент в этом оракуле всегда формируется как координатныйвектор. Кроме того, его ненулевая координата соответствует i∗ ––минимально возможному номеру максимальной компоненты век-тора x (их может быть несколько). Посмотрим, как может выглядетьминимизирующая последовательность, построенная с помощью та-кого оракула.

Выберем начальную точку x0= 0. Введем обозначение

Rp,n=�

x ∈Rn | x(i)= 0, p+ 1¶ i¶ n

.

Так как x0= 0, ответ оракула будет fk(x0)= 0 и gk(x0)= γe1. Поэтомуследующая точка последовательности –– точка x1 –– с необходимо-стью принадлежитR1,n. Предположим теперь, что текущая точка по-следовательности xi принадлежит Rp,n, 1¶ p ¶ k. Тогда оракул дастсубградиент

g=µxi + γei∗,

где i∗ ¶ p + 1. Поэтому следующая точка последовательности xi+1

лежит в Rp+1,n.Это простое рассуждение показывает, что при всех i, 1¶ i¶ k, мы

получаем xi ∈Ri,n. Следовательно, для i, 1¶ i¶ k− 1, мы не сможемулучшить начальное значение целевой функции:

fk(xi)¾ γ max1¶ j¶k

x( j)

i = 0.

Переведем все вышесказанное в термины нижней границы анали-тической сложности. Зафиксируем параметры R> 0 и M > 0 нашегокласса задач P (x0, R, M). В дополнение к (.) предположим, что

Page 172: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

◦ решение x∗ задачи (.) существует, и x∗ ∈ B2(x0, R).◦ f –– липшицева функция на B2(x0, R) с константой M > 0.

Теорема ... В любом классе P (x0, R, M) и для любого k, 0¶ k¶¶ n− 1, найдется такая функция f ∈P (x0, R, M), что

f (xk)− f ∗ ¾MR

2(1+p

k+ 1)

для любой схемы оптимизации, которая генерирует последователь-ность {xk}, удовлетворяющую условию

xk ∈ x0+ Lin�

g(x0), …, g(xk−1)

.

Доказательство. Без потери общности можно предположить чтоx0= 0. Выберем f (x)= fk+1(x),

γ=

pk+ 1M

1+p

k+ 1, µ=

M

(1+p

k+ 1)R.

Тогда

f ∗ = f ∗k+1=−γ2

2µ(k+ 1)=− MR

2(1+p

k+ 1),

‖x0− x∗‖=Rk+1=γ

µp

k+ 1=R

и f (x) –– липшицева функция на B2(x0, R) с постоянной µR+ γ=M .Заметим, что xk ∈Rk,n. Отсюда следует, что f (xk)− f ∗ ¾− f ∗.

Нижняя граница сложности, представленная в теореме .., яв-ляется равномерной по размерности пространства переменных.Как и нижняя граница в теореме .., она дает нам полезнуюинформацию о задачах очень высокой размерности и о возмож-ной эффективности начальных итераций методов минимизации(k¶ n− 1).

Позже мы увидим, что полученная нижняя граница является точ-ной, т. е. существуют методы минимизации, скорость сходимостикоторых пропорциональна этой границе. Сравнивая ее с нижнейграницей сложности для гладких задач, можно заметить, что теперьнеулучшаемая скорость сходимости стала гораздо медленнее. Одна-ко надо помнить, что мы рассматриваем теперь наиболее общий исложный класс задач выпуклой оптимизации.

Page 173: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

... Основная лемма

Рассмотрим следующую задачу минимизации:

min�

f (x) | x ∈Q

, (.)

где Q –– выпуклое замкнутое множество, а f –– выпуклая на Rn функ-ция. Изучим поведение некоторых методов решения задачи (.),использующих субградиенты g(x) исходной целевой функции. Посравнению с гладким случаем, решение задачи (.) представляет-ся гораздо более трудным. Действительно, даже в простейшей ситу-ации, когда Q ≡Rn, субградиент является плохой заменой градиен-та гладкой функции. Например, нельзя быть уверенным, что значе-ние целевой функции будет убывать в направлении −g(x). Нельзятакже ожидать, что g(x)→ 0 при x, стремящемся к решению исход-ной задачи, и т. д.

С другой стороны, субградиенты обладают одним очень полез-ным свойством, которое позволяет спасти ситуацию. Мы доказалиэто свойство в следствии ..:

в любой точке x ∈Q выполнено неравенство

⟨g(x), x − x∗⟩¾ 0. (.)

Это простое неравенство приводит к двум следствиям, которые ле-жат в основе любого метода негладкой минимизации. А именно,

◦ расстояние между x и x∗ убывает в направлении −g(x);◦ неравенство (.) разделяет Rn на два полупространства, при-

чем известно, какое из них содержит x∗.

В методах негладкой минимизации не удается использовать прин-ципы релаксации и аппроксимации. Здесь применяется другая тех-ника, основанная на локализации решения. Однако для ее исполь-зования нам необходимо разработать специальный аппарат, позво-ляющий оценивать качество приближенного решения задачи (.).Этому и будет посвящен настоящий пункт.

Зафиксируем некоторую точку x ∈Rn. Для x ∈Rn, g(x) 6= 0, опре-делим

υ f (x, x)=1

‖g(x)‖ ⟨g(x), x − x⟩.

При g(x)= 0 положим υ f (x; x)= 0. Очевидно, что υ f (x, x)¶ ‖x−x‖.

Page 174: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Значения υ f (x, x) имеют естественную геометрическую интерпре-тацию. Рассмотрим такую точку x, что g(x) 6= 0 и ⟨g(x), x − x⟩¾ 0.Пусть y = x +υ f (x)g(x)/‖g(x)‖. Тогда

⟨g(x), x − y⟩= ⟨g(x), x − x⟩ −υ f (x, x)‖g(x)‖= 0

и ‖ y − x‖ = υ f (x, x). Таким образом, υ f (x, x) есть расстояние отточки x до гиперплоскости {y : ⟨g(x), x − y⟩= 0}.

Введем в рассмотрение функцию, измеряющую отклонение зна-чений функции f от ее значения в точке x. Для t¾ 0 определим

ω f (x; t)=max�

f (x)− f (x) | ‖x − x‖¶ t

.

Если t< 0, то будем считать что ω f (x; t)= 0.Очевидно, что функция ω f обладает следующими свойствами:

◦ ω f (x; 0)= 0 при всех t¶ 0;◦ ω f (x; t) –– неубывающая функция от t ∈R;◦ f (x)− f (x)¶ω f (x; ‖x − x‖).

Важно, что в выпуклом случае последнее неравенство можно уси-лить.

Лемма ... Для любого x ∈Rn имеет место неравенство

f (x)− f (x)¶ω f (x; υ f (x; x)). (.)

Если функция f (x) липшицева на B2(x, R) с некоторой константойM, то

f (x)− f (x)¶M(υ f (x; x))+ (.)

при всех x ∈Rn, υ f (x; x)¶R.

Доказательство. Если ⟨g(x), x − x⟩¶ 0, то

f (x)¾ f (x)+ ⟨g(x), x − x⟩¾ f (x).

Это означает, что υ f (x; x)¶ 0. Отсюда следует, чтоω f (x; υ f (x; x))= 0,и неравенство (.) верно.

Пусть ⟨g(x), x − x⟩> 0. Для

y = x +υ f (x; x)g(x)

‖g(x)‖имеем ⟨g(x), y − x⟩= 0 и ‖ y − x‖=υ f (x; x). Поэтому

f ( y)¾ f (x)+ ⟨g(x), y − x⟩= f (x)

Page 175: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

и

f (x)− f (x)¶ f ( y)− f (x)¶ω f (x; ‖ y − x‖)=ω f (x; υ f (x; x)).

Если функция f липшицева на B2(x, R) и 0 ¶ υ f (x; x)¶ R, то y ∈∈ B2(x, R). Значит,

f (x)− f (x)¶ f ( y)− f (x)¶M‖ y − x‖=Mυ f (x; x).

Зафиксируем некоторую точку x∗, являющуюся решением зада-чи (.). Значения υ f (x∗; x) позволяют оценить качество множествлокализации.

Определение ... Пусть {xi}∞i=0 –– последовательность точек из Q.

Определим

Sk =�

x ∈Q | ⟨g(xi), xi − x⟩¾ 0, i= 0, …, k

.

Будем называть эту область множеством локализации задачи (.),порожденной последовательностью {xi}

∞i=0.

Заметим, что из неравенства (.) следует, что x∗ ∈ Sk при всехk¾ 0.

Введем обозначение

υi =υ f (x∗; xi) (¾ 0), υ∗k = min0¶i¶k

υi.

Таким образом,

υ∗k =max�

r | ⟨g(xi), xi − x⟩¾ 0, i= 0, …, k, ∀x ∈ B2(x∗, r)

.

Лемма ... Пусть f ∗k= min

0¶i¶kf (xi). Тогда f ∗

k− f ∗ ¶ω f (x∗; υ∗

k).

Доказательство. Используя лемму .., получаем

ω f (x∗; υ∗k)= min0¶i¶k

ω f (x∗; υi)¾ min0¶i¶k

f (xi)− f ∗�

= f ∗k − f ∗.

... Субградиентный метод

Теперь мы можем оценить эффективность некоторых схем мини-мизации. Рассмотрим задачу

min�

f (x) | x ∈Q

, (.)

где функция f выпукла на Rn, а Q –– простое выпуклое и замкнутоемножество. Под «простым» мы подразумеваем множество, на кото-ром мы можем в явном виде решить некоторые вспомогательные

Page 176: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

задачи минимизации. В соответствии с целями данного пункта, намнужно уметь находить евклидову проекцию любой точки на множе-ство Q.

Предположим, что задача (.) снабжена оракулом первого по-рядка, который в каждой точке x дает значение целевой функцииf (x) и один из возможных ее субградиентов g(x).

Как обычно, для решения задачи (.) в первую очередь надопопробовать одну из версий градиентного метода. Отметим только,что для негладких задач норма субградиента ‖g(x)‖ представляет-ся не очень информативной. Поэтому в субградиентном методе мыиспользуем нормированное направление g(x)/‖g(x)‖.

Субградиентный методна простых множествах

. Выберем x0 ∈ Q и последовательность шагов{hk}∞

k=0:

hk > 0, hk→ 0,∞∑

k=0

hk =∞.

. k-я итерация (k¾ 0). Вычислим f (xk), g(xk) и по-ложим

xk+1=πQ

xk − hk

g(xk)

‖g(xk)‖

.

(.)

Оценим скорость сходимости этой схемы.

Теорема ... Пусть функция f липшицева на B2(x∗, R) с констан-той M и x0 ∈ B(x∗, R). Тогда

f ∗k − f ∗ ¶M

R2+

k∑

i=0

h2i

2k∑

i=0

hi

. (.)

Доказательство. Введем обозначение ri = ‖xi − x∗‖. Тогда в силулеммы .. имеем

r2i+1=

πQ

xi − hi

g(xi)

‖g(xi )‖�

− x∗

xi − hi

g(xi)

‖g(xi)‖− x∗

2= r2

i − 2hiυi + h2i .

Page 177: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

Суммируя эти неравенства по i= 0, …, k, получим

r20 +

k∑

i=0

h2i = 2

k∑

i=0

hiυi + r2k+1¾ 2υ∗

k

k∑

i=0

hi.

Отсюда следует, что

υ∗k ¶

R2+

k∑

i=0

h2i

2k∑

i=0

hi

.

Остается применить лемму ...

Таким образом, теорема .. показывает, что скорость сходимо-сти субградиентного метода(.) зависит от значений

∆k =

R2+

k∑

i=0

h2i

2k∑

i=0

hi

.

Можно легко увидеть, что ∆k→ 0, если hk→ 0 и ряд∑∞

i=0 hi расхо-дится. Однако давайте попытаемся выбрать hk оптимальным спосо-бом.

Предположим, что нам необходимо выполнить фиксированноеколичество шагов субградиентного метода, скажем N . Тогда, ми-нимизируя ∆k как функцию от {hk}N

k=0, получаем следующую опти-

мальную стратегию :

hi =Rp

N + 1, i= 0, …, N . (.)

В этом случае∆N =Rp

N + 1, и мы получаем следующую скорость схо-

димости:

f ∗k − f ∗ ¶MRpN + 1

.

Сравнивая этот результат с нижней границей из теоремы .., при-ходим к следующему выводу:

Из примера .. () можно увидеть, что ∆k –– выпуклая функция от {hi}.

Page 178: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Субградиентный метод (.), (.) является опти-мальным методом решения задачи (.) равномер-но по размерности n.

Если у нас нет желания априори фиксировать число итераций, томожно выбрать

hi =rp

i+ 1, i= 0, …

Тогда легко увидеть, что функция ∆k пропорциональна

R2+ r ln(k+ 1)

2rp

k+ 1,

и можно классифицировать скорость сходимости рассматриваемойсхемы как субоптимальную.

Итак, простейший метод решения нашей задачи оказывается оп-тимальным. Как правило, это указывает то, что задачи рассматрива-емого класса слишком сложны, чтобы их эффективно решать. Одна-ко надо помнить, что наше утверждение о скорости сходимости вер-но равномерно по размерности пространства переменных. В даль-нейшем мы увидим, что для задач умеренной размерности можноразработать и более эффективные схемы.

... Минимизация при функциональных ограничениях

Покажем, как можно применить субградиентный метод к за-даче условной минимизации при функциональных ограничениях.Рассмотрим задачу

min{ f (x) | x ∈Q, f j (x)¶ 0, i= 1, …, m}, (.)

где f и f j выпуклые функции, а Q –– простое ограниченное выпуклоеи замкнутое допустимое множество:

‖x − y‖¶R ∀x, y ∈Q.

Сформируем агрегированное ограничение

f (x)=�

max1¶ j¶m f j (x)�

+.

Тогда исходная задача перепишется в виде

min�

f (x) | x ∈Q, f (x)¶ 0

. (.)

Page 179: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

Если мы умеем вычислять субградиенты функций f j , то нетрудно

вычислить и субградиент g(x) функции f (см. лемму ..).Зафиксируем некоторое решение x∗ задачи (.). Тогда f (x∗)= 0

и υ f (x∗; x)¾ 0 при всех x ∈Rn. Поэтому в силу леммы .. получаем

f (x)¶ω f (x∗; υ f (x∗; x)).

Если все функции f j липшицевы на Q с константой M , то для любогоx ∈Rn имеем

f (x)¶M ·υ f (x∗; x).

Запишем субградиентную схему минимизации для задачи (.).Полагаем при этом параметр R известным.

Субградиентный метод:функциональные ограничения

. Выберем x0 ∈Q и последовательность {hk}∞k=0

:

hk =Rp

k+ 0,5.

. k-я итерация (k¾ 0).

a) Вычислим f (xk), g(xk), f (xk), g(xk) и по-ложим

pk =

¨

g(xk), если f (xk)< ‖ g(xk)‖hk, (A),

g(xk), если f (xk)¾ ‖ g(xk)‖hk. (B).

б) Положим xk+1=πQ

xk − hk

pk

‖pk‖

.

(.)

Теорема ... Пусть функция f липшицева на B2(x∗, R) с констан-той M1 и

M2= max1¶ j¶m

‖g‖ : g ∈ ∂ f j(x), x ∈ B2(x∗, R)

.

Тогда для любого k¾ 3 найдется такой номер i′, 0¶ i′¶ k, что

f (xi′)− f ∗ ¶

p3M1Rp

k− 1, 5, f (xi′)¶

p3M2Rp

k− 1, 5.

Доказательство. Заметим, что если направление pk выбрано в со-ответствии с правилом (. B), то

‖ g(xk)‖hk ¶ f (xk)¶ ⟨g(xk), xk − x∗⟩.

Page 180: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Значит, в этом случае υ f (x∗; xk)¾ hk.Пусть k′= ⌊k/3⌋ и Ik = {i ∈ [k′, …, k] | pi = g(xi)}. Введем обозначе-

ниеri = ‖xi − x∗‖, υi =υ f (x∗; xi), υi =υ f (x∗; xi).

Тогда для всех i, k′¶ i¶ k, выполняются следующие утверждения:

если i ∈ Ik, то r2i+1¶ r2

i − 2hiυi + h2i ,

если i /∈ Ik, то r2i+1¶ r2

i − 2hiυi + h2i .

Суммируя эти неравенства по i ∈ [k′, …, k], получаем

r2k′ +

k∑

i=k′h2

i ¾ r2k+1+ 2∑

i∈Ik

hiυi + 2∑

i/∈Ik

hiυi.

Напомним, что при i /∈ Ik имеет место неравенство υi ¾ hi (слу-чай (B)).

Предположим, что υi ¾ hi при всех i ∈ Ik. Тогда

1¾1

R2

k∑

i=k′h2

i =

k∑

i=k′

1i+ 0,5

¾

k+1∫

k′

dττ+ 0,5

= ln2k+ 3

2k′ + 1¾ ln 3.

Получили противоречие. Таким образом, Ik 6= ∅, и найдется та-кое i′ ∈ Ik, что υi′ < hi′. Очевидно, что υi′ ¶ hk′, и, следовательно,(υi′)+ ¶ hk′.

Отсюда следует, что f (xi′)− f ∗ ¶ M1hk′ (см. лемму ..), и, по-скольку i′ ∈ Ik, получаем следующую оценку:

f (xi′)¶ ‖ g(xi′)‖hk′ ¶M2hk′.

Остается заметить, что k′¾k3− 1, и поэтому hk′ ¶

p3Rp

k− 1,5.

Сравнивая результат теоремы .. с нижней границей аналити-ческой сложности из теоремы .., видим, что схема (.) облада-ет оптимальной скоростью сходимости. Напомним, что эта нижняяграница была получена для задачи минимизации без ограничений.Таким образом, полученный результат демонстрирует, что с точкизрения аналитической сложности задачи выпуклой безусловной ми-нимизации общего вида оказываются не проще задач с функцио-нальными ограничениями.

Page 181: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

... Границы сложности в конечномерном случае

Рассмотрим снова задачу безусловной минимизации, предпола-гая ее размерность относительно небольшой. Это подразумевает,что вычислительных ресурсов должно быть вполне достаточно длявыполнения числа итераций метода минимизации, пропорциональ-ного размерности пространства переменных. Как будет выглядетьнижняя граница сложности в этом случае?

В данном пункте мы получим конечномерную нижнюю грани-цу аналитической сложности для задачи, которая тесно связана сзадачей минимизации, –– задачи разрешимости:

найти x∗ ∈Q, где Q –– выпуклое множество. (.)

Предположим, что эта задача снабжена оракулом, отвечающим навопрос в точке x ∈Rn следующим образом:

◦ либо сообщается, что x ∈Q,◦ либо выдается вектор g, отделяющий x от Q:

⟨g, x − x⟩¾ 0 ∀x ∈Q.

Для оценки сложности этой задачи сделаем следующее предположе-ние.

Предположение ... Существует такая точка x∗ ∈Q, что для неко-торого ǫ > 0 шар B2(x∗, ǫ) принадлежит множеству Q.

Например, если для задачи (.) нам известно оптимальное зна-чение f ∗, то ее можно переформулировать как задачу разрешимостис множеством

¯Q=�

(t, x)∈Rn+1 | t¾ f (x), t¶ f ∗ + ǫ, x ∈Q

.

Соотношение между параметрами точности ǫ и ǫ в (..) можнолегко получить, полагая функцию f липшицевой. Оставляем это чи-тателю в качестве упражнения.

Опишем теперь сопротивляющийся оракул для задачи (.). Онформирует в Rn последовательность прямоугольных параллелепи-педов {Bk}∞

k=0, Bk+1⊂ Bk, задаваемых своими нижними и верхними

границами:

Bk =�

x ∈Rn | ak ¶ x ¶ bk

.

Page 182: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Для каждого параллелепипеда Bk, обозначим через ck = 1/2(ak + bk)его центр. Для каждого Bk, k¾ 1, оракул создает свой отделяющийвектор gk. С точностью до знака он всегда является координатнымвектором.

В схеме, описанной ниже, используются два динамических счет-чика:

◦ m есть число сформированных параллелепипедов,◦ i есть активная координата.

Обозначим через e∈Rn вектор из всех единиц. Оракул начинает ра-боту со следующих начальных параметров:

a0 :=−Re, b0 :=Re, m := 0, i := 1.

На его вход подается произвольная точка x ∈Rn.

Сопротивляющийся оракул.Задача разрешимости

If x /∈ B0 then [ выдать вектор, отделяющий x от B0 ]else

. Найти максимальноеk ∈ {0, …, m} : x ∈ Bk.

. If k<m then [ выдать gk] else[{Создать новый параллелепипед}:

If x(i)¾ c(i)

m then [am+1 := am,

bm+1 := bm + (c(i)m − b(i)

m )ei, gm := ei.]

else [am+1 := am + (c(i)m − a(i)

m )ei,

bm+1 := bm, gm :=−ei.]

m :=m+ 1; i := i+ 1; If i> n then i := 1.Выдать gm. ]

Данный оракул реализует очень простую стратегию. Отметим,что следующий параллелепипед Bm+1 всегда равен половине преды-дущего Bm. При этом гиперплоскость, разделяющая его на две ча-сти, проходит через центр Bm и соответствует активной координатеi. В зависимости от того, в какой части последнего параллелепипе-да Bm лежит точка x, выбирается тот или иной знак разделяющего

Page 183: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

вектора gm+1 =±ei. После формирования нового параллелепипедаBm+1 индекс i возрастает на . Если его значение превосходит n,мы возвращаемся назад к i= 1. Таким образом, последовательностьпараллелепипедов {Bk} обладает двумя важными свойствами:

◦ voln Bk+1= (1/2) voln Bk,◦ для любого k¾ 0 имеет место равенство bk+n−ak+n= (1/2)(bk−ak).

Заметим также, что число сформированных параллелепипедов непревосходит числа обращений к оракулу.

Лемма ... При всех k¾ 0 верно включение

B2(ck, rk)⊂ Bk, где rk =R

2

12

�k

n. (.)

Доказательство. Действительно, при всех k ∈ {0, …, n − 1} имеетместо включение

Bk ⊃ Bn=

n

x | cn−12Re¶ x ¶ cn+

12Reo

⊃ B2

cn,12R

.

Поэтому для таких k получаем Bk ⊃ B2(ck, (1/2)R), и включение (.)верно. Далее, пусть k = nl + p с некоторым p ∈ {0, …, n − 1}. По-скольку

bk − ak =

12

�l

(bp − ap),

мы заключаем, что

Bk ⊃ B2

ck,12R

12

�l�

.

Остается отметить, что rk ¶12R

12

�l

.

Лемма .. непосредственно приводит к следующему результату.

Теорема ... Рассмотрим класс задач разрешимости типа (.),которые удовлетворяют предположению .. и для которых допу-стимые множества Q лежат в B∞(0, R). Тогда нижняя граница ана-литической сложности для этого класса задач равна n ln(R/(2ǫ))обращениям к оракулу.

Доказательство. В самом деле, мы видели, что число генериру-емых параллелепипедов не превосходит количества обращений к

Page 184: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

оракулу. Кроме того, из леммы .. вытекает, что после k итерацийпоследний параллелепипед будет содержать шар B2(cmk

, rk).

Нижняя граница сложности для задачи минимизации (.) мо-жет быть получена аналогичным образом. Однако соответствующеедоказательство довольно громоздко. По этой причине приводимздесь только результат.

Теорема ... Для задач минимизации вида (.) с Q⊆ B∞(0, R) иf ∈F 0,0

M (B∞(0, R)) нижняя граница аналитической сложности рав-

на n lnMR8ǫ

обращениям к оракулу.

... Методы отсекающей гиперплоскости

Рассмотрим задачу минимизации с ограничениями

min�

f (x) | x ∈Q

, (.)

где f –– выпуклая функция вRn, а Q –– такое ограниченное выпуклоеи замкнутое множество, что

int Q 6=∅, Ddef= diam Q<∞.

Предположим, что множество Q не является простым и что нашазадача снабжена разделяющим оракулом. В любой точке x ∈Rn этоторакул вычисляет вектор g, который равен

◦ субградиенту функции f в точке x, если x ∈Q,◦ вектору, отделяющему x от Q, если x /∈Q.

Важным примером такой задачи является условная минимизацияс функциональными ограничениями (.). Ранее было показано,что эту задачу можно переписать как задачу с одним функциональ-ным ограничением (см. задачу (.)), которое образует допусти-мое множество

Q=�

x ∈Rn | f (x)¶ 0

.

В этом случае для x /∈ Q оракул должен выдать любой субградиентg ∈ ∂ f (x). Очевидно, g отделяет x от Q (см. теорему ..).

Приведем основное свойство конечномерных множеств локали-зации.

Page 185: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

Рассмотрим последовательность X ≡ {xi}∞i=0, лежащую в множе-

стве Q. Напомним, что множества локализации, образованные этойпоследовательностью, определяются следующим образом:

S0(X)=Q,

Sk+1(X)=�

x ∈ Sk(X) | ⟨g(xk), xk − x⟩¾ 0

.

Очевидно, что x∗ ∈ Sk для любого k¾ 0. Введем обозначения

υi =υ f (x∗; xi)(¾ 0), υ∗k = min0¶i¶k

υi.

Пусть voln S обозначает n-мерный объем множества S⊂Rn.

Теорема ... Для любого k¾ 0 имеет место неравенство

υ∗k ¶ D

voln Sk(X )

voln Q

�1/n

.

Доказательство. Введем обозначение α = υ∗k/D(¶ 1). Так как Q ⊆

⊆ B2(x∗, D), верно следующее включение:

(1−α)x∗+αQ⊆ (1−α)x∗+αB2(x∗, D)= B2(x∗, υ∗k).

Множество Q выпукло. Поэтому

(1−α)x∗+αQ≡�

(1−α)x∗+αQ�

∩Q⊆ B2(x∗, υ∗k)∩Q⊆ Sk(X).

Значит, voln Sk(X)¾ voln[(1−α)x∗ +αQ]=αn voln Q.

Зачастую множество Q оказывается достаточно сложным. Тогдаработать напрямую с множествами Sk(X) не удается. Вместо этогоможно иметь дело с некоторыми простыми внешними аппроксима-циями этих множеств. Процедура формирования таких аппроксима-ций описывается следующим методом отсекающей гиперплоскости.

Page 186: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Обобщенный методотсекающей гиперплоскости

. Выберем некоторое ограниченное множествоE0⊇Q.

. k-я итерация (k¾ 0).a) Выберем yk ∈ Ek.б) Если yk ∈ Q, то вычислим f ( yk), g( yk). Если

yk /∈Q, то вычислим g( yk), который отделяетyk от Q.

c) Положим

gk =

¨

g( yk), если yk ∈Q,

g( yk), если yk /∈Q.

d) Выберем Ek+1⊇�

x ∈ Ek | ⟨gk, yk − x⟩¾ 0

.

(.)

Оценим эффективность приведенного метода. Рассмотрим по-следовательность Y = {yk}∞

k=0, участвующую в этой схеме. Обозна-

чим через X подпоследовательность допустимых точек последова-тельности Y : X = Y ∩Q. Определим счетчик

i(k)= число таких точек yj , 0¶ j < k, что yj ∈Q.

Таким образом, если i(k)> 0, то X 6=∅.

Лемма ... Для любого k¾ 0 верно включение Si(k)⊆ Ek.

Доказательство. Действительно, если i(0)= 0, то S0=Q⊆ E0. Пред-положим, что Si(k) ⊆ Ek при некотором k ¾ 0. Тогда на следующейитерации имеем два возможных варианта.

. Выполняется равенство i(k+ 1)= i(k). Это равенство имеет местоесли и только если yk /∈Q. Тогда

Ek+1⊇�

x ∈ Ek | ⟨g( yk), yk − x⟩¾ 0

⊇⊇�

x ∈ Si(k+1) | ⟨g( yk), yk − x⟩¾ 0

= Si(k+1),

Page 187: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

поскольку Si(k+1)⊆Q и g( yk) отделяет yk от Q.

. Выполняется равенство i(k + 1)= i(k)+ 1. В этом случае yk ∈ Q.Тогда

Ek+1⊇�

x ∈ Ek | ⟨g( yk), yk − x⟩¾ 0

⊇⊇�

x ∈ Si(k) | ⟨g( yk), yk − x⟩¾ 0

= Si(k)+1,

поскольку yk = xi(k).

Приведенные результаты имеют важные следствия.

Следствие ... . Для любых таких k, что i(k)> 0, выполненынеравенства

υ∗i(k)(X)¶ D

voln Si(k)(X )

voln Q

�1/n

¶ D

voln Ek

voln Q

�1/n

.

. Если voln Ek < voln Q, то i(k)> 0.

Доказательство. Первое утверждение уже доказано. Второе следу-ет из включения Q= S0= Si(k)⊆ Ek, которое верно для всех таких k,что i(k)= 0.

Таким образом, если нам удастся обеспечить условие voln Ek→ 0,то полученный метод будет сходящимся. Кроме того, скорость убы-вания объемов этих тел автоматически определит скорость схо-димости соответствующего метода. Естественно, нам бы хотелось,чтобы voln Ek убывал как можно быстрее.

Исторически первым методом минимизации, в котором приме-нялась идея отсекающих гиперплоскостей, был метод центров тя-жести. Он основан на следующем геометрическом факте.

Рассмотрим некоторое выпуклое ограниченное множество S⊂Rn,int S 6=∅. Определим центр тяжести этого множества:

cg(S)=1

voln S

S

x dx.

Следующий результат показывает, что любая отсекающая плос-кость, проходящая через центр тяжести, разделяет множество надве пропорциональные части.

Лемма ... Пусть g задает некое направление в Rn. Определим

S+=�

x ∈ S | ⟨g, cg(S)− x⟩¾ 0

.

Page 188: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Тогдаvoln S+voln S

¶ 1− 1e

.

(Примем этот результат без доказательства.)Это утверждение естественным образом приводит нас к следую-

щему методу минимизации.

Метод центров тяжести

. Положим S0=Q.. k-я итерация (k¾ 0).

a) Выберем xk = cg(Sk) и вычислим f (xk), g(xk).б) Положим Sk+1=

x ∈ Sk | ⟨g(xk), xk − x⟩¾ 0

.

Оценим скорость сходимости этого метода. Введем обозначение

f ∗k = min0¶ j¶k

f (x j).

Теорема ... Если функция f липшицева на B2(x∗, D) с констан-той M, то для любых k¾ 0 имеет место неравенство

f ∗k − f ∗ ¶MD�

1− 1e

�k/n

.

Доказательство. Это неравенство следует из леммы .., теоре-мы .. и леммы ...

Сравнивая этот результат с нижней границей сложности задачи(теорема ..), видим, что метод центров тяжести является опти-мальным при конечной размерности. Его скорость сходимости независит от каких-либо отдельных характеристик нашей задачи, на-пример от ее обусловленности и т. п. Однако нужно признать, чтоэтот метод абсолютно не применим на практике, поскольку вычис-ление центра тяжести в многомерном пространстве является болеесложным, чем решение исходной задачи минимизации.

Рассмотрим другой метод, который использует аппроксимациюмножеств локализации. Этот метод основан на следующем геомет-рическом наблюдении.

Пусть H –– положительно определенная симметрическая (n× n)-матрица. Рассмотрим эллипсоид

E(H, x)=�

x ∈Rn | ⟨H−1(x − x), x − x⟩¶ 1

.

Page 189: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

Выберем направление g ∈ Rn и рассмотрим половину эллипсоида,задаваемую соответствующей гиперплоскостью:

E+ =�

x ∈ E(H, x) | ⟨g, x − x⟩¾ 0

.

Нетрудно увидеть, что это множество принадлежит другому эл-липсоиду, объем которого строго меньше, чем объем эллипсоидаE(H, x).

Лемма ... Введем обозначения

x+= x − 1n+ 1· Hg

⟨Hg, g⟩1/2 ,

H+ =n2

n2− 1

H − 2n+ 1· HggT H

⟨Hg, g⟩

.

Тогда E+⊂ E(H+, x+) и

voln E(H+, x+)¶

1− 1

(n+ 1)2

�n/2

voln E(H, x).

Доказательство. Введем обозначения G= H−1 и G+= H−1+

. Очевид-но, что

G+ =n2− 1

n2

G+2

n− 1· ggT

⟨Hg, g⟩

.

Без потери общности можно предположить, что x = 0 и ⟨Hg, g⟩= 1.

Выберем любую точку x ∈ E+. Заметим, что x+=−1

n+ 1Hg. Поэтому

‖x − x+‖2G+ =n2− 1

n2

‖x − x+‖2G +2

n− 1⟨g, x − x+⟩2�

,

‖x − x+‖2G = ‖x‖2G +

2n+ 1⟨g, x⟩+ 1

(n+ 1)2,

⟨g, x − x+⟩2= ⟨g, x⟩2+ 2n+ 1⟨g, x⟩+ 1

(n+ 1)2.

Подставляя все элементы в исходное выражение, получим

‖x − x+‖2G+ =n2− 1

n2

‖x‖2G +2

n− 1⟨g, x⟩2+ 2

n− 1⟨g, x⟩+ 1

n2− 1

.

Отметим, что ⟨g, x⟩¶ 0 и ‖x‖G ¶ 1. Поэтому

⟨g, x⟩2+ ⟨g, x⟩= ⟨g, x⟩�

1+ ⟨g, x⟩�

¶ 0.

Page 190: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Отсюда следует, что

‖x − x+‖2G+ ¶n2− 1

n2

‖x‖2G +1

n2 − 1

¶ 1.

Таким образом, мы доказали, что E+ ⊂ E(H+, x+).Вычислим объем эллипсоида E(H+, x+):

voln E(H+, x+)

voln E(H, x)=

det H+det H

�1/2

=

��

n2

n2− 1

�n n− 1n+ 1

�1/2

=

=

n2

n2 − 1

1− 2n+ 1

�1

n

�n/2

n2

n2− 1

1− 2n(n+ 1)

��n/2

=

=

n2(n2+ n− 2)

n(n− 1)(n+ 1)2

�n/2

=

1− 1

(n+ 1)2

�n/2

.

Оказывается, E(H+, x+) является эллипсоидом минимальногообъема, содержащим половину начального эллипсоида E+.

Наши наблюдения можно оформить в алгоритмическую схемуметода эллипсоидов.

Метод эллипсоидов

. Выберем такие y0 ∈Rn и R> 0, что B2( y0, R)⊇Q.Положим H0=R

2 · In.. k-я итерация (k¾ 0):

gk =

¨

g( yk), если yk ∈Q,

g( yk), если yk /∈Q,

yk+1= yk −1

n+ 1· Hk gk

⟨Hk gk , gk⟩1/2,

Hk+1=n2

n2− 1

Hk −2

n+ 1·

Hk gk gTk

Hk

⟨Hk gk , gk⟩

.

(.)

Этот метод можно рассматривать как частный случай обобщен-ной схемы (.), выбрав

Ek =�

x ∈Rn | ⟨H−1k

(x − yk), x − yk⟩¶ 1

,

где yk –– центр этого эллипсоида.

Page 191: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы негладкой минимизации

Оценим эффективность метода эллипсоидов. Пусть Y = {yk}∞k=0

, ипусть X –– допустимая часть подпоследовательности Y :

X = Y ∩Q.

Введем обозначение f ∗k=min0¶ j¶k f (x j).

Теорема ... Пусть функция f липшицева на B2(x∗, R) с некото-рой константой M. Тогда для i(k)> 0 имеет место неравенство

f ∗i(k)− f ∗ ¶MR

1− 1

(n+ 1)2

�k/2

·�

voln B0(x0, R)voln Q�1/n

.

Доказательство. Данное утверждение следует из леммы .., след-ствия .. и леммы ...

Чтобы гарантировать выполнение условия X 6= ∅, необходимыдополнительные предположения. Если найдутся такие ρ > 0 и x ∈Q,что

B2(x, ρ)⊆Q, (.)

то�

voln Ek

voln Q

�1/n

1− 1

(n+ 1)2

�k/2�voln B2(x0, R)

voln Q

�1/n

¶1ρ

e− k

2(n+1)2 R.

Принимая во внимание следствие .., мы получаем, что i(k)> 0при всех

k> 2(n+ 1)2 lnR

ρ.

Если i(k)> 0, то

f ∗i(k)− f ∗ ¶1ρ

MR2 · e−k

2(n+1)2 .

Для выполнения условия (.) в задаче минимизации с функцио-нальными ограничениями достаточно предположить, что все огра-ничения являются липшицевыми и существует допустимая точка,в которой они все строго отрицательны (условие Слэйтера). Мыпредлагаем читателю убедиться в этом самостоятельно.

Перейдем к обсуждению вычислительной сложности метода эл-липсоидов (.). Каждая итерация этого алгоритма не представля-ется слишком трудоемкой; она требует только O(n2) арифметиче-ских операций. С другой стороны, для того чтобы получить ǫ-реше-ние задачи (.), удовлетворяющей предположению (.), данный

Page 192: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

метод требует

2(n+ 1)2 lnMR2

ρǫ

обращений к оракулу. Эта оценка эффективности не является опти-мальной (см. теорему ..), но она имеет линейную зависимость отln 1/ǫ и полиномиальную зависимость от размерности и логариф-мов параметров M , R и ρ. Для классов задач, оракул которых имеетполиномиальную сложность, такие алгоритмы называются (слабо)полиномиальными.

В заключение этого параграфа укажем, что существует несколь-ко методов, которые используют множества локализации в формемногогранников:

Ek =�

x ∈Rn | ⟨a j , x⟩¶ b j , j = 1, …, mk

.

Перечислим наиболее важные методы этого типа.

◦ Метод вписанных эллипсоидов. Точка yk в этом методе выбирает-ся следующим образом:

yk есть центр эллипсоида максимального объема Wk ⊂ Ek.

◦ Метод аналитического центра. В этой схеме точка yk выбирает-ся как минимум аналитического барьера

Fk(x)=−mk∑

j=1

ln�

b j − ⟨a j , x⟩�

.

◦ Метод объемного центра. Этот метод является также методомбарьерного типа. Точка yk выбирается здесь как минимум объем-ного барьера

Vk(x)= ln det F ′′k (x),

где Fk(x) –– аналитический барьер для множества Ek.

Все эти методы являются полиномиальными с границей сложно-сти, равной

n�

ln1ǫ

�p

,

где p равно либо , либо . Однако сложность каждой отдельнойитерации этих методов намного больше (n3 ÷ n4 арифметическихопераций). В следующей главе мы увидим, что точка yk для этихсхем может быть вычислена методами внутренней точки.

Page 193: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы с полной информацией

§ .. Методы с полной информацией

Модель негладкой функции. Метод Келли. Идея метода уровней. Безусловнаяминимизация. Оценки эффективности. Задачи с функциональными ограниче-ниями.

... Модель негладкой функции

В предыдущем параграфе мы привели несколько методов реше-ния задачи

minx∈Q

f (x), (.)

где f –– липшицева выпуклая функция, а Q –– выпуклое замкнутоемножество. Было показано, что оптимальным методом для задачи(.) является субградиентный метод (.), (.). Этот результатверен для всего класса липшицевых функций. Однако при миними-зации конкретной функции из этого класса можно ожидать лучшегоповедения методов. Мы часто можем надеяться на гораздо большуюскорость сходимости метода минимизации по сравнению с теорети-ческими нижними границами, полученнымм при анализе наихуд-шей ситуации. К сожалению, для субградиентного метода наши на-дежды не оправдываются. Схема субградиентного метода являет-ся чрезвычайно жесткой, и в общем случае он не может сходить-ся быстрее теоретических оценок. Можно также показать, что ме-тод эллипсоидов (.) разделяет этот недостаток субградиентнойсхемы. На практике он работает более или менее в соответствии стеоретическими границами даже тогда, когда он применяется дляминимизации очень простых функций таких как, например, ‖x‖2.

В этом параграфе мы обсудим алгоритмические схемы, которыеявляются более гибкими, чем субградиентный метод и метод эллип-соидов. Эти схемы основаны на понятии модели негладкой функ-ции.

Определение ... Пусть X = {xk}∞k=0

–– некоторая последователь-ность точек из множества Q. Введем обозначения

fk(X ; x)= max0¶i¶k

f (xi)+ ⟨g(xi), x − xi⟩�

,

где g(xi) –– некоторые субградиенты функции f в точках xi. Функ-ция fk(X ; x) называется моделью выпуклой функции f (x).

Page 194: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Заметим, что fk(X ; x) –– кусочно линейная функция от x. Из нера-венства (.) следует, что

f (x)¾ fk(X ; x)

при всех x ∈Rn. Однако во всех точках xi, 0¶ i¶ k, модель точна:

f (xi)= fk(X ; xi), g(xi)∈ ∂ fk(X ; xi).

Последующая модель всегда лучше, чем предыдущая:

fk+1(X ; x)¾ fk(X ; x)

для всех x ∈Rn.

... Метод Келли

Модель fk(X ; x) содержит в себе полную информацию о функ-ции f , накопленную после k обращений к оракулу. Поэтому есте-ственным было бы разработать метод минимизации, основанныйна ее использовании. Возможно, простейший из методов такоготипа выглядит следующим образом.

Метод Келли

. Выберем x0 ∈Q.. k-я итерация (k¾ 0).

Найти xk+1 ∈Arg minx∈Q

fk(X ; x).

(.)

На первый взгляд этот метод является весьма привлекательным.Даже наличие сложной вспомогательной задачи не сильно портиткартину, так как она может быть решена методами линейного про-граммирования за конечное время. Однако, оказывается, данныйметод вряд ли стоит применять на практике. И основной причинойэтого является его неустойчивость. Заметим, что решение вспомо-гательной задачи в методе (.) может не быть единственным.Кроме того, все множество Arg minx∈Q fk(X ; x) может оказатьсянеустойчивым по отношению к произвольно малому изменениюданных { f (xi), g(xi)}. Именно это свойство и приводит к неустой-чивому поведению метода. Более того, используя этот недостаток,можно построить задачу, в которой метод Келли обладает безна-дежно плохой нижней границей сложности.

Page 195: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы с полной информацией

Пример ... Рассмотрим задачу (.) с

f ( y, x)=max�

| y |, ‖x‖2

, y ∈R1, x ∈Rn,

Q=�

z= ( y, x) : y2+ ‖x‖2¶ 1

.

Ее решение есть z∗= ( y∗, x∗)= (0, 0), и оптимальное значение f ∗ = 0.Обозначим через Z∗

k= Arg minz∈Q fk(Z; z) оптимальное множество

модели fk(Z; z) и через f ∗k= fk(Z∗

k) оптимальное значение модели.

Выберем z0 = (1, 0). Тогда начальная модель функции f естьf0(Z; z)= y. Поэтому первая точка, полученная по методу Келли,равна z1 = (−1, 0). Значит, следующая модель функции f выглядиттак:

f1(Z; z)=max{y,−y}= | y |.

Очевидно, f ∗1 = 0. Заметим, что f ∗k+1¾ f ∗

k. С другой стороны,

f ∗k ¶ f (z∗)= 0.

Таким образом, для всех следующих моделей с k¾ 1 мы имеем f ∗k= 0

и Z∗k= (0, X ∗

k), где

X ∗k =�

x ∈ B2(0, 1) : ‖xi‖2 + ⟨2xi, x − xi⟩¶ 0, i= 0, …, k

.

Оценим эффективность усечений множества X ∗k

. Поскольку xk+1

может оказаться произвольной точкой из X ∗k

, на первом этапе методаможно выбирать все точки xi с единичной нормой: ‖xi‖= 1. Тогдамножество X ∗

kопределяется следующим образом:

X ∗k =�

x ∈ B2(0, 1) | ⟨xi, x⟩¶ 12

, i= 0, …, k

.

Так можно поступать, если

S2(0, 1)≡�

x ∈Rn | ‖x‖= 1

∩ X ∗k 6=∅.

Заметим, что на первом этапе

f (zi)≡ f (0, xi)= 1.

Оценим сверху длительность этого этапа, используя следующийфакт.

Page 196: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Пусть d задает некоторое направление в Rn, ‖d‖= 1.Рассмотрим поверхность

S(α)=�

x ∈Rn | ‖x‖= 1, ⟨d, x⟩¾α

, α∈h

12

, 1i

.

Тогда υ(α)≡ voln−1(S(α))¶υ(0)�

1−α2�

n−1

2 .

На первом этапе от сферы S2(0, 1) на каждом шаге отрезаетсяне более, чем сферический сегмент S(1/2). Поэтому этот этап мо-жет продолжаться по крайней мере для всех k¶ [2/

p3]n−1. Во время

этих итераций f (zi)= 1.Так как на первом этапе процесса отсекающие гиперплоско-

сти задаются неравенствами ⟨xi, x⟩ ¶ 1/2, для всех таких k, что0¶ k¶ N ≡ [2/

p3]n−1, верно включение

B2

0,12

⊂ X ∗k .

Это означает, что после N итераций можно повторить процесс ужес шаром B2(0, 1/2) и т. д. Заметим, что f (0, x)= 1/4 при всех x, рас-положенных на границе шара B2(0, 1/2).

Таким образом, доказано, что нижняя оценка скорости сходимо-сти метода Келли (.) дается неравенством

f (xk)− f ∗ ¾�

14

�k�p

3/2�n−1

.

Отсюда следует, что мы не сможем найти ǫ-решение нашей задачименее чем за

ln 1

ǫ

2 ln 2

h

2p3

in−1

обращений к оракулу. Остается сравнить эту нижнюю границу сверхними границами сложности других методов:

Метод эллипсоидов: O�

n2 ln1ǫ

Оптимальные методы: O�

n ln1ǫ

Градиентный метод: O�

1

ǫ2

Page 197: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы с полной информацией

... Метод уровней

Покажем, что с помощью моделей выпуклых функций можностроить и устойчивые методы минимизации. Введем обозначение

f ∗k =minx∈Q

fk(X ; x), f ∗k = min0¶i¶k

f (xi).

Первое значение мы будем называть минимальным значением моде-ли, а второе –– ее рекордным значением. Очевидно, что f ∗

k¶ f ∗ ¶ f ∗

k.

Выберем некоторое α∈ (0, 1). Пусть

lk(α)= (1−α) f ∗k +α f ∗k .

Рассмотрим множество уровней

Lk(α)=�

x ∈Q | fk(x)¶ lk(α)

.

Ясно, что Lk(α) –– выпуклое и замкнутое множество.Заметим, что для методов оптимизации множество Lk(α) пред-

ставляет определенный интерес. Во-первых, ясно, что внутри этогомножества еще нет ни одной точки текущей модели. Во-вторых, оноустойчиво по отношению к малым изменениям данных. Рассмот-рим один метод минимизации, основанный на непосредственномиспользовании этого множества.

Метод уровней

. Выберем точку x0 ∈ Q, точность ǫ > 0 и коэф-фициент уровня α∈ (0, 1).

. k-я итерация (k¾ 0).a) Вычислим f ∗

kи f ∗

k.

б) Если f ∗k− f ∗

k¶ ǫ, то STOP.

c) Положим xk+1=πLk(α)(xk).

(.)

В приведенной схеме имеются две достаточно трудоемкие опе-рации. Во-первых, нам нужно вычислить оптимальное значение f ∗

kтекущей модели. Если Q –– многогранник, то это значение можнополучить из следующей задачи линейного программирования:

t→min

при f (xi)+

g(xi), x − xi

¶ t, i= 0, …, k,

x ∈Q.

Page 198: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Во-вторых, нужно вычислить проекцию πLk(α)(xk). Если Q –– много-гранник, то эта проекция является решением задачи квадратичногопрограммирования:

min ‖x − xk‖2,

при f (xi)+

g(xi), x − xi

¶ lk(α), i= 0, …, k,

x ∈Q.

Обе эти задачи эффективно решаются либо стандартными алгорит-мами типа симплекс-метода, либо методами внутренней точки.

Изучим некоторые свойства метода уровней. Заметим, что ре-кордные значения модели убывают, а ее минимальные значениявозрастают:

f ∗k ¶ f ∗k+1¶ f ∗ ¶ f ∗k+1¶ f ∗k .

Введем обозначение ∆k = [ f ∗k

, f ∗k

] и δk = f ∗k− f ∗

k. Назовем δk ошиб-

кой модели fk(X ; x). Тогда

∆k+1⊆∆k, δk+1¶δk.

Следующий результат имеет ключевое значение для анализа методауровней.

Лемма ... Предположим, что для некоторого p ¾ k выполненонеравенство δp ¾ (1− α)δk. Тогда при всех i, k ¶ i ¶ p, справедливаоценка

li(α)¾ f ∗p

Доказательство. Заметим, что при таких i имеет место неравен-ство δp ¾ (1−α)δk ¾ (1−α)δi. Поэтому

li(α)= f ∗i − (1−α)δi ¾ f ∗p − (1−α)δi = f ∗p + δp − (1−α)δi ¾ f ∗p .

Покажем, что шаги метода уровня достаточно большие. Введемобозначение

M f =max�

‖g‖ | g ∈ ∂ f (x), x ∈Q

.

Лемма ... Для последовательности {xk}, образованной методомуровней, имеет место неравенство

‖xk+1− xk‖¾(1−α)δk

M f

.

Page 199: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы с полной информацией

Доказательство. Действительно,

f (xk)− (1−α)δk ¾ f ∗k − (1−α)δk = lk(α)¾

¾ fk(xk+1)¾ f (xk)+ ⟨g(xk), xk+1− xk⟩¾¾ f (xk)−M f ‖xk+1− xk‖.

Наконец, покажем, что ошибка модели не может убывать слиш-ком медленно.

Лемма ... Пусть множество Q в задаче (.) ограничено, тоесть: diam Q ¶ D. Если при некотором p ¾ k имеет место неравен-ство δp ¾ (1−α)δk, то

p+ 1− k¶M2

f D2

(1−α)2δ2p

.

Доказательство. Введем обозначение x∗k∈ Arg minx∈Q fk(X ; x). Из

леммы .. следует, что

fi(X ; x∗p)¶ fp(X ; x∗p)= f ∗p ¶ li(α)

при всех i, k¶ i¶ p. Поэтому, применяя леммы .. и .., получа-ем

‖xi+1− x∗p‖2¶ ‖xi − x∗p‖

2− ‖xi+1− xi‖2¶

¶ ‖xi − x∗p‖2−

(1−α)2δ2i

M2f

¶ ‖xi − x∗p‖2−

(1−α)2δ2p

M2f

.

Суммируя эти неравенства по i= k, …, p, приходим к неравенству

(p+ 1− k)(1−α)2δ2

p

M2f

¶ ‖xk − x∗p‖2¶ D2.

Заметим, что значение p+ 1− k равно числу индексов в отрезке[k, p]. Докажем теперь оценку эффективности метода уровней.

Теорема ... Пусть diam Q= D. Тогда схема метода уровней оста-навливается не позднее чем через

N =

� M2fD2

ǫ2α(1−α)2(2−α)

+ 1

Page 200: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

итераций. Критерий остановки метода гарантирует выполнениенеравенства f ∗

k− f ∗ ¶ ǫ.

Доказательство. Предположим, что δk ¾ ǫ, 0¶ k¶ N . Разделим ин-дексы на группы по порядку убывания

{N , …, 0}= I(0)∪ I(2)∪ · · · ∪ I(m),

так что

I( j)= [p( j), k( j)], p( j)¾ k( j), j = 0, …, m,

p(0)= N , p( j + 1)= k( j)+ 1, k(m)= 0,

δk( j)¶1

1−αδp( j)<δk( j)+1≡ δp( j+1).

Очевидно, что для j ¾ 0 имеет место цепочка неравенств

δp( j+1) ¾δp( j)

1−α ¾δp(0)

(1−α) j+1¾

ǫ

(1−α) j+1.

По лемме .. значение n( j)= p( j)+ 1− k( j) ограничено:

n( j)¶M2

fD2

(1−α)2δ2p( j)

¶M2

fD2

ǫ2(1−α)2(1−α)2 j .

Поэтому

N =m∑

j=0

n( j)¶M2

f D2

ǫ2(1−α)2

m∑

j=0

(1−α)2 j¶

M2f D2

ǫ2(1−α)2(1− (1−α)2).

Обсудим полученную оценку эффективности. Отметим сразу, чтооптимальное значение параметра уровня α можно получить из сле-дующей задачи максимизации:

(1−α)2(1− (1−α)2)→ maxα∈[0,1]

.

Ее решение равно α∗ = 1

2+p

2. При таком выборе α оценка эффек-

тивности метода уровней выглядит так: N ¶4

ǫ2M2

fD2. Сравнивая

этот результат с теоремой .., видим, что метод уровней являетсяоптимальным равномерно по размерности пространства перемен-ных. Заметим также, что граница аналитической сложности этогометода в конечномерном случае неизвестна.

Page 201: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы с полной информацией

Одно из преимуществ метода уровней заключается в том, чтоошибка δk = f ∗

k− f ∗

kдает точную оценку достигнутой точности.

Обычно эта ошибка сходится к нулю намного быстрее, чем в наи-худшем случае. Для большинства реальных задач оптимизацииточность ǫ = 10−4 − 10−5 достигается после 3n − 4n итераций дан-ного метода.

... Условная минимизация

Покажем, как можно использовать функциональные модели длярешения задач минимизации с ограничениями. Рассмотрим задачу

min f (x)

при f j(x)¶ 0, j = 1, …, m,

x ∈Q,

(.)

где Q –– ограниченное замкнутое выпуклое множество, а функцииf (x), f j(x) липшицевы на Q.

Перепишем эту задачу в виде задачи минимизации с одним функ-циональным ограничением. Введем обозначение f (x)= max

1¶ j¶mf j (x).

Тогда мы получим эквивалентную задачу

min f (x),

при f (x)¶ 0,

x ∈Q.

(.)

Заметим, что функции f (x) и f (x) выпуклы и липшицевы. В этомпункте мы попытаемся решить задачу (.), используя модели обе-их функций. Определим эти модели.

Рассмотрим последовательность X = {xk}∞k=0

. Пусть

fk(X ; x)= max0¶ j¶k

f (x j)+ ⟨g(x j), x − x j⟩�

¶ f (x),

fk(X ; x)= max0¶ j¶k

f (x j)+ ⟨g(x j), x − x j⟩�

¶ f (x),

где g(x j)∈ ∂ f (x j) и g(x j)∈ ∂ f (x j).

Page 202: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Как и в п. .., наш метод основывается на параметрическойфункции

f (t; x)=max�

f (x)− t, f (x)

,

f ∗(t)=minx∈Q

f (t; x).

Напомним, что f ∗(t) –– невозрастающая функция от t. Пусть x∗ ––решение задачи (.), а t∗ = f (x∗). Тогда t∗ представляет собой наи-меньший корень функции f ∗(t).

Используя модели целевой функции и ограничений, можно вве-сти в рассмотрение модель параметрической функции. Пусть

fk(X ; t, x)=max�

fk(X ; x)− t, fk(X ; x)

¶ f (t; x),

f ∗k (X ; t)=minx∈Q

fk(X ; t, x)¶ f ∗(t).

Тогда, f ∗k

(X ; t) вновь является невозрастающей функцией от t. Оче-видно, что ее наименьший корень t∗

k(X) не превосходит t∗.

Нам понадобится следующее описание корня t∗k(X).

Лемма ...

t∗k(X)=min�

fk(X ; x) | fk(X ; x)¶ 0, x ∈Q

.

Доказательство. Обозначим через x∗k

решение задачи минимизации,стоящей в правой части данного равенства, и пусть t∗

k= f k(X ; x∗

k).

Тогдаf ∗k (X ; t∗k)¶max

fk(X ; x∗k)− t∗k, fk(X ; x∗k)

¶ 0.

Таким образом, всегда выполняется неравенство t∗k¾ t∗

k(X).

Предположим, что t∗k> t∗

k(X). Тогда найдется такая точка y, что

fk(X ; y)− t∗k(X)¶ 0, fk(X ; y)¶ 0.

Однако в этом случае t∗k= fk(X ; x∗

k)¶ fk(X ; y)¶ t∗

k(X)< t∗

k. Мы при-

шли к противоречию.

Далее нам также понадобится функция

f ∗k (X ; t)= min0¶ j¶k

fk(X ; t, x j),

которая является рекордным значением рассматриваемой парамет-рической модели.

Page 203: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы с полной информацией

Лемма ... Пусть t0< t1¶ t∗. Предположим, что f ∗k

(X ; t1)> 0. То-гда t∗

k(X)> t1 и

f ∗k (X ; t0)¾ f ∗k (X ; t1)+t1 − t0

t∗k(X )− t1

f ∗k (X ; t1). (.)

Доказательство. Пусть x∗k(t) ∈ Arg min fk(X ; t, x), t2 = t∗

k(X), α =

=t1− t0

t2− t0∈ [0, 1]. Тогда

t1= (1−α)t0+αt2,

и неравенство (.) эквивалентно следующему:

f ∗k (X ; t1)¶ (1−α) f ∗k (X ; t0)+α f ∗k (X ; t2) (.)

(заметим, что f ∗k

(X ; t2)= 0). Пусть xα= (1−α)x∗k(t0)+αx∗

k(t2). Тогда

f ∗k (X ; t1)¶max�

fk(X ; xα)− t1; fk(X ; xα)

¶max�

(1−α)( fk(X ; x∗k(t0))− t0)+α( fk(X ; x∗k(t2))− t2);(1−α) fk(X ; x∗k(t0)) +α fk(X ; x∗k(t2))

¶ (1−α) max�

fk(X ; x∗k(t0))− t0; fk(X ; x∗k(t0))

+

+αmax�

fk(X ; x∗k(t2))− t2; fk(X ; x∗k(t2))

=

= (1−α) f ∗k (X ; t0)+α f ∗k (X ; t2),

и мы получаем неравенство (.).

Приведем также следующее утверждение (ср. с леммой ..).

Лемма ... Для любого ∆¾ 0 выполняются неравенства

f ∗(t)−∆¶ f ∗(t+∆),

f ∗k (X ; t)−∆¶ f ∗k (X ; t+∆)

Доказательство. Действительно, для f ∗(t) имеем

f ∗(t+∆)=minx∈Q

max{ f (x)− t; f (x)+∆}−∆�

¾

¾minx∈Q

max{ f (x)− t; f (x)}−∆�

= f ∗(t)−∆.

Доказательство второго неравенства проводится аналогично.

Page 204: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

Теперь мы можем выписать схему метода минимизации при огра-ничениях (ср. со схемами условной минимизации из п. ..).

Условный метод уровней

. Выберем x0 ∈ Q, t0 < t∗, κ ∈�

0,12

и точность

ǫ > 0.. k-я итерация (k¾ 0).

a) Построим последовательность X = {x j}∞j=0 с

помощью метода уровней, примененного кфункции f (tk; x). При выполнении неравен-ства

f ∗j (X ; tk)¾ (1− κ) f ∗j (X ; tk)

остановим процесс нижнего уровня и поло-жим j(k)= j.Полная остановка процесса:f ∗j (X ; tk)¶ ǫ.

б) Положим tk+1= t∗j(k)

(X).

(.)

Проанализируем аналитическую сложность этого метода. Трудо-емкость вычислений корня t∗j (X) и значения f ∗j (X ; t) пока нас не ин-тересуют. Оценим скорость сходимости основного процесса и слож-ность шага a)

Начнем с основного процесса.

Лемма ... При всех k¾ 0 выполнено неравенство

f ∗j(k)(X ; tk)¶t0 − t∗

1−κ

12(1− κ)

�k

.

Доказательство. Пусть

σk =

f ∗j(k)

(X ; tk)p

tk+1 − tk

, β =1

2(1− κ)(< 1).

Page 205: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы с полной информацией

Так как tk+1= t∗j(k)

(X), принимая во внимание лемму .., получаем

σk−1=1p

tk − tk−1

f ∗j(k−1)(X ; tk−1)¾1p

tk − tk−1

f ∗j(k)(X ; tk−1)¾

¾2p

tk+1 − tk

f ∗j(k)(X ; tk)¾2(1− κ)p

tk+1 − tk

f ∗j(k)(X ; tk)=σk

β

при всех k¾ 1. Таким образом, σk ¶βσk−1, и

f ∗j(k)(X ; tk)=σk

p

tk+1− tk ¶βkσ0

p

tk+1− tk =

= β k f ∗j(0)(X ; t0)

Ç

tk+1 − tk

t1 − t0

.

Далее, в силу леммы .. получаем t1− t0¾ f ∗j(0)(X ; t0). Поэтому

f ∗j(k)(X ; tk)¶ β k f ∗j(0)(X ; t0)

È

tk+1− tk

f ∗j(0)

(X ; t0)¶

¶βk

1− κ

q

f ∗j(0)

(X ; t0)(tk+1− tk)¶βk

1− κp

f ∗(t0)(t0− t∗).

Остается заметить, что f ∗(t0)¶ t0− t∗ (см. лемму ..).

Пусть условие полной остановки в схеме (.) выполняется:f ∗j (X ; tk)¶ ǫ. Тогда найдется такое j∗, что

f (tk; x j∗)= f ∗j (X ; tk)¶ ǫ.

Поэтомуf (tk; x j∗)=max{ f (x j∗)− tk; f (x j∗)}¶ ǫ.

Поскольку tk ¶ t∗, мы заключаем, что

f (x j∗)¶ t∗ + ǫ,

f (x j∗)¶ ǫ.(.)

По лемме .. на выполнение условия (.) нужно не более

N(ǫ)=1

ln[2(1− κ)]ln

t0 − t∗

(1− κ)ǫ

полных итераций основного процесса (последняя итерация процес-са заканчивается проверкой критерия полной остановки). Заметим,

Page 206: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

что в приведенном выше выражении κ –– положительная константа(например, можно взять κ= 1/4). Введем обозначение

M f =max�

‖g‖ | g ∈ ∂ f (x)∪ ∂ f (x), x ∈Q

.

Нам нужно проанализировать два случая.

. Полный шаг. Во время этого шага процесс нижнего уровня завер-шается по критерию

f ∗j(k)(X ; tk)¾ (1−κ) f ∗j(k)(X ; tk).

Соответствующее неравенство для ошибки выглядит так:

f ∗j(k)(X ; tk)− f ∗j(k)(X ; tk)¶κ f ∗j(k)(X ; tk).

По теореме .. это неравенство оказывается заведомо выполнен-ным после

M2f D2

κ2( f ∗j(k)

(X ; tk))2α(1−α)2(2−α)

итераций процесса нижнего уровня. Так как при полном шагеf ∗

j(k)(X ; tk)¾ ǫ, мы заключаем, что

j(k)− j(k− 1)¶M2

f D2

κ2ǫ2α(1−α)2(2−α)

для любой полной итерации основного процесса.

. Последний шаг. Процесс нижнего уровня на этом шаге заканчи-ваеся по критерию полной остановки:

f ∗j (X ; tk)¶ ǫ.

Поскольку обычный критерий остановки не сработал, мы заключа-ем, что

f ∗j−1(X ; tk)− f ∗j−1(X ; tk)¾κ f ∗j−1(X ; tk)¾ κǫ.

Поэтому из теоремы .. следует, что число итераций на последнемшаге не превосходит

M2fD2

κ2ǫ2α(1−α)2(2−α).

Page 207: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Методы с полной информацией

Таким образом, мы приходим к следующей оценке полной слож-ности условного метода уровней:

(N(ǫ)+ 1)M2

f D2

κ2ǫ2α(1−α)2(2−α)=

=

M2fD2

κ2ǫ2α(1−α)2(2−α)

1+1

ln[2(1−κ)]ln

t0− t∗

(1−κ)ǫ

=

=

M2f D2 ln

2(t0−t∗)ǫ

ǫ2α(1−α)2(2−α)κ2 ln[2(1− κ)].

Можно показать, что приемлемыми значениями параметров этого

метода являются α=κ= 1

2+p

2.

Основная составляющая в полученной оценке сложности имеет

порядок 1

ǫ2ln

2(t0 − t∗)

ǫ. Таким образом, условный метод уровней яв-

ляется субоптимальным (см. теорему ..).В этом методе на каждой итерации основного процесса нам необ-

ходимо найти корень t∗j(k)

(X). По лемме .. это эквивалентно сле-дующей задаче:

min�

fk(X ; x) | fk(X ; x)¶ 0, x ∈Q

.

Другими словами, нам нужно решить задачу

min t,

при f (x j)+

g(x j), x − x j

¶ t, j = 0, …, k,

f (x j)+

g(x j), x − x j

¶ 0, j = 0, …, k,

x ∈Q.

Если Q –– многогранник, то эта задача решается конечными метода-ми линейного программирования (например, симплекс-методом).Если Q –– более сложное множество, то необходимо использоватьуже методы внутренней точки.

В завершение этого параграфа отметим, что можно применять иболее точные модели для функциональных ограничений. Поскольку

f (x)= max1¶i¶m

fi(x),

можно использовать модель

fk(X ; x)= max0¶ j¶k

max1¶i¶m

fi(x j)+ ⟨gi(x j), x − x j⟩�

,

Page 208: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Негладкая выпуклая оптимизация

где gi(x j) ∈ ∂ fi(x j). Такая полная модель может существенно уско-рить скорость сходимости всего процесса. Однако при этом каждаяитерация становится более трудоемкой.

Отметим, что на практике этот метод, как правило, сходитсяочень быстро. Есть, однако, несколько технических проблем, свя-занных с накоплением большого числа линейных функций в мо-дели. Поэтому во всех практических схемах обычно присутствуютопределенные стратегии избавления от старых или ненужных эле-ментов.

Page 209: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава

Структурная оптимизация§ .. Самосогласованные функции

Что в черном ящике? Как на самом деле работает метод Ньютона? Определе-ние самосогласованных функций. Основные свойства. Минимизация самосо-гласованных функций.

... Концепция «черного ящика» в выпуклой оптимизации

В этой главе мы представим основные идеи, лежащие в основесовременных полиномиальных методов внутренней точки для за-дач нелинейной оптимизации. Для начала посмотрим на традици-онную формулировку этих задач.

Предположим, что мы хотим решить задачу минимизации, запи-санную в следующем виде:

minx∈Rn

f0(x) | f j(x)¶ 0, j = 1, …, m

.

Заметим, что функциональные компоненты этой задачи должныбыть выпуклыми. В то же время, все стандартные методы выпуклойоптимизации для решения задач такого рода основываются на кон-цепции черного ящика. Под этим подразумевается, что наша задачаснабжена оракулом, дающим некоторую информацию о функцио-нальных компонентах задачи в любой тестовой точке x. Этот оракулявляется локальным, т. е. если мы меняем форму компоненты вточке, далекой от выбранной точки x, то ответ оракула не меня-ется. Эти ответы содержат единственно доступную информацию,используемую в численных методах .

Однако если внимательнее рассмотреть данную ситуацию, томожно увидеть определенное противоречие. Действительно, для

Мы уже обсуждали данную концепцию и соответствующие методы в предыду-щих главах.

Page 210: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

того чтобы применять методы выпуклой оптимизации, нам необ-ходимо быть уверенными в том, что наши функциональные ком-поненты выпуклы. В то же время, проверить выпуклость можнотолько анализируя структуру этих функций : если, например, на-ши функции получены из базовых выпуклых функций посредствомвыпуклых операций (суммирование, взятие максимума и т. д.), томожно заключить, что они выпуклы.

Таким образом, функциональные компоненты исходной задачиявно не находятся в черном ящике в момент проверки их выпук-лости и выбора метода минимизации. Но мы помещаем их в чер-ный ящик по отношению к численным методам. Это является ос-новным концептуальным противоречием стандартной теории вы-пуклой оптимизации .

Данное обстоятельство дает некоторую надежду на ускорениеметодов выпуклой оптимизации за счет использования знаний обих структуре. К сожалению, понятие структуры является оченьразмытым и трудно формализуемым. Одним из способов описанияструктуры является фиксация аналитического типа функциональ-ных компонент. Например, можно рассмотреть задачи только слинейными функциями f j (x). Однако такой подход является слиш-ком ограничительным. Стоит добавить в условия задачи хотя быодну функциональную компоненту другого типа, и всю теорию ихрешения надо будет разрабатывать заново.

С другой стороны, очевидно, что, имея доступ к структуре функ-ций, можно попробовать изменить аналитическую форму задачи.Можно, например, пытаться переписать задачу в другой эквива-лентной форме, используя нетривиальные преобразования коор-динат или ограничений, вводя дополнительные переменные и т. д.Однако это обычно не приносит явной пользы, до тех пор покане сформулирована конечная цель таких преобразований. Давайтепопытаемся это сделать.

Для начала заметим, что иногда переформулировка исходной за-дачи может рассматриваться как часть численного метода ее реше-ния. Мы начинаем со сложной задачи P и шаг за шагом упрощаем

Численная проверка выпуклости –– задача безнадежная. Тем не менее, выводы теории о методах минимизации, основанных на ответах

оракула, остаются, конечно же, справедливыми.

Page 211: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

ее структуру до некоторой тривиальной формы (или до задачи, ко-торую мы умеем решать):

P −→…−→ ( f ∗, x∗).

В качестве примера рассмотрим классический подход к решениюсистемы линейных уравнений

Ax = b.

Можно поступить следующим образом.

. Проверим, что A –– симметрическая и положительно определен-ная матрица. Иногда это можно сделать, приняв во внимание еепроисхождение.

. Применим разложение Холесского для A:

A= LLT ,

где L –– нижнетреугольная матрица. Образуем две вспомогательныесистемы

Ly = b, LT x = y.

. Найдем решение этих систем. Эта процедура выглядит как после-

довательное преобразование исходной задачи к удобному для реше-ния виду.

На секунду представим, что мы не знаем, как решать системы ли-нейных уравнений. Для того чтобы обнаружить данную процедуруих решения, следовало бы проделать следующие шаги.

. Найти класс задач, который мы умеем эффективно решать (в на-шем примере это линейные системы с треугольной матрицей).

. Описать правила преобразования исходной задачи в нужную фор-му.

. Описать класс задач, для которых эти преобразования являютсяинвариантными.

Оказывается, данный подход применим и к задачам оптимиза-ции. Прежде всего, нам надо найти некий базовый численный методи специальную формулировку задачи, для которой этот метод яв-ляется эффективным. Мы увидим, что для наших целей наиболееподходящим кандидатом будет метод Ньютона (см. п. ..), приме-

Page 212: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

няемый в рамках методов последовательной безусловной минимиза-ции (см. п. ..).

В следующем пункте мы укажем на некоторые недостатки стан-дартного анализа метода Ньютона. В качестве альтернативы будетвыведено семейство особых выпуклых функций –– самосогласован-ных функций и самосогласованных барьеров, которые можно эффек-тивно минимизировать с помощью метода Ньютона. Мы использу-ем эти объекты при описании преобразованной версии исходнойзадачи, которая в дальнейшем будет называться барьерной моделью.Эта модель заменит нам стандартную функциональную модель за-дачи оптимизации, которая использовалась во всех предыдущихглавах.

... Как работает метод Ньютона?

Посмотрим на стандартные результаты о локальной сходимостиметода Ньютона (они были приведены в теореме ..). Мы пытаем-ся найти точку безусловного локального минимума x∗ дважды диф-ференцируемой функции f (x). Предположим, что

◦ f ′′(x∗)� lIn с некоторой константой l> 0,

◦ ‖ f ′′(x)− f ′′( y)‖¶M‖x − y‖ для всех x, y ∈Rn.

Предположим также, что начальная точка метода Ньютона x0 рас-положена достаточно близко к x∗:

‖x0− x∗‖< r =2l

3M. (.)

Тогда можно доказать корректность правил построения последова-тельности

xk+1= xk −�

f ′′(xk]−1 f ′(xk)�

, k¾ 0. (.)

Более того, ‖xk − x∗‖< r при всех k¾ 0, и метод Ньютона (.) схо-дится квадратично:

‖xk+1− x∗‖¶ M‖xk − x∗‖22(l −M‖xk − x∗‖) .

Что может насторожить в этом классическом результате? Обра-тим внимание на то, что описание области квадратичной сходимо-сти (.) для этого метода дается в терминах стандартного скаляр-

Page 213: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

ного произведения

⟨x, y⟩=n∑

i=1

x(i) y(i).

Если выбрать некий новый базис в Rn, то все параметры этого опи-сания меняются: изменятся метрика, гессиан, границы l и M . Нопосмотрим на сам алгоритм метода Ньютона. А именно, пусть A ––невырожденная (n× n)-матрица. Рассмотрим функцию

ϕ( y)= f (Ay).

Для понимания природы метода Ньютона очень важным являетсяследующий результат.

Лемма ... Пусть {xk} –– последовательность, образованная ме-тодом Ньютона для функции f :

xk+1= xk −�

f ′′(xk)�−1

f ′(xk), k¾ 0.

Рассмотрим последовательность {yk}, образованную методом Нью-тона для функции ϕ:

yk+1= yk −�

ϕ′′( yk)�−1ϕ′( yk), k¾ 0,

y0= A−1 x0. Тогда yk = A−1 xk при всех k¾ 0.

Доказательство. Пусть yk = A−1 xk при некотором k¾ 0. В этом слу-чае

yk+1= yk −�

ϕ′′( yk)�−1ϕ′( yk)= yk −�

AT f ′′(Ayk)A�−1

AT f ′(Ayk)=

= A−1 xk − A−1�

f ′′(xk)�−1

f ′(xk)= A−1 xk+1.

Таким образом, метод Ньютона инвариантен по отношению каффинному преобразованию координат. Поэтому его настоящая об-ласть квадратичной сходимости не зависит от конкретного выбораскалярного произведения. Она будет зависеть только от локаль-ной топологической структуры функции f (x) в окрестности точкиминимума.

Попытаемся понять, что было не так в наших предположениях.Наиболее важное из них –– это липшицевость гессиана:

‖ f ′′(x)− f ′′( y)‖¶M‖x− y‖ ∀x, y ∈Rn.

Page 214: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Предположим, что f ∈ C3(Rn). Пусть

f ′′′(x)[u]= limα→0

f ′′(x +αu)− f ′′(x)�

.

Отметим, что объект в правой части представляет собой (n × n)-матрицу. Тогда наше предположение эквивалентно неравенству

‖ f ′′′(x)[u]‖¶M‖u‖,откуда следует, что в любой точке x ∈Rn выполняется неравенство

f ′′′(x)[u]υ, υ�

¶M‖u‖ · ‖υ‖2 ∀u, υ∈Rn.

Левая часть этого неравенства инвариантна по отношению к аф-финным преобразованиям координат. Однако правая часть такимсвойством не обладает. Поэтому было бы естественно найти аффин-но-инвариантную замену для стандартной нормы ‖ · ‖. Основнойкандидат для такой замены достаточно очевиден: это норма, опре-деляемая самим гессианом f ′′(x), а именно

‖u‖ f ′′(x) =

f ′′(x)u, u�1/2

.

Такой выбор приводит нас к классу самосогласованных функций.

... Определение самосогласованной функции

Рассмотрим выпуклую и замкнутую функцию f (x) ∈ C3(dom f )с открытой областью определения. Зафиксируем некоторую точкуx ∈ dom f и направление u∈Rn. Рассмотрим функцию

ϕ(x; t)= f (x+ tu)

как функцию переменной t ∈ dom ϕ(x; ·)⊆R. Введем обозначения

Df (x)[u]=ϕ′(x; t)=

f ′(x), u�

,

D2 f (x)[u, u]=ϕ′′(x; t)=

f ′′(x)u, u�

= ‖u‖2f ′′(x),

D3 f (x)[u, u, u]=ϕ′′′(x; t)=

f ′′′(x)[u]u, u�

.

Определение ... Назовем функцию f самосогласованной, еслинайдется такая константа M f ¾ 0, что имеет место неравенство

D3 f (x)[u, u, u]¶M f ‖u‖3f ′′(x)

для любых x ∈ dom f , u∈Rn.

Page 215: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

Заметим, что такие функции нечасто встречаются в практиче-ских приложениях. Они нам необходимы только для построениябарьерной модели исходной задачи. Скоро мы увидим, что их мож-но легко минимизировать с помощью метода Ньютона.

Обратим внимание на эквивалентное определение самосогласо-ванных функций.

Лемма ... Функция f является самосогласованной тогда и толь-ко тогда, когда для любого x ∈ dom f и любых u1, u2, u3 ∈Rn выпол-нено неравенство

�D3 f (x)[u1, u2, u3]�

�¶M f

3∏

i=1

‖ui‖ f ′′(x). (.)

Примем это утверждение без доказательства, поскольку оно по-требовало бы привлечения некоторых результатов из теории трили-нейных симметрических форм.

В дальнейшем мы часто будем использовать определение ..,для того чтобы доказать самосогласованность некоторых функций,в то время как лемма .. будет полезна при исследовании их спе-цифических свойств.

Рассмотрим несколько примеров.

Пример ... . Линейная функция. Пусть

f (x)=α+ ⟨a, x⟩, dom f =Rn.

Тогдаf ′(x)= a, f ′′(x)= 0, f ′′′(x)= 0,

и мы получаем, что M f = 0.

. Выпуклая квадратичная функция. Рассмотрим функцию

f (x)=α+ ⟨a, x⟩+ 12⟨Ax, x⟩, dom f =Rn,

где A= AT � 0. Тогда

f ′(x)= a+ Ax, f ′′(x)= A, f ′′′(x)= 0,

и мы заключаем, что M f = 0.

. Логарифмический барьер для луча. Рассмотрим функцию однойпеременной

f (x)=− ln x, dom f =�

x ∈R1 | x > 0

.

Page 216: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Тогда

f ′(x)=−1x

, f ′′(x)=1

x2, f ′′′(x)=− 2

x3.

Поэтому f (x) –– самосогласованная функция с константой M f = 2.

. Логарифмический барьер для множества второго порядка. ПустьA= AT � 0. Введем в рассмотрение вогнутую квадратичную функ-цию

ϕ(x)=α+ ⟨a, x⟩ − 12⟨Ax, x⟩.

Определим f (x)=− ln ϕ(x), dom f =�

x ∈Rn |ϕ(x)> 0

. В этом слу-чае

Df (x)[u]=− 1ϕ(x)

⟨a, u⟩− ⟨Ax, u⟩�

,

D2 f (x)[u, u]=1

ϕ2(x)

⟨a, u⟩ − ⟨Ax, u⟩�2+

1ϕ(x)⟨Au, u⟩,

D3 f (x)[u, u, u]=− 2

ϕ3(x)

⟨a, u⟩− ⟨Ax, u⟩�3−

− 3

ϕ2(x)

⟨a, u⟩− ⟨Ax, u⟩�

⟨Au, u⟩.

Введем обозначение ω1= Df (x)[u] и ω2=1

ϕ(x)⟨Au, u⟩. Тогда

D2 f (x)[u, u]=ω21+ω2¾ 0,

�D3 f (x)[u, u, u]�

�=

�2ω31+ 3ω1ω2

�.

Нетривиальным является только случай приω1 6= 0. Пусть α=ω2/ω21.

Тогда�

�D3 f (x)[u, u, u]�

(D2 f (x)[u, u])3/2¶

2|ω1 |3 + 3|ω1 |ω2

(ω21 +ω2)3/2

=2(1+ 3

2α)

(1+α)3/2¶ 2.

Таким образом, эта функция является самосогласованной с констан-той M f = 2.

. Легко проверить, что ни одна из следующих функций одной пере-менной не является самосогласованной:

f (x)= ex; f (x)=1x p , x > 0, p> 0; f (x)= |x |p, p> 2.

Однако не надо думать, что самосогласованность каким-либо обра-зом связана с логарифмической функцией. Можно показать, напри-мер, что функция f (x)= x2

+ 1/x самосогласованна при x > 0.

Page 217: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

Приведем теперь основные свойства самосогласованных функ-ций.

Теорема ... Пусть функции fi являются самосогласованными сконстантами Mi, i = 1, 2, и пусть α, β > 0. Тогда функция f (x)==α f1(x)+β f2(x) является самосогласованной с константой

M f =max

§

1pα

M1,1p

βM2

ª

и dom f = dom f1 ∩ dom f2.

Доказательство. Из теоремы .. следует, что f есть выпуклая изамкнутая функция. Зафиксируем некоторые x ∈ dom f и u∈Rn. За-метим,что�

�D3 fi(x)[u, u, u]�

�¶Mi

D2 fi(x)[u, u]�3/2

, i= 1, 2.

Пусть ωi = D2 fi(x)[u, u]¾ 0. Тогда�

�D3 f (x)[u, u, u]�

D2 f (x)[u, u]�3/2¶α�

�D3 f1(x)[u, u, u]�

�+ β�

�D3 f2(x)[u, u, u]�

αD1 f1(x)[u, u]+ βD2 f2(x)[u, u]�3/2¶

¶αM1ω

3/21 + βM2ω

3/22

[αω1 + βω2]3/2.

Правая часть этого неравенства не меняется при замене (ω1,ω2) на(tω1, tω2) с t> 0. Поэтому можно считать, что

αω1 +βω2= 1.

Пусть ξ= αω1. Тогда правая часть последнего неравенства стано-вится равной

M1pαξ3/2

+M2p

β(1−ξ)3/2, ξ∈ [0, 1].

Эта функция выпукла по ξ. Поэтому она достигает своего мак-симального значения в конечной точке отрезка [0, 1] (см. след-ствие ..).

Следствие ... Пусть функция f является самосогласованной снекоторой константой M f . Если A= AT � 0, то функция

ϕ(x)=α+ ⟨a, x⟩+ 12⟨Ax, x⟩+ f (x)

Page 218: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

также является самосогласованной с константой Mϕ =M f .

Доказательство. Мы уже видели, что любая выпуклая квадратич-ная функция самосогласованна с нулевой константой.

Следствие ... Пусть функция f является самосогласованной снекоторой константой M f и α> 0. Тогда функцияϕ(x)=α f (x) так-же является самосогласованной с константой Mϕ = (1/

pα)M f .

Покажем, что самосогласованность является аффинно-инвариант-ным свойством.

Теорема ... ПустьA (x)= Ax + b: Rn→Rm есть линейный опера-тор. Предположим, что функция f ( y) самосогласованна с констан-той M f . Тогда функция ϕ(x)= f (A (x)) также самосогласованна иMϕ =M f .

Доказательство. Функция ϕ(x) выпуклая и замкнутая, что следуетиз теоремы ... Зафиксируем некоторые x ∈ dom ϕ = {x :A (x) ∈∈ dom f } и u∈Rn. Пусть y =A (x), υ= Au. Тогда

Dϕ(x)[u]=

f ′(A (x)), Au�

=

f ′( y), υ�

,

D2ϕ(x)[u, u]=

f ′′(A (x))Au, Au�

= ⟨ f ′′( y)υ, υ⟩,D3ϕ(x)[u, u, u]= D3 f (A (x))[Au, Au, Au]= D3 f ( y)[υ, υ, υ].

Поэтому�

�D3ϕ(x)[u, u, u]�

�=

�D3 f ( y)[υ, υ, υ]�

�¶M f

f ′′( y)υ, υ�3/2

=

=M f

D2ϕ(x)[u, u]�3/2

.

Следующее утверждение показывает, что локальные свойства са-мосогласованной функции могут быть связаны с некоторыми гло-бальными свойствами ее области определения.

Теорема ... Пусть функция f самосогласованна. Если dom f несодержит прямых линий в Rn, то гессиан f ′′(x) невырожден в любойточке x ∈ dom f .

Доказательство. Предположим, что ⟨ f ′′(x)u, u⟩= 0 для некоторыхx ∈ dom f и u ∈ Rn, u 6= 0. Рассмотрим точки yα = x + αu ∈ dom f ифункцию

ψ(α)=

f ′′( yα)u, u�

.

Page 219: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

Заметим, что

ψ′(α)= D3 f ( yα)[u, u, u]¶ 2ψ(α)3/2, ψ(0)= 0.

Так как ψ(α) ¾ 0, получаем, что ψ′(0) = 0. Поэтому эта функцияявляется частью решения следующей системы дифференциальныхуравнений:

ψ(0)= ξ(0)= 0,

¨

ψ′(α)= 2ψ(α)3/2 −ξ(α),

ξ′(α)= 0.

Однако эта система имеет единственное тривиальное решение. Зна-чит, ψ(α)= 0 для всех допустимых значений α.

Таким образом, мы показали, что функция ϕ(α)= f ( yα) линейна:

ϕ(α)= f (x)+

f ′(x), yα − x�

+

α∫

0

λ∫

0

f ′′( yτ)u, u�

dτdλ=

= f (x)+α

f ′(x), u�

.

Предположим, что существует такое α, что yα ∈ ∂(dom f ). Рассмот-рим такую последовательность {αk}, что αk ↑ α. Тогда

zk = ( yαk, ϕ(αk))→ z= ( yα, ϕ(α)).

Заметим, что zk ∈ epi f , а z /∈ epi f , так как yα /∈ dom f . Получили про-тиворечие, поскольку функция f замкнута. Рассматривая направ-ление −u и предполагая, что этот луч пересекает границу областиопределения функции f , снова приходим к противоречию. Поэто-му заключаем, что yα ∈ dom f при всех α. Однако это приводит кпротиворечию с предположениями теоремы.

Наконец, опишем поведение самосогласованной функции приподходе к границе ее области определения.

Теорема ... Пусть f –– самосогласованная функция. Тогда длялюбой точки x ∈ ∂(dom f ) и любой последовательности

{xk}⊂ dom f : xk→ x

выполняется условие f (xk)→+∞.

Доказательство. Заметим, что последовательность { f (xk)} огра-ничена снизу:

f (xk)¾ f (x0)+

f ′(x0), xk − x0

.

Page 220: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Предположим, что она ограничена и сверху. Тогда у нее есть хотя быодна предельная точка f . Можно считать, что для рассматриваемойпоследовательности эта предельная точка единственна. Поэтому

zk = (xk, f (xk))→ z= (x, f ).

Заметим, что zk ∈ epi f , а z /∈ epi f , поскольку x /∈ dom f . Получилипротиворечие, так как функция f замкнута.

Таким образом, мы доказали, что f (x) –– барьерная функция дляcl(dom f ) (см. п. ..).

... Основные неравенства

Зафиксируем некоторую самосогласованную функцию f (x) ипредположим, что константа M f равна 2 (в противном случае ее все-гда можно промасштабировать, см. следствие ..). Будем называтьтакие функции стандартными самосогласованными. Предположимтакже, что dom f не содержит прямых (что означает невырожден-ность всех гессианов f ′′(x), см. теорему ..).

Введем обозначения

‖u‖x =

f ′′(x)u, u�1/2

,

‖υ‖∗x =

[ f ′′(x)]−1υ, υ�1/2

,

λ f (x)=

[ f ′′(x)]−1 f ′(x), f ′(x)�1/2

.

Очевидно, |⟨υ, u⟩|¶ ‖υ‖∗x · ‖u‖x . Назовем ‖u‖x локальной нормой длянаправления u по отношению к x, а λ f (x)= ‖ f ′(x)‖∗x –– локальной

двойственной нормой градиента f ′(x).Зафиксируем x ∈ dom f и u ∈Rn, u 6= 0. Рассмотрим функцию од-

ной переменной

ϕ(t)=1

⟨ f ′′(x + tu)u, u⟩1/2

с областью определения dom ϕ=�

t ∈R1 | x + tu∈ dom f

.

Лемма ... Для всех допустимых значений t выполнено неравен-ство |ϕ′(t)|¶ 1.

Иногда λ f (x) называют ньютоновской вариацией функции f в точке x.

Page 221: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

Доказательство. Действительно,

ϕ′(t)=− f ′′′(x + tu)[u, u, u]

2⟨ f ′′(x + tu)u, u⟩3/2 .

Поэтому |ϕ′(t)|¶ 1 в силу определения ...

Следствие ... Область определения функции ϕ(t) содержит ин-тервал

(−ϕ(0),ϕ(0)).

Доказательство. Так как f (x + tu)→∞ при стремлении x + tu к гра-нице множества dom f (см. теорему ..), функция ⟨ f ′′(x + tu)u, u⟩не может быть ограниченной. Поэтому dom ϕ≡ {t |ϕ(t)> 0}. Оста-ется заметить, что

ϕ(t)¾ϕ(0)− |t |

в силу леммы ...

Рассмотрим эллипсоид следующего вида:

W 0(x; r)=�

y ∈Rn | ‖ y − x‖x < r

,

W(x; r)= cl�

W 0(x; r)�

≡�

y ∈Rn | ‖ y − x‖x ¶ r

.

Этот эллипсоид называется эллипсоидом Дикина функции f в точ-ке x.

Теорема ... . Для любого x ∈ dom f имеет место включениеW 0(x; 1)⊆ dom f .

. Для всех x, y ∈ dom f выполнено следующее неравенство:

‖ y − x‖y ¾‖ y − x‖x

1+ ‖ y − x‖x

. (.)

. Если ‖ y − x‖x < 1, то

‖ y − x‖y ¶‖ y − x‖x

1−‖ y − x‖x

. (.)

Доказательство. . Из следствия .. вытекает, что dom f содер-жит множество

y = x + tu | t2‖u‖2x < 1

Page 222: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

(так как ϕ(0)= 1/‖u‖x). Это и есть в точности эллипсоид W0(x; 1).

. Выберем u= y − x. Тогда

ϕ(1)=1

‖ y − x‖y

, ϕ(0)=1

‖ y − x‖x

и ϕ(1)¶ϕ(0)+ 1 в силу леммы .., а это и есть неравенство (.).

. Если ‖ y − x‖x < 1, то ϕ(0) > 1, и по лемме .. мы получаемϕ(1)¾ϕ(0)− 1. Это в точности неравенство (.).

Теорема ... Пусть x ∈ dom f . Тогда для любого y ∈W 0(x; 1) име-ет место неравенство

1−‖ y − x‖x

�2f ′′(x)� f ′′( y)� 1

(1−‖ y − x‖x)2f ′′(x). (.)

Доказательство. Зафиксируем некоторое u ∈Rn, u 6= 0. Рассмотримфункцию

ψ(t)=

f ′′(x+ t( y − x))u, u�

, t ∈ [0, 1].

Пусть yt = x + t( y − x). Тогда в силу леммы .. и неравенства (.)получаем

|ψ′(t)|=�

�D3 f ( yt)[ y − x, u, u]�

�¶ 2‖ y − x‖yt‖u‖2yt

=

=2t‖ yt − x‖yt

ψ(t)¶2t· ‖ yt − x‖x

1−‖ yt − x‖x

·ψ(t)=

=2‖ y − x‖x

1− t‖ y − x‖x

·ψ(t).

Отсюда следует, что

2(ln(1− t‖ y − x‖x))′¶ (lnψ(t))′¶−2(ln(1− t‖ y − x‖x))′.

Проинтегрируем это неравенство по t ∈ [0, 1]. Получим

(1−‖ y − x‖x)2¶ψ(1)

ψ(0)¶

1

(1−‖ y − x‖x)2,

а это есть в точности неравенство (.).

Следствие ... Пусть x ∈ dom f и r = ‖ y − x‖x < 1. Тогда можнооценить матрицу

G=1∫

0

f ′′(x +τ( y − x)) dτ

Page 223: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

следующим образом:

(1− r+r2

3) f ′′(x)�G� 1

1− rf ′′(x).

Доказательство. В самом деле, по теореме .. имеем

G=1∫

0

f ′′(x + τ( y− x)) dτ� f ′′(x) ·1∫

0

(1− τr)2 dτ=

=

1− r+13

r2�

f ′′(x),

G� f ′′(x) ·1∫

0

(1− τr)2=

11− r

f ′′(x).

Еще раз обратим внимание на наиболее важные утверждения, до-казанные нами.

◦ В любой точке x ∈ dom f можно указать эллипсоид

W 0(x; 1)= {x ∈Rn |

f ′′(x)( y− x), y − x)�

< 1},

принадлежащий выпуклой области dom f .◦ Внутри эллипсоида W(x; r), r ∈ [0, 1), функция f почти квадра-

тична:(1− r)2 f ′′(x)� f ′′( y)� 1

(1− r)2f ′′(x)

при всех y ∈W(x; r). Качество этой квадратичной аппроксима-ции можно регулировать в соответствии с нашими целями, вы-бирая r достаточно маленьким.

Эти два факта создают основу для практически всех последующихрезультатов.

Завершим этот пункт формулировкой утверждений, оцениваю-щих рост самосогласованных функций относительно их линейныхаппроксимаций.

Теорема ... Для любых x, y ∈ dom f имеют место неравенства

f ′( y)− f ′(x), y − x�

¾‖ y − x‖2x

1+ ‖ y − x‖x

, (.)

f ( y)¾ f (x)+

f ′(x), y − x�

+ω�

‖ y − x‖x

, (.)

где ω(t)= t− ln(1+ t).

Page 224: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Доказательство. Пусть yτ = x + τ( y − x), τ ∈ [0, 1], и r = ‖ y − x‖x.Тогда исходя из неравенства (.) получаем

f ′( y)− f ′(x), y − x�

=

1∫

0

f ′′( yτ)( y− x), y − x�

dτ=

=

1∫

0

1

τ2‖ yτ− x‖2yτ dτ¾

¾

1∫

0

r2

(1+ τr)2dτ= r

r∫

0

1

(1+ t)2dτ=

r2

1+ r.

Далее, используя неравенство (.), получим

f ( y)− f (x)−

f ′(x), y − x�

=

1∫

0

f ′( yτ)− f ′(x), y − x�

dτ=

=

1∫

0

f ′( yτ)− f ′(x), yτ− x�

dτ¾

¾

1∫

0

‖ yτ − x‖2xτ(1+ ‖ yτ − x‖x)

dτ=1∫

0

τr2

1+τrdτ=

=

r∫

0

tdt1+ t

=ω(r).

Теорема ... Пусть x ∈ dom f и ‖ y − x‖x < 1. Тогда

f ′( y)− f ′(x), y − x�

¶‖ y − x‖2x

1−‖ y − x‖x

, (.)

0¶ f ( y)− f (x)−

f ′(x), y − x�

¶ω∗�

‖ y − x‖x

, (.)

где ω∗(t)=−t− ln(1− t).

Доказательство. Пусть yτ = x + τ( y − x), τ ∈ [0, 1], и r = ‖ y − x‖x.Поскольку ‖ yτ − x‖< 1, принимая во внимание неравенство (.),

Page 225: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

имеем

f ′( y)− f ′(x), y − x�

=

1∫

0

f ′′( yτ)( y − x), y − x�

dτ=

=

1∫

0

1

τ2‖ yτ− x‖2yτ dτ¶

1∫

0

r2

(1− τr)2dτ= r

r∫

0

1

(1− t)2dt=

r2

1− r.

Далее, используя неравенство (.), получаем

f ( y)− f (x)−

f ′(x), y − x�

=

1∫

0

f ′( yτ)− f ′(x), y − x�

dτ=

=

1∫

0

f ′( yτ)− f ′(x), yτ− x�

dτ¶

1∫

0

‖ yτ − x‖2xτ(1−‖ yτ − x‖x)

dτ=1∫

0

τr2

1− τrdτ=

=

r∫

0

tdt1− t

=ω∗(r).

Теорема ... Неравенства (.), (.), (.), (.), (.) и (.) яв-ляются необходимыми и достаточными условиями для того, что-бы функция была стандартной самосогласованной.

Доказательство. Мы доказали две цепочки следствий:

определение ..⇒ (.)⇒ (.)⇒ (.),

определение ..⇒ (.)⇒ (.)⇒ (.).

Покажем, что из неравенства (.) следует определение ... Пустьx ∈ dom f и x−αu ∈ dom f для α∈ [0, ǫ). Рассмотрим функцию

ψ(α)= f (x −αu), α∈ [0, ǫ).

Пусть r= ‖u‖x ≡ [ϕ′′(0)]1/2. Считая, что неравенство (.) выполня-ется при всех x, y ∈ dom f , получаем

ψ(α)−ψ(0)−ψ′(0)α− 12ψ′′(0)α2

¾ω(αr)− 12α2r2.

Page 226: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Отсюда следует, что

16ψ′′′(0)= lim

α↓0

h

ψ(α)−ψ(0)−ψ′(0)α− 12ψ′′(0)α2i

¾

¾ limα↓0

1

α3

h

ω(αr)− 12α2r2i

= limα↓0

r

3α2

ω′(αr)−αr�

=

= limα↓0

r

3α2

h

αr1+αr

−αri

=− r3

3.

Таким образом, D3 f (x)[u, u, u]=−ψ′′(0)¶ψ′′′(0)¶ 2[ψ′′(0)]3/2, чтосовпадает с определением .. при M f = 2.

Аналогично можно показать, что из неравенства (.) также сле-дует неравенство из определения ...

Приведенные теоремы записаны с помощью двух вспомогатель-ных функций ω(t)= t− ln(1+ t) и ω∗(τ)=−τ− ln(1− τ). Отметим,что

ω′(t)=t

1+ t¾ 0, ω′′(t)=

1

(1+ t)2> 0,

ω′∗(τ)=τ

1− τ ¾ 0, ω′′∗ (τ)=1

(1− τ)2> 0.

Поэтому ω(t) и ω∗(τ) –– выпуклые функции. В дальнейшем мы ча-сто будем использовать разные соотношения между этими функци-ями. Для удобства ссылок мы приводим их в одном утверждении.

Лемма ... При любых t ¾ 0 и τ ∈ [0, 1) имеют место следующиесоотношения:

ω′(ω′∗(τ))= τ, ω′∗(ω′(t))= t,

ω(t)= max0¶ξ<1

[ξt−ω∗(ξ)], ω∗(τ)=maxξ¾0

[ξτ−ω(ξ)],

ω(t)+ω∗(τ)¾ τt,

ω∗(τ)=τω′∗(τ)−ω(ω′∗(τ)), ω(t)= tω′(t)−ω∗(ω′(t)).

Оставим доказательство этой леммы читателю в качестве упраж-нения. Для опытного читателя заметим, что все эти тождестваследуют из соотношений двойственности между функциями ω(t) иω∗(t).

Докажем два последних неравенства.

Page 227: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

Теорема ... Для любых x, y ∈ dom f выполняется неравенство

f ( y)¾ f (x)+

f ′(x), y − x�

+ω�

‖ f ′( y)− f ′(x)‖∗y�

. (.)

Если вдобавок ‖ f ′( y)− f ′(x)‖∗y < 1, то

f ( y)¶ f (x)+

f ′(x), y − x�

+ω∗�

‖ f ′( y)− f ′(x)‖∗y�

. (.)

Доказательство. Зафиксируем произвольные x, y ∈ dom f . Рас-смотрим функцию

ϕ(z)= f (z)−

f ′(x), z�

, z ∈ dom f .

Заметим, что эта функция является самосогласованной и ϕ′(x)= 0.Поэтому, используя неравенство (.), получим

f (x)−

f ′(x), x�

=ϕ(x)= minz∈dom f

ϕ(z)¶

¶ minz∈dom f

ϕ( y)+

ϕ′( y), z− y�

+ω∗�

‖z− y‖y

��

=

=ϕ( y)−ω�

‖ϕ′( y)‖∗y�

=

= f ( y)− ⟨ f ′(x), y⟩ −ω�

‖ f ′( y)− f ′(x)‖∗y�

,

откуда следует неравенство (.). Для проверки неравенства (.)используем те же рассуждения, что и при доказательстве неравен-ства (.).

... Минимизация самосогласованных функций

Рассмотрим задачу минимизации:

minx∈dom f

f (x). (.)

Следующая теорема представляет достаточное условие существова-ния ее решения. Напомним, что f предполагается стандартной са-мосогласованной функцией, а dom f не содержит прямых.

Теорема ... Если для некоторого x ∈ dom f справедливо нера-венство λ f (x)< 1, то решение x∗

fзадачи (.) существует и един-

ственно.

Page 228: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Доказательство. Действительно, из неравенства (.) следует, чтодля любого y ∈ dom f выполняется соотношения

f ( y)¾ f (x)+

f ′(x), y − x�

+ω�

‖ y − x‖x

¾

¾ f (x)− ‖ f ′(x)‖∗x · ‖ y − x‖x +ω�

‖ y − x‖x

=

= f (x)− λ f (x) · ‖ y − x‖x +ω�

‖ y − x‖x

.

Поэтому для любого y ∈L f ( f (x))= {y ∈Rn | f ( y)¶ f (x)} получаем

1

‖ y − x‖x

ω�

‖ y − x‖x

¶ λ f (x)< 1.

Заметим, что функция 1tω(t)= 1− 1

tln(1+ t) строго возрастает по t.

Отсюда следует, что ‖ y − x‖x ¶ t, где t –– единственный положитель-ный корень уравнения

(1− λ f (x))t= ln(1+ t).

Значит, множество L f ( f (x)) ограничено, и поэтому x∗f

существует.Единственность вытекает из неравенства (.), поскольку при всехy ∈ dom f имеем

f ( y)¾ f (x∗f )+ω�

‖ y − x∗f ‖x∗f

.

Таким образом, мы доказали, что локальное условие λ f (x)< 1несет в себе информацию о глобальном поведении функции f ,т. е. о существовании точки минимума x∗

f. Заметим, что результат

теоремы .. нельзя усилить.

Пример ... Зафиксируем ǫ > 0. Рассмотрим скалярную функцию

fǫ(x)= ǫx − ln x, x > 0.

Как видно из примера .. и следствия .., эта функция являетсясамосогласованной. Заметим, что

f ′ǫ (x)= ǫ− 1x

, f ′′ǫ =1

x2.

Поэтому λ fǫ(x)= |1− ǫx |. Значит, при ǫ= 0 имеет место равенство

λ f0(x)= 1 для любого x > 0. Таким образом, функция f0 не является

ограниченной снизу. Если ǫ > 0, то x∗fǫ= 1/ǫ. Мы можем гаранти-

ровать существование точки минимума, находясь при этом в точкеx = 1, даже если ǫ сколь угодно мало.

Page 229: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

Рассмотрим теперь демпфированный метод Ньютона.

Демпфированный метод Ньютона

. Выберем x0 ∈ dom f .. Вычисляем

xk+1= xk −1

1+λ f (xk)

f ′′(xk)�−1

f ′(xk), k¾ 0.

(.)

Теорема ... Для любого k¾ 0 выполняется неравенство

f (xk+1)¶ f (xk)−ω(λ f (xk)). (.)

Доказательство. Пусть λ = λ f (xk). Тогда ‖xk+1 − xk‖xk=

λ

1+λ=

=ω′(λ)< 1. Поэтому, пользуясь неравенством (.) и леммой ..,получаем

f (xk+1)¶ f (xk)+

f ′(xk), xk+1− xk

+ω∗�

‖xk+1− xk‖x

=

= f (xk)− λ2

1+λ+ω∗(ω

′(λ))=

= f (xk)− λω′(λ)+ω∗(ω′(λ))= f (xk)−ω(λ).

Таким образом, для всех x ∈ dom f , λ f (x)¾β > 0, один шаг демп-фированного метода Ньютона уменьшает значение f (x) по мень-шей мере на константу ω(β) > 0. Отметим, что результат теоре-мы .. может использоваться для получения оценок глобальнойэффективности этого метода.

Опишем теперь локальную сходимость стандартного методаНьютона.

Стандартный метод Ньютона

. Выберем x0 ∈ dom f .. Вычисляем

xk+1= xk −�

f ′′(xk)�−1

f ′(xk), k¾ 0.

(.)

Сходимость этого метода можно охарактеризовать разными спосо-бами. Можно оценить скорость сходимости для невязки по функцииf (xk)− f (x∗

f), для локальной нормы градиента λ f (xk)= ‖ f ′(xk)‖∗xk

Page 230: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

или для локального расстояния до точки минимума ‖xk − x∗f‖xk

.Наконец, можно оценивать расстояние до точки минимума в фик-сированной метрике

r∗(xk)≡ ‖xk − x∗f ‖x∗f,

определяемой самой точкой минимума. Докажем, что локально всеэти меры эквивалентны.

Теорема ... Пусть λ f (x)< 1. Тогда

ω(λ f (x))¶ f (x)− f (x∗f )¶ω∗(λ f (x)), (.)

ω′(λ f (x))¶ ‖x − x∗f ‖x ¶ω′∗(λ f (x)), (.)

ω(r∗(x))¶ f (x)− f (x∗f )¶ω∗(r∗(x)), (.)

где последнее неравенство верно при r∗(x)< 1.

Доказательство. Пусть r= ‖x − x∗f‖x и λ= λ f (x). Выполнение нера-

венств (.) следует из теоремы ... Далее, с помощью неравен-ства (.) получаем

r2

1+ r¶

f ′(x), x − x∗f�

¶λr,

а это правая часть неравенства (.). Если r ¾ 1, то левая частьоказывается тривиальной. Предположим, что r < 1. Тогда f ′(x) ==G(x − x∗

f), где

G=1∫

0

f ′′(x∗f+τ(x − x∗

f)) dτ,

иλ2

f (x)=

[ f ′′(x)]−1G(x − x∗f ), G(x− x∗f )�

¶ ‖H‖2r2,

где H = [ f ′′(x)]−1/2G[ f ′′(x)]−1/2. В силу следствия .. имеем

G� 11− r

f ′′(x).

Поэтому ‖H‖¶ 11− r

, и можно заключить, что

λ2f (x)¶

r2

(1− r)2= (ω′∗(r))2.

Page 231: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные функции

Таким образом, λ f (x)¶ω′∗(r). Применяя ω′(·) к обеим частям, по-лучим оставшуюся часть неравенства (.).

Наконец, неравенства (.) следуют из неравенств (.) и (.).

Оценим локальную скорость сходимости стандартного методаНьютона (.). Это удобно сделать через λ f (x) –– локальную нормуградиента.

Теорема ... Пусть x ∈ dom f и λ f (x)< 1. Тогда точка

x+= x − [ f ′′(x)]−1 f ′(x)

принадлежит dom f и верно неравенство

λ f (x+)¶

λ f (x)

1−λ f (x)

�2

.

Доказательство. Пусть p = x+ − x, λ = λ f (x). Тогда ‖p‖x = λ < 1.Поэтому x+ ∈ dom f (см. теорему ..). Заметим, что по теоре-ме .. выполняется неравенство

λ f (x+)=

[ f ′′(x+)]−1 f ′(x+), f ′(x+)�1/2¶

¶1

1−‖p‖x

‖ f ′(x+)‖x =1

1−λ‖ f ′(x+)‖x .

Далее,f ′(x+)= f ′(x+)− f ′(x)− f ′′(x)(x+− x)=Gp,

где G=1∫

0

[ f ′′(x +τp)− f ′′(x)] dτ. Значит,

‖ f ′(x+)‖2x =

[ f ′′(x)]−1Gp, Gp�

¶ ‖H‖2 · ‖p‖2x ,

где H = [ f ′′(x)]−1/2G[ f ′′(x)]−1/2. Из следствия .. получаем�

−λ+ 13λ2�

f ′′(x)�G� λ

1−λ f ′′(x).

Поэтому ‖H‖¶maxn

λ

1−λ , λ− 13λ2o

1−λ , и, следовательно,

λ2f (x+)¶

1

(1−λ)2‖ f ′(x+)‖2x ¶

λ4

(1−λ)4.

Page 232: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Теорема .. дает нам следующее описание множества квадра-тичной сходимости метода (.):

λ f (x)< λ=3−p

52

= 0,3819…,

где λ –– корень уравнения λ/(1− λ)2= 1. В этом случае можно га-

рантировать выполнение неравенства λ f (x+)<λ f (x).Таким образом, полученные результаты приводят нас к следую-

щей стратегии решения исходной задачи (.).

◦ Первый этап: λ f (xk)¾ β , где β ∈ (0, λ). На этом этапе применя-ется демпфированный метод Ньютона. На каждой итерации ме-тода выполнено неравенство

f (xk+1)¶ f (xk)−ω(β).

Следовательно, число итераций этого этапа ограничено:

N ¶1

ω(β)

f (x0)− f (x∗f )�

.

◦ Второй этап: λ f (xk)¶ β . Применяется стандартный метод Нью-тона. Этот алгоритм сходится квадратично:

λ f (xk+1)¶

λ f (xk)

1−λ f (xk)

�2

¶βλ f (xk)

(1− β)2<λ f (xk).

Можно показать, что локальная сходимость демпфированногометода Ньютона (.) также квадратична:

x+= x − [ f ′′(x)]−1 f ′(x)

1+λ f (x)⇒ λ f (x+)¶ 2λ2

f (x). (.)

Однако предпочтительнее использовать вышеприведенную страте-гию с переключением, поскольку она дает лучшую оценку вычисли-тельной сложности всего метода. Соотношение (.) может бытьдоказано так же, как и утверждение теоремы ... Мы оставляемэти рассуждения читателю в качестве упражнения.

§ .. Самосогласованные барьерыМотивировка. Определение самосогласованных барьеров. Основные свойства.Стандартная задача минимизации. Центральная траектория. Схема отслежи-вания. Как решать задачу? Задачи с функциональными ограничениями.

Page 233: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные барьеры

... Мотивировка

В предыдущем параграфе было показано, что метод Ньютонаочень эффективен при минимизации стандартной самосогласован-ной функции. Такая функция всегда является барьером для своейобласти определения. Проверим, какие утверждения мы теперьможем доказать для классического подхода последовательной без-условной минимизации (п. ..), в котором используются самосо-гласованные функции.

В дальнейшем мы будем рассматривать задачи условной миними-зации специального вида. Введем обозначение Dom f = cl(dom f ).

Определение ... Будем называть задачу условной минимизациистандартной, если она имеет форму

min�

⟨c, x⟩ | x ∈Q

, (.)

где Q –– выпуклое замкнутое множество. Мы предполагаем такжеизвестной самосогласованную функцию f , для которой Dom f =Q.

Введем в рассмотрение параметрическую штрафную функцию

f (t; x)= t⟨c, x⟩+ f (x),

t ¾ 0. Заметим, что f (t; x) –– самосогласованная функция по x (см.следствие ..). Пусть

x∗(t)= arg minx∈dom f

f (t; x).

Эта траектория называется центральной траекторией задачи (.).Нас будут интересовать такие траектории, поскольку можно ожи-дать, что x∗(t)→ x∗ при t→∞ (см. п. ..).

Напомним, что стандартный метод Ньютона, примененный к ми-нимизации функции f (t; x), имеет локальную квадратичную сходи-мость (теорема ..). Кроме того, у нас есть явное описание обла-сти квадратичной сходимости:

λ f (t;·)(x)¶ β < λ=3−p

52

.

Посмотрим, каковы наши возможности по отслеживанию централь-ной траектории, в предположении, что мы стоим в точке x = x∗(t)

при некотором t> 0.

Page 234: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Попробуем увеличить параметр t:

t+= t+∆, ∆> 0.

При этом для быстрого нахождения приемлемой аппроксимации кточке x(t+) нам нужно сохранить x в области квадратичной сходи-мости метода Ньютона, применяемого к функции f (t+∆; ·):

λ f (t+∆;·)(x)¶ β < λ.

Заметим, что замена t→ t+ не меняет гессиан барьерной функции:

f ′′(t+∆; x)= f ′′(t; x).

Поэтому можно легко оценить, насколько велик возможный шаг ∆.В самом деле, условие оптимальности первого порядка дает следу-ющее уравнение центральной траектории:

tc+ f ′(x∗(t))= 0. (.)

Поскольку tc+ f ′(x)= 0, мы получаем

λ f (t+∆;·)(x)= ‖t+c+ f ′(x)‖∗x =∆‖c‖∗x =

t‖ f ′(x)‖∗x ¶ β .

Таким образом, для увеличения t с линейной скоростью нам нужнопредположить, что значение

λ2f (x)= ‖ f ′(x)‖2x ≡

[ f ′′(x)]−1 f ′(x), f ′(x)�

равномерно ограничено на dom f .Таким образом, мы приходим к определению самосогласованного

барьера.

... Определение самосогласованных барьеров

Определение ... Пусть F(x) –– стандартная самосогласованнаяфункция. Будем называть такую функцию ν-самосогласованным ба-рьером для области Dom F, если

supu∈Rn

2⟨F ′(x), u⟩ − ⟨F ′′(x)u, u⟩�

¶ ν (.)

при всех x ∈ dom F. Величину ν будем называть параметром барьера.

Заметим, что мы не требуем невырожденности матрицы F ′′(x).Однако если она невырожденна, то неравенство (.) эквивалент-но следующему:

[F ′′(x)]−1F ′(x), F ′(x)�

¶ ν. (.)

Page 235: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные барьеры

Мы будем пользоваться и другой эквивалентной формой неравен-ства (.):

⟨F ′(x), u⟩2¶ ν⟨F ′′(x)u, u⟩ ∀u∈Rn. (.)

(При ⟨F ′′(x)u, u⟩ > 0 его можно получить, заменяя u в формуле(.) на λu и максимизируя левую часть по λ.) Заметим, что усло-вие (.) можно переписать в матричных обозначениях:

F ′′(x)� 1ν

F ′(x)F ′(x)T . (.)

Проверим, какие из самосогласованных функций, рассмотрен-ных в примере .., являются также и самосогласованными барье-рами.

Пример ... . Линейная функция: f (x)= α+ ⟨a, x⟩, dom f =Rn.Очевидно, что для a 6= 0 эта функция не является самосогласован-ным барьером, так как f ′′(x)= 0.

. Выпуклая квадратичная функция. Пусть A= AT ≻ 0. Рассмотримфункцию

f (x)=α+ ⟨a, x⟩+ 12⟨Ax, x⟩, dom f =Rn.

Тогда f ′(x)= a+ Ax и f ′′(x)= A. Поэтому

[ f (x)]−1 f ′(x), f ′(x)�

= ⟨A−1(Ax − a), Ax − a⟩== ⟨Ax, x⟩ − 2⟨a, x⟩+ ⟨A−1a, a⟩.

Очевидно, что эта величина неограничена сверху на Rn. Таким об-разом, квадратичная функция не является самосогласованным ба-рьером.

. Логарифмический барьер для луча. Рассмотрим следующую функ-цию одной переменной:

F(x)=− ln x, dom F =�

x ∈R1 | x > 0

.

Тогда F ′(x)=−1/x и F ′′(x)= 1/x2> 0. Поэтому

(F ′(x))2

F ′′(x)=

1

x2· x2= 1.

Следовательно, F(x) является ν-самосогласованным барьером длялуча {x > 0} с параметром ν = 1.

Page 236: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

. Логарифмический барьер для области второго порядка. ПустьA= AT � 0. Рассмотрим вогнутую квадратичную функцию

ϕ(x)=α+ ⟨a, x⟩ − 12⟨Ax, x⟩.

Определим F(x)=− ln ϕ(x), dom F =�

x ∈Rn |ϕ(x)> 0

. Тогда

F ′(x), u�

=− 1ϕ(x)

⟨a, u⟩ − ⟨Ax, u⟩�

,

⟨F ′′(x)u, u⟩= 1

ϕ2(x)[⟨a, u⟩ − ⟨Ax, u⟩]2

+1

ϕ(x)⟨Au, u⟩.

Пусть ω1= ⟨F ′(x), u⟩ и ω2=1

ϕ(x)⟨Au, u⟩. Тогда

⟨F ′′(x)u, u⟩=ω21+ω2¾ω

21.

Поэтому 2⟨F ′(x), u⟩ − ⟨F ′′(x)u, u⟩ ¶ 2ω1 − ω21 ¶ 1. Таким образом,

F(x) является ν-самосогласованным барьером с параметром ν = 1.

Приведем некоторые простые свойства самосогласованных ба-рьеров.

Теорема ... Пусть F(x) –– самосогласованный барьер. Тогда функ-ция ⟨c, x⟩+ F(x) является самосогласованной на dom F.

Доказательство. Поскольку функция F(x) самосогласованная, на-до просто применить следствие ...

Для рассматриваемых ниже методов отслеживания траекториидоказанное свойство является очень важным.

Теорема ... Пусть Fi –– νi-самосогласованные барьеры, i = 1, 2.Тогда функция

F(x)= F1(x)+ F2(x)

является самосогласованным барьером для выпуклого множестваdom F = dom F1 ∩ dom F2 с параметром ν = ν1 + ν2.

Page 237: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные барьеры

Доказательство. Из теоремы .. следует, что F есть стандартнаясамосогласованная функция. Зафиксируем x ∈ dom F. Тогда

maxu∈Rn

2⟨F ′(x)u, u⟩ − ⟨F ′′(x)u, u⟩�

=

=maxu∈Rn

2⟨F ′1(x)u, u⟩ − ⟨F ′′1 (x)u, u⟩+ 2⟨F ′2(x)u, u⟩ − ⟨F ′′2 (x)u, u⟩�

¶maxu∈Rn

2⟨F ′1(x)u, u⟩− ⟨F ′′1 (x)u, u⟩�

+

+maxu∈Rn

2⟨F ′2(x)u, u⟩ − ⟨F ′′2 (x)u, u⟩�

¶ ν1+ ν2.

Наконец, покажем, что значение параметра самосогласованногобарьера инвариантно по отношению к аффинным преобразовани-ям координат.

Теорема ... Пусть A (x)= Ax + b –– линейный оператор, A (x):R

n→Rm. Предположим, что функция F( y) является ν-самосогласо-ванным барьером. Тогда функция Φ(x)= F(A (x)) есть ν-самосогла-сованный барьер для множества

Dom Φ=�

x ∈Rn |A (x)∈Dom F

.

Доказательство. Функция Φ(x) –– стандартная самосогласованнаяфункция, что следует из теоремы ... Зафиксируем x ∈ dom Φ. То-гда y =A (x)∈ dom F. Заметим, что для любого u∈Rn выполнены

⟨Φ′(x), u⟩= ⟨F ′( y), Au⟩, ⟨Φ′′(x)u, u⟩= ⟨F ′′( y)Au, Au⟩.

Поэтому

maxu∈Rn

2⟨Φ′(x), u⟩ − ⟨Φ′′(x)u, u⟩�

=

=maxu∈Rn

2⟨F ′( y), Au⟩ − ⟨F ′′( y)Au, Au⟩�

¶maxυ∈Rm

2⟨F ′( y), υ⟩ − ⟨F ′′( y)υ, υ⟩�

¶ ν.

... Основные неравенства

Покажем, что локальные характеристики самосогласованногобарьера (градиент и гессиан) дают нам глобальную информацию оструктуре его области определения.

Page 238: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Теорема ... . Пусть F(x) –– ν-самосогласованный барьер. Тогдадля любых x, y ∈ dom F выполняется неравенство

⟨F ′(x), y − x⟩<ν. (.)

Кроме того, если ⟨F ′(x), y − x⟩¾ 0, то

F ′( y)− F ′(x), y − x�

¾⟨F ′(x), y − x⟩2ν − ⟨F ′(x), y − x⟩ . (.)

. Стандартная самосогласованная функция F(x) является ν-само-согласованным барьером тогда и только тогда, когда

F( y)¾ F(x)− ν ln�

1− 1ν⟨F ′(x), y − x⟩�

∀x, y ∈ dom F. (.)

Доказательство. . Пусть x, y ∈ dom F. Рассмотрим функцию

ϕ(t)=

F ′(x + t( y− x)), y − x�

, t ∈ [0, 1].

Если ϕ(0)¶ 0, то неравенство (.) тривиально. Если ϕ(0)= 0, тонеравенство (.) тоже выполнено. Пусть ϕ(0)> 0. Заметим, что всилу неравенства (.) мы имеем

ϕ′(t)=

F ′′(x + t( y − x))( y− x), y − x�

¾

¾1ν

F ′(x + t( y − x)), y − x�2=

1νϕ2(t).

Поэтому функция ϕ(t) возрастает и положительна при t ∈ [0, 1].Кроме того, для любого t ∈ [0, 1] выполняется неравенство

− 1ϕ(t)

+1ϕ(0)¾

t.

Это означает, что ⟨F ′(x), y − x⟩=ϕ(0)<ν

tпри всех t ∈ [0, 1]. Таким

образом, неравенство (.) доказано. Далее,

ϕ(t)−ϕ(0)¾νϕ(0)

ν − tϕ(0)−ϕ(0)=

tϕ(0)2

ν − tϕ(0), t ∈ [0, 1].

Взяв t= 1, получим неравенство (.).

. Пусть ψ(x)= e−1

νF(x). Тогда

ψ′(x)=− 1ν

e−1

νF(x) · F ′(x),

ψ′′(x)=− 1ν

e−1

νF(x)h

F ′′(x)− 1ν

F ′(x)F ′(x)Ti

.

Page 239: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные барьеры

Таким образом, по теореме .. и определению (.) вогнутостьфункции ψ(x) равносильна утверждению, что функция F(x) естьν-самосогласованный барьер. Остается отметить, что неравенство(.) совпадает с неравенством

ψ( y)¶ψ(x)+

ψ′(x), y − x�

с точностью до логарифмического преобразования обеих частей.

Теорема ... Пусть F(x) –– ν-самосогласованный барьер. Тогдадля любых таких x ∈ dom F и y ∈Dom F, что

F ′(x), y − x�

¾ 0, (.)

выполняется неравенство

‖ y − x‖x ¶ ν + 2pν . (.)

Доказательство. Введем обозначение r = ‖ y − x‖x . Пусть r >pν.

Рассмотрим точку yα = x + α( y − x), α=pν

r< 1. В силу предполо-

жения (.) и неравенства (.) мы получаем

ω≡

F ′( yα), y − x�

¾

F ′( yα)− F ′(x), y − x�

=

=1α

F ′( yα)− F ′(x), yα− x�

¾

¾1α·‖ yα − x‖2x

1+ ‖ yα − x‖2x=

α‖ y − x‖2x1+α‖ y − x‖x

=rpν

1+pν

.

С другой стороны, принимая во внимание неравенство (.), полу-чаем

(1−α)ω=

F ′( yα), y − yα�

¶ ν.

Таким образом,�

1−pν

r

rpν

1+pν¶ ν,

откуда в точности следует неравенство (.).

Завершим этот пункт изучением свойств аналитического центравыпуклого множества.

Page 240: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Определение ... Пусть F(x) –– ν-самосогласованный барьер дляобласти Dom F. Тогда точка

x∗F = arg minx∈dom F

F(x),

называется аналитическим центром, порожденным барьером F(x)

для выпуклого множества Dom F.

Теорема ... Предположим, что аналитический центр ν-самосог-ласованного барьера F(x) существует. Тогда для любого x ∈Dom Fимеет место неравенство

‖x − x∗F‖x∗F¶ ν + 2

pν .

С другой стороны, для любого такого x ∈Rn, что ‖x − x∗F‖x∗F¶ 1, вы-

полняется включение x ∈Dom F.

Доказательство. Первое утверждение следует из теоремы ..,так как F ′(x∗F)= 0. Второе утверждение следует из теоремы ...

Таким образом, асферичность множества Dom F относительноточки x∗F , вычисленная в метрике ‖ · ‖x∗F

, не превосходит ν + 2pν.

Хорошо известен тот факт, что для любого выпуклого множества вR

n существует евклидова метрика, в которой асферичность этогомножества не превосходит n (теорема Джона). Однако нам уда-лось оценить асферичность с помощью параметра барьера. Этавеличина напрямую не связана с размерностью пространства.

Заметим также, что если Dom F не содержит прямых, то суще-ствование точки x∗F обеспечивает ограниченность множества Dom F(так как тогда гессиан F ′′(x∗F) невырожден, см. теорему ..).

Следствие ... Пусть множество Dom F ограничено. Тогда длялюбых x ∈ dom F, υ∈Rn имеет место неравенство

‖υ‖∗x ¶ (ν + 2pν)‖υ‖∗x∗F .

Доказательство. По лемме .. имеем следующее представление:

‖υ‖∗x ≡

[F ′′(x)]−1υ, υ�1/2

=max�

⟨υ, u⟩ | ⟨F ′′(x)u, u⟩¶ 1

.

С другой стороны, из теорем .. и .. следует, что

B≡�

y ∈Rn | ‖ y − x‖x ¶ 1

⊆Dom F ⊆⊆�

y ∈Rn | ‖ y − x∗F ‖x ¶ ν + 2pν

≡ B∗.

Page 241: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные барьеры

Поэтому, снова используя теорему .., получим следующее нера-венство:

‖υ‖∗x =max�

⟨υ, y − x⟩ | y ∈ B

¶max�

⟨υ, y − x⟩ | y ∈ B∗

=

= ⟨υ, x∗F − x⟩+ (ν + 2pν)‖υ‖∗x∗F .

Заметим, что ‖υ‖∗x = ‖−υ‖∗x . Поэтому можно считать что ⟨υ, x∗F − x⟩¶¶ 0.

... Метод отслеживания траектории

Мы подошли к описанию барьерной модели задач минимизации.Рассмотрим стандартную задачу минимизации

min�

⟨c, x⟩ | x ∈Q

(.)

с ограниченным выпуклым и замкнутым множеством Q≡Dom F, ко-торое имеет внутреннюю точку и для которого известен ν-самосо-гласованный барьер F(x).

Напомним, что мы решаем задачу (.), двигаясь по так назы-ваемой центральной траектории:

x∗(t)= arg minx∈dom F

f (t; x), (.)

где f (t; x)= t⟨c, x⟩+ F(x) и t¾ 0. В силу условия оптимальности пер-вого порядка любая точка этой траектории удовлетворяет уравне-нию

tc+ F ′(x∗(t))= 0. (.)

Поскольку множество Q ограничено, его аналитический центр x∗Fсуществует и

x∗(0)= x∗F . (.)

При отслеживании центральной траектории нам приходится пере-считывать точки, удовлетворяющие условию приближенного цен-трирования:

λ f (t;·)(x)≡ ‖ f ′(t; x)‖∗x = ‖tc+ F ′(x)‖∗x ¶ β , (.)

где параметр центрирования β достаточно мал.Покажем, что такая стратегия вполне оправдана.

Теорема ... Для любого t> 0 имеет место неравенство

⟨c, x∗(t)⟩− c∗ ¶ν

t, (.)

Page 242: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

где c∗ –– оптимальное значение для задачи (.). Если точка x удо-влетворяет условию центрирования (.), то

⟨c, x⟩− c∗ ¶1t

ν +(β +pν)β

1− β�

. (.)

Доказательство. Пусть x∗ является решением задачи (.). Тогдаиз соотношений (.) и (.) получаем

⟨c, x∗(t)− x∗⟩= 1t

F ′(x∗(t)), x∗− x∗(t)�

¶ν

t.

Далее, пусть x удовлетворяет условию (.). Введем обозначениеλ=λ f (t;·)(x). Тогда

t⟨c, x − x∗(t)⟩=

f ′(t; x)− F ′(x), x − x∗(t)�

¶ (λ+pν)‖x− x∗(t)‖x ¶

¶ (λ+pν)

λ

1−λ ¶(β +pν)β

1− βв силу неравенства (.), теоремы .. и неравенства (.).

Проанализируем результат одной итерации метода отслежива-ния траектории. А именно, предположим, что x ∈ dom F. Рассмот-рим следующее правило пересчета:

t+= t+γ

‖c‖∗x,

x+= x − [F ′′(x)]−1(t+c+ F ′(x)).

(.)

Теорема ... Пусть точка x удовлетворяет условию (.):

‖tc+ F ′(x)‖∗x ¶ β ,

β < λ=3−p

52

. Тогда для всех достаточно малых γ,

|γ|¶p

β

1+p

β−β , (.)

снова имеет место неравенство ‖t+c+ F ′(x+)‖∗x ¶ β .

Доказательство. Пусть λ0 = ‖tc+ F ′(x)‖∗x ¶ β , λ1 = ‖t+c+ F ′(x)‖∗x иλ+ = ‖t+c+ F ′(x+)‖∗x+ . Тогда

λ1 ¶λ0+ |γ|¶β + |γ|,

Page 243: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные барьеры

и в силу теоремы .. получаем

λ+ ¶�

λ11− λ1

�2 ≡ [ω′∗(λ1)]2.

Остается отметить, что неравенство (.) эквивалентно неравен-ству

ω′∗�

β + |γ|�

p

β

(вспомним, что ω′(ω′∗(τ))=τ, см. лемму ..).

Покажем, что параметр t в методе (.) меняется достаточнобыстро.

Лемма ... Пусть x удовлетворяет (.). Тогда

‖c‖∗x ¶1t

(β +pν). (.)

Доказательство. В самом деле, из соотношений (.) и (.) по-лучаем

t‖c‖∗x = ‖ f ′(t; x)− F ′(x)‖∗x ¶ ‖ f ′(t; x)‖∗x + ‖F′(x)‖∗x ¶β +

pν .

Зафиксируем теперь приемлемые значения параметров для мето-да (.). В оставшейся части главы будем всегда считать, что

β =19

, γ=

p

β

1+p

β− β = 5

36. (.)

Мы уже доказали, что с помощью схемы (.) удается отслеживатьцентральную траекторию. При этом можно как увеличивать, так иуменьшать текущее значение t. Нижняя оценка для скорости возрас-тания t равна

t+ ¾

1+5

4+ 36pν

· t,

а верхняя оценка для скорости убывания t есть

t+ ¶

1− 5

4+ 36pν

· t.

Выпишем схему метода решения задачи (.).

Page 244: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Метод отслеживания траектории

. Положим t0 = 0. Выберем точность ǫ > 0 и та-кую точку x0 ∈ dom F, что

‖F ′(x0)‖∗x0¶β .

. k-я итерация (k¾ 0). Положим

tk+1= tk +γ

‖c‖∗xk

,

xk+1= xk −�

F ′′(xk)�−1�

tk+1c+ F ′(xk)�

.

. Остановим процесс, когда ǫ tk ¾ ν +(β +pν)β

1− β .

(.)

Получим границы вычислительной сложности этого метода.

Теорема ... Метод (.) завершает работу не более чем за Nитераций, где

N ¶O

pν ln

ν‖c‖∗x∗F

ǫ

.

В момент завершения выполнено неравенство ⟨c, xN⟩ − c∗ ¶ ǫ.

Доказательство. Заметим, что r0 ≡ ‖x0 − x∗F ‖x0¶

β

1− β (см. теоре-

му ..). Поэтому в силу теоремы .. получаем

γ

t1

= ‖c‖∗x0¶

11− r0

‖c‖∗x∗F ¶1− β

1− 2β‖c‖∗x∗F .

Таким образом, tk ¾γ(1− 2β)

(1− β)‖c‖∗x∗F

1+γ

β +pν

�k−1

при всех k¾ 1.

Обсудим полученную оценку сложности. Ее основная составляю-щая есть

7,2pν ln

ν‖c‖∗x∗F

ǫ.

Заметим, что значение ν‖c‖∗x∗F

оценивает изменение линейной функ-

ции ⟨c, x⟩ на множестве Dom F (см. теорему ..). Таким образом,отношение

ǫ

ν‖c‖∗x∗F

Page 245: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные барьеры

можно рассматривать как относительную точность решения.Процедура (.) имеет один серьезный недостаток. Иногда бы-

вает сложно обеспечить выполнение ее начального условия

‖F ′(x0)‖∗x0¶ β .

В таких случаях нам потребуется дополнительная процедура длянахождения подходящей начальной точки. В следующем пункте мыизучим имеющиеся для этого возможности.

... Нахождение аналитического центра

Итак, мы хотим найти хорошее приближение к аналитическомуцентру множества Dom F. Напомним, что этот центр является ре-шением задачи минимизации

min�

F(x) | x ∈ dom F

, (.)

где F –– ν-самосогласованный барьер. Ввиду потребностей предыду-щего пункта, искомое приближенное решение x ∈ dom F этой зада-чи должно удовлетворять неравенству

‖F ′(x)‖∗x ¶ βс некоторым β ∈ (0, 1).

Для достижения нашей цели можно применить две разных стра-тегии. В первой из них используется демпфированный метод Нью-тона. Во второй же задействован метод отслеживания траектории.

Рассмотрим сначала первую стратегию.

Демпфированный метод Ньютонадля нахождения аналитического центра

. Выберем y0 ∈ dom F.. k-я итерация (k¾ 0). Полагаем

yk+1= yk −[F ′′( yk )]−1 F ′( yk )

1+ ‖F ′( yk)‖∗yk

.

. Останавливаемся, если ‖F ′( yk)‖∗yk¶ β .

(.)

Теорема ... Метод (.) завершит работу не более чем за(F( y0)− F(x∗F ))/ω(β) итераций.

Page 246: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Доказательство. Действительно, в силу теоремы .. имеем

F( yk+1)¶ F( yk)−ω(λF ( yk))¶ F( yk)−ω(β).

Поэтому F( y0)− k ω(β)¾ F( yk)¾ F(x∗F).

Применение метода отслеживания траектории не намного слож-нее. Выберем некоторую начальную точку y0 ∈ dom F и определимвспомогательную центральную траекторию:

y∗(t)= arg miny∈dom F

−t⟨F ′( y0), y⟩+ F( y)�

,

где t¾ 0. Заметим, что эта траектория удовлетворяет уравнению

F ′( y∗(t))= tF ′( y0). (.)

Поэтому она соединяет начальную точку y0 с аналитическим цен-тром x∗F :

y∗(1)= y0, y∗(0)= x∗F .

Мы можем отследить эту траекторию, применяя правило (.) субывающим t.

Оценим скорость сходимости вспомогательной центральной тра-ектории к аналитическому центру.

Лемма ... Для любого t¾ 0 имеет место неравенство

‖F ′( y∗(t))‖∗y∗(t) ¶ (ν + 2pν)‖F ′(x0)‖∗x∗F · t.

Доказательство. Эта оценка вытекает из соотношения (.) иследствия ...

Page 247: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные барьеры

Выпишем теперь соответствующую алгоритмическую схему.

Метод отслеживания вспомогательнойтраектории

. Выберем y0 ∈Dom F. Положим t0= 1.. k-я итерация (k¾ 0). Полагаем

tk+1= tk −γ

‖F ′( y0)‖∗yk

,

yk+1= yk −�

F ′′( yk)�−1�

tk+1F ′( y0)+ F ′( yk)�

.

. Останавливаемся, если

‖F ′( yk)‖yk¶

p

β

1+p

β.

Формируем x = yk − [F ′′( yk)]−1F ′( yk).

(.)

Итак, приведенный метод отслеживает вспомогательную цен-тральную траекторию y∗(t) при tk → 0. Он пересчитывает точки{yk}, удовлетворяющих приближенному условию центрирования

‖tk F ′( y0)+ F ′( yk)‖yk¶ β .

Критерий остановки этой процедуры,

λk = ‖F ′( yk)‖yk¶

p

β

1+p

β,

гарантирует, что ‖F ′(x)‖x ¶

λk

1−λk

�2

¶ β (см. теорему ..).

Представим оценку сложности этого метода.

Теорема ... Процедура (.) останавливается не позднее чемпосле

β +pν�

ln

(ν + 2pν)‖F ′( y0)‖∗x∗F�

итераций.

Page 248: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Доказательство. Напомним, что мы зафиксировали параметры:

β =19

, γ=

p

β

1+p

β−β = 5

36.

Заметим, что t0 = 1. Поэтому в силу теоремы .. и леммы ..имеет место оценка

tk+1¶

1− γ

β +pν

tk ¶ exp

−γ(k+ 1)

β +pν

.

Далее, по лемме .. получаем

‖F ′( yk)‖∗yk= ‖(tkF ′( y0)+ F ′( yk))− tkF ′( y0)‖∗yk

¶ β + tk‖F ′( y0)‖∗yk¶ β + tk(ν + 2

pν)‖F ′( y0)‖∗x∗F .

Таким образом, рассматриваемая процедура завершается не позд-нее, чем будет выполнено следующее неравенство:

tk(ν + 2pν)‖F ′( y0)‖∗x∗F ¶

p

β

1+p

β−β = γ.

Теперь можно обсудить вычислительные затраты обеих страте-гий. Основная составляющая в выражении сложности метода отсле-живания вспомогательной центральной траектории равна

7,2pνh

ln ν + ln ‖F ′( y0)‖∗x∗Fi

,

а для вспомогательного демпфированного метода Ньютона она со-ставляет O(F( y0)− F(x∗F)). Напрямую сравнить эти две оценки не уда-ется. Но более глубокий анализ показывает преимущество методаотслеживания траектории. Заметим также, что оценки его сложностиестественным образом соответствуют сложности основной схемы от-слеживания. Действительно, если мы объединим схему (.) с (.),то получим следующую оценку сложности всего процесса:

7,2pνh

2 ln ν + ln ‖F ′( y0)‖∗x∗F + ln ‖c‖∗x∗F + ln1ǫ

i

.

Завершая этот пункт, отметим, что для некоторых задач бываеттрудно указать и начальную точку y0 ∈ dom F. В таких случаях надоприменять еще один вспомогательный процесс минимизации, ана-логичный процедуре (.). Мы обсудим эту ситуацию в следующемпункте.

Page 249: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные барьеры

... Задачи с функциональными ограничениями

Рассмотрим следующую задачу минимизации:

min f0(x),

при f j(x)¶ 0, j = 1, …, m,

x ∈Q,

(.)

где Q –– простое ограниченное выпуклое и замкнутое множество,имеющее внутреннюю точку, а все функции f j(x), j = 0, …, m, вы-пуклы. Предполагаем, что данная задача удовлетворяет условию Сл-эйтера: существует такое x ∈ int Q, что f j(x)< 0 для всех j = 1, …, m.

Предположим, что нам известна такая верхняя граница τ, чтоf0(x)< τ для всех x ∈Q. Тогда, вводя две дополнительные перемен-ные τ и κ, можно переписать эту задачу в стандартной форме:

τ→min

при f0(x)¶τ,

f j(x)¶ κ, j = 1, …, m,

x ∈Q, τ¶ τ, κ¶ 0.

(.)

Заметим, что мы можем применять методы внутренней точки к за-даче оптимизации только в том случае, если имеется возможностьпостроить самосогласованный барьер для допустимого множества.В данной ситуации это означает, что мы должны уметь строить сле-дующие барьеры:

◦ самосогласованный барьер FQ(x) для множества Q;

◦ самосогласованный барьер F0(x, τ) для надграфика целевой функ-ции f0(x);

◦ самосогласованные барьеры F j(x, κ) для надграфиков функцио-нальных ограничений f j (x).

Предположим, что все это реализуемо. Тогда результирующий са-мосогласованный барьер для допустимого множества задачи (.)выглядит следующим образом:

F(x, τ, κ)= FQ(x)+ F0(x, τ)+m∑

j=1

F j (x, κ)− ln(τ−τ)− ln(−κ).

Page 250: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Параметр этого барьера равен

ν = νQ + ν0+

m∑

j=1

ν j + 2, (.)

где ν(·) –– параметры соответствующих барьеров.Заметим, что указать начальную точку из dom F может все еще

оказаться сложной задачей. Эта область является пересечениеммножества Q с надграфиками целевой функции, исходных ограни-чений и с двумя дополнительными ограничениями τ ¶ τ и κ¶ 0.Если x0 ∈ int Q, то можно выбрать τ0 и κ0 достаточно большими,чтобы гарантировать выполнение условий

f0(x0)<τ0< τ, f j (x0)<κ0, j = 1, …, m,

но тогда ограничение κ¶ 0 может оказаться нарушенным.Для упрощения анализа введем новые обозначения. С этого мо-

мента мы рассматриваем задачу

min⟨c, z⟩,при z ∈ S,

⟨d, z⟩¶ 0,

(.)

где z = (x, τ, κ), ⟨c, z⟩ ≡ τ, ⟨d, z⟩ ≡ κ и S –– допустимое множествозадачи (.) без ограничения κ ¶ 0. Нам известен самосогласо-ванный барьер F(z) для множества S, и можно легко найти точкуz0 ∈ int S. Более того, согласно нашим предположениям при доста-точно большом α множество

S(α)=�

z ∈ S | ⟨d, z⟩¶α

является ограниченным и имеет внутреннюю точку.Процедура решения задачи (.) состоит из трех этапов.

. Выберем начальную точку z0 ∈ int S и начальную ошибку ∆> 0.Положим α= ⟨d, z0⟩ +∆. Если α¶ 0, то можно использовать двух-этапный процесс, описанный в п. ... В противном случае дела-ем следующее. Во-первых, находим приближенный аналитическийцентр множества S(α), образованный с помощью барьера

F(z)= F(z)− ln(α− ⟨d, z⟩).

Page 251: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Самосогласованные барьеры

А именно, находим точку z, удовлетворяющую условию

λF (z)≡­

F ′′(z)−1�

F ′(z)+d

α− ⟨d, z⟩

, F ′(z)+d

α− ⟨d, z⟩

·1/2

¶β .

Для этого можно использовать вспомогательные схемы, рассмот-ренные в п. ...

. Следующий этап состоит в отслеживании центральной траекто-рии z(t), определяемой уравнением

td+ F ′(z(t))= 0, t¾ 0.

Заметим, что на предыдущем этапе вычисляется хорошая аппрок-симация аналитического центра z(0). Поэтому можно начать отсле-живание траектории z(t), используя процедуру (.). При t→∞ этатраектория приводит нас к решению задачи минимизации

min�

⟨d, z⟩ | z ∈ S(α)

.

Ввиду условия Слейтера для задачи (.) оптимальное значение по-следней задачи оказывается строго отрицательным.

Целью данного этапа является нахождение аппроксимации ана-литического центра множества

S=�

z ∈ S(α) | ⟨d, z⟩¶ 0

,

снабженного барьером

F(z)= F(z)− ln(−⟨d, z⟩).

Эта точка z∗ удовлетворяет уравнению

F ′(z∗)−d

⟨d, z∗⟩= 0.

Поэтому z∗ принадлежит траектории центров z(t). Соответствую-щая величина штрафного параметра t∗ равна

t∗=−1

⟨d, z∗⟩> 0.

Данный этап завершается в точке z, удовлетворяющей условию

λF (z)≡­

F ′′(z)−1�

F ′(z)− d

⟨d, z⟩

, F ′(z)− d

⟨d, z⟩

·1/2

¶ β .

Page 252: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

. Заметим, что F ′′(z) ≻ F ′′(z). Поэтому точка z, вычисленная напредыдущем этапе, удовлетворяет неравенству

λF (z)≡­

F ′′(z)−1�

F ′(z)− d

⟨d, z⟩

, F ′(z)− d

⟨d, z⟩

·1/2

¶β .

Это означает, что у нас имеется хорошее приближение для анали-тического центра множества S и мы можем применить основнуюсхему отслеживания (.) для решения задачи

min�

⟨c, z⟩ | z ∈ S

.

Очевидно, что эта задача эквивалентна задаче (.).Мы опускаем детальный анализ сложности приведенной трех-

этапной процедуры. Его можно провести так же, как и в п. ...Основная составляющая оценки сложности этой схемы пропор-циональна произведению

pν (см. соотношение (.)) на сумму

логарифма желаемой точности ǫ и логарифмов некоторых струк-турных характеристик исходной задачи (размера области, глубиныусловия Слейтера и т. д.).

Таким образом, мы показали, что можно применять эффектив-ные методы внутренней точки ко всем задачам, для которых удаетсяпостроить самосогласованные барьеры для основного допустимо-го множества Q и для надграфиков функциональных ограничений.Наша основная цель теперь –– описать класс выпуклых задач, длякоторых такие барьеры эффективно строятся. Заметим, что у насесть точная характеристика качества самосогласованного барье-ра –– величина его параметра: чем он меньше, тем более эффек-тивным будет соответствующий метод. В следующем параграфемы обсуждаем возможности применения разработанного подхода кконкретным выпуклым задачам оптимизации.

§ .. Приложения структурной оптимизации

Границы параметров самосогласованных барьеров. Линейная и квадратичнаяоптимизация. Полуопределенная оптимизация. Экстремальные эллипсоиды.Сепарабельные задачи. Геометрическое программирование. Аппроксимация вlp-норме. Выбор схемы минимизации.

Page 253: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

... Границы параметров самосогласованных барьеров

В предыдущем параграфе мы рассматривали подход, основанныйна отслеживании центральной траектории для следующей задачи:

minx∈Q⟨c, x⟩, (.)

где Q –– выпуклое замкнутое множество с внутренней точкой, снаб-женное вычислимым ν-самосогласованным барьером F(x). Исполь-зуя такой барьер, можно решить задачу (.) за O

�pν · ln(ν/ǫ)�

итераций метода Ньютона. Напомним, что наиболее сложная частькаждой итерации состоит в решении системы линейных уравнений.

В настоящем пункте мы очертим область применимости этогоподхода. Мы исследуем нижние и верхние границы для парамет-ров самосогласованных барьеров и рассмотрим некоторые классывыпуклых задач, для которых можно эффективным образом (с вы-числительной точки зрения) построить модель (.).

Начнем с исследования нижних границ для параметров барьера.

Лемма ... Пусть f (t) является ν-самосогласованным барьеромдля интервала (α, β)⊂R1, −∞¶α<β <∞. Тогда

ν ¾κ≡ supt∈(α,β)

( f ′(t))2

f ′′(t)¾ 1.

Доказательство. Заметим, что по определению ν ¾ κ. Предполо-жим, что κ < 1. Поскольку f (t) является выпуклым барьером для(α, β), найдется такое значение α ∈ (α, β), что f ′(t) > 0 при всехt ∈ [α, β).

Рассмотрим функцию ϕ(t)= ( f ′(t))2/( f ′′(t)), t ∈ [α, β). Посколь-ку f ′(t)> 0, f (t) –– самосогласованный барьер и ϕ(t)¶ κ< 1, имеетместо неравенство

ϕ′(t)= 2 f ′(t)−�

f ′(t)

f ′′(t)

�2

f ′′′(t)=

= f ′(t)

2− f ′(t)p

f ′′(t)· f ′′′(t)

[ f ′′(t)]3/2

¾ 2(1−pκ) f ′(t).

Отсюда для всех t ∈ [α, β) получаем ϕ(t)¾ϕ(α)+ 2(1−pκ)( f (t)−− f (α)). Получили противоречие, так как f (t) –– барьер, а функцияϕ(t) ограничена сверху.

Page 254: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Следствие ... Пусть F(x) –– ν-самосогласованный барьер дляQ⊂Rn. Тогда ν ¾ 1.

Доказательство. Действительно, пусть x ∈ int Q. Так как Q ⊂ Rn,найдется такой ненулевой вектор u∈Rn, что прямая {y = x + tu, t ∈∈ R1} пересекает границу множества Q. Поэтому, рассматриваяфункцию f (t)= F(x + tu) и используя лемму .., получаем иско-мый результат.

Получим простую нижнюю границу для параметров самосогласо-ванных барьеров для неограниченных множеств.

Пусть Q –– выпуклое замкнутое множество с внутренней точкой.Рассмотрим x ∈ int Q. Предположим, что существует нетривиальноемножество рецессивных направлений {p1, …, pk} для множества Q:

x +αpi ∈Q ∀α¾ 0.

Теорема ... Пусть положительные коэффициенты {βi}ki=1 удо-

влетворяют условию

x −βi pi /∈ int Q, i= 1, …, k.

Если при некоторых положительных чисел α1, …, αk имеет место

включение y = x −∑k

i=1 αi pi ∈Q, то параметр ν любого самосогла-сованного барьера для Q удовлетворяет неравенству

ν ¾k∑

i=1

αi

βi

.

Доказательство. Пусть F(x) является ν-самосогласованным барье-ром для множества Q. Поскольку pi –– рецессивное направление,имеет место неравенство

F ′(x), −pi

¾

F ′′(x)pi, pi

�1/2 ≡ ‖pi‖x

(так как в противном случае функция f (t)= F(x + tp) достигала бысвоего минимума; см. теорему ..).

Заметим, что x − βi pi /∈ Q. Поэтому в силу теоремы .. нормавектора pi должна быть достаточно большой: βi‖pi‖x ¾ 1. Отсюда,пользуясь теоремой .., получаем

ν ¾

F ′(x), y − x�

=

­

F ′(x), −k∑

i=1

αi pi

·

¾

k∑

i=1

αi‖pi‖x ¾

k∑

i=1

αi

βi

.

Page 255: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

Приведем теперь теорему существования для самосогласованныхбарьеров. Рассмотрим выпуклое замкнутое множество Q, int Q 6=∅,и предположим, что Q не содержит прямых. Определим поляру мно-жества Q относительно некоторой точки x ∈ int Q:

P(x)=�

s ∈Rn | ⟨s, x − x⟩¶ 1 ∀x ∈Q

.

Можно доказать, что для любого x ∈ int Q множество P(x) являет-ся ограниченным выпуклым и замкнутым множеством с непустойвнутренностью. Пусть V(x)= voln P(x).

Теорема ... Существуют такие абсолютные константы c1 и c2,что функция

U(x)= c1 · ln V(x)

является (c2 · n)-самосогласованным барьером для множества Q.

Функция U(x) называется универсальным барьером для мно-жества Q. Заметим, что аналитическая сложность задачи (.),снабженной универсальным барьером, равна O

�pn · ln(n/ǫ)�

. На-помним, что такая оценка эффективности невозможна в случае,когда мы используем оракул типа локального черного ящика (см.теорему ..).

Полученный результат имеет главным образом теоретическийинтерес. В общем случае универсальный барьер U(x) вычислитьочень сложно. Однако теорема .. показывает, что такие барьеры,в принципе, можно найти для любого выпуклого множества. Такимобразом, применимость нашего подхода ограничивается тольконашей способностью построить вычислимый самосогласованныйбарьер, желательно с малым значением параметра. При этом про-цесс создания барьерной модели исходной задачи едва ли можноописать формальным образом. Для каждой отдельной задачи мо-жет оказаться много разных барьерных моделей, и нам необходимовыбрать наилучшую, принимая во внимание значение параметрасамосогласованного барьера, сложность его градиента и гессианаи сложность решения системы Ньютона. Далее мы продемонстри-руем, как это можно сделать для некоторых стандартных классовзадач выпуклой оптимизации.

Page 256: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

... Линейная и квадратичная оптимизация

Начнем с линейной задачи оптимизации:

minx∈Rn⟨c, x⟩

при Ax = b,

x(i)¾ 0, i= 1, …, n (⇔ x ∈Rn

+),

(.)

где A –– (m × n)-матрица, m < n. Неравенства в ограничениях дляэтой задачи формируют положительный ортант в Rn. Для это-го множества можно построить следующий самосогласованныйбарьер:

F(x)=−n∑

i=1

ln x(i), ν = n

(см. пример .. и теорему ..). Этот барьер называют стандарт-ным логарифмическим барьером для Rn

+.

Чтобы решить задачу (.), нам необходимо использовать суже-ние барьера F(x) на аффинное подпространство {x | Ax = b}. По-скольку это сужение является n-самосогласованным барьером (см.теорему ..), оценка сложности задачи (.) равна O

�pn · ln(n/ǫ)�

итерациям метода отслеживания траектории.Докажем, что стандартный логарифмический барьер является

оптимальным для Rn+

.

Лемма ... Параметр ν любого самосогласованного барьера дляR

n+

удовлетворяет неравенству ν ¾ n.

Доказательство. Выберем

x = e≡ (1, …, 1)T ∈ int Rn+

,

pi = ei, i= 1, …, n,

где ei –– i-й координатный вектор в Rn. Очевидно, что условия тео-ремы .. выполнены при αi = βi = 1, i= 1, …, n. Поэтому

ν ¾n∑

i=1

αi

βi

= n.

Заметим, что данная нижняя граница действует только для мно-жества Rn

+. Нижняя граница для пересечения {x ∈ Rn

+| Ax = b} мо-

жет оказаться меньше.

Page 257: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

Рассмотрим теперь квадратичную задачу оптимизации с квадра-тичными ограничениями:

minx∈Rn

q0(x)=α0 + ⟨a0, x⟩+ 12⟨A0 x, x⟩,

при qi(x)=αi + ⟨ai, x⟩+ 12⟨Ai x, x⟩¶ βi, i= 1, …, m,

(.)

где Ai –– некоторые неотрицательно определенные (n× n)-матрицы.Перепишем эту задачу в стандартной форме:

minx,ττ,

при q0(x)¶ τ,

qi(x)¶ βi, i= 1, …, m,

x ∈Rn, τ∈R1.

(.)

Для допустимого множества в этой задаче можно построить сле-дующий самосогласованный барьер:

F(x, τ)=− ln(τ− q0(x))−m∑

i=1

ln(βi − qi(x)), ν =m+ 1

(см. пример .. и теорему ..). Таким образом, граница слож-ности для задачи (.) равна O(

pm+ 1 · ln(m/ǫ)) итерациям мето-

да отслеживания траектории. Отметим, что эта оценка не зависитот n.

Во многих приложениях функциональные компоненты задачивключают в себя некоторые негладкие квадратичные составляющиетипа ‖Ax − b‖. Покажем, как можно работать с такими компонен-тами, используя методы внутренней точки.

Лемма ... Функция

F(x, t)=− ln�

t2− ‖x‖2�

является 2-самосогласованным барьером для выпуклого множества

K2 =�

(x, t)∈Rn+1 | t¾ ‖x‖

.

В разных областях численного анализа это множество может иметь разные на-звания: конус Лоренца, «конус-рожок», «конус-кулек», конус второго порядка и т. п.

Page 258: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Доказательство. Зафиксируем точку z = (x, t) ∈ int K2 и ненуле-вой вектор u= (h, τ)∈Rn+1. Пусть ξ(α)= (t+ατ)2− ‖x +αh‖2. Намнужно сравнить производные для функции

ϕ(α)= F(z+αu)=− ln ξ(α)

в точке α= 0. Введем обозначения ϕ(·)=ϕ(·)(0), ξ(·)

=ξ(·)(0). Тогда

ξ′ = 2(tτ− ⟨x, h⟩), ξ′′= 2(τ2− ‖h‖2),

ϕ′=−ξ′

ξ, ϕ′′=�

ξ′

ξ

�2

− ξ′′

ξ, ϕ′′′= 3

ξ′ξ′′

ξ2− 2

ξ′

ξ

�3

.

Заметим, что неравенство 2ϕ′′ ¾ (ϕ′)2 эквивалентно неравенству(ξ′)2¾ 2ξξ′′. Таким образом, нам нужно доказать, что для любой

пары (h, τ) имеет место неравенство

(tτ− ⟨x, h⟩)2¾ (t2− ‖x‖2)(τ2−‖h‖2). (.)

Очевидно, что можно ограничиться случаем, когда |τ|> ‖h‖ (в про-тивном случае правая часть приведенного выше неравенства непо-ложительна). Кроме того, чтобы минимизировать левую часть, на-до выбрать signτ= sign⟨x, h⟩ (итак, пусть τ> 0) и ⟨x, h⟩= ‖x‖ · ‖h‖.Подставляя эти значения в формулу (.), получаем верное нера-венство.

Наконец, так как 0¶ξξ′′

(ξ′)2¶

12

и [1−ξ]3/2¾ 1− 3

2ξ, мы получаем

|ϕ′′′ |(ϕ′′)3/2

= 2

�ξ′�

� ·�

�(ξ′)2 − 3

2ξξ′′�

(ξ′)2 − ξξ′′�3/2¶ 2.

Покажем, что барьер из предыдущего утверждения является оп-тимальным для конуса второго порядка.

Лемма ... Параметр ν любого самосогласованного барьера мно-жества K2 удовлетворяет неравенству ν ¾ 2.

Доказательство. Выберем z = (0, 1) ∈ int K2 и некоторое h ∈ Rn,‖h‖= 1. Определим

p1= (h, 1), p2= (−h, 1), α1 =α2 =12

, β1 =β2=12

.

Page 259: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

Заметим, что для всех γ ¾ 0 имеют место соотношения z + γpi =

= (±γh, 1+ γ)∈ K2 и

z− βi pi =

±12

h,12

6∈ int K2,

z−α1 p1−α2 p2=

−12

h+12

h, 1− 12− 1

2

= 0∈ K2.

Поэтому условия теоремы .. выполнены и

ν ¾α1

β1

+α2

β2

= 2.

... Полуопределенная оптимизация

В задачах полуопределенной оптимизации неизвестными пере-менными являются матрицы. Пусть X = {X (i, j)}n

i, j=1есть симметри-

ческая (n × n)-матрица (обозначение: X ∈ Sn×n). В линейном про-странстве Sn×n можно ввести следующее скалярное произведение:для любых X , Y ∈ Sn×n определим

⟨X , Y ⟩F =n∑

i=1

n∑

j=1

X (i, j)Y (i, j), ‖X ‖F = ⟨X , X⟩1/2F .

Иногда величину ‖X ‖F называют нормой Фробениуса матрицы X .Для симметрических матриц X и Y имеет место следующее тожде-ство:

⟨X , Y · Y ⟩F =n∑

i=1

n∑

j=1

X (i, j)n∑

k=1

Y (i,k)Y ( j,k)=

n∑

i=1

n∑

j=1

n∑

k=1

X (i, j)Y (i,k)Y ( j,k)=

=

n∑

k=1

n∑

j=1

Y (k, j)n∑

i=1

X ( j,i)Y (i,k)=

n∑

k=1

n∑

j=1

Y (k, j)(XY )( j,k)=

=

n∑

k=1

(YXY )(k,k)= Trace(YXY)= ⟨YXY , In⟩F . (.)

В задачах полуопределенной оптимизации нетривиальная частьограничений формируется конусом неотрицательно определенных(n× n)-матриц Pn ⊂ Sn×n. Напомним, что X ∈Pn, если и только если⟨Xu, u⟩¾ 0 для любых u ∈Rn. Если ⟨Xu, u⟩> 0 при всех ненулевых u,то матрица X называется положительно определенной. Такие мат-рицы образуют внутренность конуса Pn. Заметим, что Pn –– выпук-

Page 260: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

лое и замкнутое множество. Общая формулировка задачи полуопре-деленной оптимизации выглядит следующим образом:

min⟨C, X⟩F ,

при ⟨Ai, X⟩F = bi, i= 1, …, m,

X ∈Pn,

(.)

где C и Ai принадлежат Sn×n. Для того чтобы применить к этой за-даче метод отслеживания траектории, нужно построить самосогла-сованный барьер для конуса Pn.

Пусть матрица X принадлежит intPn. Пусть F(X) = − ln det X .Очевидно, что

F(X)=− lnn∏

i=1

λi(X),

где {λi(X)}ni=1 –– набор собственных значений матрицы X .

Лемма ... Функция F(X) выпукла, и F ′(X)=−X−1. Для любогонаправления ∆∈ Sn×n имеют место равенства

⟨F ′′(X)∆,∆⟩F = ‖X−1/2∆X−1/2‖2F = ⟨X

−1∆X−1,∆⟩F =

=Trace�

[X−1/2∆X−1/2]2�

,

D3F(x)[∆,∆,∆]=− 2⟨In, [X−1/2∆X−1/2]3⟩F =

=−2 Trace�

[X−1/2∆X−1/2]3�

.

Доказательство. Зафиксируем такие ∆ ∈ Sn×n и X ∈ intPn, чтоX +∆∈Pn. Тогда

F(X +∆)− F(X)=− ln det(X +∆)+ ln det X =

=− ln det(In+ X−1/2∆X−1/2)¾

¾− ln

1n

Trace(In+ X−1/2∆X−1/2)

�n

=

=−n ln

1+1n⟨In, X−1/2

∆X−1/2⟩F�

¾

¾−⟨In, X−1/2∆X−1/2⟩F =−⟨X−1,∆⟩F .

Значит, −X−1 ∈ ∂F(X). Поэтому функция F выпукла (лемма ..) иF ′(x)=−X−1 (лемма ..).

Page 261: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

Далее, рассмотрим функцию ϕ(α)≡ ⟨F ′(X + α∆),∆⟩F , α ∈ [0, 1].Тогда

ϕ(α)−ϕ(0)= ⟨X−1− (X +α∆)−1,∆⟩F == ⟨(X +α∆)−1[(X +α∆)− X]X−1,∆⟩F ==α⟨(X +α∆)−1

∆X−1,∆⟩F .

Таким образом, ϕ′(0)= ⟨F ′′(X)∆,∆⟩F = ⟨X−1∆X−1,∆⟩F .

Выражение для третьей производной можно получить аналогич-ным образом, продифференцировав функцию

ψ(α)= ⟨(X +α∆)−1 ·∆(X +α∆)−1,∆⟩F .

Теорема ... Функция F(X) является n-самосогласованным ба-рьером для конуса Pn.

Доказательство. Зафиксируем X ∈ intPn и ∆ ∈ Sn×n. Пусть Q == X−1/2

∆X−1/2 и λi = λi(Q), i = 1, …, n. Тогда из леммы .. вы-текает, что

⟨F ′(X),∆⟩F =n∑

i=1

λi,

⟨F ′′(X)∆,∆⟩F =n∑

i=1

λ2i ,

D3F(X)[∆,∆,∆]=−2n∑

i=1

λ3i.

Используя два стандартных неравенства� n∑

i=1

λi

�2

¶ nn∑

i=1

λ2i ,�

n∑

i=1

λ3i

�¶

� n∑

i=1

λ2i

�3/2

,

получаем

⟨F ′(X),∆⟩2F ¶ n⟨F ′′(X)∆,∆⟩F ,

|D3F(X)[∆,∆,∆]|¶ 2⟨F ′′(X)∆,∆⟩3/2F .

Докажем, что F(X)=− ln det X является оптимальным барьеромдля конуса Pn.

Лемма ... Параметр ν любого самосогласованного барьера дляконуса Pn удовлетворяет неравенству ν ¾ n.

Page 262: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Доказательство. Выберем X = In ∈ intPn и направления Pi = eieTi ,

i= 1, …, n, где ei –– i-й координатный вектор в Rn. Заметим, что длялюбого γ¾ 0 имеет место включение In + γPi ∈ intPn. Кроме того,

In− eieTi 6∈ intPn, In −

n∑

i=1

eieTi = 0∈Pn.

Поэтому условия теоремы .. выполнены при αi = βi = 1, i= 1, …, n,

и, значит, ν ¾∑n

i=1

αi

βi= n.

Как и в задаче линейной оптимизации (.), в задаче (.) нуж-но использовать сужение барьера F(X) на множество

L =�

X | ⟨Ai, X⟩F = bi, i= 1, …, m

.

По теореме .. это сужение является n-самосогласованным ба-рьером. Таким образом, сложность задачи (.) не превосходитO(p

n · ln(n/ǫ)) итераций метода отслеживания траектории. Заме-тим, что эта оценка является очень обнадеживающей, посколькуразмерность задачи (.) равна (1/2)n(n+ 1).

Оценим арифметические затраты каждой итерации метода (.),применяемого к задаче (.). Отметим, что мы работаем с сужени-ем барьера F(X) на множество L . По лемме .. каждая итерацияметода Ньютона состоит из решения следующей задачи:

min∆

⟨U ,∆⟩F +12⟨X−1

∆X−1,∆⟩F : ⟨Ai,∆⟩F = 0, i= 1, …, m

,

где X ≻ 0 принадлежит L , а U –– комбинация целевой матрицы C иградиента F ′(X). В соответствии со следствием .. решение этойзадачи может быть найдено из следующей системы линейных урав-нений:

U + X−1∆X−1

=

m∑

j=1

λ( j) A j ,

⟨Ai,∆⟩F = 0, i= 1, …, m.

(.)

Из первого уравнения в системе (.) получаем

∆= X

−U +m∑

j=1

λ( j) A j

X . (.)

Page 263: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

Подставляя это выражение во второе уравнение из системы (.),получим линейную систему

m∑

j=1

λ( j)⟨Ai, XA j X⟩F = ⟨Ai, XUX⟩F , i= 1, …, m, (.)

которая может быть записана в матричной форме как Sλ= d, где

S(i, j)= ⟨Ai, XA j X⟩F , d( j)

= ⟨U , XA j X⟩F , i, j = 1, …, m.

Таким образом, для решения системы (.) необходимо произве-сти следующие операции.

◦ Вычисление матриц XA j X , j = 1, …, m. Вычислительные затраты:O(mn3) операций.◦ Вычисление элементов S и d. Вычислительные затраты: O(m2n2)

операций.◦ Вычисление λ = S−1d. Вычислительные затраты: O(m3) опера-

ций.◦ Вычисление ∆ по формуле (.). Вычислительные затраты:

O(mn2) операций.

Принимая во внимание неравенство m ¶n(n+ 1)

2, заключаем, что

сложность одного шага метода Ньютона не превосходит

O(n2(m+ n)m) арифметических операций. (.)

Однако если матрицы A j обладают определенной структурой, тоэта оценка может быть существенно улучшена. Например, если всематрицы A j имеют ранг :

A j = a j aTj , a j ∈Rn, j = 1, …, m,

то вычисление одного шага метода Ньютона можно осуществить за

O((m+ n)3) арифметических операций. (.)

Проверку этого утверждения оставим читателю в качестве упраж-нения.

В заключение этого пункта заметим, что во многих важных при-ложениях можно использовать барьер вида − ln det(·) для описания

Page 264: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

надграфиков различных функций, зависящих от собственных значе-ний. Рассмотрим, например, матрицуA (x)∈ Sn×n, которая линейнозависит от x. Тогда выпуклую область

(x, t) | max1¶i¶n

λi(A (x))¶ t

можно описать следующим самосогласованным барьером:

F(x, t)=− ln det(tIn−A (x)).

Величина параметра этого барьера равна n.

... Экстремальные эллипсоиды

В некоторых приложениях необходимо строить эллипсоидальныеаппроксимации многогранных множеств. Рассмотрим наиболееважные примеры этого типа.

Минимальный описанный эллипсоид

Для данного множества точек a1, …, am ∈ Rn най-ти эллипсоид W минимального объема, содержащийвсе точки {ai}.

Запишем эту задачу в математическом виде. Прежде всего заме-тим, что любой ограниченный эллипсоид W ⊂Rn можно задать как

W =�

x ∈Rn | x = H−1(υ+ u), ‖u‖¶ 1

,

где H ∈ intPn и υ∈Rn. Тогда включение a ∈W эквивалентно нера-венству ‖Ha−υ‖¶ 1. Заметим также, что

voln W = voln B2(0, 1) · det H−1=

voln B2(0, 1)

det H.

Таким образом, наша задача состоит в следующем:

minH,υ,τ

τ,

при − ln det H ¶τ,

‖Hai −υ‖¶ 1, i= 1, …, m,

H ∈Pn, υ∈Rn, τ∈R1.

(.)

Для того чтобы решить эту задачу методом внутренней точки, нуж-но найти самосогласованный барьер для допустимого множества. К

Page 265: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

данному моменту нам известны такие барьеры для всех составляю-щих этой задачи, кроме первого неравенства.

Лемма ... Функция

− ln det H − ln(τ+ ln det H)

является (n+ 1)-самосогласованным барьером для множества

(H, τ)∈ Sn×n×R1 |τ¾− ln det H, H ∈Pn

.

(Доказательство этого утверждения предоставляется читателю.)Таким образом, можно использовать следующий барьер:

F(H, υ, τ)=− ln det H − ln(τ+ ln det H)−m∑

i=1

ln(1− ‖Hai −υ‖2),

ν =m+ n+ 1.

Соответствующая граница сложности равна O�p

m+ n+ 1 · ln m+ nǫ

итерациям метода отслеживания траектории.

Максимальный вписанный эллипсоид с фиксированнымцентром

Пусть Q –– выпуклый многогранник, заданный набо-ром линейных неравенств:

Q=�

x ∈Rn | ⟨ai, x⟩¶ bi, i= 1, …, m

,

и пусть υ∈ int Q. Найти такой эллипсоид W наиболь-шего объема с центром υ, что W ⊂Q.

Зафиксируем некоторое H ∈ intPn. Эллипсоид W можно предста-вить в виде

W =�

x ∈Rn | ⟨H−1(x −υ), x −υ⟩¶ 1

.

Нам понадобится следующий простой результат.

Лемма ... Пусть ⟨a, υ⟩< b. Неравенство ⟨a, x⟩¶ b верно для лю-бого x ∈W тогда и только тогда, когда

⟨Ha, a⟩¶ (b− ⟨a, υ⟩)2.

Page 266: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Доказательство. Из леммы .. следует, что

maxu

⟨a, u⟩ | ⟨H−1u, u⟩¶ 1

= ⟨Ha, a⟩1/2.

Поэтому нам надо гарантировать, что

maxx∈W⟨a, x⟩=max

x∈W

⟨a, x −υ⟩+ ⟨a, υ⟩�

=

= ⟨a, υ⟩+maxx

⟨a, u⟩ | ⟨H−1u, u⟩¶ 1

=

= ⟨a, υ⟩+ ⟨Ha, a⟩1/2 ¶ b.

Это доказывает наше утверждение, так как ⟨a, υ⟩< b.

Заметим, что voln W = voln B2(0, 1)[det H]1/2. Таким образом, на-ша задача состоит в следующем:

minH,τ

τ,

при − ln det H ¶τ,

⟨Hai, ai⟩¶ (bi − ⟨ai, υ⟩)2, i= 1, …, m,

H ∈Pn, τ∈R1.

(.)

В силу леммы .. здесь можно использовать самосогласованныйбарьер вида

F(H, τ)=− ln det H − ln(τ+ ln det H)−

−m∑

i=1

ln[(bi − ⟨ai, υ⟩)2 − ⟨Hai, ai⟩],

ν =m+ n+ 1.

Оценка сложности соответствующего метода отслеживания траек-

тории равна O�p

m+ n+ 1 · ln((m+ n)ǫ)�

итерациям.

Максимальный вписанный эллипсоид со свободным центром

Пусть Q –– выпуклый многогранник, заданный набо-ром линейных неравенств:

Q=�

x ∈Rn | ⟨ai, x⟩¶ bi, i= 1, …, m

,

и пусть int Q 6=∅. Найти такой эллипсоид W макси-мального объема, что W ⊂Q.

Page 267: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

Пусть G ∈ intPn, υ∈ int Q. Можно представить W следующим об-разом:

W =�

x ∈Rn | ‖G−1(x −υ)‖¶ 1

≡≡�

x ∈Rn | ⟨G−2(x −υ), x −υ⟩¶ 1

.

В силу леммы .. неравенство ⟨a, x⟩¶ b верно для любых x ∈W втом и только в том случае, если

‖Ga‖2≡ ⟨G2a, a⟩¶ (b− ⟨a, υ⟩)2.

Это нам дает выпуклую область для набора параметров (G, υ):

‖Ga‖¶ b− ⟨a, υ⟩.

Заметим, что voln W = voln B2(0, 1) det G. Поэтому нашу задачу мож-но переписать в виде

minG,υ,τ

τ,

при − ln det G¶τ,

‖Gai‖¶ bi − ⟨ai, υ⟩, i= 1, …, m,

G ∈Pn, υ∈Rn, τ∈R1.

(.)

В силу лемм .. и .. здесь можно использовать следующиесамосогласованные барьеры:

F(G, υ, τ)=− ln det G− ln(τ+ ln det G)−

−m∑

i=1

ln[(bi − ⟨ai, υ⟩)2− ‖Gai‖2],

ν =2m+ n+ 1.

Соответствующая оценка сложности тогда равна

O(p

2m+ n+ 1× ln((m+ n)/ǫ)

итерациям метода отслеживания траектории.

... Сепарабельная оптимизация

В сепарабельной оптимизации все нелинейные составляющие за-дачи представимы функциями от одной переменной. Общая форму-

Page 268: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

лировка такой задачи выглядит следующим образом:

minx∈Rn

q0(x)=m0∑

j=1

α0, j f0, j

⟨a0, j , x⟩+ b0, j

,

при qi(x)=mi∑

j=1

αi, j fi, j

⟨ai, j, x⟩+ bi, j

¶ βi, i= 1, …, m,

(.)

где αi, j –– некоторые положительные коэффициенты, ai, j ∈ Rn, иfi, j(t) –– выпуклые функции одной переменной. Перепишем этузадачу в стандартной форме:

τ0→minx,t,τ

при fi, j(⟨ai, j, x⟩+ bi, j)¶ ti, j, i= 0, …, m, j = 1, …, mi,mi∑

j=1

αi, j ti, j ¶τi, i= 0, …, m,

τi ¶βi, i= 1, …, m,

x ∈Rn, τ∈Rm+1, t ∈RM ,

(.)

где M =∑m

i=0 mi. Таким образом, для того чтобы построить само-согласованный барьер для допустимого множества данной задачи,необходимо знать барьеры для надграфиков одномерных выпуклыхфункций fi, j . Выпишем такие барьеры для нескольких важных функ-ций.

Логарифм и экспонентаФункция F1(x, t) = − ln x − ln(ln x + t) является 2-самосогласо-

ванным барьером для множества

Q1=�

(x, t)∈R2 | x > 0, t¾− ln x

,

а функция F2(x, t) = − ln t − ln(ln t − x) есть 2-самосогласованныйбарьер для

Q2=�

(x, t)∈R2 | t¾ ex

.

Функция энтропииФункция F3(x, t)=− ln x − ln(t − x ln x) является 2-самосогласо-

ванным барьером для множества

Q3=�

(x, t)∈R2 | x ¾ 0, t¾ x ln x

.

Page 269: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

Возрастающие степенные функцииФункция F4(x, t)=−2 ln t − ln(t2/p − x2) является 4-самосогласо-

ванным барьером для множества

Q4=�

(x, t)∈R2 | t¾ |x |p

, p¾ 1,

а функция F5(x, t)=− ln x − ln(tp − x) есть 2-самосогласованный ба-рьер для

Q5=�

(x, t)∈R2 | x ¾ 0, tp¾ x

, 0< p¶ 1.

Убывающие степенные функцииФункция F6(x, t) = − ln t − ln(x − t−1/p) является 2-самосогласо-

ванным барьером для множества

Q6=

§

(x, t)∈R2 | x > 0, t¾1x p

ª

, p¾ 1,

а функция F7(x, t)= − ln x − ln(t − x−p) есть 2-самосогласованныйбарьер для

Q7=

§

(x, t)∈R2 | x > 0, t¾1x p

ª

, 0< p< 1.

Опустим формальные доказательства для приведенных приме-ров, поскольку они достаточно длинны. Можно также показать, чтобарьеры для всех этих множеств (кроме, быть может, множества Q4)являются оптимальными. Докажем это утверждение для множествQ6 и Q7.

Лемма ... Параметр ν любого самосогласованного барьера длямножества

Q=

§

(x(1), x(2))∈R2 | x(1) > 0, x(2)¾

1

(x(1))p

ª

,

где p> 0, удовлетворяет неравенству ν ¾ 2.

Доказательство. Зафиксируем некоторое γ> 1 и выберем x = (γ, γ)∈∈ int Q. Введем обозначения

p1= e1, p2= e2, β1= β2= γ, α1=α2=α≡ γ− 1.

Тогда x + ξei ∈Q для любого ξ¾ 0 и

x − βe1= (0, γ) /∈Q, x − βe2= (γ, 0) /∈Q,

x −α(e1+ e2)= (γ−α, γ−α)= (1, 1)∈Q.

Page 270: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Условия теоремы .. выполнены, и поэтому

ν ¾α1

β1

+α2

β2

= 2γ− 1

γ.

Параметр γ можно выбрать произвольно большим, что и доказыва-ет утверждение леммы.

В заключение нашего обсуждения приведем два примера.

Геометрическое программированиеИсходная формулировка таких задач имеет следующий вид:

minx∈Rn

q0(x)=m0∑

j=1

α0, j

n∏

j=1

(x( j))σ( j)

0, j

при qi(x)=mi∑

j=1

αi, j

n∏

j=1

(x( j))σ( j)

i, j ¶ 1, i= 1, …, m,

x( j)> 0, j = 1, …, n,

(.)

где αi, j –– некоторые положительные коэффициенты. Заметим, чтозадача (.) не является выпуклой.

Введем в рассмотрение векторы ai, j = (σ(1)i, j , …, σ(n)

i, j )∈Rn и сдела-

ем замену переменных x(i)= ey(i)

. Тогда задача (.) преобразуетсяв выпуклую сепарабельную задачу

miny∈Rn

m0∑

j=1

α0, j exp(⟨a0, j , y⟩),

приmi∑

j=1

αi, j exp(⟨ai, j, y⟩)¶ 1, i= 1, …, m.

(.)

Пусть M =∑m

i=0 mi. Сложность решения задачи (.) методом от-слеживания траектории оценивается как

O

M1/2 · ln Mǫ

итераций

Page 271: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

Аппроксимация в lp-нормахРассмотрим простейшую задачу такого типа:

minx∈Rn

m∑

i=1

|⟨ai, x⟩− b(i) |p

при α¶ x ¶β ,

(.)

где p¾ 1. Эту задачу можно переписать в эквивалентной стандарт-ной форме:

minx,ττ(0),

при |⟨ai, x⟩ − b(i) |p ¶τ(i), i= 1, …, m,m∑

i=1

τ(i)¶τ(0),

α¶ x ¶ β ,

x ∈Rn, τ∈Rm+1.

(.)

Верхняя граница сложности для этой задачи будет равна O(p

m+ n×× ln(m+ n)/ǫ) итерациям метода отслеживания траектории.

Таким образом, мы обсудили эффективность методов внутреннейточки на некоторых примерах однородных формулировок задач оп-тимизации. Однако эти методы можно применять и к смешаннымзадачам. Например, к задаче (.) или (.) можно добавить так-же и ограничения другого типа, скажем квадратичные. Для этогонам нужно уметь строить соответствующие самосогласованные ба-рьеры. Такие барьеры известны для всех важных множеств, встре-чающихся в практических приложениях.

... Выбор схемы минимизации

Мы уже знаем, что много выпуклых задач оптимизации можетбыть решено с помощью методов внутренней точки. Однако те жезадачи можно решить и другим способом, используя методы неглад-кой оптимизации. В общем случае нельзя указать, какой подход луч-ше, поскольку это зависит от специфической структуры конкретнойзадачи. В то же время, оценки сложности методов оптимизации по-могают сделать рациональный выбор. Рассмотрим простой пример.

Page 272: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Предположим, что мы решаем задачу нахождения наилучшей ап-проксимации в lp-нормах:

minx∈Rn

m∑

i=1

|⟨ai, x⟩ − b(i) |p,

при α¶ x ¶β ,

(.)

где p¾ 1. Рассмотрим два численных метода решения этой задачи:

◦ метод эллипсоидов (п. ..);◦ метод внутренней точки, отслеживающий центральную траекто-

рию.

Какой метод здесь лучше использовать? Получить ответ на этот во-прос можно исходя из оценок сложности соответствующих методов.

Оценим сначала эффективность метода эллипсоидов, применен-ного к задаче (.).

Сложность метода эллипсоидовЧисло итераций: O(n2 ln(1/ǫ)).Сложность оракула: O(mn) операций.Сложность каждой итерации: O(n2) операций.

Суммарные затраты: O(n3(m + n) ln(1/ǫ)) опера-ций.

Анализ метода отслеживания траектории более сложен. Во-пер-вых, надо построить барьерную модель задачи:

ξ→minx,τ,ξ

при |⟨ai, x⟩ − b(i) |p ¶τ(i), i= 1, …, m,m∑

i=1

τ(i)¶ξ, α¶ x ¶ β ,

x ∈Rn, τ∈Rm, ξ∈R1,

F(x, τ, ξ))=m∑

i=1

f (τ(i), ⟨ai, x⟩− b(i))− ln(ξ−m∑

i=1

τ(i))−

−n∑

i=1

ln(x(i)−α(i))+ ln(β (i)− x(i))�

,

(.)

где f ( y, t)=−2 ln t− ln(t2/p − y2).

Page 273: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

§ .. Приложения структурной оптимизации

Мы знаем, что параметр барьера F(x, τ, ξ) есть ν = 4m + n + 1.Поэтому число итераций метода не превосходит O(

p4m+ n+ 1 ·

· ln(m+ n)/ǫ).На каждой итерации необходимо вычислять градиент и гессиан

барьера F(x, τ, ξ). Введем обозначения

g1( y, t)= f ′y ( y, t), g2( y, t)= f ′t ( y, t).

Тогда

F ′x(x, τ, ξ)=m∑

i=1

g1(τ(i), ⟨ai, x⟩− b(i))ai −n∑

i=1

1

x(i) −α(i)− 1

β (i) − x(i)

ei,

F ′τ(i) (x, τ, ξ)= g2(τ(i), ⟨ai, x⟩ − b(i))+

ξ−m∑

j=1

τ( j)�−1

,

F ′ξ(x, τ, ξ)=−�

ξ−m∑

i=1

τ(i)�−1

.

Далее, вводя обозначения

h11( y, t)= f ′′yy( y, t), h12( y, t)= f ′′yt( y, t), h22( y, t)= f ′′tt ( y, t),

получим

F ′′xx(x, τ, ξ)=m∑

i=1

h11(τ(i), ⟨ai, x⟩− b(i))aiaTi +

+ diag

1

(x(i) −α(i))2+

1

(β (i) − x(i))2

,

F ′′τ(i) x

(x, τ, ξ)=h12(τ(i), ⟨ai, x⟩− b(i))ai,

F ′′τ(i),τ(i) (x, τ, ξ)=h22(τ(i), ⟨ai, x⟩− b(i))+

ξ−m∑

i=1

τ(i)�−2

,

F ′′τ(i),τ( j) (x, τ, ξ)=

ξ−m∑

i=1

τ(i)

�−2

, i 6= j,

F ′′x,ξ(x, τ, ξ)=0, F ′′τ(i),ξ

(x, τ, ξ)=−�

ξ−m∑

i=1

τ(i)

�−2

,

F ′′ξ,ξ(x, τ, ξ)=

ξ−m∑

i=1

τ(i)

�−2

.

Таким образом, сложность оракула второго порядка в методе отсле-живания траектории составляет O(mn2) арифметических операций.

Page 274: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Глава . Структурная оптимизация

Оценим теперь сложность каждой итерации. Основной объемвычислений приходится на решение системы Ньютона. Введемобозначение

κ=

ξ−m∑

i=1

τ(i)

�−2

, si = ⟨ai, x⟩− b(i), i= 1, …, n,

и

Λ0= diag

1

(x(i) −α(i))2+

1

(β (i) − x(i))2

�n

i=1, Λ1 = diag(h11(τ(i), si))m

i=1,

Λ2= diag(h12(τ(i), si))mi=1, D = diag(h22(τ(i), si))m

i=1.

Тогда, используя обозначения A = (a1, …, am) и e = (1, …, 1) ∈ Rm,систему Ньютона можно переписать в следующем виде:

∆x + AΛ2∆τ= F ′x(x, τ, ξ),

Λ2 AT∆x + [D+ κIm]∆τ+κe∆ξ= F ′τ(x, τ, ξ),

κ⟨e,∆τ⟩+ κ∆ξ= F ′ξ(x, τ, ξ)+ t,

(.)

где t –– это параметр штрафа. Из второго уравнения системы (.)получаем

∆τ= [D+ κIm]−1(F ′τ(x, τ, ξ)−Λ2 AT∆x − κe∆ξ).

Подставляя ∆τ в первое уравнение в (.), можно выразить

∆x = [A(Λ0+Λ1−Λ22[D+ κIm]−1)AT ]−1{F ′x(x, τ, ξ)−

− AΛ2[D+ κIm]−1(F ′τ(x, τ, ξ)− κe∆ξ)}.

Используя эти соотношения, находим ∆ξ из последнего уравнениясистемы (.).

Таким образом, система Ньютона (.) может быть решена заO(n3

+mn2) итераций. Следовательно, суммарные затраты методаотслеживания траектории оцениваются как

O�

n2(m+ n)3/2 · ln m+ nǫ

арифметических операций. Сравнивая эту оценку с оценкой трудо-емкости метода эллипсоидов, заключаем, что методы внутреннейточки являются более эффективными в случаях, когда m не слиш-ком велико, а именно если m¶O(n2).

Page 275: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Библиографический комментарий

Глава . Нелинейная оптимизация.. Теория сложности для оптимизационных методов, работаю-

щих с «черным ящиком» была разработана в книге []. В этой кни-ге читатель может найти множество примеров сопротивляющихсяоракулов и нижних границ сложности, аналогичных тем, что при-ведены в теореме ...

. и .. Существует несколько классических монографий [, ,], в которых рассматриваются различные аспекты задач нелиней-ной оптимизации и численных методов их решения. Для изучениязадач последовательной безусловной минимизации наилучшим ис-точником по-прежнему является книга [].

Глава . Гладкая выпуклая оптимизация.. Нижние границы сложности для задач с гладкими выпуклы-

ми и сильно выпуклыми функциями можно найти в книге []. Одна-ко доказательство, приведенное в этом параграфе, является новым.

.. Градиентное отображение было введено в книге []. Опти-мальный метод для задач с гладкими и сильно гладкими выпуклымифункциями был предложен в книге []. Вариант при наличии огра-ничений в этом методе взят из монографии [].

.. Оптимальные методы для минимаксных задач разработаныв книге []. При этом подход, рассмотренный в п. .., являетсяновым.

Глава . Негладкая выпуклая оптимизация.. Полное исследование различных вопросов выпуклого анали-

за можно найти в книге []. Однако классическая книга [] все ещепредставляется полезной.

.. Изучение нижних границ вычислительной сложности длязадач негладкой минимизации можно найти в книге []. Общая схе-ма доказательства скорости сходимости была предложена в рабо-

Page 276: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Библиографический комментарий

те []. Детальные библиографические справки по истории методовнегладкой минимизации приведены в работе [].

.. Пример плохого поведения метода Келли взят из книги [].Изложение метода уровней здесь близко к работе [].

Глава . Структурная оптимизацияЭта глава содержит упрощенное изложение основных концепций

из работы []. Добавлено несколько полезных неравенств и слегкаупрощена схема отслеживания траектории. Мы предлагаем читате-лю монографии [], [] для изучения многочисленных приложе-ний методов внутренней точки и работы [], [], [] и [] дляподробного исследования различных теоретических аспектов задачвыпуклой оптимизации.

Добавлено при переводе.

Page 277: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Литература

[] Ben-Tal A. and Nemirovskii A. Lectures on Modern ConvexOptimizatin Analysis, Alogorithms, and Engineering Applications,SIAM, Philadelphia, .

[] Boyd S. and Vandenberghe L. Convex Optimization, CambridgeUniversity Press, .

[] Conn A. B., N.I.M. Gould and Toint Ph. L.Trust Region Methods,SIAM, Philadelphia, .

[] Dennis J. E. and Schnabel R. B. Numerical Methods for Un-constrained Optimization and Nonlinear Equations, SIAM,Philadelphia, .

[] Fiacco A. V. and McCormick G. P. Nonlinear Programming: Se-quential Unconstrained Minimization Techniques, John Wiley andSons, New York, .

[] Hiriart-Urruty J.-B. and Lemarechal C. Convex Analysis andMinimization Algorithms, vols. I and II. Springer-Verlag, .

[] Lemarechal C., Nemirovskii A. and Nesterov Yu. New variantsof bundle methods. //Mathematical Programmming, , ––().

[] Luenberger D. G. Linear and Nonlinear Programming. nd Ed.,Addison Wesley. .

[] Немировский А. С., Юдин Д. Б. Информационная сложность иэффективность методов оптимизации. Наука, М.: .

[] Нестеров Ю. Е. Методы минимизации негладких и квази-выпуклых функций. Экономика и математические методы,, т. , є , с. ––.

[] Нестеров Ю. Е. Метод решения задач выпуклого программи-рования с трудоемкостью O(1/k2). Доклады АН СССР, ,т. , є , с. ––.

[] Нестеров Ю. Е. Эффективные методы в нелинейном програм-мировании. М.: Радио и Связь, .

Page 278: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Литература

[] Nesterov Yu. and Nemirovskii A. Interior-Point PolynomialAlgorithms in Convex Programming, SIAM, Philadelphia, .

[] Поляк Б. Т. Введение в оптимизацию. М.: Наука, .[] Renegar J. A Mathematical View of Interior-Point Methods in

Convex Optimization, MPS–SIAM Series on Optimization, SIAM.

[] Rockafellar R. T. Convex Analysis, Princeton Univ. Press, Princeton,NJ, .

[] Roos C., Terlaky T. and Vial J.-Ph. Theory and Algorithms for LinearOptimization: An Interior Point Approach. John Wiley, Chichester,.

[] Vanderbei R. J. Linear Programming: Foundations and Extensions.Kluwer Academic Publishers, Boston, .

[] Wright S. Primal-dual interior point methods. SIAM, Philadelphia,.

[] Ye Y. Interior Point Algorithms: Theory and Analysis, John Wileyand Sons, Inc., .

Page 279: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Предметный указатель

аналитический центр антиградиент аппроксимация – в lp-нормах – второго порядка – глобальная верхняя – квадратичная – линейная – первого порядка

барьер аналитический – объемный – самосогласованный – универсальный бесконечность-норма

выпуклая дифференцируемаяфункция

– комбинация , – функция выпуклое множество вычислительные затраты

гессиан гиперплоскость опорная – отделяющая градиентное отображение

демпфированный методНьютона

единичный шар

задача аппроксимации в lp-нормах ,

– безусловная – геометрического программи-

рования – гладкая – допустимая (разрешимая) – квадратичной оптимизации

– – с квадратичными ограниче-

ниями , – линейной оптимизации ,

– негладкая – общая – полуопределенной оптимиза-

ции – разрешимости – с линейными ограничениями

– сепарабельной оптимизации

– строго допустимая (строго

разрешимая) – условная – целочисленной оптимизации

Page 280: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Предметный указатель

информационная модель

квазиньютоновское правило класс задач конус второго порядка – неотрицательно определен-

ных матриц концепция черного ящика

линейное подпространствоКрылова

матрица неотрицательноопределенная

– положительно определенная

метод аналитических центров

– барьерных функций – вписанных эллипсоидов – градиентный – Келли – Ньютона демпфированный ,

– – стандартный , – объемных центров – оптимальный – отсекающей гиперплоскости

– отслеживания траектории – переменной метрики – равномерного перебора – сопряженных градиентов – центров тяжести – штрафных функций – эллипсоидов минимаксная задача минимум глобальный

– локальный множество выпуклое – допустимое – – базовое – локализации – уровней , модель выпуклой функции – задачи минимизации – – барьерная , – – функциональная

надграфик неравенство Йенсена – Коши––Буняковского норма l1 – l∞ , – Евклидова – локальная – Фробениуса

область определения функции

общий итеративный метод опорная функция опорный вектор оракул – локальный черный ящик – сопротивляющийся оценивающие последовательно-

сти

параметр барьера – центрирования полиномиальные методы положительный ортант поляра проекция производная по направлению

Page 281: Нестеров Ю.Е. Методы выпуклой оптимизации

“Nesterov-final” — // — : — page — #

Предметный указатель

релаксация рецессивное направление решение глобальное – локальное

самосогласованная функция самосогласованный барьер сжимающее отображение система Ньютона скалярное произведение сложность аналитическая – арифметическая – верхние границы – нижние границы сопряженные направления стандартная задача минимиза-

ции стандартный логарифмический

барьер – симплекс стационарная точка стратегия выбора длины шага

стратегия обновления строгая отделимость структурные ограничения субградиент субдифференциал

условие Липшица

условие оптимальности второгопорядка

– задачи с ограничениями – минимаксной задачи – первого порядка условие приближенного

центрирования условие Слэйтера ,

функциональные ограничения

функция барьерная , – выпуклая – липшицева – самосогласованная – сильно выпуклая – типа максимума – целевая

центр аналитический – тяжести центральная траектория – вспомогательная – уравнение

число обусловленности

эллипсоид Дикина эффективность на задаче – на классе задач