Матрица якоби замены координат
Матрица Якоби и матрица Гессе, метод оптимизации LM
Дети, знакомые с машинным обучением, знают, что методы оптимизации - одна из самых важных тем.Чаще всего используется производная целевой функции для решения задач неограниченной оптимизации с помощью нескольких итераций. Простой в реализации и удобный в программировании, это один из необходимых инструментов для обучения моделей. В этом блоге в основном обобщены несколько основных методов использования производных методов оптимизации, комбинирования и комбинирования соответствующих математических знаний. Я также учусь, когда пишу. Если у вас есть какие-либо вопросы, пожалуйста, поправьте меня, учитесь вместе и добивайтесь прогресса вместе.
2. Несколько математических понятий
1) Градиент (первая производная)
Рассмотрим гору высотой f (x1, x2) в точке (x1, x2). Тогда направление градиента в определенной точке является самым крутым направлением в этой точке, и величина градиента говорит нам, насколько крутым является градиент. Обратите внимание, что градиент также может сообщить нам скорость изменения в других направлениях, которые не находятся в самом быстро меняющемся направлении (в двумерном случае круг, наклоненный в соответствии с направлением градиента, проецируется в эллипс на плоскости). Для скалярной функции с n переменными, то есть функция вводит n-мерный вектор и выводит значение, градиент может быть определен как:
2) Матрица Гессе (вторая производная)
Матрица Гессе часто используетсяЗадача крупномасштабной оптимизации, решенная методом Ньютона(Представлено позже), основные формы следующие:
Когда f (x) - квадратичная функция, градиент и матрицу Гессе легко найти. Квадратичную функцию можно записать в следующем виде:
Где A - симметричная матрица порядка n, b - n-мерный вектор-столбец, а c - константа. Градиент f (x) равен Ax + b, а матрица Гессе равна A.
3) матрица Якоби
Матрица Якоби на самом деле является градиентной матрицей векторнозначной функции, предполагая, что F: Rn → Rm - это функция, которая преобразуется из n-мерного евклидова пространства в m-мерное евклидово пространство. Эта функция состоит из m реальных функций:. Частные производные этих функций (если они существуют) могут образовывать матрицу из m строк и n столбцов (m на n), которая является так называемой матрицей Якоби:
a)Если f (x) - скалярная функция, то матрица Якоби - это вектор, равный градиенту f (x), а матрица Гессе - двумерная матрица. Если f (x) является векторной функцией, то матрица Якоби является двумерной матрицей, а матрица Гессе является трехмерной матрицей.
b)Градиент - это частный случай матрицы Якоби, а матрица Якоби градиента - это матрица Гессе (связь между частной производной первого порядка и частной производной второго порядка).
3. Метод оптимизации
1) Gradient Descent
Градиентный спуск, также называемый наискорейшим спуском, - это метод поиска локального оптимального решения функции с использованием информации о градиенте первого порядка, а также самый простой и наиболее часто используемый метод оптимизации в машинном обучении. Градиентный спуск - один из методов линейного поиска, и основная итерационная формула выглядит следующим образом:
среди них,На k-й итерации мы выбираем направление движения.При наискорейшем спуске направление движения устанавливается на отрицательное направление градиента.Это k-я итерация, которая использует метод линейного поиска для выбора расстояния для перемещения. Коэффициент расстояния для каждого перемещения может быть одинаковым или различным. Иногда мы называем это скоростью обучения. Математически расстояние перемещения можно найти с помощью линейного поиска, чтобы сделать производную равной нулю, чтобы найти минимальное значение в этом направлении, но в реальном процессе программирования стоимость такого расчета слишком велика, мы обычно можем установить ее на константу. Рассмотрим функцию с тремя переменными, Рассчитайте градиент, чтобы получить. Установите скорость обучения = 1, код алгоритма следующий:
Метод самого крутого градиента дает локальное оптимальное решение. Если целевая функция представляет собой задачу выпуклой оптимизации, то локальное оптимальное решение является глобальным оптимальным решением. Эффект идеальной оптимизации показан на рисунке ниже. Стоит отметить, что направление движения на каждой итерации Оба они перпендикулярны линии контура начальной точки:
Следует отметить, что в некоторых случаях существует способ наискорейшего спуска.Пилообразный(Зигзаг) замедлит скорость схождения:
Грубо говоря, в квадратичной функции на форму эллипсоида влияет число обусловленности матрицы Гессе. Направление минимального и максимального собственных значений матрицы, соответствующих большой оси и малой оси, обратно пропорционально квадратному корню из собственного значения. Чем больше разница между максимальным собственным значением и минимальным собственным значением, тем более плоский эллипсоид, оптимизационный путь требует большого обходного пути, а эффективность вычислений очень низкая.
2) Newton's method
В методе наискорейшего спуска мы видим, что метод в основном использует локальный характер целевой функции, которая имеет определенную «слепоту». Закон Ньютона заключается в использовании локальной информации о частных производных первого и второго порядка для определения формы всей целевой функции, а затем получения глобального минимального значения приближенной функции, а затем установки текущего минимального значения на минимальное значение приближенной функции. По сравнению с методом наискорейшего спуска, метод Ньютона обладает определенной предсказуемостью общей ситуации, а также лучше свойства сходимости. Основной процесс вывода метода Ньютона выглядит следующим образом:
Первый шаг - использовать ряд Тейлора для получения второго порядка аппроксимации исходной целевой функции:
Второй шаг - рассматривать x как независимую переменную, а все члены с x ^ k как константы. Установите первую производную на 0, чтобы найти минимальное значение приближенной функции:
Третий шаг - установить текущее минимальное значение на минимальное значение приближенной функции (или умножить его на размер шага).
против 1)Задача оптимизации та же, код метода Ньютона следующий:
В приведенном выше примере, поскольку целевая функция является выпуклой квадратичной функцией, разложение Тейлора равно исходной функции, поэтому оптимальное решение может быть найдено за один проход.
Основные проблемы метода Ньютона:
- Невозможно вычислить, если матрица Гессе необратима
- Обратное вычисление матрицы является сложным для n кубов. Когда масштаб задачи относительно велик, объем вычислений велик. Решение состоит в использовании квазиньютоновского метода, такого как BFGS, L-BFGS, DFP, алгоритм Бройдена для аппроксимации.
- Если начальное значение слишком далеко от локального минимума, разложение Тейлора не будет хорошим приближением исходной функции
3) Levenberg–Marquardt Algorithm
Алгоритм Левенберга-Марквардта может сочетать преимущества двух вышеупомянутых методов оптимизации и устранять недостатки обоих. В отличие от метода линейного поиска, LMA относится к «методу доверительной области». Фактически, метод Ньютона также можно рассматривать как метод доверительной области, который использует локальную информацию для аппроксимации функции и получения локального минимума. ценность. Так называемый метод доверительной области заключается в том, чтобы начать с начальной точки, сначала принять надежное максимальное смещение s (в методе Ньютона s равно бесконечности), а затем найти целевую функцию в области с центром в текущей точке и s как радиус Наилучшая точка приближенной функции (квадратичной) для определения истинного смещения. После того, как смещение получено, значение целевой функции вычисляется снова. Если это приводит к тому, что уменьшение значения целевой функции удовлетворяет определенному условию, то смещение является надежным и итеративно вычисляется в соответствии с этим правилом; если оно не может сделать значение целевой функции Если снижение удовлетворяет определенным условиям, область доверительного региона должна быть сокращена, а решение должно быть решено заново.
LMA была впервые предложена для решения задачи оптимизации аппроксимации кривой наименьших квадратов. Для случайно инициализированного известного параметра бета полученное целевое значение будет следующим:
Аппроксимируйте матрицу Якоби первого порядка на функции подобранной кривой:
Затем выведите информацию об окружающей S-функции:
Какое смещение позволяет получить минимальное значение S-функции? Через понятие геометрии, когда остаточнаяКогда перпендикулярно пространству пролета матрицы J, S является наименьшим (почему? См.Предыдущий блогПоследняя часть)
Мы немного изменим эту формулу и добавим коэффициент демпфирования, чтобы получить:
Это метод Левенберга-Марквардта. Этот метод вычисляет только частную производную первого порядка, и это не матрица Якобии целевой функции, а матрица Якобии аппроксимирующей функции. когда Когда он большой, надежная область мала, и этот алгоритм приближается к методу наискорейшего спуска.Когда он маленький, надежная область велика, что близко к методу Гаусса-Ньютона.
Процесс работы алгоритма следующий:
- Учитывая начальное значение x0
- когда Когда не достигается максимальное количество итераций
- Повторить выполнение:
- Рассчитать вектор движения
- Рассчитайте обновленное значение:
- Рассчитайте отношение фактического снижения целевой функции к прогнозируемому снижению.
- if , Примите обновленное значение
- else if , Указывая на то, что эффект аппроксимации очень хороший, примите обновленное значение, расширьте область достоверности (т.е. уменьшите коэффициент демпфирования)
- else: целевая функция становится больше, откажитесь от обновления значения, уменьшите достоверную область (то есть увеличьте коэффициент демпфирования)
- Пока не будет достигнуто максимальное количество итераций
Википедия использует функцию Розенброка, которая включает тонкий каньон при представлении градиентного спуска.
Показывает явление зигзага:
Как повысить эффективность с помощью LMA. Применительно к нашей предыдущей формуле LMA:
код показан ниже:
Оптимальное решение (1, 1) можно получить примерно за 5 итераций.
Алгоритм Левенберга-Марквардта очень чувствителен к локальным минимумам. Википедия дает пример подгонки двумерной кривой. При использовании разных начальных значений полученные результаты сильно различаются. У меня также есть код Python, поэтому я не буду вдаваться в подробности. Вверх.
4) Conjugate Gradients
Определение сопряженного направления и расстояния Махаланобиса схожи в том, что они оба рассматривают глобальное распределение данных. Как показано на рисунке выше, направление d (1) касается контура квадратичной функции, а направление d (2), сопряженное с d (1), указывает на центр эллипса. Следовательно, для двумерной квадратичной функции, если одномерный поиск выполняется в двух сопряженных направлениях, точка минимума должна быть достигнута после двух итераций. Как мы уже говорили ранее, форма контурного эллипса определяется матрицей Гессена. Затем два направления на приведенном выше рисунке ортогональны матрице Гессена, а сопряженное направление определяется следующим образом:
Если эллипс представляет собой идеальный круг, а матрица Гессена является единичной матрицей, вышеуказанное эквивалентно ортогональности в евклидовом пространстве.
Если в процессе оптимизации мы определяем направление движения (GD: перпендикулярно контуру, CG: сопряженное направление), а затем ищем точку минимума в этом направлении (она оказывается касательной к контуру), Затем перейдите к точке минимума и повторите описанный выше процесс, затем для процесса оптимизации градиентного спуска и сопряженного градиентного спуска можно использовать следующий рисунок.зеленая линияпротивКрасная линияСредства:
Сказав так много, как работает алгоритм сопряженного градиента?
- Учитывая начальную точку x0 и параметр остановки e, первое направление движения равноНаправление крутого спуска:
- while :
- Используйте метод Ньютона-Рафсона для итеративного вычисления расстояния перемещения, чтобы перейти к минимуму в направлении поиска, формула не записывается, конкретная идея заключается в использовании шага информации для перехода к точке минимума.
- Переместите текущее оптимизированное решение x:
- Используйте метод Грама-Шмидта для построения следующего сопряженного направления, а именноВ соответствии сФормулу определения можно разделить на метод FR и PR и HS.
Во многих материалах введение метода сопряженных градиентов дало пример нахождения приближенного решения линейных уравнений Ax = b, что фактически эквивалентно тому, что здесь упоминается.
По-прежнему использовать исходную целевую функциюЧтобы написать код оптимизации метода сопряженных градиентов:
Полное название метода L-M - метод Левенберга-Марквардта, который представляет собой метод оценки параметров регрессии по методу наименьших квадратов в нелинейной регрессии. Предложенный Д.У.Марквардтом в 1963 г., он разработал его на основе статьи К. Левенбевга в 1944 г. Этот методМетод наискорейшего спускаМетод, интегрированный с методом линеаризации (ряд Тейлора). Потому что метод наискорейшего спуска подходит для случая, когда оценки параметров в начале итерации далеки от оптимального значения, тогда как метод линеаризации, то есть метод Гаусса Ньютона, подходит для более позднего периода итерации, а оценки параметров близки к оптимальному значению. Комбинация двух методов позволяет быстро найти оптимальное значение [1] 。
[1] Machine Learning: An Algorithmic Perspective, chapter 11
[2] Теория и алгоритм оптимизации (2-е издание), Чэнь Баолинь
[3] wikipedia
Рассмотрим отображение $f : E \longmapsto R^m,$ где $E \subset R^n.$ Оно состоит из $m$ функций: $f = \left(f_1 \left(x_1,\ldots,x_n \right),f_2 \left(x_1,\ldots,x_n \right),\ldots,f_m \left(x_1,\ldots,x_n \right) \right),$ которые осуществляют отображение множества $E$ из $R^n$ в пространство $R^m.$
Предположим, что функции $f_k \left(x_1,\ldots,x_n \right),$ где $k = \overline,$ дифференцируемы, то есть имеют частные производные по аргументам $(x_1,\ldots,x_n):$
Составим матрицу из этих частных производных по переменным $x_1,\ldots,x_n$
Такая матрица называется матрицей Якоби.
Если $m = n,$ то получаем квадратную матрицу, определитель которой называется определителем Якоби или якобианом $Jf(x)$ и обозначается
Замечание. Если все частные производные непрерывны, то и сам оределитель Якоби является непрерывной функцией.
Теорема. Якобиан тождественно равен нулю в некоторой области $\mathbb$:
тогда и только тогда, когда между функциями $f_1,f_2,\ldots,f_n$ имеется функциональная зависимость в $\mathbb,$ то есть существует функция $G \left(y_1,y_2,\ldots,y_n \right) \not \equiv 0$ такая, что
$G \left(f_1(x),f_2(x),\ldots,f_n(x) \right) \equiv 0$ при всех $x = (x_1, \ldots, x_n) \in \mathbb.$
Пример 1. Являются ли функции функционально зависимыми?
\begin f_1 = x_1 + x_2 + x_3 -1; \\ f_2 = x_1x_2 + x_1x_3 + x_2x_3 -2; \\ f_3 = x^2_1 + x^2_2 + x^2_3 + 3. \end
$=\begin \\ 1 & 1 & 1 \\ x_1 + x_2 + x_3 & x_1 + x_2 + x_3 & x_1 + x_2 + x_3 \\ 2x_1 & 2x_2 & 2x_3 \end \equiv 0$
Так как якобиан равен нулю, то эти функции функционально зависимы. Несложно найти эту зависимость:
$\left(f_1 + 1 \right)^2 -2\left(f_2 + 2 \right) -\left(f_3 -3\right) = 0.$
Пример 2. Для линейных функций $f_1 = a_ x_1 + \ldots + a_ x_n -b_1, \ldots , f_m = a_ x_1 + a_ x_n -b_m$ матрица Якоби будет матрицей коэффициентов при переменных:
\begin a_ & a_ & \ldots & a_ \\ \ldots & \ldots & \ldots & \ldots \\ a_ & a_ & \ldots & a_ \end
Если мы хотим разрешить систему $f_1 = 0,f_2 = 0, \ldots, f_n = 0$ относительно $x_1, \ldots, x_n,$ то для случая $m = n$ определитель Якоби
\begin a_ & \ldots & a_ \\ \ldots & \ldots & \ldots \\ a_ & \ldots & a_\end
есть определитель системы и для её разрешимости он должен быть отличен от нуля.
Пример 3. Переход элементарной площади $dS = dx\,dy$ от декартовых координат $ \left( x,y \right)$ к полярным координатам $ \left( r,\phi \right)$:
Матрица Якоби имеет вид:
$J(r,\phi) = \det I(r,\phi) = \det\begin \cos(\phi) & -r\,\sin(\phi) \\ \sin(\phi) & r\,\cos(\phi) \end.$
Таким образом, элемент площади при переходе от декартовых к полярным координатам будет выглядеть следующим образом:
$dS = dx\,dy = J\left(r,\phi \right) dr\,d\phi = r\,dr\,d\phi.$
Пример 4. Переход элементарного объёма $dV$=$dx$ $dy$ $dz$ от декартовых координат $\left(x,y,z \right)$ к сферическим координатам $\left(r,\theta,\phi \right)$ :
$\beginx = r\,\sin(\theta)\,\cos(\phi); \\ y = r\,\sin(\theta)\,\sin(\phi); \\ z = r\,\cos(\theta).\end$
$= \begin \sin(\theta) \cos(\phi) & r\,\cos(\theta) \cos(\phi) & -r\,\sin(\theta)\,\sin(\phi) \\ \sin(\theta)\,\sin(\phi) & r\,\cos(\theta)\,\sin(\phi) & r\,\sin(\theta)\,\cos(\phi) \\ \cos(\theta) & -r\,\sin(\theta) & 0 \end.$
А якобиан перехода от декартовых координат к сферическим – есть определитель матрицы Якоби:
$J\left(r,\theta,\phi \right) = \det I\left(r,\theta,\phi \right)$ =
= $\begin \sin(\theta)\,\cos(\phi) & r\,\cos(\theta)\,\cos(\phi) & -r\,\sin(\theta)\,\sin(\phi) \\ \sin(\theta)\,\sin(\phi) & r\,\cos(\theta)\,\sin(\phi) & r\,\sin(\theta)\, \cos(\phi) \\ \cos(\theta) & -r\,\sin(\theta) & 0 \end = r^2\sin(\theta).$
Таким образом, элемент объёма при переходе от декартовых к сферическим координатам будет выглядеть следующим образом:
$dV = dx\,dy\,dz = J\left(r,\theta,\phi \right) dr\,d\theta\,d\phi = r^2\,\sin(\theta)\,dr\,d\theta \,d\phi.$
В векторном исчислении , тем якобиан матрицы ( / dʒ ə к oʊ б я ə н / , / dʒ ɪ -, J ɪ - / ) из вектор-функции нескольких переменных является матрицей всех ее первого порядка в частных производных . Когда эта матрица является квадратной , то есть, когда функция принимает на входе то же количество переменных, что и количество компонентов вектора на ее выходе, ее определитель называется определителем Якоби . Как матрицу, так и (если применимо) определитель в литературе часто называют просто якобианом .
Предположим , что функция f : R n → R m такая, что каждая из ее частных производных первого порядка существует на R n . Эта функция принимает точку x ∈ R n в качестве входных данных и производит вектор f ( x ) ∈ R m в качестве выходных данных. Тогда матрица Якоби функции f определяется как матрица размера m × n , обозначаемая J , чья ( i , j ) -я запись является , или явно J я j знак равно ∂ ж я ∂ Икс j _ = > >>>
где транспонированная (вектор - строка) из градиента от компонента. ∇ Т ж я > е_ > я
Матрица Якоби, элементы которой являются функциями от x , обозначается по-разному; общие обозначения включают D п , J п , и . Некоторые авторы определяют якобиан как транспонирование приведенной выше формы. ∇ ж > ∂ ( ж 1 , . . , ж м ) ∂ ( Икс 1 , . . , Икс п ) , . f_ )> , . x_ )>>>
Матрица Якоби представляет на дифференциал из F в каждой точке , где F дифференцируема. Более подробно, если ч является вектором смещения представлен матрицей столбца , то матричное произведение J ( х ) ⋅ ч является еще одним вектором смещения, то есть наилучшая линейная аппроксимация изменения F в окрестности из х , если Р ( х ) является дифференцируемой по х . Это означает , что функция , которая отображает у к ф ( х ) + J ( х ) ⋅ ( у - х ) является лучшим линейным приближением из ф ( у ) для всех точек у близких к х . Эта линейная функция известна как производная или дифференциал из F в х .
При т = п , матрица Якоби имеет квадратную форму , так что его определитель является четко определенной функцией х , известной как якобиевый детерминант из F . Он несет важную информацию о локальном поведении f . В частности, функция F имеет локально в окрестности точки х в обратную функцию , которая дифференцируема тогда и только тогда , когда якобиан определитель отличен от нуля при х (см якобиеву гипотеза ). Определитель Якоби также появляется при замене переменных в нескольких интегралах (см. Правило замены для нескольких переменных ).
Когда m = 1 , то есть когда f : R n → R - скалярная функция , матрица Якоби сводится к вектору-строке ; Этот вектор - строки из всех частных производных первого порядка F является транспонированным градиент от F , то есть . Более конкретно , когда m = n = 1 , то есть когда f : R → R является скалярно-значной функцией одной переменной, матрица Якоби имеет единственный элемент; эта запись является производной функции f . ∇ Т ж > f> J ж знак равно ∇ Т ж _ = \ nabla ^ f>
Эти концепции названы в честь математика Карла Густава Якоба Якоби (1804–1851).
СОДЕРЖАНИЕ
Матрица якобиана
Якобиан вектор-функции нескольких переменных обобщает градиент от более скалярного значной функции нескольких переменных, которые , в свою очередь , обобщающей производную скалярной функции одной переменной. Другими словами, матрица Якоби скалярной функции от нескольких переменных является (транспонированной) ее градиентом, а градиент скалярной функции от одной переменной является ее производной.
В каждой точке, где функция является дифференцируемой, ее матрицу Якоби также можно рассматривать как описывающую величину «растяжения», «поворота» или «преобразования», которое функция накладывает локально вблизи этой точки. Например, если ( x ′, y ′) = f ( x , y ) используется для плавного преобразования изображения, матрица Якоби J f ( x , y ) описывает, как изображение в окрестности ( x , y ) трансформируется.
Если функция дифференцируема в точке, ее дифференциал задается в координатах матрицей Якоби. Однако функция не должна быть дифференцируемой, чтобы ее матрица Якоби была определена, поскольку требуется, чтобы существовали только ее частные производные первого порядка .
Если F является дифференцируемой в точке р в R п , то ее дифференциальный представлен J е ( р ) . В этом случае линейное преобразование , представленное J е ( р ) является наилучшим линейное приближение по е вблизи точки р , в том смысле , что
где o (‖ x - p ‖) - величина, которая приближается к нулю намного быстрее, чем расстояние между x и p , когда x приближается к p . Это приближение специализируется на приближении скалярной функции одной переменной ее многочленом Тейлора первой степени, а именно
ж ( Икс ) - ж ( п ) знак равно ж ′ ( п ) ( Икс - п ) + о ( Икс - п ) ( в качестве Икс → п ) > x \ to p)> .
В этом смысле якобиан можно рассматривать как своего рода «производную первого порядка » векторной функции многих переменных. В частности, это означает, что градиент скалярной функции нескольких переменных также можно рассматривать как ее «производную первого порядка».
Составные дифференцируемые функции f : R n → R m и g : R m → R k удовлетворяют цепному правилу , а именно для x в R n . J грамм ∘ ж ( Икс ) знак равно J грамм ( ж ( Икс ) ) J ж ( Икс ) _ \ circ \ mathbf > (\ mathbf ) = \ mathbf _ > (\ mathbf (\ mathbf )) \ mathbf _ <\ mathbf > (\ mathbf )>
Якобиан градиента скалярной функции нескольких переменных имеет специальное название: матрица Гессе , которая в некотором смысле является « второй производной » рассматриваемой функции.
Определитель якобиана
Нелинейная карта превращает маленький квадрат (слева, красный) в искаженный параллелограмм (справа, красный). Якобиан в точке дает наилучшее линейное приближение искаженного параллелограмма рядом с этой точкой (справа, полупрозрачным белым), а определитель Якоби дает отношение площади аппроксимирующего параллелограмма к площади исходного квадрата. ж : р 2 → р 2 ^ \ to \ mathbb ^ >Если m = n , то f является функцией от R n до самого себя, а матрица Якоби является квадратной матрицей . Затем мы можем сформировать его определитель , известный как определитель Якоби . Определитель якобиана иногда называют просто «якобианом».
Определитель Якоби в данной точке дает важную информацию о поведении f вблизи этой точки. Так , например, непрерывно дифференцируемая функция F является обратимым вблизи точки р ∈ R п , если якобиан на р не равен нулю. Это теорема об обратной функции . Кроме того, если якобиан на р является положительным , то F сохраняет ориентацию вблизи р ; если он отрицательный , f меняет ориентацию. Абсолютное значение якобиана определителя при р дает нам коэффициент , с помощью которого функция F расширяется или сжимается объемов вблизи р ; вот почему это происходит в общем правиле подстановки .
Детерминант Якоби используется при замене переменных при вычислении кратного интеграла функции по области в ее области определения. Чтобы приспособиться к изменению координат, величина детерминанта Якоби возникает как мультипликативный множитель в интеграле. Это связано с тем, что n -мерный элемент dV, как правило, является параллелепипедом в новой системе координат, а n -объем параллелепипеда является определителем его векторов ребер.
Якобиан также можно использовать для определения устойчивости состояний равновесия для систем дифференциальных уравнений путем аппроксимации поведения вблизи точки равновесия. Его приложения включают определение стабильности равновесия без болезней при моделировании болезней.
Обратный
Согласно теореме об обратной функции , матрица, обратная к матрице Якоби обратимой функции, является матрицей Якоби обратной функции. То есть, если якобиан функции f : R n → R n непрерывен и неособен в точке p в R n , то f обратим при ограничении на некоторую окрестность p и
И наоборот, если определитель Якоби не равен нулю в точке, то функция локально обратима около этой точки, то есть существует окрестность этой точки, в которой функция обратима.
(Недоказанной) Якобиан гипотеза связана с глобальной обратимости в случае полиномиальной функции, которая является функцией , определенной п полиномов в п переменных. Он утверждает, что, если определитель Якоби является ненулевой константой (или, что то же самое, что он не имеет никакого комплексного нуля), то функция обратима, а ее обратная функция является полиномиальной функцией.
Критические точки
Если F : R п → R м является дифференцируемой функцией , критическая точка из F является точкой , где ранг матрицы Якоби не является максимальным. Это означает, что ранг в критической точке ниже ранга в некоторой соседней точке. Другими словами, пусть k - максимальная размерность открытых шаров, содержащихся в образе f ; то точка является критической, если все миноры ранга k функции f равны нулю.
В случае, когда m = n = k , точка является критической, если определитель якобиана равен нулю.
Примеры
Пример 1
Рассмотрим функцию f : R 2 → R 2 , где ( x , y ) ↦ ( f 1 ( x , y ), f 2 ( x , y )), заданную формулой
Тогда у нас есть
ж 1 ( Икс , у ) знак равно Икс 2 у (x, y) = x ^ y>
ж 2 ( Икс , у ) знак равно 5 Икс + грех у (x, y) = 5x + \ sin y>
а матрица Якоби функции f равна
а определитель Якоби
Det ( J ж ( Икс , у ) ) знак равно 2 Икс у потому что у - 5 Икс 2 . _ > (x, y)) = 2xy \ cos y-5x ^ .>
Пример 2: полярно-декартово преобразование
Преобразование полярных координат ( r , φ ) в декартовы координаты ( x , y ) задается функцией F : R + × [0, 2 π ) → R 2 с компонентами:
Определитель якобиана равен r . Это можно использовать для преобразования интегралов между двумя системами координат:
Пример 3: сферико-декартово преобразование
Преобразование сферических координат ( ρ , φ , θ ) в декартовы координаты ( x , y , z ) задается функцией F : R + × [0, π ) × [0, 2 π ) → R 3 с компонентами :
Матрица Якоби для этой замены координат равна
Определитель является ρ 2 грешить φ . Поскольку dV = dx dy dz - это объем для прямоугольного дифференциального элемента объема (поскольку объем прямоугольной призмы является произведением ее сторон), мы можем интерпретировать dV = ρ 2 sin φ dρ dφ dθ как объем сферического дифференциала элемент объема . В отличие от объема прямоугольного элемента дифференциального объема, объем этого элемента дифференциального объема не является постоянным и изменяется в зависимости от координат ( ρ и φ ). Его можно использовать для преобразования интегралов между двумя системами координат:
Пример 4
Матрица Якоби функции F : R 3 → R 4 с компонентами
Этот пример показывает, что матрица Якоби не обязательно должна быть квадратной матрицей.
Пример 5
Определитель якобиана функции F : R 3 → R 3 с компонентами
Отсюда мы видим, что F меняет ориентацию около тех точек, где x 1 и x 2 имеют одинаковый знак; функция локально обратима везде, кроме точек, где x 1 = 0 или x 2 = 0 . Интуитивно понятно, что если начать с крошечного объекта вокруг точки (1, 2, 3) и применить F к этому объекту, то получится конечный объект размером примерно в 40 × 1 × 2 = 80 раз больше исходного, с ориентация обратная.
Другое использование
Регрессия и аппроксимация методом наименьших квадратов
Динамические системы
Рассмотрим динамическую систему вида , где - (покомпонентная) производная от по параметру эволюции (времени), и является дифференцируемой. Если , то - стационарная точка (также называемая устойчивым состоянием ). По теореме Хартмана-Гробман , поведение системы вблизи стационарной точки связано с собственными значениями из , якобиану в стационарной точке. В частности, если все собственные значения имеют действительные части, которые отрицательны, тогда система устойчива около стационарной точки, если любое собственное значение имеет действительную часть, которая положительна, то точка нестабильна. Если наибольшая действительная часть собственных значений равна нулю, матрица Якоби не позволяет оценить устойчивость. Икс ˙ знак равно F ( Икс ) >> = F (\ mathbf )> Икс ˙ <\ displaystyle <\ dot <\ mathbf >>> Икс <\ displaystyle \ mathbf > т F : р п → р п ^ \ to \ mathbb ^ > F ( Икс 0 ) знак равно 0 <\ Displaystyle F (\ mathbf _ ) = 0> Икс 0 <\ displaystyle \ mathbf _ > J F ( Икс 0 ) _ \ left (\ mathbf _ \ right)> F
Метод Ньютона
Квадратная система связанных нелинейных уравнений может быть решена итеративно методом Ньютона . В этом методе используется матрица Якоби системы уравнений.
Пусть задана система функций от переменных. Матрицей Якоби или якобианом данной системы функций называется матрица, составленная из частных производных этих функций по всем переменным.
Если в некоторой точке очень сложно или невозможно вычислить частные производные, , то для вычисления матрицы Якоби применяются методы численного дифференцирования.
Вычисление матрицы Гессе
Матрицей Гессе функции переменных называется матрица, составленная из вторых производных функции по всем переменным
Если в некоторой точке очень сложно или невозможно вычислить частные производные, , то для вычисления матрицы Гессе применяются методы численного дифференцирования.
Методы вычисления матрицы Якоби
Прямое вычисление частных производных
Для вычисления матрицы Якоби в заданной необходимо найти частные производные всех функций системы по всем переменным. Для вычисления производной применяются методы вычисления первой производной.
Формула для элемента якобиана при использовании правой разностной производной:
Формула для элемента якобиана при использовании центральной разностной производной:
Вычисление якобиана с использованием правой разностной производной требует вычислять значения функций в точках. Если использовать центральную производную, то нужно находить значения функций в точках. С другой, стороны погрешность правой производной имеет порядок а центральной - . В большинстве случаев вычисление значения функции - это затратная по времени операция, поэтому используется правая разностная производная.
Оценка погрешности метода
Основная проблема при вычислении каждого элемента матрицы Якоби - как правильно выбрать шаг метода . Шаг выбирается независимо для каждого элемента матрицы.
Проанализируем зависимость погрешности метода от величины шага в случае использования правой разностной производной. Для сокращения записи введём обозначения . Остаточный член в соотношении имеет вид . Если , то Если значения и заданы с погрешностями , то погрешность будет содержать ещё одно слагаемое . Таким образом, оценка суммарной погрешности имеет вид . Эта оценка достигает минимума при . При этом . Оценка погрешности имеет один глобальный миниум. Поэтому выбор очень маленького шага не привидёт к росту точности. При величине шага, близкой к погрешность имеет порядок .
Метод Бройдена
Чаще всего вычисление якобиана является одной из подзадач в различных методах оптимизации и решения систем нелинейных уравнений. При решении систем нелинейных уравнений методом Ньютона требуется вычислять якобиан на каждой итерации. Вычисление якобиана требует вычисления функций в точках. Это сложная и затратная по времени операция. Суть метода Бройдена состоит в том, чтобы вычислить якобиан аналитически или с помощью метода конечных разностей на первой итерации, а после этого на каждой итерации обновлять якобиан, не вычисляя значения функций и их производных.
Пусть задана система нелинейных уравнений , где . Тогда якобиан на -ой итерации выражается по формуле
После этого следующее приближение вычисляется по формуле
Методы вычисления матрицы Гессе
Как и матрица Якоби, матрица Гессе может быть вычислена с помощью разностной аппроксимации производных. , где - вектор переменных, а и - единичные вектора. Эта формула требует вычисления значений функции в точках. Погрешность формулы имеет порядок .
Численный эксперимент
В качестве примера рассчитаем с помощью вышеизложенного метода матрицу Гессе функции в точке (1, 1)
Читайте также: