Элементы дифференциального исчисления векторных функций векторного аргумента. Зубова С.П

Производные скалярной, векторной и матричной функций по векторному аргументу

Элементы дифференциального исчисления векторных функций векторного аргумента. Зубова С.П

Оглавление — Линейная алгебра

Рассмотрим скалярную (числовую) функцию нескольких переменных [math]f(x_1,x_2,\ldots,x_n)[/math]. Упорядоченный набор переменных [math]x_1,x_2,\ldots,x_n[/math] будем называть векторным аргументом этой функции и обозначать [math]x[/math]. Первый дифференциал функции [math]f(x)=f(x_1,x_2,\ldots,x_n)[/math] имеет вид:

[math]df(x)= \frac{\partial f(x)}{\partial x_1}dx_1+\frac{\partial f(x)}{\partial x_2}dx_2+\ldots+\frac{\partial f(x)}{\partial x_n}dx__n.[/math]

(6.1)

Сумму в правой части можно представить как произведение строки [math]\frac{df(x)}{dx}=\begin{pmatrix}\dfrac{\partial f(x)}{\partial x_1}&\cdots&\dfrac{\partial f(x)}{\partial x_n}\end{pmatrix}[/math] на столбец [math]dx=\begin{pmatrix}dx_1\\\vdots\\dx_n \end{pmatrix}[/math], либо как произведение строки [math]dxT[/math] на столбец [math]\frac{df(x)}{dxT}=\begin{pmatrix}\dfrac{df(x)}{dx}\end{pmatrix}T\colon[/math] [math]df(x)=\frac{df(x)}{dx}dx=dxT\frac{df(x)}{dxT}[/math].

Матрица-строка [math]\frac{df(x)}{dx}=\begin{pmatrix}\dfrac{\partial f(x)}{\partial x_1}&\cdots& \dfrac{\partial f(x)}{\partial x_n}\end{pmatrix}[/math] или матрица-столбец [math]\frac{df(x)}{dxT}[/math] определяют производную скалярной функции по векторному аргументу (градиент скалярной функции). Двойственность определения относится только к форме записи, поскольку векторный аргумент функции можно считать столбцом (в этом случае дифференциал [math]dx[/math] — столбец) или понимать как строку. В любом случае для первого дифференциала получаем одно и то же выражение (6.1).

Второй дифференциал функции [math]f(x)=f(x_1,x_2,\ldots,x_n)[/math] имеет вид

[math]d2f(x)= \sum_{i=1}{n}\sum_{j=1}{n}\frac{\partial2f(x)}{\partial x_i\,\partial x_j}dx_i\,dx_j\,.[/math]

(6.2)

Обозначим через [math]\frac{d2f(x)}{dxTdx}=\begin{pmatrix} \dfrac{\partial2f(x)}{\partial x_12}&\cdots&\dfrac{\partial2f(x)}{\partial x_1\,\partial x_n}\\ \vdots&\ddots&\vdots\\ \dfrac{\partial2f(x)}{\partial x_n\,\partial x_1}&\cdots& \dfrac{\partial2f(x)}{\partial x_n2} \end{pmatrix}[/math] матрицу частных производных второго порядка (матрицу Гессе). Тогда правую часть (6.2) можно записать в виде произведения

[math]d2f(x)=dxT\frac{d2f(x)}{dxTdx}dx\,.[/math]

Замечания 6.1

1. Для записи производных можно использовать символические векторы (столбцы или строки):

[math]abla=\frac{d}{dx}= \begin{pmatrix}\frac{\partial}{\partial x_1}&\cdots& \frac{\partial}{\partial x_n} \end{pmatrix}\!,\quad ablaT=\frac{d}{dxT}= \begin{pmatrix} \dfrac{\partial}{\partial x_1}\\\vdots\\\dfrac{\partial}{\partial x_n} \end{pmatrix}\!.[/math]

При этом дифференцирование функции формально записывается как умножение функции на символический вектор производных.

Например, градиент функции есть произведение вектора [math]abla[/math] на функцию [math]f(x)\colon[/math] [math]abla f=\begin{pmatrix} \dfrac{\partial f}{\partial x_1}&\cdots&\dfrac{\partial f}{\partial x_n}\end{pmatrix}[/math], а матрица Гессе есть произведение символической матрицы

[math]ablaTabla= \begin{pmatrix}\dfrac{\partial}{\partial x_1}\\\vdots\\ \dfrac{\partial}{\partial x_n} \end{pmatrix}\!\cdot\! \begin{pmatrix}\dfrac{\partial}{\partial x_1}&\cdots&\dfrac{\partial}{\partial x_n}\end{pmatrix}= \begin{pmatrix} \dfrac{\partial2}{\partial x_12} &\cdots&\dfrac{\partial2}{\partial x_1\partial x_n}\\ \vdots&\ddots&\vdots\\ \dfrac{\partial2}{\partial x_n\partial x_1}&\cdots&\dfrac{\partial2}{\partial x_n2} \end{pmatrix}[/math] на функцию [math]f(x)[/math].

2. Определитель матрицы Гессе называется гессианом.

3. Свойства градиента функции и матрицы Гессе используются в методах поиска экстремума функции.

Пример 6.2. Найти первую и вторую производные сложной функции [math]g(t)=f(x(t))=f(x_1(t),\ldots,x_n(t))[/math], применяя матричные обозначения.

Решение. Находим производные функции [math]g(t)[/math], заменяя суммирование операциями умножения соответствующих матриц:

[math]\begin{gathered}\frac{dg(t)}{dt}= \sum_{i=1}{n}\frac{\partial f(x(t))}{\partial x_i}\cdot\frac{dx_i(t)}{dt}= \frac{df(x(t))}{dx}\cdot\frac{dx(t)}{dt}\,;\\[5pt] \begin{aligned} \dfrac{d2g(t)}{dt2}&= \sum_{i=1}{n}\sum_{j=1}{n}\frac{\partial2 f(x(t))}{\partial x_j\partial x_i}\cdot \frac{dx_i(t)}{dt}\cdot \frac{dx_j(t)}{dt}+ \sum_{i=1}{n}\frac{\partial f(x(t))}{\partial x_i}\cdot\frac{d2x_i(t)}{dt2}=\\[2pt] &=\begin{pmatrix}\dfrac{dx(t)}{dt}\end{pmatrix}T \frac{d2f(x(t))}{dxTdx}\cdot\frac{dx(t)}{dt}+ \frac{df(x(t))}{dx}\cdot\frac{d2x(t)}{dt2}\,. \end{aligned}\end{gathered}[/math]

Сравним матричную форму записи этих производных с производными в случае скалярной функции [math]x(t):[/math]

[math]\frac{dg(t)}{dt}=\frac{df(x(t))}{dx}\cdot\frac{dx(t)}{dt};\quad \frac{d2g(t)}{dt2}=\frac{df(x(t))}{dx}\cdot\frac{d2x(t)}{dt2}+\frac{d2f(x(t))}{dx2}{\left(\frac{dx(t)}{dt}\right)\!}2.[/math]

Выражения для первой производной совпадают, а для второй производной -отличаются незначительно, причем полное совпадение будет, если учесть, что [math]xT=x[/math] для скалярной величины [math]x[/math].

Производные векторной функции по векторному аргументу

Пусть задан столбец [math]f(x)=\begin{pmatrix}f_1(x_1,\ldots,x_n)\\\vdots \\f_m(x_1,\ldots,x_n) \end{pmatrix}[/math] функций нескольких переменных (говорят, что задана вектор-функция векторного аргумента). Первый дифференциал вектор-функции имеет вид:

[math]df(x)= \begin{pmatrix}\sum\limits_{j=1}{n}\dfrac{\partial f_1(x)}{\partial x_j}dx_j\\ \vdots\\ \sum\limits_{j=1}{n}\dfrac{\partial f_m(x)}{\partial x_j}dx_j\end{pmatrix}= \sum_{j=1}{n}\! \begin{pmatrix} \dfrac{\partial f_1(x)}{\partial x_j}\\ \vdots\\ \dfrac{\partial f_m(x)}{\partial x_j} \end{pmatrix}\!dx_j.[/math]

Обозначим через [math]\frac{df(x)}{dx}= \begin{pmatrix} \dfrac{\partial f_1(x)}{\partial x_1}&\cdots&\dfrac{\partial f_1(x)}{\partial x_n}\\ \vdots&\ddots&\vdots\\ \dfrac{\partial f_m(x)}{\partial x_1}&\cdots& \dfrac{\partial f_m(x)}{\partial x_n}\end{pmatrix}[/math] матрицу частных производных первого порядка заданных функций (матрицу Якоби). Тогда выражение для первого дифференциала можно записать в виде [math]df(x)=\frac{df(x)}{dx}dx[/math], т.е. [math]\frac{df(x)}{dx}[/math] — производная вектор-функции векторного аргумента.

Как и в случае с аргументом [math]x[/math], упорядоченный набор функций можно считать не матрицей-столбцом, а матрицей-строкой [math](f(x))T[/math].

Этот случай сводится к предыдущему, учитывая, что операции дифференцирования и транспонирования можно выполнять в любом порядке, так как [math]d(fT)=(df)T[/math] (здесь и далее аргумент [math]x[/math] для упрощения записи опущен). Поэтому из равенства [math]df=\frac{df}{dx}dx[/math] получаем

[math]dfT= (dx)T\cdot\! \begin{pmatrix}\dfrac{df}{dx}\end{pmatrix}T= (dx)T\cdot\frac{dfT}{dxT}[/math], где [math]\frac{dfT}{dxT}= \begin{pmatrix} \dfrac{\partial f_1(x)}{\partial x_1}&\cdots&\dfrac{\partial f_m(x)}{\partial x_1}\\ \vdots&\ddots&\vdots\\ \dfrac{\partial f_1(x)}{\partial x_n}&\cdots& \dfrac{\partial f_m(x)}{\partial x_n}\end{pmatrix}[/math]

— транспонированная матрица Якоби вектор-функции [math]f(x)[/math].

Заметим, что из равенства [math]d(fT)=(df)T[/math] следует правило транспонирования производных вектор-функции: [math]\frac{dfT}{dxT}= \begin{pmatrix} \dfrac{df}{dx} \end{pmatrix}T[/math].

Правила дифференцирования по векторному аргументу

Векторный аргумент [math]x[/math], его приращение [math]dx[/math] считаем матрицами-столбцами размеров [math]n\times1[/math].

1. Первый дифференциал скалярной функции [math]f(x)[/math] имеет вид:

[math]df=\frac{df}{dx}\,dx=dxT\frac{df}{dxT}\,,[/math]

где [math]\frac{df}{dx}=\begin{pmatrix}\dfrac{df}{dx_1}&\cdots&\dfrac{df}{dx_n} \end{pmatrix}[/math] — градиент функции, а [math]\frac{df}{dxT}=\begin{pmatrix} \dfrac{df}{dx} \end{pmatrix}T[/math].

2. Второй дифференциал скалярной функции [math]f(x)[/math] имеет вид

[math]d2f=dxT\frac{d2f}{dxTdx}\,dx,[/math] где [math]\frac{d2f(x)}{dxTdx}= \begin{pmatrix} \dfrac{\partial2f(x)}{\partial x_12}&\cdots& \dfrac{\partial2f(x)}{\partial x\partial x_n}\\ \vdots&\ddots&\vdots\\ \dfrac{\partial2f(x)}{\partial x_n\partial x_1}&\cdots& \dfrac{\partial2f(x)}{\partial x_n2}\end{pmatrix}[/math] — матрица Гессе.

3. Первый дифференциал вектор-функции {матрицы-столбца) [math]f(x)=\begin{pmatrix} f_1(x)\\\vdots\\ f_m(x)\end{pmatrix}[/math] имеет вид:

[math]df=\frac{df}{dx}\,dx[/math], где [math]\frac{df(x)}{dx}= \begin{pmatrix} \dfrac{\partial f_1(x)}{\partial x_1}& \cdots&\dfrac{\partial f_1(x)}{\partial x_n}\\ \vdots&\ddots&\vdots\\ \dfrac{\partial f_m(x)}{\partial x_1}&\cdots& \dfrac{\partial f_m(x)}{\partial x_n} \end{pmatrix}[/math] — матрица Якоби.

Первый дифференциал матрицы-строки: [math]d(fT)=dxT\frac{dfT}{dxT}[/math].

4. В частном случае, когда [math]f(x)=x[/math], получаем

[math]\frac{dx}{dx}=E,~~\frac{dxT}{dxT}=E[/math], где [math]E[/math] — единичная матрица n-го порядка.

5. Числовую матрицу [math]C[/math] (соответствующих размеров) можно выносить за знак производной:

[math]\frac{d(Cf)}{dx}=C\,\frac{df}{dx};\quad \frac{d(fTC)}{dxT}= \frac{dfT}{dxT}\,C[/math]

Последняя формула следует из правила транспонирования производных:

[math]\frac{d(fTC)}{dxT}= \begin{pmatrix}\dfrac{d(CTf)}{dx}\end{pmatrix}T= \begin{pmatrix}CT\,\dfrac{df}{dx}\end{pmatrix}T= \frac{dfT}{dxT}\,C.[/math]

6. Производные суммы, разности и произведения вектор-функций [math]u(x)[/math] и [math]v(x)[/math] одинаковых размеров [math]m\times1:[/math]

[math]\begin{gathered} \frac{d(u+v)}{dx}=\frac{du}{dx}+\frac{dv}{dx};\qquad \frac{d(u-v)}{dx}=\frac{du}{dx}-\frac{dv}{dx};\\[5pt] \frac{d(uTv)}{dx}= vT\,\frac{du}{dx}+ uT\,\frac{dv}{dx};\qquad \frac{d(uTv)}{dxT}= \frac{duT}{dxT}\,v+ \frac{dvT}{dxT}\,u. \end{gathered}[/math]

Докажем, например, последнее равенство. Найдем частную производную скалярной функции [math]uTv[/math] по переменной [math]x_j:[/math]

[math]\frac{\partial(uTv)}{\partial x_j}=\frac{\partial}{\partial x_j}\!\left(\sum_{i=1}{m} u_iv_i\right)= \sum_{i=1}{m}\!\left(\frac{\partial u_i}{\partial x_j}\,v_i+ u_i\,\frac{\partial v_i}{\partial x_j}\right)= \sum_{i=1}{m}\frac{\partial u_i}{\partial x_j}\,v_i+ \sum_{i=1}{m} u_i\,\frac{\partial v_i}{\partial x_j}\,.[/math]

Тогда первый дифференциал функции [math]uTv[/math] имеет вид

[math]d(uTv)= \sum_{j=1}{n}\left(\sum_{i=1}{m}\frac{\partial u_i}{\partial x_j}\,v_i+ \sum_{i=1}{m} u_i\,\frac{\partial v_i}{\partial x_j}\right)\!dx_j\,.[/math]

Запишем это выражение, используя матричные обозначения

[math]\begin{aligned}d(uTv)&= \begin{pmatrix}dx_1&\cdots&dx_n\end{pmatrix}\!\! \begin{bmatrix} \begin{pmatrix} \dfrac{\partial u_1}{\partial x_1}&\cdots&\dfrac{\partial u_m}{\partial x_1}\\ \vdots&\ddots&\vdots\\ \dfrac{\partial u_1}{\partial x_n}&\cdots&\dfrac{\partial u_m}{\partial x_n} \end{pmatrix}\!\cdot\! \begin{pmatrix}v_1\\\vdots\\v_m\end{pmatrix}+ \begin{pmatrix} \dfrac{\partial v_1}{\partial x_1}&\cdots&\dfrac{\partial v_m}{\partial x_1}\\ \vdots&\ddots&\vdots\\ \dfrac{\partial v_1}{\partial x_n}&\cdots&\dfrac{\partial v_m}{\partial x_n} \end{pmatrix}\!\cdot\! \begin{pmatrix} u_1\\\vdots\\u_m\end{pmatrix}\end{bmatrix}=\\ &=dxT\!\begin{bmatrix} \dfrac{duT}{dxT}\,v+ \dfrac{dvT}{dxT}\,u\end{bmatrix}\!.\end{aligned}[/math]

Сравнивая полученное выражение с [math]d(uTv)=dxT\frac{d(uTv)}{dxT}[/math], приходим к равенству [math]\frac{d(uTv)}{dxT}=\frac{duT}{dxT}\,v+\frac{dvT}{dxT}\,u[/math], что и требовалось доказать.

7. Производная сложной функции [math]z=(y(x))[/math], где [math]z=z(y)= \begin{pmatrix} z_1(y)\\\vdots\\z_k(y)\end{pmatrix}[/math] и [math]y=y(x)= \begin{pmatrix} y_1(x)\\\vdots\\y_m(x) \end{pmatrix}[/math] вычисляется по формуле:

[math]\frac{dz(y(x))}{dx}=\frac{dz(y(x))}{dy}\cdot\frac{dy(x)}{dx}[/math] или, опуская аргументы, [math]\frac{dz}{dx}=\frac{dz}{dy}\cdot\frac{dy}{dx}[/math].

Действительно, запишем первый дифференциал вектор-функции: [math]dz(x)=\frac{dz}{dy}\,dy=\frac{dz}{dy}\frac{dy}{dx}\,dx[/math]. Заметим, что матрицы Якоби в правой части формулы согласованы: матрица [math]\frac{dz}{dy}[/math] имеет размеры [math]k\times m[/math], матрица [math]\frac{dy}{dx}-m\times n[/math].

Найдем, используя обычные правила дифференцирования, частную производную [math]\frac{\partial z_i(y(x))}{\partial x_j}= \sum_{k=1}{m}\frac{\partial z_i}{\partial y_k}\frac{\partial y_k}{\partial x_j}[/math].

В правой части стоит произведение i-й строки матрицы [math]\frac{dz}{dy}[/math] на j-й столбец матрицы [math]\frac{dy}{dx}[/math], что и требовалось показать.

Использование матричных обозначений позволяет записывать и применять правила дифференцирования по векторному аргументу аналогично правилам дифференцирования в скалярном случае.

Например, правило 7 дифференцирования сложной вектор-функции формально совпадает с обычным «цепным» правилом [math]\frac{dz}{dx}=\frac{dz}{dy}\frac{dy}{dx}[/math] дифференцирования скалярной сложной функции одной переменной.

Разумеется, что формальное совпадение правил становится фактическим в скалярном случае, когда все матрицы имеют размеры [math]1\times1[/math].

Пример 6.3. Применяя правила дифференцирования по векторному аргументу, найти производные следующих функций:

а) [math]cTx[/math]; б) [math]xTc[/math]; в) [math]xTA[/math]; г) [math]xTA[/math]; д) [math]xTAx[/math],

где [math]A[/math] — квадратная числовая матрица n-го порядка; [math]x,\,c[/math] — столбцы размеров [math]n\times1[/math], причем столбец [math]c[/math] числовой.

Решение. а) Вынося постоянный множитель (матрицу-строку) [math]cT[/math] по правилу 5 и учитывая правило 4, получаем:

[math]\frac{d(cTx)}{dx}=cT\,\frac{dx}{dx}=cTecT.[/math]

б) Учитывая, что величина [math]xTc[/math] скалярная, т.е. [math]xTc=(xTc)T=cTx[/math], получаем [math]\frac{d(xTc)}{dx}=\frac{d(cTx)}{dx}=cT[/math]. Заметим, что [math]\frac{d(cTx)}{dxT}=\frac{d(xTc)}{dxT}=c[/math].

в) По правилам 4 и 5 находим: [math]\frac{d(Ax)}{dx}=A\,\frac{dx}{dx}=AE=A[/math].

г) По правилам 4 и 5 находим: [math]\frac{d(xTA)}{dxT}=\frac{dxT}{dxT}\,A=EA=A[/math].

д) Представляя скалярное выражение [math]xTAx[/math] как произведение строки [math]xT[/math] на столбец [math]Ax[/math], по правилу 6 (где [math]uT=xT,\,v=Ax[/math]) получаем

[math]\frac{d(xTAx)}{dx}=(Ax)T\frac{dx}{dx}+xT\,\frac{dx}{dx}=xTAT\,\frac{dx}{dx}+ xTA\frac{dx}{dx}= xT(AT+A).[/math]

с учетом правила транспонирования производных

[math]\frac{d(xTAx)}{dxT}= frac{d(xTATx)T}{dxT}= \begin{pmatrix} \frac{d(xTATx)}{dxT} \end{pmatrix}T= \begin{bmatrix}xT(A+AT)\end{bmatrix}T= (AT+A)x.[/math]

Учитывая результат п. «б», имеем [math]frac{d2(xTAx)}{dxTdx}=AT+A[/math].

Замечания 6.2

1. В некоторых областях прикладной математики, например, в методах оптимизации и теории управления, часто используются другие соглашения, совпадающие с изложенными с точностью до операции транспонирования. Производная [math]\frac{df(x)}{dx}[/math] (градиент функции [math]f(x)[/math]) считается матрицей-столбцом, а производная [math]\frac{df(x)}{dxT}[/math] — матрицей-строкой:

[math]\frac{}{}= \begin{pmatrix}\dfrac{\partial f}{\partial x_1}\\\vdots\\\dfrac{\partial f}{\partial x_n}\end{pmatrix}\!;\qquad \frac{df(x)}{dxT}= \begin{pmatrix}\dfrac{\partial f}{\partial x_1}&\cdots&\dfrac{\partial f}{\partial x_n}\end{pmatrix}\!.[/math]

Тогда соответствующие формулы дифференцирования, аналогичные полученным в примере 6.3, имеют вид:

[math]\begin{gathered}\frac{d(cTx)}{dx}=\frac{d(xTc)}{dx}=c;\qquad \frac{d(xTc)}{dxT}= \frac{d(cTx)}{dxT}=cT;\\[5pt] \frac{d(Ax)}{dxT}=A;\qquad \frac{d(xTA)}{dx}=A;\\[5pt] \frac{d(xTAx)}{dxT}= xT(AT+A),\quad \frac{d(xTAx)}{dx}=(AT+A)x,\quad \frac{d2(xTAx)}{dxTdx}=AT+A.\end{gathered}[/math]

2. Если матрица Якоби квадратная [math](m=n)[/math], то ее определитель называется якобианом.

3. След матрицы Якоби (при [math]m=n[/math]) определяет

[math]\operatorname{div}f=\operatorname{tr}\frac{df}{dx}=\sum_{i=1}{n}\frac{\partial f_i}{\partial x_i}[/math] дивергенцию вектор-функции [math]f(x)[/math] векторного аргумента [math]x[/math].

Производные матричной функции по векторному аргументу

Рассмотрим функциональную матрицу [math]A(x)[/math], элементами которой служат функции [math]a_{ij}(x)[/math] векторного аргумента [math]x[/math]. Дифференциал этой функции имеет вид

[math]dA(x)=\sum_{i=1}{n}\frac{\partial A(x)}{\partial x_i}\,dx_i,[/math]

где [math]\frac{\partial A(x)}{\partial x_i}[/math] — частная производная матрицы по одной переменной.

Совокупность частных производных (градиент функциональной матрицы) представляет объект, элементы которого [math]\frac{\partial a_{ij}(x)}{\partial x_k}[/math] нумеруются тремя индексами: номер строки, номер столбца и номер переменной дифференцирования.

Поэтому заменить операцию суммирования в правой части формулы операцией умножения матриц в данном случае не представляется возможным. Необходимо вводить другие объекты — тензоры и операции над ними. Поясним формальную сторону получения удобных формул дифференцирования на примере функциональных матриц. Примем следующие правила индексирования:

1) элементы матрицы [math]A=\begin{pmatrix}a_ji\end{pmatrix}[/math] обозначаются [math]a_ji[/math], где [math]i[/math] — номер строки, a [math]j[/math] — номер столбца. В частности, [math]x=\begin{pmatrix}xi\end{pmatrix}[/math] — матрица-столбец (или просто столбец), а [math]y=\begin{pmatrix}y_j\end{pmatrix}[/math] — матрица-строка (или просто строка);

2) частную производную функции [math]F(x)[/math] (скалярной, векторной или матричной) по переменной [math]xi[/math] будем обозначать, приписывая нижний индекс [math]i[/math] в скобках: [math]\frac{\partial F}{\partiali}=F_{(i)}[/math];

3) если в произведении одинаковые индексы встречаются сверху и снизу, то по ним производится суммирование (хотя знак суммы не указывается).

Например, если [math]A=\begin{pmatrix}a_ji\end{pmatrix}[/math] — матрица размеров [math]m\times n[/math], [math]x=\begin{pmatrix}xi\end{pmatrix}[/math] — столбец размеров [math]n\times1[/math], [math]y=\begin{pmatrix}y_j\end{pmatrix}[/math] — строка размеров [math]1\times m[/math], то

[math]a_jixj=\sum_{j=1}{n}a_jixj,\quad a_jiy_i=\sum_{i=1}{m}a_jiy_i,\quad a_jixjy_i=\sum_{i=1}{m}\sum_{j=1}{n}a_jixjy_i,[/math]

т.е. [math]a_jixj[/math] — i-й элемент столбца [math]Ax[/math], [math]a_jiy_i[/math] — j-й элемент строки [math]yA[/math], [math]a_jixjy_i[/math] — число [math]yAx[/math].

Применяя эти соглашения, запишем дифференциалы:

— скалярной функции: [math]df=f_{(i)}dxi,~d2f=f_{(i)(j)}dxidxj[/math];

— вектор-функции [math]f=\begin{pmatrix}fi\end{pmatrix}[/math] (функции-столбца): [math]dfi=f_{(j)}idxj[/math];

— функциональной матрицы [math]F=(f_ji)\colon\,df_ji=f_{j(k)}idxk[/math], где [math]f_{j(k)}i=\frac{\partial f_ji}{\partial xk}[/math] — частная производная первого порядка элемента [math]f_ji[/math] функциональной матрицы [math]F[/math] по переменной [math]xk[/math].

Одним из преимуществ принятых соглашений является получение простого вида формул. Другие преимущества раскрываются и используются в тензорном анализе.

Источник: http://MathHelpPlanet.com/static.php?p=proizvodnye-matrichnoi-funktsii-po-vektornomu-argumentu

1 ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Элементы дифференциального исчисления векторных функций векторного аргумента Учебно-методическое пособие для вузов Составители: С.П. Зубова,

Элементы дифференциального исчисления векторных функций векторного аргумента. Зубова С.П

Книги по всем темам ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Элементы дифференциального исчисления векторных функций векторного аргумента Учебно-методическое пособие для вузов Составители: С.П. Зубова, И.Н. Гурова, М.И. Каменский, Е.В.

Раецкая Воронеж 2007 2 Утверждено научно-методическим советом математического факультета, протокол №7 от 08.02.2007 г.

Учебно-методическое пособие подготовлено на кафедре математического анализа математического факультета Воронежского государственного университета.

Рекомендуется для студентов второго курса дневного отделения в помощь при изучении вопросов дифференциального исчисления отображений, действующих в конечномерных пространствах.

Для специальности: 010101 (010100) Математика и направления: 010200 (510200) Математика. Прикладная математика.

3 Для векторных функций векторного аргумента, то есть для отображений Rn Rm, производные могут вводиться различными способами.

В настоящем пособии рассматриваются: производная по направлению, производные и дифференциалы Фреше, Гато, частные производные. Устанавливаются связи между их существованием и между ними.

Приводятся примеры, иллюстрирующие свойства различных производных и дифференциалов. Выводятся формулы для их нахождения.

Обозначения существует, найдется;

любой, каждый; для любого, для всякого;

принадлежит;

вложено;

предположим противное;

(!) противоречие;

P Q из соотношения P следует выполнение свойства Q;

P Q P справедливо тогда и только тогда, когда выполняется условие Q;

(a) P Q из P следует Q из соотношения (a);

def P Q из P следует Q по определению;

T P Q из P следует Q по теореме;

P Q свойства P и Q выполняются одновременно;

{x| P } совокупность {x}, обладающих свойством P ;

R1 = R множество действительных чисел;

R+ = {x R| x > 0};

Rn = {x| x = (x1, x2,…, xn), xi R, i = 1, 2,…, n};

n x = x2;

n i i=n x, y = xiyi, если x = (x1, x2,…, xn), y = (y1, y2,…, yn);

i=f : G F отображение, действующее из G в F ;

f(·) значение отображения f на элементе (·);

L(Rn, Rm) пространство линейных операторов, действующих из Rn в Rm;

A норма оператора, действующего из Rn в Rm.

nm Для удобства отдельные высказывания, содержащие логические символы, заключаются в скобки.

Конец доказательства будем помечать значком.

Мы будем рассматривать отображения f : G Rm, где G Rn. Всюду в дальнейшем будем предполагать, что G открытое множество.

§1. Дифференциал Фреше. Производная Фреше 1. Определения. Примеры Пусть для x G существует линейный оператор A(x) L(Rn, Rm), такой, что при всех h Rn, удовлетворяющих условию h + x G, имеет место равенство f(x + h) — f(x) = A(x)h + (x, h), (1) где (x, h) m 0 при h 0.

(2) n h n Тогда отображение f называется дифференцируемым по Фреше (или просто дифференцируемым) в точке x. Значение оператора A(x) на элементе h называют дифференциалом Фреше (или просто дифференциалом) отображения f в точке x и обозначают df(x) или df(x, h) (очевидно, что дифференциал отображения зависит и от точки x и от приращения h).

Оператор A(x) называют производной Фреше (или производной) отображения f в точке x и обозначают f (x).

Таким образом, f(x + h) — f(x) = df(x, h) + (x, h) и df(x, h) = f (x)h, причем при фиксированном значении x дифференциал df(x, h) является линейной по h частью приращения f(x + h) — f(x). Выражение (x, h) называют остатком приращения.

Если отображение f дифференцируемо в каждой точке x G, то говорят, что f дифференцируемо на G. Тогда отображение, которое каждому x G ставит в соответствие оператор f (x) L(Rn, Rm), обозначают f : G L(Rn, Rm).

Итак, def (f дифф. в точке x G) (h Rn| x + h G)(A(x) : Rn Rm| (x, h) m | (f(x + h) — f(x) = A(x)h + (x, h)) ( 0 при h 0)), n h n где f (x) = A(x) производная f в точке x; df(x, h) = f (x)h дифференциал f в точке x, соответствующий приращению h, равен значению производной f в точке x на элементе h.

Примеры 1. Рассмотрим f : R1 R1. Обозначим h через x. Пусть (x,x) f(x + x) — f(x) = A(x)x + (x, x), где lim = 0 (т. е.

x x(x, x) бесконечно малая при x 0 более высокого порядка, чем x). Тогда A(x)x = df(x) = f (x)x = f (x)dx. То есть в этом случае понятия производной и дифференциала Фреше совпадают с обычными понятиями производной и дифференциала скалярной функции.

2. Пусть f : R2 R1, f(x) = f(x1, x2) = x2 + x1 · x2. Для любого h = (h1, h2) R2 имеем:

f(x + h) — f(x) = (x1 + h1)2 + (x1 + h1)(x2 + h2) — x2 — x1 · x2 = = (2×1 + x2)h1 + x1h2 + h2 + h1h2.

Выражение (2×1 + x2)h1 + x1 · h2 линейно зависит от h, а h2 + h1h2 таково, h2+h1hчто 0 при h 0 (в самом деле, h2 + h1h2 h2 + (h2 + h2) 1 1 1 h 2 3 3 (h2 + h2) = h ).

Таким образом, f дифференцируемое отображе1 2 2 ние x R2 и (2×1+x2)h1+x1h2 дифференциал f в точке x, соответствующий приращению h.

Он равен f (x), h, где f (x) линейный функционал, определяемый вектором u = (2×1 + x2, x1), то есть f (x)(·) = u, (·).

3. Рассмотрим f : R2 R2, заданное равенством f(x1, x2) = (x2 — x2), x1x2.

1 Для любого вектора h = (h1, h2) R2 имеем f(x + h) — f(x) = [(x1 + h1)2 — (x2 + h2)2], (x1 + h1)(x2 + h2) — (x2 — x2), x1x2 = 1 1 = [(x1 + h1)2 — (x2 + h2)2] — (x2 — x2), (x1 + h1)(x2 + h2) — x1x2 = 1 2 h2 — h1 = (x1h1 — x2h2, x2h1 + x1h2) +, h1h2.

Легко проверить, что слагаемое x1 -x2 h(x1h1 — x2h2, x2h1 + x1h2) = x2 x1 hРис. h2-h1 линейно по h. Для слагаемого, h1h2 имеем соотношение h2-h1 2 (h1-h2), h1h+h2h2 1 2 = = h2+h2 = h 0 при h 0.

2 1 h 2 2 h2+h1 Итак, x1 -xf (x) =.

x2 xЕсли x = 0, то очевидно cos — sin f (x) = x 2, sin cos где угол, образуемый x с осью абсцисс, x2 xsin =, cos =.

x 2 x Оператор f (x) любой вектор h R2 поворачивает на угол и растягивает в x раз. На рис. 1 показано действие оператора f (x) на вектор h в случае x = (0, 1). В этом случае x = 1 и f (x) есть просто оператор поворота на угол =.

Задание 1. Проверить дифференцируемость отображения f : Rn R1, f(x) = x. Доказать, что f (x)(·) = 2 x, · (воспользоn ваться тем, что x = x, x ).

n 4. Покажем, что отображение f : Rn R1, f(x) = x не дифференn цируемо в точке x = 0.

: (f(x) дифф. в точке 0) (h Rn)(A(0) : Rn R1| |(0, h)| | 0 + h — 0 = A(0)h + (0, h)) при h 0, n n n h n откуда A(0)h = h — (0, h), следовательно, A(0)h > 0, h Rn.

n Этого не может быть, если A(0) линейно по h, так как, если возьмем h1 = -h2, то A(0)h1 = -A(0)h2 < 0, т. е. A(0)h1 < 0 (!).

Задание 2. Показать, что отображение, рассмотренное в примере 4, дифференцируемо в любой точке x = 0 и f (x)(·) =.

x n 2. Свойства дифференцируемых отображений и производной Фреше Свойство 1. Производная Фреше определяется единственным образом.

Докажем это.

(1) f(x + h) — f(x) = f1(x)h + 1(x, h) :

(1) f(x + h) — f(x) = f2(x)h + 2(x, h) ([f1(x) — f2(x)]h = 1(x, h) — 2(x, h)) [f1(x) — f2(x)]h 1(x, h) — 2(x, h) m m = h n h n 1(x, h) 2(x, h) m (2) m + 0 при h 0.

(3) m h n h n Возьмем теперь произвольный элемент h1 Rn и числовой коэффициент t 0. Пусть h = th1, тогда [f1(x) — f2(x)]h [f1(x) — f2(x)]th1 m (3) m = 0 при t h n th1 n ( [f1(x) — f2(x)]h1

Свойство 2.

Отображение, дифференцируемое в точке x, непрерывно в этой точке.

Действительно, def (1) (2) (f– дифф. в т. x) (f(x+h)-f(x) = f (x)h+(x, h))( lim (x, h) = 0), h n def (1), (2) (lim f(x + h) — f(x) = 0) (f непр. в точке x).

hСвойство 3. Линейная комбинация дифференцируемых отображений дифференцируема, и производная линейной комбинации дифференцируемых отображений является линейной комбинацией производных этих отображений.

То есть: если f : G Rm, g : G Rm дифференцируемы в точке x G, то = f + g (, R) также дифференцируемо в точке x и (x) = f (x) + g (x).

Доказательство. Дано:

f(x + h) — f(x) = f (x)h + 1(x, h), (1 ) g(x + h) — g(x) = g (x)h + 2(x, h). (1 ) Имеем (1 ),(1 ) (x + h) — (x) = [f(x + h) — f(x)] + [g(x + h) — g(x)] = = [f (x) + g (x)]h + [1(x, h) + 2(x, h)].

Здесь выражение [f (x) + g (x)]h линейно по h (в силу линейности f (x) и g (x)) и 1(x, h) + 2(x, h) m 1(x, h) m 2(x, h) m (2) || + || h n h n h n при h 0.

Следовательно, [f(x) + g(x)] = f (x) + g (x).

Заметим, что свойство 3 означает, что отображение, которое каждому дифференцируемому отображению f ставит в соответствие f, линейно.

Задание 3. Дано f : G R1 и g : G R1 (G R1) дифференцируемые в точке x отображения и (x) = f(x)g(x). Доказать, что (x) дифференцируемо в точке x и (x) = g(x)f (x) + f(x)g (x). При f(x) дополнительном условии g(x) = 0 доказать, что (x) = также диффе g(x) g(x)f (x)-f(x)g (x) ренцируемо в точке x и (x) =.

g2(x) Свойство 4. Суперпозиция дифференцируемых отображений дифференцируема и производная суперпозиции дифференцируемых отображений равна произведению производных соответствующих отображений.

Точнее: пусть f : G Rm дифференцируемо в точке x0 G, f(G) Rm и открыто; g : Rk и g дифференцируемо в точке f(x0). Тогда отображение F : G Rk, F (x) = gf(x) = g(f(x)) дифференцируемо в точке x0 и F (x0) = g (f(x0)) · f (x0).

Докажем это. Обозначим y0 = f(x0), A = f (x0), B = g (y0). По определению (1) имеем Ah = f(x0 + h) — f(x0) — 1(x0, h) (4) g(y) — g(y0) = B(y — y0) + 2(y, y — y0) (5) Рассмотрим: (x0, h) = F (x0 + h) — F (x0) — BAh. Нужно доказать, что F (x0) = BA, т. е. что (x0, h) k 0 при h 0. (6) n h n Действительно:

(5) (4) (x0, h) = g(f(x0 + h)) — g(y0) — B(f(x0 + h) — y0 — 1(x0, h)) = =B(f(x0+h)-y0)+2(y0, f(x0+h)-y0) — Bf(x0+h)-y0)+B1(x0, h)= = 2(y0, f(x0 + h) — y0) + B1(x0, h); (7) (x0,h) 2(y0,f(x0+h)-y0) f(x0+h)-y0 B1(x0,h) k k k m (7) +.

h n f(x0+h)-y0 m h n h n I1 I2 IСв.При h 0 имеем f(x0 + h) — y0 — 0, следовательно, I1 0 при m h 0; I3 0 при h 0 в силу (4). Из соотношения (4), кроме того, име f(x0+h)-y0 Ah + 1(x0,h) m m m ем I2 = A = f (x0)

n h n §2. Производная по направлению. Дифференциал Гато.

Производная Гато 1. Определения. Примеры Пусть f : G Rm, G Rn; e = (e1, e2,…, en) фиксированный вектор с нормой, равной 1, определяющий некоторое направление; x G. Пусть t мало, тогда x + te G.

f(x+te)-f(x) Предел отношения при t 0, если он существует, называется t производной по направлению e и обозначается fe(x). То есть f(x + te) — f(x) def fe(x) = lim.

tt Можно взять произвольный (не обязательно единичный) фиксированf(x+th)-f(x) ный вектор h Rn и рассмотреть lim при t 0. Если этот t предел существует, то его называют дифференциалом Гато отображения f в точке x (при приращении h) и обозначают Df(x) или Df(x, h).

f(x + th) — f(x) def Df(x, h) = lim.

tt Задание 4. Доказать, что Df(x, h) = fh (x)· h, где h1 единичный n tвектор направления h (можно, например, сделать замену t = ).

h n Дифференциал Гато однороден по h, т. е. Df(x, h) = Df(x, h), f(x+th)-f(x) R. Действительно, Df(x, h) = lim. Сделаем замену t tt =, получим:

f(x + h) — f(x) Df(x, h) = lim = Df(x, h).

t Однако Df(x, h) не обязательно аддитивен по h. Например, рассмотрим отображение f : R2 R1, определяемое равенством x2·x, если (x1, x2) = (0, 0), x2+x1 f(x1, x2) = 0, если (x1, x2) = (0, 0).

Возьмем два направления: h(1) = (1, 0) и h(2) = (0, 1) и рассмотрим соответствующие дифференциалы Гато этого отображения в точке 0. Имеем 0 + th(1) = (t, 0), 0 + th(2) = (0, t), 0 + t(h(1) + h(2)) = (t, t). Тогда t2·- t2+Df(0, h(1)) = lim = 0, tt 0·t — 0+tDf(0, h(2)) = lim = 0, tt t2·t — t2+tDf(0, h(1) + h(2)) = lim = = Df(0, h(1)) + Df(0, h(2)).

tt Если же дифференциал Гато является аддитивным по h, то Df(x, h) линеен по h и может быть представлен в виде Df(x, h) = f(x)h, где f(x) : Rn Rm линейный оператор (символ означает Гато). Тогда отображение f называют дифференцируемым по Гато в точке x, а f(x) называют производной Гато в точке x.

Примеры 5. Пусть f : R2 R1, f(x) = f(x1, x2) = x1 + x2 и h = (h1, h2). Тоx1+th1+(x2+th2)2-(x1+x2) гда x + th = (x1 + th1, x2 + th2) и Df(x, h) = lim = t t= h1 + 2x2h2 = u, h, где u = (1, 2×2). Таким образом, Df(x, h) линеен по h и f(x)(·) = u, ·.

6. Пусть f отображение, рассмотренное в примере 3. Имеем 1 1 Df(x, h) = lim (x1 + th1)2 — (x2 + th2)2, (x1 + th1)(x2 + th2) tt 2 1 1 1 1 1 1 — x2 — x2, x1x2 =lim ( (x1+th1)2- (x2+th2)2- x2- x2, (x1+th1)· 1 2 1 t2 2 t 2 2 2 t 1 ·(x2 +th2)-x1x2) = lim (x1h1 -x2h2, x2h1 +x1h2)+lim t( h2 — h2, h1h2) = 1 t0 tt 2 x1 -x2 h= (x1h1 — x2h2, x2h1 + x1h2) =, x2 x1 hто есть x1 -xf(x)(·) = (·).

x2 xПроизводные Фреше и Гато этого отображения совпадают. Условия, при выполнении которых производные Гато и Фреше совпадают, будут выявлены позже.

2. Свойства производной Гато Свойство 1. Как и производная Фреше, производная Гато определяется единственным образом (это следует из единственности предела).

Свойство 2. Производная Гато линейной комбинации дифференцируемых по Гато отображений существует и равна (как и производная Фреше) линейной комбинации производных Гато этих отображений.

То есть, если, R, f : G Rm, g : G Rm, G Rn, f и g дифференцируемы по Гато в точке x G, то = f + g также дифференцируемо в точке x и (x) = f(x) + g(x).

В самом деле, (x+th)-(x) D(x,h)=lim = tt f(x+th)-f(x) g(x+th)-g(x) = lim + lim = t0 tt t = Df(x, h) + Dg(x, h) = [f(x) + g(x)]h.

Замечание 1. Из дифференцируемости отображения по Гато в некоторой точке не следует, вообще говоря, непрерывность отображения в этой точке (как было для производной Фреше).

Например, пусть f : R2 R1 задается равенством x3· x1, если (x1, x2) = (0, 0), x4+xf(x1, x2) = 1 0, если (x1, x2) = (0, 0).

Это отображение разрывно в точке (0, 0), так как при x2 = x2 имеем x3 · |x1| при x1 > 0, lim = x10 -1 при x1 < 0, 2x1 что не равно f(0, 0).

Однако в точке (0, 0) существует производная Гато:

(th1)3 4 (th2)- h3 · h2 · t(th1)4+(th2)1 Df(0, h) = lim = lim = 0 = 0 · h, t0 tt t2h4 + h1 то есть, f(0, 0) = (0, 0) матрица-строка.

Замечание 2. Для производной Гато не имеет места и теорема о дифференцировании суперпозиции отображений в том смысле, что производная Гато суперпозиции отображений не равна суперпозиции (произведению) производных Гато соответствующих отображений (ср. со свойством стр. 8).

Действительно, пусть f : R2 R2, f(x) = (f1(x), f2(x)), где f1(x1, x2) = x1, а x3·x, если (x1, x2) = (0, 0), x4+x1 f2(x1, x2) = (8) 0, если (x1, x2) = (0, 0) и g : R2 R1, g(x) = f2(x). (9) Вычислим производные Гато отображений f и g в точке (0, 0).

t4h3h2 th3hh1 Dg(0, h) = lim = lim = 0 = (0 0), (10) t0 t0 ht(t4h4 + t2h2) t2h4 + h1 2 1 то есть g(0) = (0 0).

Аналогично 1 t4h3h1 0 hDf(0, h) = lim th1, = (h1, 0) =, t0 0 0 ht t4h4 + t2h1 1 то есть f(0) =.

0 1 Следовательно, g(0) · f(0) = (0 0) = (0 0).

0 С другой стороны, x2x2(x4+x2) 1 1, если x1 = 0, (x4+x2)2+x2x1 2 1 gf(x) = 0, если x1 = 0.

Поэтому, если h = (h1, h2) и h1 = 0, то h2h2(t2h4 + h2) h2h1 1 2 1 Dgf(0, h) = lim =.

t(t2h4 + h2)2 + h2h2 h4 + h2h1 2 1 2 2 1 При h1 = h2 = 0 имеем: Dgf(0, h) = = 0, то есть Dgf(0, h) = g(0)·f(0)h.

Однако если внешнее отображение дифференцируемо по Фреше, а внутреннее по Гато, то их суперпозиция дифференцируема по Гато (см. §3).

§3. Связь производных Фреше и Гато Теорема 1. Если отображение дифференцируемо в некоторой точке по Фреше, то оно дифференцируемо в этой точке по Гато, и производные Фреше и Гато совпадают, то есть:

(f : G Rm, G Rn дифф. по Ф. в т. x) (f дифф. по Г. в т. x) (f(x) = f (x)).

Доказательство.

f(x + th) — f(x) (1) tf (x)h + (x, th) def Df(x, h) = lim = lim = t0 tt t (x, th) (2) = f (x)h + lim h · sign t = df(x, h), th 0 th n n n т. е. Df(x, h) = df(x, h) = f (x)h, откуда f(x) = f (x).

(См. пример 6).

Обратное утверждение неверно. Например, рассмотрим отображение g :

R2 R1, определяемое соотношениями (9), (8). Равенство (10) показывает, что Dg(0, h) = 0. Вместе с тем, этот дифференциал не является дифференцируемым по Фреше в точке (0, 0). Докажем это.

def (1) : (0 = dg(0, h)) ((g(0 + h1, 0 + h2) — g(0, 0) — (0, h) = 0 — (0, h)) |(0, h)| (2) lim = 0 при h 0; (11) h h3h2 (11) (9), (8) g(0+h1, 0+h2)-g(0, 0) = h4 + h1 h3h2 (11) h3h1 (0, h) = — lim = 0.

h4 + h2 h(h4 + h2) h2 + h1 1 2 1 Возьмем, однако, h2 = h2 и h1 > 0, тогда h3h2 h5 1 h5 1 1 lim = lim = lim = (!).

h(h4 + h2) h2 + h2 h10 2h4 h2 + h4 2 h10 h5 1 + h2 1 2 1 2 1 1 1 1 Ниже приводится теорема, которая указывает, в каких случаях существование производной Гато влечет существование производной Фреше.

Книги по всем темам

Источник: http://knigi.dissers.ru/books/1/13120-1.php

Biz-books
Добавить комментарий