本記事の内容
本記事は多変数の合成関数と逆関数の微分について解説する記事です。
本記事を読むにあたり、偏微分と全微分とヤコビ行列について知っている必要があるため、以下の記事も合わせてご覧ください。
↓偏微分の記事
↓全微分の記事
↓ヤコビ行列の記事
ヤコビ行列を軽く復習します。
ヤコビ行列とは何だったか、というと以下でした。
ヤコビ行列(ヤコビアン)
\(\Omega\)を\(\mathbb{R}^n\)の開集合、\(\boldsymbol{a}\in\Omega\)、\(\boldsymbol{f}:\Omega\to\mathbb{R}^m\)が\(\boldsymbol{a}\)で全微分可能とし、 $$ \boldsymbol{f}= \left( \begin{array}{c} f_1\\ f_2\\ \vdots\\ f_m \end{array} \right),\quad \boldsymbol{x}=\left( \begin{array}{c} x_1\\ x_2\\ \vdots\\ x_n \end{array} \right) $$と書いたとする。このとき、行列 $$ \boldsymbol{f}^\prime(\boldsymbol{a})=\left(\frac{\partial f_i}{\partial x_j}(\boldsymbol{a}) \right)= \begin{pmatrix} \displaystyle\frac{\partial f_1}{\partial x_1}(\boldsymbol{a})&\displaystyle\frac{\partial f_1}{\partial x_2}(\boldsymbol{a})&\cdots &\displaystyle\frac{\partial f_1}{\partial x_n}(\boldsymbol{a})\\ \displaystyle\frac{\partial f_2}{\partial x_1}(\boldsymbol{a})&\displaystyle\frac{\partial f_2}{\partial x_2}(\boldsymbol{a})&\cdots &\displaystyle\frac{\partial f_2}{\partial x_n}(\boldsymbol{a})\\ \vdots&\vdots& \ddots&\vdots\\ \displaystyle\frac{\partial f_m}{\partial x_1}(\boldsymbol{a})&\displaystyle\frac{\partial f_m}{\partial x_2}(\boldsymbol{a})&\cdots &\displaystyle\frac{\partial f_m}{\partial x_n}(\boldsymbol{a})\\ \end{pmatrix} $$ を\(\boldsymbol{f}\)の\(\boldsymbol{a}\)におけるヤコビ行列またはヤコビアン(the Jacobian matrix of \(\boldsymbol{f}\) at \(\boldsymbol{a}\))と呼ぶ。ここで注意なのが、以降\(\boldsymbol{f}^\prime\)と書いたらば、\(\boldsymbol{f}^\prime\)は行列だということです。
多変数の合成関数の微分
まずは、1変数の場合を復習します。
1変数の合成関数の微分の復習
1変数の合成関数の微分は以下でした。
この事実の証明は【解析学の基礎シリーズ】1変数実数値関数の微分編 その3を御覧ください。
実は、多変数の場合は1変数の場合と形式的にはほぼ同じです。
何が違うか、というと1変数の場合の等式の右辺が、多変数だとヤコビ行列の積になる、ということです。
多変数の合成関数の微分
では、主張を明示します。
定理1.(合成関数の微分法、chain rule (連鎖律))
\(\Omega\)、\(D\)はそれぞれ\(\mathbb{R}^n\)、\(\mathbb{R}^m\)の開集合で、\(\boldsymbol{a}\in\Omega\)、\(\boldsymbol{f}:\Omega\to\mathbb{R}^m\)、\(\boldsymbol{g}:D\to\mathbb{R}^l\)、\(\boldsymbol{f}(\Omega)\subset D\)、\(\boldsymbol{b}=\boldsymbol{f}(\boldsymbol{a})\)、\(\boldsymbol{f}\)は\(\boldsymbol{a}\)で全微分可能、\(\boldsymbol{g}\)は\(\boldsymbol{b}\)で全微分可能ならば、\(\boldsymbol{g}\circ\boldsymbol{f}\)は\(\boldsymbol{a}\)で微分可能で、 $$ (\boldsymbol{g}\circ\boldsymbol{f})^\prime(\boldsymbol{a})=\boldsymbol{g}^\prime(\boldsymbol{b})\cdot\boldsymbol{f}^\prime(\boldsymbol{a}) $$ である。\(\boldsymbol{y}=\boldsymbol{f}(\boldsymbol{x})\)、\(\boldsymbol{z}=\boldsymbol{g}(\boldsymbol{y})\)と書けば、上式の第\((i,j)\)成分は $$ \frac{\partial z_i}{\partial x_j}=\sum_{k=1}^m\frac{\partial z_i}{\partial y_k}\frac{\partial y_k}{\partial x_j}\quad (1\leq i\leq l,\ 1\leq j\leq n) $$ である。
要するに、全部の変数で合成関数の微分をして足し合わせたものを第\((i,j)\)成分とするような行列が多変数の合成関数の微分ということになります。
つまり、
ということに注意してください。
ここで、\((\boldsymbol{g}\circ\boldsymbol{f})^\prime(\boldsymbol{a})=\boldsymbol{g}^\prime(\boldsymbol{b})\cdot\boldsymbol{f}^\prime(\boldsymbol{a})\)の右辺は\(\boldsymbol{f}\)のヤコビ行列と\(\boldsymbol{g}\)のヤコビ行列の積だということに注意してください。
この定理を証明する前に、まずは「1次関数だったら当たり前だよね」ということを見てみます。
\(\boldsymbol{f}(\boldsymbol{x})=A\boldsymbol{x}+\boldsymbol{b}\)、\(\boldsymbol{g}(\boldsymbol{y})=C\boldsymbol{y}+\boldsymbol{d}\)(\(A,C\)は行列)だとすると、
$$
(\boldsymbol{g}\circ\boldsymbol{f})(\boldsymbol{x})=\boldsymbol{g}\left( \boldsymbol{f}(\boldsymbol{x})\right)=\boldsymbol{g}\left( A\boldsymbol{x}+\boldsymbol{b}\right)=C\left( A\boldsymbol{x}+\boldsymbol{b}\right)+\boldsymbol{d}=CA\boldsymbol{x}+(C\boldsymbol{b}+\boldsymbol{d})
$$
となりますので、
$$
\left( \boldsymbol{g}\circ\boldsymbol{f}\right)^\prime(\boldsymbol{x})=CA=\boldsymbol{g}^\prime(\boldsymbol{y})\boldsymbol{f}^\prime(\boldsymbol{x})
$$
が成り立ちます。
確かに、\(\left( \boldsymbol{g}\circ\boldsymbol{f}\right)^\prime(\boldsymbol{x})=CA\)ですので行列の形をしています。
定理1.の証明
\(\boldsymbol{f}\)が全微分可能なので、
$$
\left( \exists A\in M(m,n;\mathbb{R})\right)\ {\rm s.t.}\ \lim_{\boldsymbol{h}\to\boldsymbol{0}}\frac{1}{\|\boldsymbol{h}\|}\left( \boldsymbol{f}(\boldsymbol{a}+\boldsymbol{h})-\boldsymbol{f}(\boldsymbol{a})-A\boldsymbol{h}\right)=\boldsymbol{0}
$$
が成り立ちます。
そしてこの\(A\)はヤコビ行列で、新たに\(A=\boldsymbol{f}^\prime(\boldsymbol{a})\)と書くことにします。
ここで、上記の式を1変数実数値関数の微分のときと同様に書き換えると
$$
\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{1}{\|\boldsymbol{x}-\boldsymbol{a}\|}\left( \boldsymbol{f}(\boldsymbol{x})-\boldsymbol{f}(\boldsymbol{a})-\boldsymbol{f}^\prime(\boldsymbol{a})(\boldsymbol{x}-\boldsymbol{a})\right)=\boldsymbol{0}
$$
となります。
さて、このとき
$$
\boldsymbol{\varepsilon}_1(\boldsymbol{x})=\boldsymbol{f}(\boldsymbol{x})-\boldsymbol{f}(\boldsymbol{a})-\boldsymbol{f}^\prime(\boldsymbol{a})(\boldsymbol{x}-\boldsymbol{a})\quad (\boldsymbol{x}\in\Omega)\quad\cdots①
$$
という記号を新たに導入すると、
$$
\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{\varepsilon}_1(\boldsymbol{x})}{\|\boldsymbol{x}-\boldsymbol{a}\|}=\boldsymbol{0}
$$
が成り立っている、ということになります。
同様にして、\(\boldsymbol{g}\)が\(\boldsymbol{b}=\boldsymbol{f}(\boldsymbol{a})\)で全微分可能なので、
$$
\boldsymbol{\varepsilon}_2(\boldsymbol{y})=\boldsymbol{g}(\boldsymbol{y})-\boldsymbol{g}(\boldsymbol{b})-\boldsymbol{g}^\prime(\boldsymbol{b})(\boldsymbol{y}-\boldsymbol{b})\quad (\boldsymbol{y}\in D)\quad\cdots②
$$
としたとき、
$$
\lim_{\boldsymbol{y}\to\boldsymbol{b}}\frac{\boldsymbol{\varepsilon}_2(\boldsymbol{y})}{\|\boldsymbol{y}-\boldsymbol{b}\|}=\boldsymbol{0}
$$
が成り立っています。
さて、②を変形すると
$$
\boldsymbol{g}(\boldsymbol{y})-\boldsymbol{g}(\boldsymbol{b})=\boldsymbol{g}^\prime(\boldsymbol{b})(\boldsymbol{y}-\boldsymbol{b})+\boldsymbol{\varepsilon}_2(\boldsymbol{y})\quad (\boldsymbol{y}\in D)
$$
となるので、この式に\(\boldsymbol{y}=\boldsymbol{f}(\boldsymbol{x})\)を代入して、\(\boldsymbol{b}=\boldsymbol{f}(\boldsymbol{a})\)に注意すると、
\begin{eqnarray}
\left(\boldsymbol{g}\circ\boldsymbol{f}\right)(\boldsymbol{x})-\left( \boldsymbol{g}\circ\boldsymbol{f}\right)(\boldsymbol{a})
&=&\boldsymbol{g}\left( \boldsymbol{f}(\boldsymbol{x})\right)-\boldsymbol{g}\left( \boldsymbol{f}(\boldsymbol{a})\right)\\
&=&\boldsymbol{g}^\prime(\boldsymbol{b})\left( \boldsymbol{f}(\boldsymbol{x})-\boldsymbol{f}(\boldsymbol{a})\right)+\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)\quad(\boldsymbol{x}\in\Omega)
\end{eqnarray}
となります。
この式に①式から得られる
$$
\boldsymbol{f}(\boldsymbol{x})-\boldsymbol{f}(\boldsymbol{a})=\boldsymbol{f}^\prime(\boldsymbol{a})(\boldsymbol{x}-\boldsymbol{a})+\boldsymbol{\varepsilon}_1(\boldsymbol{x})
$$
を代入すると、
\begin{eqnarray}
\left(\boldsymbol{g}\circ\boldsymbol{f}\right)(\boldsymbol{x})-\left( \boldsymbol{g}\circ\boldsymbol{f}\right)(\boldsymbol{a})
&=&\boldsymbol{g}^\prime(\boldsymbol{b})\left( \boldsymbol{f}(\boldsymbol{x})-\boldsymbol{f}(\boldsymbol{a})\right)+\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)\\
&=&
\boldsymbol{g}^\prime(\boldsymbol{b})\left[ \boldsymbol{f}^\prime(\boldsymbol{a})(\boldsymbol{x}-\boldsymbol{a})+\boldsymbol{\varepsilon}_1(\boldsymbol{x})\right]+\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)\\
&=&
\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{f}^\prime(\boldsymbol{a})(\boldsymbol{x}-\boldsymbol{a})+\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{\varepsilon}_1(\boldsymbol{x})+\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)\\
\end{eqnarray}
となります。
故に、
\begin{eqnarray}
\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\left(\boldsymbol{g}\circ\boldsymbol{f}\right)(\boldsymbol{x})-\left( \boldsymbol{g}\circ\boldsymbol{f}\right)(\boldsymbol{a})}{\|\boldsymbol{x}-\boldsymbol{a}\|}&=&\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{f}^\prime(\boldsymbol{a})(\boldsymbol{x}-\boldsymbol{a})+\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{\varepsilon}_1(\boldsymbol{x})+\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)}{\|\boldsymbol{x}-\boldsymbol{a}\|}\\
&=&
\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{f}^\prime(\boldsymbol{a})(\boldsymbol{x}-\boldsymbol{a})}{\|\boldsymbol{x}-\boldsymbol{a}\|}+\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{\varepsilon}_1(\boldsymbol{x})}{\|\boldsymbol{x}-\boldsymbol{a}\|}+\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)}{\|\boldsymbol{x}-\boldsymbol{a}\|}\\
\end{eqnarray}
となるから、
$$
\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{\varepsilon}_1(\boldsymbol{x})}{\|\boldsymbol{x}-\boldsymbol{a}\|}=\boldsymbol{0}\cdots③
$$
かつ
$$
\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)}{\|\boldsymbol{x}-\boldsymbol{a}\|}=\boldsymbol{0}\cdots④
$$
が証明できれば、
$$
\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{f}^\prime(\boldsymbol{a})(\boldsymbol{x}-\boldsymbol{a})}{\|\boldsymbol{x}-\boldsymbol{a}\|}=\boldsymbol{0}
$$
となるので、\(\boldsymbol{g}\circ\boldsymbol{f}\)が\(\boldsymbol{a}\)で全微分可能で\(\left( \boldsymbol{g}\circ\boldsymbol{f}\right)^\prime(\boldsymbol{a})=\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{f}^\prime(\boldsymbol{a})\)が成り立ちます。
③については簡単です。
$$
\left\|\frac{\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{\varepsilon}_1(\boldsymbol{x})}{\|\boldsymbol{x}-\boldsymbol{a}\|}\right\|\leq \|\boldsymbol{g}^\prime(\boldsymbol{b})\|\cdot\frac{\left\|\boldsymbol{\varepsilon}_1(\boldsymbol{x})\right\|}{\|\boldsymbol{x}-\boldsymbol{a}\|}
$$
であり、
$$
\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{\varepsilon}_1(\boldsymbol{x})}{\|\boldsymbol{x}-\boldsymbol{a}\|}=\boldsymbol{0}
$$
だったわけですので、
$$
\|\boldsymbol{g}^\prime(\boldsymbol{b})\|\cdot\frac{\left\|\boldsymbol{\varepsilon}_1(\boldsymbol{x})\right\|}{\|\boldsymbol{x}-\boldsymbol{a}\|}\to\boldsymbol{0}\quad (\boldsymbol{x}\to\boldsymbol{a})
$$
であるから、
$$
\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{g}^\prime(\boldsymbol{b})\boldsymbol{\varepsilon}_1(\boldsymbol{x})}{\|\boldsymbol{x}-\boldsymbol{a}\|}=\boldsymbol{0}\cdots③
$$
が成り立ちます。
一方で、④については少し手間がかかります。
新たな関数\(M\)を
$$
\boldsymbol{M}(\boldsymbol{y})=
\begin{cases}
\displaystyle\frac{\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)}{\|\boldsymbol{x}-\boldsymbol{a}\|}&(\boldsymbol{y}\in D\setminus\{\boldsymbol{b}\})\\
\boldsymbol{0}&(\boldsymbol{y}=\boldsymbol{b})
\end{cases}
$$
で定めます。
このとき、\(\boldsymbol{\varepsilon}_2(\boldsymbol{b})=\boldsymbol{0}\)に注意すると、
$$
\boldsymbol{M}:D\to\mathbb{R}^m,\quad \lim_{\boldsymbol{y}\to\boldsymbol{b}}\boldsymbol{M}(\boldsymbol{y})=\boldsymbol{0},\quad \boldsymbol{\varepsilon}_2(\boldsymbol{y})=\|\boldsymbol{y}-\boldsymbol{b}\|\boldsymbol{M}(\boldsymbol{y})\quad(\boldsymbol{y}\in D)
$$
です。
特に、\(\boldsymbol{y}=\boldsymbol{f}(\boldsymbol{x})\)なので、\(\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)=\left\|\boldsymbol{f}(\boldsymbol{x})-\boldsymbol{b}\right\|\boldsymbol{M}\left( \boldsymbol{f}(\boldsymbol{x})\right)\)です。
さて、
$$
\boldsymbol{f}(\boldsymbol{x})-\boldsymbol{b}=\boldsymbol{f}(\boldsymbol{x})-\boldsymbol{f}(\boldsymbol{a})=\boldsymbol{f}^\prime(\boldsymbol{a})(\boldsymbol{x}-\boldsymbol{a})+\boldsymbol{\varepsilon}_1(\boldsymbol{x})
$$
だったわけですので、
$$
\left\|\boldsymbol{f}(\boldsymbol{x})-\boldsymbol{b}\right\|=\left\|\boldsymbol{f}^\prime(\boldsymbol{a})(\boldsymbol{x}-\boldsymbol{a})+\boldsymbol{\varepsilon}_1(\boldsymbol{x})\right\|\leq\left\|\boldsymbol{f}^\prime(\boldsymbol{a})\right\|\cdot\left\|\boldsymbol{x}-\boldsymbol{a}\right\|+\left\|\boldsymbol{\varepsilon}_1(\boldsymbol{x})\right\|
$$
です。
故に、
\begin{eqnarray}
\frac{\left\|\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)\right\|}{\left\|\boldsymbol{x}-\boldsymbol{a}\right\|}&=&
\frac{\left\|\boldsymbol{f}(\boldsymbol{x})-\boldsymbol{b}\right\|\cdot\left\|\boldsymbol{M}\left( \boldsymbol{f}(\boldsymbol{x})\right)\right\|}{\left\|\boldsymbol{x}-\boldsymbol{a}\right\|}\\
&\leq&\left( \left\|\boldsymbol{f}^\prime(\boldsymbol{a})\right\|+\frac{\left\| \varepsilon_1(\boldsymbol{x})\right\|}{\left\|\boldsymbol{x}-\boldsymbol{a}\right\|}\right)\cdot\left\|\boldsymbol{M}\left( \boldsymbol{f}(\boldsymbol{x})\right)\right\|\\
&\to&\left( \left\|\boldsymbol{f}^\prime(\boldsymbol{a})\right\|+0\right)\cdot0=0\quad (\boldsymbol{x}\to\boldsymbol{a})
\end{eqnarray}
となるから、
$$
\lim_{\boldsymbol{x}\to\boldsymbol{a}}\frac{\boldsymbol{\varepsilon}_2\left( \boldsymbol{f}(\boldsymbol{x})\right)}{\|\boldsymbol{x}-\boldsymbol{a}\|}=\boldsymbol{0}\cdots④
$$
が成り立ちます。
以上のことから、
$$
(\boldsymbol{g}\circ\boldsymbol{f})^\prime(\boldsymbol{a})=\boldsymbol{g}^\prime(\boldsymbol{b})\cdot\boldsymbol{f}^\prime(\boldsymbol{a})
$$
です。
定理1.の証明終わり
読者の皆様のコメントを下さい!
今更なのですが、筆者はこのブログを書くにあたって、記法には結構気を使っているつもりです。
その例としてベクトル値の場合は\(\boldsymbol{a}\)のように必ず太字にするようにしています。
しかしながら、参考書なりは「明らかにベクトルに対する主張である場合はベクトル\(\boldsymbol{a}\)を\(a\)と実数のように書く」みたいなことが結構あります。
なぜそのようにするのか、という実際のところは分かりませんが、「面倒くさいからかなあ」と思っています。
確かに、わざわざ太字にするというのが面倒くさいのは分かりますが、何に対する主張なのか、ということがわかりにくくなってしまいます。
実際筆者の経験でもベクトルに対する主張なのに、実数と同じ記法をされていたがために誤認したことがあります(ちゃんと確認しようね、と言われたらそれまでなんですがね)。
皆さんはどうですか?
数学の記法がゆえで間違った理解をした経験などはありますか?是非コメントで教えて下さい。
(こういう会話もしていきたいなあと思っています。)
余談ですが、\(\displaystyle\int f(x)\ dx\)を\(\displaystyle\int dx f(x)\)と書かれた事があって、「1を積分して、その後\(f(x)\)をかけるのかあ」と誤認していたことが原因でその後の議論が全く分からなかったという経験があります。
「紛らわしいな!この記法は納得いかねえ!」と思ったことがあります。
そういう経験がありましたらぜひコメント欄で教えて下さい!
さて、余談はおいておいて、実際に多変数の合成関数の微分を計算してみましょう!
実際に多変数の合成関数の微分を計算してみましょう!
2つ例を挙げて、実際に計算してみます。
1変数、多変数に限らず、合成関数というのは変数変換の役割があります。
例えば、極座標表示などです。
つまり、\(f(x,y)\)に対して\((x,y)=(r\cos\theta,r\sin\theta)\)としたときに、\((r,\theta)\)に対してどう\(f\)が変化するか、ということを調べるとすると、これはまさに合成関数の微分ということになります。
これについては例3.で説明します。
例2.\(f(x,y)=e^{\sin xy+\cos(x+y)}\)に対して\(u=xy\)、\(v=x+y\)と変数変換したとき、\(\displaystyle\frac{\partial f}{\partial x}\)と\(\displaystyle\frac{\partial f}{\partial y}\)を求めてみます。
まず、\(f(x,y)=e^{\sin xy+\cos(x+y)}=e^{\sin u+\cos v}\)です。
このとき、何を求めたいかというと\(\displaystyle\frac{\partial f}{\partial x}\)と\(\displaystyle\frac{\partial f}{\partial y}\)でした。
定理1.から、
\begin{eqnarray}
\frac{\partial f}{\partial x}&=&\frac{\partial f}{\partial u}\cdot\frac{\partial u}{\partial x}+\frac{\partial f}{\partial v}\cdot\frac{\partial v}{\partial x}\\
\frac{\partial f}{\partial y}&=&\frac{\partial f}{\partial u}\cdot\frac{\partial u}{\partial y}+\frac{\partial f}{\partial v}\cdot\frac{\partial v}{\partial y}\\
\end{eqnarray}
です。
それぞれについて計算してみます。
$$
\frac{\partial f}{\partial u}=\cos u\cdot e^{\sin u+\cos v},\quad \frac{\partial f}{\partial v}=-\sin u\cdot e^{\sin u+\cos v}
$$
です。
これを\(x,y\)を用いて表すと、
$$
\frac{\partial f}{\partial u}=\cos xy\cdot e^{\sin xy+\cos(x+y)},\quad \frac{\partial f}{\partial v}=-\sin xy\cdot e^{\sin xy+\cos(x+y)}
$$
です。
また、
$$
\frac{\partial u}{\partial x}=y,\quad\frac{\partial u}{\partial y}=x,\quad\frac{\partial v}{\partial x}=1,\quad\frac{\partial v}{\partial y}=1
$$
となるわけですので、
\begin{eqnarray}
\frac{\partial f}{\partial x}&=&\frac{\partial f}{\partial u}\cdot\frac{\partial u}{\partial x}+\frac{\partial f}{\partial v}\cdot\frac{\partial v}{\partial x}\\
&=&\cos xy\cdot e^{\sin xy+\cos(x+y)}\cdot y-\sin xy\cdot e^{\sin xy+\cos (x+y)}\cdot1\\
&=&y\cos xy\cdot e^{\sin xy+\cos (x+y)}-\sin xy\cdot e^{\sin xy+\cos(x+y)}\\
&=&(y\cos xy-\sin xy)e^{\sin xy+\cos(x+y)}\\
\\
\frac{\partial f}{\partial y}&=&\frac{\partial f}{\partial u}\cdot\frac{\partial u}{\partial y}+\frac{\partial f}{\partial v}\cdot\frac{\partial v}{\partial y}\\
&=&\cos xy\cdot e^{\sin xy+\cos(x+y)}\cdot x-\sin xy\cdot e^{\sin xy+\cos (x+y)}\cdot1\\
&=&x\cos xy\cdot e^{\sin xy+\cos (x+y)}-\sin xy\cdot e^{\sin xy+\cos(x+y)}\\
&=&(x\cos xy-\sin xy)e^{\sin xy+\cos(x+y)}
\end{eqnarray}
となります。
例3.(極座標変換) 関数の変数をデカルト座標系から極座標に変換する、つまり、関数\(f=f(x,y)\)が与えられたとき
$$
g(r,\theta)=f(x,y),\quad x=r\cos\theta,\quad y=r\sin\theta
$$
で定められる関数\(g\)を考えます。
時として、デカルト座標系で考えるよりも、極座標で考えた方がわかりやすい場合があります(割と結構あると思います)。
このとき、
$$g(r,\theta)=f(r\cos\theta,r\sin\theta)$$
だから、\(g\)は\(\displaystyle\boldsymbol{\varphi}(r,\theta)=
\left(
\begin{array}{c}
r\cos\theta\\
r\sin\theta
\end{array}
\right)\)と\(f\)との合成関数です。
さて、
$$
g_r=f_xx_r+f_yy_r,\quad g_\theta=f_xx_\theta+f_yy_\theta
$$
であり、これは
$$
(g_r\ g_\theta)=
(f_x\ f_y)
\begin{pmatrix}
x_r& x_\theta\\
y_r&y_\theta\\
\end{pmatrix}
$$
と書けるので、たしかに\(\left( f\circ \boldsymbol{\varphi}\right)^\prime=f^\prime\boldsymbol{\varphi}^\prime\)が成り立っています。
さて、
$$
x_r=\cos\theta,\quad y_r=\sin\theta,\quad x_\theta=-r\sin\theta,\quad y_\theta=r\cos\theta
$$
ですので、
$$
g_r=f_x\cos\theta+f_y\sin\theta,\quad g_\theta=-f_xr\sin\theta+f_yr\cos\theta
$$
となります。
多変数の逆関数の微分
まずは、1変数の場合を復習しましょう。
1変数の逆関数の微分の復習
1変数の逆関数の微分は以下でした。
この事実の証明は【解析学の基礎シリーズ】1変数実数値関数の微分編 その4を御覧ください。
多変数の場合についても似たようなことが成り立ちます。
ただ、多変数の場合、全微分係数が行列の形をしていたので、1変数のときのように単なる逆数ではなく逆行列になります。
多変数の逆関数の微分
では、主張を明示します。
定理4.(多変数の逆関数の微分法)
\(U\)と\(V\)は\(\mathbb{R}^n\)の開集合で、\(\boldsymbol{\varphi}:U\to V\)は全単射、\(\boldsymbol{a}\in U\)、\(\boldsymbol{b}=\boldsymbol{\varphi}(\boldsymbol{a})\)は\(\boldsymbol{a}\)で、\(\boldsymbol{\varphi}^{-1}\)は\(\boldsymbol{b}\)で全微分可能であるならば、 $$ \left( \varphi^{-1}\right)(\boldsymbol{b})=\left(\boldsymbol{\varphi}^\prime(\boldsymbol{a}) \right)^{-1} $$ である。ただし、左辺の\(^{-1}\)は逆関数を表し、右辺の\(^{-1}\)は逆行列を表している。先程述べたように、逆行列を使っています。
つまり、多変数の逆関数の微分というのは行列なのです。
勿論、扱う関数によってはスカラーになったりもします。
実は、この記事では述べませんが、この逆関数の微分を厳密に語るには少し準備が必要です。
というのもこの定理4.の主張は「微分可能な逆関数が存在している」ということを仮定しているためです。
これが保証されるのは逆関数定理という大定理があるからなのですが、それは後の記事で解説します。
多変数の逆関数の微分の証明は合成関数に比べて至ってシンプルです。
定理4.の証明
\(\boldsymbol{\varphi}^{-1}\)は\(\varphi\)の逆関数なのだから、
$$
\boldsymbol{\varphi}^{-1}\left( \boldsymbol{\varphi}(\boldsymbol{x})\right)=\boldsymbol{x}\quad(\boldsymbol{x}\in U)
$$
が成り立っています。
\(\boldsymbol{\varphi}\)は\(\boldsymbol{a}\)で、\(\boldsymbol{\varphi}^{-1}\)は\(\boldsymbol{b}=\boldsymbol{\varphi}(\boldsymbol{a})\)で全微分可能ですので、定理1.(多変数の合成関数の微分)により、
が成り立ちます。
実際、\(\displaystyle\boldsymbol{\psi}=
\left(
\begin{array}{c}
\psi_1\\
\vdots\\
\psi_n
\end{array}
\right)\)として\(\psi(\boldsymbol{x})=\boldsymbol{x}\)とすれば、\(\psi_i(\boldsymbol{x})=x_i\ (i=1,\dots,n)\)で、
$$
\frac{\partial \psi_i}{\partial x_j}(\boldsymbol{x})=\frac{\partial }{\partial x_j}x_i=
\begin{cases}
1&(i=j)\\
0&(i\neq j)
\end{cases}
$$
で、\(\displaystyle\boldsymbol{\psi}^\prime(\boldsymbol{x})=\left( \frac{\partial \psi_i}{\partial x_j}\right)\)だったわけですので、
$$
\boldsymbol{\psi}^\prime(\boldsymbol{x})=\left( \frac{\partial \psi_i}{\partial x_j}\right)=\left( \delta_{ij}\right)=I_n
$$
(ただし、\(\delta_{ij}\)はクロネッカーのデルタです)となります。
同様にして、\(\boldsymbol{\varphi}\)は全単射なのだから
$$
\boldsymbol{\varphi}\left(\boldsymbol{\varphi}^{-1}(\boldsymbol{x})\right)=\boldsymbol{x}\quad(\boldsymbol{x}\in U)
$$
で、
$$
\boldsymbol{\varphi}(\boldsymbol{a})\cdot \left( \boldsymbol{\varphi}^{-1}\right)^\prime(\boldsymbol{b})=I_n
$$
が導けます。
故に、\(\boldsymbol{\varphi}^\prime(\boldsymbol{a})\)は\(\left( \boldsymbol{\varphi}^{-1}\right)^\prime(\boldsymbol{b})\)の逆行列です。
従って、
$$
\left( \varphi^{-1}\right)(\boldsymbol{b})=\left(\boldsymbol{\varphi}^\prime(\boldsymbol{a}) \right)^{-1}
$$
が成り立ちます。
定理4.の証明終わり
読者の皆様のコメントを下さい!
さて、ここでちょっと余談を。
数学では「あれ?解析の話をしていたのにいきなり線型代数の話が出てきたな?」ということがよくあります。
何が言いたいかというと、ある数学の問題を解こうとしたときに、その問題の範疇の外のコンセプトを使うことがあります。
先程の多変数の逆関数の微分の例でいくと逆行列の話が出てきます。
そもそもヤコビ行列の時点で行列の話が出現しているわけですけれども(笑)
筆者の場合、修士のときにとある整数の集合をグループ分けしようとしていたとき、包含排除の原理というものに出会いました。
「今まで集合と整数の話をしていたのにいきなりなんかよくわからないモノが出てきたな?」と思ったのですが、実は包含排除の原理は組合せ論でよく出現する原理だそうで、個人的に「ああ、数学って分野は色々あるけど繋がってるんだなあ」と割と感動しました。
皆さんも数学に限らず、そういう経験はありますか?
「これはここでも使うのか!なるほど!」という経験がありましたら、ぜひコメントで教えて下さい!
このブログを読んでいただいている方と数学以外でも是非お話したいです。
さて、脱線しましたが、多変数逆関数の微分を実際に計算してみましょう!
実際に多変数の逆関数の微分を計算してみましょう!
例5.(極座標変換の逆変換のヤコビ行列)(めっちゃ重要!)
\(\displaystyle\boldsymbol{\varphi}:(0,\infty)\times(0,2\pi)\ni
\left(
\begin{array}{c}
r\\
\theta
\end{array}
\right)\mapsto
\left(
\begin{array}{c}
x\\
y
\end{array}
\right)=
\left(
\begin{array}{c}
r\cos\theta\\
r\sin\theta
\end{array}
\right)\in\mathbb{R}^2\setminus\{(x,0)|x\in[0,\infty)\}
\)とします。
このとき、\(r\)も\(\sin\theta\)も\(\cos\theta\)も\(C^\infty\)級ですので、\(\boldsymbol{\varphi}\)は\(C^1\)級です。
故に、全微分可能です。
ちなみに、次の事実を使いました。
定理6.
\(\Omega\)は\(\mathbb{R}^n\)の開集合、\(\boldsymbol{f}:\Omega\to\mathbb{R}^m\)はすべての変数\(x_j\)に対して\(\Omega\)で偏微分可能で、偏導関数\(\displaystyle\frac{\partial \boldsymbol{f}}{\partial x_j}:\Omega\to\mathbb{R}^m\)は連続だとする。このとき、\(\boldsymbol{f}\)は\(\Omega\)で全微分可能である。この定理2.の証明は【解析学の基礎シリーズ】偏微分編 その3を御覧ください。
さて、\(\boldsymbol{\varphi}\)が全微分可能だということですので、
$$
\boldsymbol{\varphi}^\prime(r,\theta)=
\begin{pmatrix}
x_r&x_\theta\\
y_r&y_\theta\\
\end{pmatrix}=
\begin{pmatrix}
\cos\theta&-r\sin\theta\\
\sin\theta&r\cos\theta\\
\end{pmatrix}
$$
です。
多変数の逆関数の微分法によって\(\displaystyle
\left(
\begin{array}{c}
r\\
\theta
\end{array}
\right)=\boldsymbol{\varphi}^{-1}(x,y)\)の全微分係数は
\begin{eqnarray}
\begin{pmatrix}
r_x&r_y\\
\theta_x&\theta_y\\
\end{pmatrix}&=&
\left( \boldsymbol{\varphi}^{-1}\right)^\prime(x,y)\\
&=&\boldsymbol{\varphi}^\prime(r,\theta)^{-1}\\
&=&
\begin{pmatrix}
x_r&x_\theta\\
y_r&y_\theta\\
\end{pmatrix}^{-1}\\
&=&
\begin{pmatrix}
\cos\theta&-r\sin\theta\\
\sin\theta&r\cos\theta\\
\end{pmatrix}^{-1}\\
&=&
\frac{1}{\cos\theta\cdot r\cos\theta-(-r\sin\theta)\sin\theta}
\begin{pmatrix}
r\cos\theta&r\sin\theta\\
-\sin\theta&\cos\theta\\
\end{pmatrix}\\
&=&
\begin{pmatrix}
\cos\theta&\sin\theta\\
\displaystyle-\frac{\sin\theta}{r}&\displaystyle\frac{\cos\theta}{r}\\
\end{pmatrix}
\end{eqnarray}
となります。
故に、
$$
r_x=\cos\theta,\quad r_y=\sin\theta,\quad \theta_x=-\frac{\sin\theta}{r},\quad \theta_y=\frac{\cos\theta}{r}
$$
です。
例6. \(\displaystyle\boldsymbol{\varphi}:\mathbb{R}_{>0}^2\ni
\left(
\begin{array}{c}
u\\
v
\end{array}
\right)\mapsto
\left(
\begin{array}{c}
x\\
y
\end{array}
\right)=
\left(
\begin{array}{c}
u^2+v^2\\
-u+v
\end{array}
\right)\in\mathbb{R}^2\setminus\{(x,0)|x\in[0,\infty)\}
\)とします。
このとき、\(u^2+v^2\)も\(-u+v\)も\(C^\infty\)級ですので、\(\boldsymbol{\varphi}\)は\(C^1\)級です。
故に、全微分可能です。
$$
\boldsymbol{\varphi}^\prime(u,v)=
\begin{pmatrix}
x_u&x_v\\
y_u&y_v\\
\end{pmatrix}=
\begin{pmatrix}
2u&2v\\
-1&1
\end{pmatrix}
$$
です。
多変数の逆関数の微分法によって\(\displaystyle
\left(
\begin{array}{c}
u\\
v
\end{array}
\right)=\boldsymbol{\varphi}^{-1}(x,y)\)の全微分係数は
\begin{eqnarray}
\begin{pmatrix}
u_x&u_y\\
v_x&v_y\\
\end{pmatrix}&=&
\left( \boldsymbol{\varphi}^{-1}\right)^\prime(x,y)\\
&=&\boldsymbol{\varphi}^\prime(u,v)^{-1}\\
&=&
\begin{pmatrix}
x_u&x_v\\
y_u&y_v\\
\end{pmatrix}^{-1}\\
&=&
\begin{pmatrix}
2u&2v\\
-1&1
\end{pmatrix}^{-1}\\
&=&
\frac{1}{2u+2v}
\begin{pmatrix}
1&-2v\\
1&2u
\end{pmatrix}\\
&=&
\begin{pmatrix}
\displaystyle\frac{1}{2u+2v}&\displaystyle\frac{-2v}{2u+2v}\\
\displaystyle\frac{1}{2u+2v}&\displaystyle\frac{2u}{2u+2v}
\end{pmatrix}
\end{eqnarray}
となります。
故に、
$$
u_x=\frac{1}{2u+2v},\quad u_y=-\frac{2v}{2u+2v},\quad v_x=\frac{1}{2u+2v},\quad v_y=\frac{2u}{2u+2v}
$$
です。
結
今回は多変数の合成関数の微分と多変数の逆関数の微分について解説しました。
形式的には1変数の場合となんら変わりませんでしたが、多変数の場合は行列が出現する、ということが大きな違いです。
特に逆関数の微分については、1変数の場合が逆数だったのに対して多変数では逆行列になります。
次回は多変数の平均値の定理について解説します。
質問、コメントなどお待ちしております!
どんな些細なことでも構いませんし、「定理〇〇の△△が分からない!」などいただければ全てお答えします!
お問い合わせの内容にもよりますが、ご質問はおおよそ3日以内にお答えします。
もし直ちに回答が欲しければその旨もコメントでお知らせください。直ちに対応いたします。
Twitterでもリプ、DM問わず質問、コメントを大募集しております!
コメントは下記コメント欄から投稿でき、Twitterは右のサイドバーからフォローできます!
※本文中に皆様のご意見を求めましたが、それについてのコメントもお待ちしております。
コメントをする