スポンサーリンク

「合成関数の微分法」【解析学の基礎シリーズ】1変数実数値関数の微分編 その3

微分法

本記事の内容

本記事は合成関数の微分法について説明し、証明する記事です。
また、なぜ合成関数の微分法について考えないといけないのか、その1例を簡単にではありますが説明します。

本記事を読むにあたり、微分係数、導関数について知っている必要があるため、その際は以下の記事を参照してください。

合成関数の微分法に入る前に…

伏線を張っておくと、合成関数の微分法は至るところで使われます。
もはや呼吸をするかの如く使います。

平たく言えば、微分法というのは「ある瞬間の変化量に着目した分野」です。
例えば、簡単な例ですが、距離を微分すると速度になります。
というのも、速度とは単位時間(1秒やら1分やら1時間やら)あたりに進む距離のことを指すからです。
距離を微分すると、「ある瞬間に進む距離」となりますので、これはまさに速度です。

この速度の例のように簡単な現象もありますが、大抵の現象はそうもいきません。
複雑な現象には複雑な関数が出現して、その関数のある瞬間の変化量を知りたい場合がほとんどです。
この複雑な関数というのは、本当に複雑で怪奇な関数もありますが、初等関数の合成関数の場合もあります。
こういうときに合成関数の微分法を使って、ある瞬間の変化量を調べることで現象を理解しよう、というわけです。

サラッと(本当にサラッと)ですが、機械学習でも合成関数の微分法が出現するため、最後にちょっとだけ述べます。

合成関数の微分法の明示

では、合成関数の微分法を明示しましょう。

合成関数の微分法 \(I,\ J\subset\mathbb{R}\)を\(\mathbb{R}\)の開区間、\(f:I\to\mathbb{R},\ g:J\to\mathbb{R}\)とする。このとき、\(f(I)\subset J\)とする。 \(f\)が\(a\in I\)で微分可能であり、\(g\)が\(b=f(a)\)で微分可能なとき、合成関数\(g\circ f\)は\(a\)で微分可能である。 さらに、 $$(g\circ f)^\prime(a)=g^\prime(b)f^\prime(a)$$ が成り立つ。

今回は、合成関数の微分法をよくある手法で証明します。
他にも集積点という言葉を使った証明(個人的にちょっと難しい)もあります。

証明の前に

事実としては高校数学で出現しましたが、厳密な証明は与えられなかったはずです。
そもそも微分は極限の概念を用いて記述されていて、その極限が高校数学では厳密では有りませんので、極限を使って表現している微分も厳密ではありません。

厳密に証明を与えるために、「微分可能ならば連続」について述べます。

微分可能ならば連続

ある点で微分可能な関数は、その点で連続だ、ということです。

補題1. \(I\subset\in\mathbb{R}\)、\(f:I\to\mathbb{R}\)とする。このとき、\(f\)が\(x_0\in I\)で微分可能ならば、\(f\)は\(x_0\)で連続である。

補題1.の証明

簡単です。
示したいことは、\(\displaystyle\lim_{x\to x_0}f(x)=f(x_0)\)です。
$$
\lim_{x\to x_0}f(x)=\lim_{x\to x_0}\left( f(x_0)+(x-x_0)\cdot\frac{f(x)-f(x_0)}{x-x_0} \right)
$$
です。
ここで、\(x\to x_0\)のとき、\(f(x_0)\to f(x_0)\)、\(x-x_0\to 0\)です。
さらに、\(f\)は\(x_0\)で微分可能ですので、\(\displaystyle c=\lim_{x\to x_0}\frac{f(x)-f(x_0)}{x-x_0}\)という\(c\in \mathbb{R}\)が存在します(要は、収束します)。
故に「収束する関数の和の極限は極限の和」、「収束する関数の積の極限は極限の積」という事実(証明は【解析学の基礎シリーズ】関数の極限編 その3を御覧ください)が使えます。
この事実を使えば、
\begin{eqnarray}
\lim_{x\to x_0}f(x)&=&\lim_{x\to x_0}\left( f(x_0)+(x-x_0)\cdot\frac{f(x)-f(x_0)}{x-x_0} \right)\\
&=&\lim_{x\to x_0}f(x_0)+\left(\lim_{x\to x_0}(x-x_0)\right)\cdot \lim_{x\to x_0}\frac{f(x)-f(x_0)}{x-x_0}\\
&=&\lim_{x\to x_0}f(x_0)+0\cdot c\\
&=&f(x_0)
\end{eqnarray}
となり、連続です。

補題1.の証明終わり

これで準備が整いました。
では、合成関数の微分法の証明をしましょう。

いざ、合成関数の微分法の証明

証明の前に、まずは誠に乱暴な説明をします。

\(y\)と\(b\)が十分近く、\(x\)と\(a\)が十分近ければ、(この時点で直感的だネ)
\begin{eqnarray}
g^\prime(b)\fallingdotseq\frac{g(y)-g(b)}{y-b},\quad f^\prime(a)\fallingdotseq\frac{y-b}{x-a}
\end{eqnarray}
ですので、
$$
g(y)-g(b)\fallingdotseq g^\prime(b) (y-b),\quad y-b\fallingdotseq f^\prime(b) (x-a)
$$
です。
従って、
$$
g(y)-g(b)=g^\prime(b)f^\prime(a)(x-a)
$$
ですから、
$$
g^\prime(b)f^\prime(a)=\frac{g(y)-g(b)}{x-a}
$$
です。
故に、
$$(g\circ f)^\prime(a)=g^\prime(b)f^\prime(a)$$です。

これを精密にやろうぜ、ということがこの節です。

合成関数の微分法の証明

\(y=f(x)\)、\(z=g(y)\)と書いたとしましょう。

関数\(f\)が\(a\)で微分可能なので、
$$(1)\qquad\epsilon_1(x)=f(x)-f(a)-f^\prime(a)(x-a),\quad (x\in I)$$
で\(\epsilon_1(x)\)を定めると、
$$
\lim_{x\to a}\frac{\epsilon_1(x)}{|x-a|}=0
$$
です。
すなわち、
$$(\forall \hat{\epsilon}>0)\ (\exists \hat{\delta}>0)\ {\rm s.t.}\ \left(\forall x\in I :0<|x-a|<\hat{\delta}\Rightarrow\left|\frac{\epsilon_1(x)}{x-a}\right|<\hat{\epsilon}\right)$$
です。

同様に、\(g\)も\(b\)で微分可能ですので、
$$\epsilon_2(x)=g(y)-g(b)-g^\prime(b)(y-b),\quad (y\in J)$$
で\(\epsilon_1(x)\)を定めると、
$$
\lim_{x\to a}\frac{\epsilon_2(x)}{|y-b|}=0\cdots③
$$
です。
すなわち、
$$(\forall \hat{\epsilon}^\prime>0)\ (\exists \hat{\delta}^\prime>0)\ {\rm s.t.}\ \left(\forall y\in J :0<|y-b|<\hat{\delta}^\prime\Rightarrow\left|\frac{\epsilon_2(x)}{y-b}\right|<\hat{\epsilon}^\prime\right)$$
です。

\(y=f(x)\)、\(b=f(a)\)ですので、(1)により、
$$
y-b=f^\prime(a)(x-a)+\epsilon_1(x)
$$
です。
従って、\(b=f(a)\)に注意すると、
\begin{eqnarray}
(g\circ f)(x)&=&g(f(x))\\
&=&g(y)\\
&=&g(b)+g^\prime(b)(y-b)+\epsilon_2(y)\\
&=&g(f(a))+g^\prime(b)\{f(a)+f^\prime(a)(x-a)+\epsilon_1(x)-b\}+\epsilon_2(f(x))\\
&=&g(f(a))+g^\prime(b)\{f^\prime(a)(x-a)+\epsilon_1(x)-b\}+\epsilon_2(f(x))\\
&=&g(f(a))+g^\prime(b)f^\prime(a)(x-a)+g^\prime(b)\epsilon_1(x)-b+\epsilon_2(f(x))\cdots②\\
\end{eqnarray}

②を変形してみると、
\begin{eqnarray}
②&\Leftrightarrow& (g\circ f)(x)-(g\circ f)(a)=g^\prime(b)f^\prime(a)(x-a)+g^\prime(b)\epsilon_1(x)+\epsilon_2(f(x))\\
&\Leftrightarrow&\frac{(g\circ f)(x)-(g\circ f)(a)}{x-a}=g^\prime(b)f^\prime(a)+\frac{g^\prime(b)\epsilon_1(x)}{x-a}+\frac{\epsilon_2(f(x))}{x-a}
\end{eqnarray}
です。
従って、
$$
\lim_{x\to a}\frac{g^\prime(b)\epsilon_1(x)}{x-a}=\lim_{x\to 0}\frac{\epsilon_2(f(x))}{x-a}=0
$$
であれば、証明完了です。

個々でちょっと一息。

では、\(\displaystyle\lim_{x\to a}\frac{g^\prime(b)\epsilon_1(x)}{x-a}\)について考えてみましょう。
$$
\left|\frac{g^\prime(b)\epsilon_1(x)}{x-a}\right|\leq |g^\prime(b)|\cdot \frac{|\epsilon_1(x)|}{|x-a|}
$$
です。
ここで、\(\displaystyle\lim_{x\to a}\frac{\epsilon_1(x)}{|x-a|}=0\)でしたので、
$$
\lim_{x\to a}\frac{g^\prime(b)\epsilon_1(x)}{x-a}=0
$$
です。

続いて、\(\displaystyle\lim_{x\to 0}\frac{\epsilon_2(f(x))}{x-a}\)について考えてみましょう。
\begin{eqnarray}
M(y)=\begin{cases}
\displaystyle\frac{|\epsilon_2(y)|}{|y-b|} & (y\neq b)\\
0 & (y=b)
\end{cases}
\end{eqnarray}
とします。
\(\epsilon_2(b)=0\)に注意すると、
$$
|\epsilon_2(y)|=|y-b|\cdot M(y)
$$
です。
また、③により、\(\displaystyle\lim_{x\to a}M(y)=0\)が成り立ちます。
ここで、ある点で微分可能であればその点で連続ですので、\(x\to a\)のときに\(f(x)\to f(a)=b\)に注意すれば、\(\displaystyle0=\lim_{x\to a}M(y)=\lim_{x\to a}M(f(x))\)です。

さて、(1)により、
\begin{eqnarray}
|f(x)-b|&=&|f^\prime(a)(x-a)+\epsilon_1(x)|\\
&\leq&|f^\prime(a)(x-a)|+|\epsilon_1(x)|\\
&\leq&|f^\prime(a)|\cdot|x-a|+|\epsilon_1(x)|
\end{eqnarray}
です。

また、\(\displaystyle\lim_{x\to a}\frac{\epsilon_1(x)}{|x-a|}=0\)により、\(0<|x-a|<\hat{\delta}\)を満たす任意の\(x\in I\)に対しては\(\displaystyle\left|\frac{\epsilon_1(x)}{x-a}\right|<\hat{\epsilon}\)が成り立っています。
この\(\hat{\epsilon}>0\)は任意なので、\(\hat{\epsilon}=1\)でも成り立ちます。
従って、\(0<|x-a|<\hat{\delta}\)を満たす任意の\(x\in I\)に対しては\(\displaystyle\left|\frac{\epsilon_1(x)}{x-a}\right|<1\)が成り立っています。
故に、\(|\epsilon_1(x)|\leq|x-a|\)が成り立っているので、
$$
|f(b)-b|\leq (|f^\prime(a)|+1)\cdot|x-a|
$$
です。
従って、
$$
\frac{|\epsilon_2(f(x))|}{x-a}=\frac{f(x)-b}{x-a}\cdot M(f(x))\leq (|f(a)|+1)\cdot M(f(x))
$$
となります。
\(\displaystyle\lim_{x\to a}M(f(x))=0\)を思い出すと、
$$
\lim_{x\to a}\frac{|\epsilon_2(f(x))|}{x-a}=0
$$
です。

以上のことから、
$$
\lim_{x\to a}\frac{g^\prime(b)\epsilon_1(x)}{x-a}=\lim_{x\to 0}\frac{\epsilon_2(f(x))}{x-a}=0
$$
ですので、
$$(g\circ f)^\prime(a)=g^\prime(b)f^\prime(a)$$
です。

合成関数の微分法の証明終わり

本当に成り立つのかネ?

成り立ちます。
簡単な例を挙げます。

例. \(h:(0,2)\to\mathbb{R}\)が\(h(x)=(2x+3)^4\)で定められているとします。
このとき\(h^\prime(1)\)を考えます。

\begin{eqnarray}
h^\prime(x)=\left((2x+3)^4\right)^\prime&=&\left(16x^4+144x^2+81+96x^3+216x+72x^2\right)^\prime\\
&=&64x^3+288x+288x^2+216+144x
\end{eqnarray}
により、\(h^\prime(1)=1000\)です。

一方、\(h\)は\(f(x)=2x+3\)、\(g(x)=x^4\)の合成関数なので、
$$
h^\prime(x)=(g\circ f)^\prime(x)=g^\prime(2x+3)\cdot f^\prime(x)=4(2x+3)^3\cdot 2
$$
です。
従って、\(h^\prime(1)=(g\circ f)^\prime(1)=1000\)です。

合成関数の微分法の応用例(本当にサラッと)

いきなり機械学習の話というのも妙ですが、サラッとお話します。
(本当にサラッとです。)

機械学習は基本的に、正解データの誤差をどんどん小さくしたいので、誤差がどんどん小さくなるようにネットワークのパラメータを更新していきます。
正解データとの誤差が小さければ”基本的には”良いネットワークということになります。
これを目指してネットワークを作っていくわけです。

このネットワークの形のイメージはこんな感じです。

このように沢山の階層に分かれています。
つまり、ある階層に値が入力されたらば、その階層に対応する計算をして、その計算結果がその階層の計算結果として出力されます。
その出力された値が次の階層の入力値となり…ということを繰り返します。
これはまさに合成関数です。

その誤差を考えようというわけですので、誤差も色々な関数の合成関数です(平たくいえばネ)。
この誤差をどんどん小さくしたいわけですので、誤差の変化量が負であるような方向に値を更新したいわけです。
従って、関数としてどういう形か、どの方向が変化量が負なのか、ということを知るために誤差の関数を微分します。
誤差の関数は合成関数だ、と述べましたので、ここで合成関数の微分が使われます。

※筆者もまだ勉強中なので、間違っているかもしれませんが、イメージとしてそんなもんだと思います。

今回は合成関数の微分法について解説しました。
高校数学で証明っぽいものは見かけたかもしれませんが、そもそも高校数学では極限が厳密に議論されていないため、極限を用いて議論される微分についても厳密な議論はされていません。

数式としては知っていることも、真面目に証明しようと思うと骨が折れますね。

次回は逆関数の微分法について解説します。

乞うご期待!質問、コメントなどお待ちしております!

コメントをする