$\hvp$は微分可能で,$x_1\in B(x_0,\tau_1)$に対して,
$$\nabla\hvp(x_1)=f_y(x_1,\hvp(x_1))^{-1}f_x(x_1,\hvp(x_1))$$と表せる.
$f$の連続微分可能性を仮定していたので,任意の$x_1\in B[x_0,\tau_1]$に対して,ある$\delta_{x_1}>0$が存在して,任意の$ x\in B[x_1,\delta_{x_1}]\cap B[x_0,\tau_1]$に対して,$f_y(x,\hvp(x))$も可逆になる.
(実際,$f$の連続微分可能性を用いて,$\norm{f_y(x,\hvp(x))-f_y(x_1,\hvp(x_1))}\leq (2\norm{f_y(x_1,\hvp(x_1))^{-1}})^{-1}$となるように$\delta_{x_1}>0$を決めてやればよい.)
$f$は微分可能だから,ある$\delta>0$が存在して,任意の$x\in B[x_1,\delta]$に対して
$\frac{\norm{\epsilon(x,\hvp(x))}}{\norm{x-x_1}+\norm{\hvp(x)-\hvp(x_1)}}\leq\frac{1}{2\norm{f_y(x_1,\hvp(x_1))^{-1}}}$つまり$\norm{\epsilon(x,\hvp(x))}\leq\frac{\norm{x-x_1}+\norm{\hvp(x)-\hvp(x_1)}}{2\norm{f_y(x_1,\hvp(x_1))^{-1}}}$
が成立するようにできる.
また$x\in B[x_1,\delta_{x_1}']$となるどんな$x\in B[x_0,\tau_1]$に対しても,
$\frac{\norm{\epsilon(x,\hvp(x))}}{\norm{x-x_1}+\norm{\hvp(x)-\hvp(x_1)}}\leq\frac{\epsilon_{x_1}}{2\norm{f_y(x_1,\hvp(x_1))^{-1}}(\norm{f_y(x_1,\hvp(x_1))^{-1}}\norm{f_x(x_1,\hvp(x_1))}+1)}$が成り立つように$\delta_{x_1}'>0$をとってくる.
\begin{align}
f(x,\hvp(x))&=0\\
&=f(x_1,\hvp(x_1))+f_x(x_1,\hvp(x_1))(x-x_1)+f_y(x_1,\hvp(x_1))(\hvp(x)-\hvp(x_1))+\epsilon(x,\hvp(x))\\
&=f_x(x_1,\hvp(x_1))(x-x_1)+f_y(x_1,\hvp(x_1))(\hvp(x)-\hvp(x_1))+\epsilon(x,\hvp(x))
\end{align}
$f_y(x_1,\hvp(x_1))^{-1}f_x(x_1,\hvp(x_1))(x-x_1)+(\hvp(x)-\hvp(x_1))+f_y(x_1,\hvp(x_1))^{-1}\epsilon(x,\hvp(x))=0$より,$\delta':=\min\{\delta,\delta_{x_1},\delta_{x_1}'\}$として,任意の$x\in B[x_1,\delta']$に対して
\begin{align}
-(\hvp(x)-\hvp(x_1))&=f_y(x_1,\hvp(x_1))^{-1}f_x(x_1,\hvp(x_1))(x-x_1)+f_y(x_1,\hvp(x_1))^{-1}\epsilon(x,\hvp(x))\\
\norm{\hvp(x)-\hvp(x_1)}&=\norm{f_y(x_1,\hvp(x_1))^{-1}f_x(x_1,\hvp(x_1))(x-x_1)+f_y(x_1,\hvp(x_1))^{-1}\epsilon(x,\hvp(x))}\\
&\leq \norm{f_y(x_1,\hvp(x_1))^{-1}}\norm{f_x(x_1,\hvp(x_1))}\norm{x-x_1}+\norm{f_y(x_1,\hvp(x_1))^{-1}}\norm{\epsilon(x,\hvp(x))}\\
&\leq \norm{f_y(x_1,\hvp(x_1))^{-1}}\norm{f_x(x_1,\hvp(x_1))}\norm{x-x_1}+\frac{1}{2}(\norm{x-x_1}+\norm{\hvp(x)-\hvp(x_1)})\\
\end{align}
\begin{align}
\frac{\norm{\hvp(x)-\hvp(x_1)}}{2}&\leq\norm{f_y(x_1,\hvp(x_1))^{-1}}\norm{f_x(x_1,\hvp(x_1))}\norm{x-x_1}+\frac{\norm{x-x_1}}{2}\\
\norm{\hvp(x)-\hvp(x_1)}&\leq(2\norm{f_y(x_1,\hvp(x_1))^{-1}}\norm{f_x(x_1,\hvp(x_1))}+1)\cdot\norm{x-x_1}\\
\end{align}
後で使うので
$\norm{x-x_1}+\norm{\hvp(x)-\hvp(x_1)}\leq 2(\norm{f_y(x_1,\hvp(x_1))^{-1}}\norm{f_x(x_1,\hvp(x_1))}+1)\cdot\norm{x-x_1}$
も記述しておく.
$f_y(x_1,\hvp(x_1))^{-1}f_x(x_1,\hvp(x_1))(x-x_1)+(\hvp(x)-\hvp(x_1))=-f_y(x_1,\hvp(x_1))^{-1}\epsilon(x,\hvp(x))$を用いて,
\begin{align} &\frac{\norm{\hvp(x)-\hvp(x_1)+f_y(x_1,\hvp(x_1))^{-1}f_x(x_1,\hvp(x_1))(x-x_1)}}{\norm{x-x_1}}\\ &\leq\frac{\norm{f_y(x_1,\hvp(x_1))^{-1}}\norm{\epsilon(x,\hvp(x))}}{\norm{x-x_1}}\\ &=\norm{f_y(x_1,\hvp(x_1))^{-1}}\frac{\norm{x-x_1}+\norm{\hvp(x)-\hvp(x_1)}}{\norm{x-x_1}}\frac{\norm{\epsilon(x,\hvp(x))}}{\norm{x-x_1}+\norm{\hvp(x)-\hvp(x_1)}}\\ &\leq \norm{f_y(x_1,\hvp(x_1))^{-1}}\cdot 2(\norm{f_y(x_1,\hvp(x_1))^{-1}}\norm{f_x(x_1,\hvp(x_1))}+1)\frac{\norm{\epsilon(x,\hvp(x))}}{\norm{x-x_1}+\norm{\hvp(x)-\hvp(x_1)}}. \end{align}
$x\in B[x_1,\delta']\subset B[x_1,\delta_{x_1}']$なので,$\delta_{x_1}'>0$の定め方より,
$$\frac{\norm{\hvp(x)-\hvp(x_1)+f_y(x_1,\hvp(x_1))^{-1}f_x(x_1,\hvp(x_1))(x-x_1)}}{\norm{x-x_1}}\leq\epsilon_{x_1}$$
が求まる.$\epsilon_{x_1}$は任意の正数であったから,これは$x_1$で$\hvp$が微分可能で$\nabla\hvp(x_1)=f_y(x_1,\hvp(x_1))^{-1}f_x(x_1,\hvp(x_1))$であるということを示している.$\square$
以上で,定理1の証明が完了した.敢えて$\epsilon$-$\delta$論法を多用したのは,自分の中でこの定理をしっかり証明したいという思いがあってのことである.