$i = 1, 2, \cdots, N$ について \begin{align} e_i &= y_i - \hat{y}_i \\ &= y_i - \boldsymbol{\beta}^T \boldsymbol{x}_i \\ &= y_i - \boldsymbol{x}_i^T \boldsymbol{\beta} \end{align} なので、 \begin{align} \begin{bmatrix} e_1 \\ e_2 \\ \vdots \\ e_N \end{bmatrix} &= \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{bmatrix} - \begin{bmatrix} \boldsymbol{x}_1^T \\ \boldsymbol{x}_2^T \\ \vdots \\ \boldsymbol{x}_N^T \end{bmatrix} \boldsymbol{\beta} \\ &= \boldsymbol{y} - \boldsymbol{X} \boldsymbol{\beta} \end{align} であるから、 \begin{align} E &= \sum_{i=1}^N e_i^2 \\ &= \begin{bmatrix} e_1 & e_2 & \cdots & e_N \end{bmatrix} \begin{bmatrix} e_1 \\ e_2 \\ \vdots \\ e_N \end{bmatrix} \\ &= \left( \boldsymbol{y} - \boldsymbol{X} \boldsymbol{\beta} \right)^T \left( \boldsymbol{y} - \boldsymbol{X} \boldsymbol{\beta} \right) \end{align} と書ける。
$E \geq 0$ であり、 $E$ は $\boldsymbol{\beta}$ の2次形式であるから、 $E$ を最小化する $\boldsymbol{\beta}$ の満たすべき必要十分条件は \begin{align} \boldsymbol{0} &= \frac{\partial E}{\partial \boldsymbol{\beta}} \\ &= \frac{\partial}{\partial \boldsymbol{\beta}} \left( \boldsymbol{y}^T \boldsymbol{y} - 2 \boldsymbol{y}^T \boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{\beta}^T \boldsymbol{X}^T \boldsymbol{X} \boldsymbol{\beta} \right) \\ &= -2 \boldsymbol{X}^T \boldsymbol{y} + \left( \boldsymbol{X}^T \boldsymbol{X} + \left( \boldsymbol{X}^T \boldsymbol{X} \right)^T \right) \boldsymbol{\beta} & \left( \because \text{ 与えられた関係式 } \right) \\ &= -2 \boldsymbol{X}^T \boldsymbol{y} + 2 \boldsymbol{X}^T \boldsymbol{X} \boldsymbol{\beta} \\ \therefore \ \ \boldsymbol{X}^T \boldsymbol{X} \boldsymbol{\beta} &= \boldsymbol{X}^T \boldsymbol{y} & \left( \text{ 正規方程式と呼ばれる } \right) \end{align} である。 よって、求める必要十分条件は、 $\boldsymbol{X}^T \boldsymbol{X}$ が正則であること(ランクが $D$ であること)、 すなわち、 $\boldsymbol{X}$ のランクが $D$ であることである。
$E$ を最小化する $\boldsymbol{\beta}$ が一意に決まらないということは、 $\boldsymbol{X}$ のランクが $D$ より小さいということであり、 \begin{align} \boldsymbol{X} = \begin{bmatrix} \boldsymbol{\xi}_1 & \boldsymbol{\xi}_2 & \cdots & \boldsymbol{\xi}_D \end{bmatrix} \end{align} と書いたとき、 $D$ 個の $N$ 次元ベクトル $\boldsymbol{\xi}_1, \boldsymbol{\xi}_2, \cdots, \boldsymbol{\xi}_D$ が線形従属であるということである。
$N \times N$ の対角行列 $\boldsymbol{W}$ を \begin{align} \boldsymbol{W} = \begin{bmatrix} w_1 & & & \\ & w_2 & & \\ & & \ddots & \\ & & & w_N \end{bmatrix} \end{align} と定義すると、 \begin{align} E_w &= \sum_{i=1}^N w_i e_i^2 \\ &= \begin{bmatrix} e_1 & e_2 & \cdots & e_N \end{bmatrix} \boldsymbol{W} \begin{bmatrix} e_1 \\ e_2 \\ \vdots \\ e_N \end{bmatrix} \\ &= \left( \boldsymbol{y} - \boldsymbol{X} \boldsymbol{\beta} \right)^T \boldsymbol{W} \left( \boldsymbol{y} - \boldsymbol{X} \boldsymbol{\beta} \right) \end{align} と書ける。 $E_w \geq 0$ であり、 $E_w$ は $\boldsymbol{\beta}$ の2次形式であるから、 $E_w$ を最小化する $\boldsymbol{\beta}$ の満たすべき必要十分条件は \begin{align} \boldsymbol{0} &= \frac{\partial E_w}{\partial \boldsymbol{\beta}} \\ &= \frac{\partial}{\partial \boldsymbol{\beta}} \left( \boldsymbol{y}^T \boldsymbol{W} \boldsymbol{y} - 2 \boldsymbol{y}^T \boldsymbol{W} \boldsymbol{X} \boldsymbol{\beta} + \boldsymbol{\beta}^T \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{X} \boldsymbol{\beta} \right) \\ &= -2 \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{y} + \left( \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{X} + \left( \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{X} \right)^T \right) \boldsymbol{\beta} & \left( \because \text{ (2) で与えられた関係式 } \right) \\ &= -2 \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{y} + 2 \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{X} \boldsymbol{\beta} \\ \therefore \ \ \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{X} \boldsymbol{\beta} &= \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{y} \end{align} である。 よって、 $E_w$ を最小化する $\boldsymbol{\beta}$ が一意に求める必要十分条件は $\boldsymbol{X}^T \boldsymbol{W} \boldsymbol{X}$ が正則であることであり、この際に得られる $\boldsymbol{\beta}$ は \begin{align} \boldsymbol{\beta} &= \left( \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{X} \right)^{-1} \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{y} \end{align} である。
\begin{align} \boldsymbol{X} = \begin{bmatrix} \boldsymbol{x}_1^T \\ \boldsymbol{x}_2^T \\ \boldsymbol{x}_3^T \\ \boldsymbol{x}_4^T \end{bmatrix} = \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 1 \\ 2 & 0 & 1 \\ 1 & 1 & 0 \end{bmatrix} , \ \ \boldsymbol{y} = \begin{bmatrix} 2 \\ 3 \\ 3 \\ 1 \end{bmatrix} , \ \ \boldsymbol{W} = \begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix} \end{align} なので、 (4) で得た式 $ \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{X} \boldsymbol{\beta} = \boldsymbol{X}^T \boldsymbol{W} \boldsymbol{y} $ は \begin{align} \begin{bmatrix} 10 & 1 & 5 \\ 1 & 2 & 1 \\ 5 & 1 & 4 \end{bmatrix} \begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \end{bmatrix} = \begin{bmatrix} 5 \\ 10 \\ 27 \end{bmatrix} \end{align} となる。 この連立1次方程式の拡大係数行列 \begin{align} \begin{bmatrix} 10 & 1 & 5 & 5 \\ 1 & 2 & 1 & 10 \\ 5 & 1 & 4 & 27 \end{bmatrix} \end{align} は、次のように行基本変形できる: \begin{align} \begin{bmatrix} 0 & -19 & -5 & -25 \\ 1 & 2 & 1 & 10 \\ 0 & - 9 & -1 & - 9 \end{bmatrix} \\ \begin{bmatrix} 0 & -19 & -5 & -25 \\ 1 & 2 & 1 & 10 \\ 0 & 1 & 1/9 & 1 \end{bmatrix} \\ \begin{bmatrix} 0 & 0 & -26/9 & -6 \\ 1 & 0 & 7/9 & 2 \\ 0 & 1 & 1/9 & 1 \end{bmatrix} \\ \begin{bmatrix} 0 & 0 & 1 & 27/13 \\ 1 & 0 & 7/9 & 2 \\ 0 & 1 & 1/9 & 1 \end{bmatrix} \\ \begin{bmatrix} 0 & 0 & 1 & 27/13 \\ 1 & 0 & 0 & 5/13 \\ 0 & 1 & 0 & 10/13 \end{bmatrix} \end{align} よって、 \begin{align} \beta_1 = \frac{5}{13}, \ \ \beta_2 = \frac{10}{13}, \ \ \beta_3 = \frac{27}{13} \end{align} がわかる。