역전파는 어떻게 네트워크에서의 가중치와 $bias$의 변화가 비용함수를 바꾸는지에 대한 이해에 관한 것 입니다. 궁극적으로, 이는 $\partial C/\partial w^l_{jk}$ 그리고 $\partial C/\partial b^l_j$에 대한 편미분을 계산하는 것을 의미합니다. 그러나 이것을 계산하기 위해서 우리는 먼저 $l^{th}$ 층에 있는 $j^{th}$뉴런에서 error 라고 부르는 $\delta^l_j$라는 중간값을 소개하려고 합니다. 역전파는 error $\delta^l_j$를 계산하기 위한 과정을 말해주며 $\delta^l_j$를 $\partial C/\partial w^l_{jk}$와 $\partial C/\partial b^l_j$와 관련지어줍니다. 어떻게 error 가 정의되는..
역전파 알고리즘은 일반적인 선형 대수학 연산자를 기반으로 합니다. 백터의 덧셈, 행렬으로 백터를 곱하는 등등... 하지만 한 연산자는 보통 잘 사용되지 않습니다. 특히, 같은 차원의 두 백터 $s$, $t$가 있다고 가정해 봅시다. 그러면 우리는 $s\odot t$를 두 백터의 각 성분마다의 곱으로 사용할 수 있습니다. 따라서 $s\odot t$의 연산은 단지 $(s\odot t)_j=s_j t_j$으로 이루어 집니다. 예를 들면, $$\begin{eqnarray}\left[\begin{array}{c} 1 \\ 2 \end{array}\right] \odot \left[\begin{array}{c} 3 \\ 4\end{array} \right]= \left[ \begin{array}{c} 1 * 3 \..
역전파의 목적은 네트워크의 어떠한 가중치 $w$ 또는 bias $b$에 대한 비용함수 $C$의 편미분 $\partial C/\partial w$ 그리고 $\partial C/\partial b$를 계산해내는 것 입니다. 역전파가 작동하기 위해서 우리는 비용함수의 형태에 대한 두가지 주된 추측을 만들어 볼 필요가 있습니다. 두 추측을 이야기 하기 전에, 머릿속에 비용함수의 예를 생각하는것이 도움이 되겠군요. 우리는 저번 장에서의 사용했던 이차 비용함수를 사용할 것입니다. 마지막 섹션에서의 표기에서, 이차 비용함수는 다음과 같은 형태를 갖습니다. $$\begin{eqnarray} C = \frac{1}{2n} \sum_x \|y(x)-a^L(x)\|^2,\tag{26}\end{eqnarray}$$ $n$은 ..
- Total
- Today
- Yesterday