역전파는 어떻게 네트워크에서의 가중치와 bias의 변화가 비용함수를 바꾸는지에 대한 이해에 관한 것 입니다. 궁극적으로, 이는 ∂C/∂wljk 그리고 ∂C/∂blj에 대한 편미분을 계산하는 것을 의미합니다. 그러나 이것을 계산하기 위해서 우리는 먼저 lth 층에 있는 jth뉴런에서 error 라고 부르는 δlj라는 중간값을 소개하려고 합니다. 역전파는 error δlj를 계산하기 위한 과정을 말해주며 δlj를 ∂C/∂wljk와 ∂C/∂blj와 관련지어줍니다. 어떻게 error 가 정의되는..
역전파 알고리즘은 일반적인 선형 대수학 연산자를 기반으로 합니다. 백터의 덧셈, 행렬으로 백터를 곱하는 등등... 하지만 한 연산자는 보통 잘 사용되지 않습니다. 특히, 같은 차원의 두 백터 s, t가 있다고 가정해 봅시다. 그러면 우리는 s⊙t를 두 백터의 각 성분마다의 곱으로 사용할 수 있습니다. 따라서 s⊙t의 연산은 단지 (s⊙t)j=sjtj으로 이루어 집니다. 예를 들면, $$\begin{eqnarray}\left[\begin{array}{c} 1 \\ 2 \end{array}\right] \odot \left[\begin{array}{c} 3 \\ 4\end{array} \right]= \left[ \begin{array}{c} 1 * 3 \..
역전파의 목적은 네트워크의 어떠한 가중치 w 또는 bias b에 대한 비용함수 C의 편미분 ∂C/∂w 그리고 ∂C/∂b를 계산해내는 것 입니다. 역전파가 작동하기 위해서 우리는 비용함수의 형태에 대한 두가지 주된 추측을 만들어 볼 필요가 있습니다. 두 추측을 이야기 하기 전에, 머릿속에 비용함수의 예를 생각하는것이 도움이 되겠군요. 우리는 저번 장에서의 사용했던 이차 비용함수를 사용할 것입니다. 마지막 섹션에서의 표기에서, 이차 비용함수는 다음과 같은 형태를 갖습니다. C=12n∑x‖y(x)−aL(x)‖2, n은 ..
- Total
- Today
- Yesterday