역전파(Back Propagation) 그림과 수식으로 쉽게 이해하기

티스토리 뷰

Data Analysis/Deep Learning

역전파(Back Propagation) 그림과 수식으로 쉽게 이해하기

둠드 2020. 8. 11. 14:06

아마 딥러닝을 공부할 때 가장 먼저 접하게 되는 것이 신경망(Perceptron)일 것이다.

가장 기초가 되는 부분이지만, 대부분의 서적이나 자료를 찾아보면 복잡한 수식과 기호들로 이해하기가 힘든 경우가 많다.

아래는 한개의 은닉층과 각 층마다 3개의 노드를 가진 예시로 델타규칙(Delta rule을 통한 역전파의 원리를 설명한다.

하지만 미분에 대해선 미분 전의 식과 후의 결과만을 표시하였으므로, 미분에 대한 사전 지식이 필요할 것이다.

본격적으로 역전파를 통한 가중치 갱신을 해보기 전에 몇 가지 정해야 할 사항들이 있다.

아래에 사항들의 대해서 자세한 설명은 이 포스트에서는 생략한다.

첫 째로는 활성함수(Activation Function) 인 데, 최근에는 ReLu 등 다른 활성함수를 많이 사용하는 추세지만, 여기서는 Sigmoid 함수를 가정한다. 시그모이드 함수의 장점 중의 하나는 미분이 간단하기 때문에 계산이 쉽다는 점이다.

두 번째는 Cost Function 또는 Loss Function이다. 우리말로는 비용 함수 또는 손실 함수라고 불리는 데, 우리는 이 값이 작아지는 방향으로 학습한다. 그러나 손실이 0인 것이 무조건 좋은 것은 아니다. 여기서는 MSE (Mean Squared Error)를 사용할 것인데, 1/2은 후에 미분 시 계산을 편리하게 하기위하여 사용한다.

세 번째는 최적화(Optimization) 알고리즘인 데, 우리는 위의 손실이 적어지는 방향으로 학습을 할 것인 데, 어떤 방식으로 손실을 줄어들게 할 지에 대한 선택사항이다. 여기서는 가장 간단한 경사하강법(Gradient descent algorithm) 을 이용할 것이다. 이 방법은 현재 손실함수의 기울기를 계산하여 손실이 낮아지는 방향으로 가중치를 갱신한다.

추가로 아래의 그림에서 동일한 방법으로 계산되는 경우는 생략하였다.