Day 12: Day 12 역전파의 개념
본 글은 영어로 최초 작성되었으며, Notion AI 기능을 활용하여 한국어로 번역되었음을 알립니다.
CH3 | What is backpropagation really doing?
https://www.youtube.com/watch?v=Ilg3gGewQ5U
문제 3.1
동영상에서 경사하강법에 대해 “가장 가파른 방향으로 내리막길을 내려가는 해석” 대신 제공한 또다른 해석은 무엇인가?
문제 3.2
동영상에서는 뉴런의 활성도를 증가시키는 세 가지 방법을 제안한다: 해당 뉴런의 바이어스 $b$를 증가시키기, 이전 층에 연결된 가중치 $w_i$ 증가시키기, 또는 이전 층의 활성도 $a_i$를 변경하기. 매개변수의 부호가 활성도 변화에 어떻게 영향을 미치는지 설명하라. 즉, 다음 질문에 답하라:
(a) 왜 단순히 $a_i$를 증가시키면 안되는가?
(b) 왜 $b$와 $w_i$를 증가시켜야 하는가? 감소시키면 안되는가?
(c) 반대로 뉴런의 활성도를 감소시키려면, $b$, $w_i$, $a_i$에 대해 무엇을 해야 하는가?
문제 3.3 (HARD)
시그모이드 함수가 양수이며 증가함수임에 주목하라. 만약 우리가 대신에
(a) 음수이지만 증가하는 함수
(b) 양수이지만 감소하는 함수
(c) 음수이면서 감소하는 함수
를 활성화 함수로 사용하면 어떤 일이 발생하는가? 각 상황 (a), (b), (c)에 대해 활성도가 증가해야 한다는 조건 하에 각 매개변수 $b$, $w_i$, $a_i$의 원하는 변경 방향을 명시하라. 즉, 아래 표를 각각 (+) 증가, (-) 감소, (?) 불확정으로 채우라. 모든 함수는 부드러운 연속함수로 가정한다.
| $b$ | $w_i$ | $a_i$ | |
|---|---|---|---|
| (a) | |||
| (b) | |||
| (c) |
문제 3.4
역전파가 어떻게 작동하는지 자신만의 언어로 설명하라. 저자가 07:43에서 “욕구가 더해진다”고 했을 때 무엇을 의미하는지 설명하라.
문제 3.5
확률적 경사하강법(SGD)이 무엇인지 설명하라. 더 구체적으로,
(a) 왜 우리가 (계산 효율성 측면에서) SGD를 필요로 하는지,
(b) 일반적인 경사하강법과 어떻게 다른지 설명하라. (단어 “미니배치”를 사용하여 설명할 것)