Day 3: Day 3 행렬곱의 의미

본 글은 영어로 최초 작성되었으며, Notion AI 기능을 활용하여 한국어로 번역되었음을 알립니다.

CH4 | Matrix multiplication as composition

문제 4.1

행렬의 곱셈. 동영상에서 $2 \times 2$ 행렬 $M_1$과 $M_2$를 두 기저 벡터 $\mathbf{i}$와 $\mathbf{j}$에 각각 순서대로 곱하면 $M_2 M_1$의 두 열을 얻게 됨을 배웠다. 예를 들어, 벡터 $\mathbf{i}= \begin{bmatrix} 1 \newline 0 \end{bmatrix}$에 회전 행렬 $M_1= \begin{bmatrix} 0 & -1 \newline 1 & 0 \end{bmatrix}$를 적용한 다음 전단 행렬 $M_2= \begin{bmatrix} 1 & 1 \newline 0 & 1 \end{bmatrix}$를 적용하면 $\begin{bmatrix} 1 \newline 1 \end{bmatrix}$을 얻게 되며, 이는 행렬 $M_2 M_1$의 첫 번째 열이 된다.

Note. 곱셈의 순서는 함수를 합성하듯 오른쪽에서 왼쪽으로 진행된다. $(g \circ f)(x)=g(f(x))$와 같다.

(a) 행렬 $M_2 M_1$의 원소가 어떻게 결정되는지 설명하고, $3\times 3$ 행렬에 대한 결과를 확장하라. 다시 말해, $3 \times 3$ (그리고 가능하다면 $n \times n$) 행렬에 대한 행렬-행렬 곱셈 공식을 찾아라.

아래 $2\times 2$ 행렬-행렬 곱셈 공식을 참고할 수 있다.

\[\begin{align*} \begin{bmatrix}a & b \newline c & d \end{bmatrix} \begin{bmatrix}e & f \newline g & h \end{bmatrix} = \begin{bmatrix}ae+bg & af+bh \newline ce+dg & cf+dh \end{bmatrix} \end{align*}\]

(b) (a)에서 찾은 공식의 예를 제시하라. 즉, 실제 숫자를 대입하여 계산 과정을 연습할 수 있다. 문제 3.3-(d), (e)의 행렬 $C$와 $D$를 사용할 수 있다. 각 행렬이 적어도 6개의 0이 아닌 원소를 갖도록 하여 계산이 너무 쉽지 않도록 하라.

문제 4.2

시그마 표기법을 사용하는 행렬곱 표현 방법. 행렬 $A$와 행렬 $B$를 곱할 때는 각 위치에 대응되는 행과 열을 선택하고 “곱의 합”을 계산한다고 생각하면 쉽다. 이때, 행렬 $A$의 열 수 (또는 너비)는 행렬 $B$의 행 수 (또는 높이)와 일치해야 한다.

출처: 행렬 곱셈, 위키피디아

(a) 문제 3.3에서의 계산 절차를 위의 이미지와 같이 시각화하라.

(b) 문제 4.1-(a)에서의 $2\times2$ 행렬-행렬 곱셈 공식이 올바른지 시각적으로 확인하라.

\[(AB)_{ij}=a_{i1}b_{1j}+a_{i2}b_{2j}\]

이때, $i=1$과 $j=2$를 대입하여 노란색 점의 값을 얻는지 확인하거나, $i=3$과 $j=3$을 대입하여 녹색 점이 나오는지 확인할 수 있다.

이것은 곱의 합 형태이므로 시그마 표기법을 사용하여 $(AB)_{ij}$를 표현할 수 있다.

\[(AB)_{ij}=a_{i1}b_{1j}+a_{i2}b_{2j}=\sum_{k=1}^{2}a_{ik}b_{kj}.\]

질문. 시그마 표기법을 사용하여 행렬-행렬 곱셈 공식을 표현해보시오. 위 아이디어를 $m \times s$ 행렬 $A$와 $s \times n$ 행렬 $B$를 곱하는 경우로 확장하려면 어떻게 해야 할까?

힌트. 박스 안에 들어갈 내용을 채우시오:

\[(AB)_{ij}=a_{i1}b_{1j}+a_{i2}b_{2j}+ \cdots + +a_{is}b_{sj}=\sum_{k=\Box}^{\Box}a_{i\Box}b_{\Box j}.\]

참고

간략한 표기를 위해 인덱스 $i$와 $j$ 사이의 쉼표를 없앴다.
인덱스 $i$와 $j$가 이전에 논의한 기저 벡터 $\mathbf{i}$와 $\mathbf{j}$와 다르다는 것을 염두하라.
행렬이 $m \times n$이라고 말할 때, 행렬의 높이는 $m$이고 너비는 $n$이다. 따라서 순서가 중요하다.

문제 4.3

전치행렬, 열벡터, 행벡터, 벡터의 크기. $m \times n$ 행렬 $A$의 전치행렬은 단순히 대각선을 기준으로 반사된 행렬로, $A^T$로 나타낸다. 이를 행렬의 행과 열을 서로 바꾸는 것으로 생각할 수도 있다.

예를 들어, $A=\begin{bmatrix}1 & 2 & 3 \newline 4 & 5 & 6 \end{bmatrix}$인 경우, $A$의 전치행렬 또는 $A^T=\begin{bmatrix} 1 & 4 \newline 2 & 5 \newline 3 & 6 \end{bmatrix}$이다.

또한, $n$차원 벡터 $\mathbf{x}$를 $n \times 1$ 행렬로 생각할 수 있으므로, 이의 전치행렬도 고려할 수 있다. 예를 들어, $\mathbf{x}=\begin{bmatrix} 1 \newline 2 \newline 3 \end{bmatrix}$인 경우, $\mathbf{x}$의 전치행렬은 $\mathbf{x}^T=\begin{bmatrix} 1 & 2 & 3 \end{bmatrix}$이다.

이제 우리는 이 두 유형의 벡터를 열벡터와 행벡터로 구분할 것이다.

마지막으로, 두 벡터 $\mathbf{x, y} \in \mathbb{R}^n$의 내적은 $\mathbf{x} \cdot \mathbf{y}$로 표기되며, 다음과 같이 정의된다.

\[\begin{align*} \mathbf{x} \cdot \mathbf{y} = \mathbf{x}^T \mathbf{y} = \begin{bmatrix} x_1 & x_2 & \cdots & x_n \end{bmatrix} \begin{bmatrix} y_1 \newline y_2 \newline \vdots \newline y_n \end{bmatrix} =x_1y_1+x_2y_2+ \cdots + x_ny_n = \sum_{k=1}^{n} x_k y_k. \end{align*}\]

이제 다음을 고려해보자.

(a) 행렬 $A$의 $i$번째 행 벡터를 $\mathbf{r}i(A)$, 행렬 $B$의 $j$번째 열 벡터를 $\mathbf{c}_j(B)$ 라고 하면, 행렬 $AB$의 $i$번째 행, $j$번째 열 원소 $(AB){ij}$ 는 무엇인가?

(b) $m \times n$ 행렬 $A$의 전치행렬이 $A=A^T$인 경우, $m$과 $n$ 사이에 어떤 관계가 있어야 하는가? (이때, $A=A^T$인 $A$를 대칭행렬이라 한다.)

(d) $\mathbf{x} \cdot \mathbf{x} \ge 0$이 모든 $\mathbf{x}=[x_1, x_2, \cdots, x_n]^T \in \mathbb{R}^n$에 대해 성립함을 증명하고, $\mathbf{x} \cdot \mathbf{x}=0$이면 반드시 $\mathbf{x} =\mathbf{0}$인 이유를 설명하시오. Note. 이 사실을 증명했기 때문에, 우리는 자연스럽게 벡터 $\mathbf{x}$의 길이를 $\lVert\mathbf{x}\rVert=\sqrt{\mathbf{x} \cdot \mathbf{x}}=\sqrt{x_1^2+x_2^2+ \cdots x_n^2}$로 정의할 수 있다. 만약 $\mathbf{x} \cdot \mathbf{x}<0$인 벡터 $\mathbf{x}$가 존재한다면, 루트 안의 값이 음수가 되어 문제가 생긴다는 것을 확인하자.

Note. $[x_1, x_2, \cdots, x_n]^T$는 $x_1, x_2, \cdots,x_n$을 성분으로 갖는 열벡터이다. 전치행렬의 정의를 기억하자.

문제 4.4 (HARD)

행렬의 결합법칙, 교환법칙, 분배법칙.

(a) $2\times2$ 행렬에 대해 행렬곱셈이 결합법칙을 만족함을, 행렬-행렬 곱셈 공식만을 사용하여 증명하라.

$2\times2$ 행렬에 대한 행렬-행렬 곱셈 공식 또는 시그마 표기법을 사용한 공식 중 하나를 참고하면 된다. 아래 공식을 참고할 수도 있다.

\[\begin{align*} \begin{bmatrix}a & b \newline c & d \end{bmatrix} \begin{bmatrix}e & f \newline g & h \end{bmatrix} = \begin{bmatrix}ae+bg & af+bh \newline ce+dg & cf+dh \end{bmatrix} \end{align*}\]

Note. 동영상에서는 결합법칙을 시각적으로 증명했지만, 곱셈 공식을 사용하여 구체적으로 증명하는 것이 바람직하다.

(b) 동영상에서 제시된 예시를 제외하고, 행렬-행렬 곱셈 연산에서 교환법칙이 성립하지 않는 두 행렬의 예시를 찾아라. 곱셈 순서를 교환해도 결과 행렬이 동일한 두 행렬의 예시를 찾을 수 있는가?

\[\begin{align*} & A(B+C)=AB+AC, \newline & \textrm{for } A=\begin{bmatrix} a_{11} & a_{12} \newline a_{21} & a_{22}\end{bmatrix}, B=\begin{bmatrix} b_{11} & b_{12} \newline b_{21} & b_{22}\end{bmatrix}, C=\begin{bmatrix} c_{11} & c_{12} \newline c_{21} & c_{22}\end{bmatrix}. \end{align*}\]

$2 \times 2$ 행렬에 대한 행렬곱셈 공식과 행렬 덧셈 공식을 참고할 수 있다. 또는, 다음과 같이 각 요소를 나타내는 행렬 덧셈 공식을 이용할 수 있다.

\[\begin{align*} \begin{bmatrix}a & b \newline c & d \end{bmatrix}+\begin{bmatrix}e & f \newline g & h \end{bmatrix} = \begin{bmatrix}a+e & b+f \newline c+g & d+h \end{bmatrix} \end{align*}\]

(d) 행렬-행렬 곱셈과 덧셈 연산이 각각 무엇을 의미하는지, 시각적인 맥락에서 설명하라.