hkimw Blog

[논문] Attention Is All You Need

Fri, 17 Apr 2026 00:00:00 GMT

Transformer 모델 구조의 핵심 개념과 수학적 원리를 담은 글이다.

1. Transformer의 등장 배경

기존 NLP 처리 분야에서 주류를 이루던 모델은 RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)이었다. 이 모델들은 데이터를 순차적(Sequential)으로 처리한다. 예를 들어 "나는 학교에 간다"라는 문장이 있을 때, '나는'을 처리한 결과를 바탕으로 '학교에'를 처리하고, 그 결과를 다시 바탕으로 '간다'를 처리하는 방식이다.

이러한 순차적 처리 방식에는 두 가지 치명적인 한계가 있다.

parallel하게 처리 불가: 이전 단어의 연산이 끝나야만 다음 단어의 연산을 수행할 수 있으므로, 컴퓨터의 연산 자원을 동시에 활용하는 parallel 처리가 불가능하다.
장기 의존성(Long-term Dependency) 문제: 문장이 길어질수록 초반에 입력된 단어의 정보가 뒤로 갈수록 희미해지는 현상이 발생한다.

Transformer는 "단어들을 순차적으로 넣지 말고, 문장 전체를 한꺼번에 입력한 뒤 단어들 간의 관계를 동시에 계산하자"는 아이디어에서 출발했다. 이를 가능하게 한 핵심 기술이 바로 Attention 메커니즘이다.

2. Model Architecture

Transformer는 기계 번역과 같은 Sequence Transduction 작업에 최적화된 Encoder-Decoder 구조를 채택하고 있다.

Auto-regressive 특성: 모델은 출력을 생성할 때 이전에 자신이 생성한 출력 기호들을 다음 단계의 추가 입력으로 사용한다. 즉, 1번째 단어를 예측하고, 그 단어를 포함하여 2번째 단어를 예측하는 방식이다.

2.1 Encoder

Encoder는 입력된 원본 문장(예: 한국어 문장)을 읽고, 그 문장 내 단어들의 의미와 문맥을 파악하여 압축된 정보(Representation)로 변환하는 역할을 한다.

계층 구조: 총 $N = 6$ 개의 Identical layers 를 쌓아 올린 형태이다.
Sub-layer: 각 레이어는 내부적으로 2개의 Sub-layer를 가진다.
1. Multi-Head Self-Attention: 문장 내부의 단어들이 서로 어떤 연관성을 가지는지 파악한다.
2. Position-wise Feed-Forward Network (FFN): 파악된 연관성 정보를 바탕으로 각 단어의 특징을 더욱 깊게 학습하는 Neural Network이다.
Residual Connection 및 Layer Normalization: 각 Sub-layer의 출력은 다음과 같은 수식으로 처리된다.
$Output = LayerNorm(x + Sublayer(x))$
- $x$ : Sub-layer로 들어가는 원본 입력값이다.
- $Sublayer(x)$ : Attention이나 FFN 연산을 거친 결과값이다.
- $x + Sublayer(x)$ (Residual Connection): 연산 결과에 원본 입력값을 더해준다. 층이 깊어지더라도 초기 정보가 소실되는 것을 방지하여 학습을 안정적으로 만든다.
- $LayerNorm(...)$ : 더해진 결과값의 평균과 분산을 구하여 데이터를 일정한 범위로 정규화한다.
차원 통일: Residual Connection을 원활하게 수행하기 위해, 모델 내부의 모든 Sub-layer와 Embedding 층의 출력 차원은 $d_{model} = 512$ 로 고정된다.

2.2 Decoder

Decoder는 Encoder가 압축해 놓은 문맥 정보를 바탕으로 타겟 문장(예: 번역된 영어 문장)을 하나씩 생성하는 역할을 한다. Encoder와 마찬가지로 $N = 6$ 개의 동일한 레이어로 구성되지만, Sub-layer가 3개로 늘어난다.

Masked Multi-Head Self-Attention:
- Decoder가 출력 단어를 생성할 때, 현재 위치보다 뒤에 있는(미래의) 단어들을 미리 보지 못하게 가리는(Masking) 역할을 한다.
- 예를 들어 3번째 단어를 예측할 때는 1, 2번째 단어만 참조할 수 있도록, 미래 단어들의 유사도 점수(Score)를 $-\infty$ 로 마스킹하여, Softmax 함수를 거친 후의 Attention 가중치(Weight)가 0이 되도록 만든다.
Multi-Head Attention (Encoder-Decoder Attention):
- Decoder가 단어를 생성하기 위해 "원본 문장의 어떤 부분을 집중해서 봐야 할지"를 결정하는 곳이다.
- 여기서 Decoder는 자신의 정보를 기준(Query)으로 삼고, Encoder가 최종적으로 출력한 정보(Key, Value)를 참조한다.
Position-wise Feed-Forward Network: Encoder의 구조와 동일하다.

3. Attention 메커니즘

Attention 메커니즘은 Transformer의 핵심이다. Attention 함수는 하나의 Query와 Key-Value 쌍들의 집합을 출력에 매핑하는 작업으로 설명할 수 있다.

비유하자면 도서관에서 정보를 찾는 과정과 같다.

Query (Q): 사용자가 검색창에 입력한 '검색어' (현재 파악하고자 하는 대상 단어)
Key (K): 도서관 책들에 붙어있는 '색인' 또는 '라벨' (다른 단어들이 가진 특징)
Value (V): 그 책의 실제 '내용' (다른 단어들이 가진 실제 정보)

(* Self-Attention의 경우 $Q, K, V$ 는 모두 같은 입력 문장으로부터 생성되며, 각각 서로 다른 가중치 행렬을 곱해 목적에 맞게 변환된 값이다)

3.1 Scaled Dot-Product Attention

논문에서는 Attention을 계산하기 위해 'Scaled Dot-Product Attention'이라는 방식을 제안한다. 연산 수식은 다음과 같다.

Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V

$Q$ (Query Matrix): | [질문] | 타겟 단어들의 벡터가 모인 Matrix이다.
$K$ (Key Matrix): | [위치] | 참조할 단어들의 벡터가 모인 Matrix이다.
$V$ (Value Matrix): | [내용] | 참조할 단어들의 실제 정보 벡터가 모인 Matrix이다.
$K^T$ : Key Matrix의 전치 Matrix(Transposed Matrix)이다. Matrix 곱을 위해 행과 열을 바꾼 형태이다.
$d_k$ : Query와 Key 벡터의 차원 수이다. (논문에서는 $d_k = 64$ 를 사용한다.)
$\sqrt{d_k}$ : $d_k$ 의 제곱근이다. (논문에서는 $\sqrt{64} = 8$ 이 된다.)
$softmax$ : 입력된 값들을 0과 1 사이의 확률값으로 변환하고, 그 총합이 1이 되도록 만드는 함수이다. (공식: $\frac{e^{x_i}}{\sum e^{x_j}}$ )

Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V

$QK^T$ (유사도 계산): Query 행렬과 Key 전치 행렬을 행렬 곱(Matrix Multiplication)한다. 이는 Query 단어 벡터와 각 Key 단어 벡터 간의 내적(Dot Product)을 한 번에 계산하는 과정으로, Query 단어와 각 key 단어가 얼마나 연관성이 높은지(유사한지)를 수학적인 점수로 산출하는 과정이다. 값이 클수록 두 단어의 연관성이 높다는 뜻이다.
$\frac{QK^T}{\sqrt{d_k}}$ (Scaling): Dot product을 수행하면 차원 수( $d_k$ )가 클수록 결과값이 매우 커지는 경향이 있다. 값이 너무 커지면 다음 단계인 Softmax 함수에서 기울기(Gradient)가 0에 수렴하여 학습이 진행되지 않는 문제가 발생한다. 이를 방지하기 위해 점수를 $\sqrt{d_k}$ 로 나누어 값의 크기를 적절하게 조절(Scaling)한다.
$softmax(...)$ (weight 확률화): Scaling 된 점수들을 Softmax 함수에 통과시킨다. 이 과정을 거치면 각 단어에 대한 점수가 0~1 사이의 확률값(weight)으로 변환된다. 예를 들어 "0.9"가 나오면 이 단어와 매우 강하게 연관되어 있다는 뜻이고, "0.01"이 나오면 거의 무시해도 좋다는 뜻이다.
$\times V$ (정보의 결합): 계산된 Softmax weight를 실제 정보인 Value Matrix에 곱한다. 결과적으로 연관성이 높은 단어의 정보(Value)는 많이 가져오고, 연관성이 낮은 단어의 정보는 적게 가져와서 하나로 합치게 된다. 이 결과가 바로 Attention의 최종 출력값이 된다.

3.2 Multi-Head Attention

Transformer는 위의 단일 Attention을 한 번만 수행하지 않고, 차원을 여러 개로 쪼개어 여러 번의 Attention을 parallel하게 수행한다. 이를 Multi-Head Attention이라고 부른다.

논문에서는 $d_{model} = 512$ 차원을 $h = 8$ 개의 Head로 쪼갠다. 따라서 각 Head는 $d_k = d_v = 512 / 8 = 64$ 차원의 벡터를 다루게 된다.

왜 Multi Head(여러개)를 사용하는가?

문장 내에서 단어들의 관계는 다각도로 해석될 수 있다. 예를 들어 "그가 강하게 공을 찼다"라는 문장에서 '찼다'라는 단어는 '그가'(주어, 누가 했는가?)와 연결될 수도 있고, '공을'(목적어, 무엇을 했는가?)과 연결될 수도 있다. 단일 Attention만 사용하면 여러 관계 중 평균적인 한 가지 관점만 보게 되지만, Head를 8개로 나누면 각각의 Head가 주어와의 관계, 목적어와의 관계, 시제와의 관계 등 서로 다른 다양한 문맥적 특징(Representation subspace)을 동시에 포착할 수 있다.

각각의 Head에서 계산된 8개의 결과 Matrix은 마지막에 하나로 이어 붙여진(Concatenated) 후, 선형 변환(Linear Projection) Matrix을 곱하여 최종 출력 Matrix이 된다.

4. Position-wise Feed-Forward Network

Attention Sub-layer를 통과한 데이터는 각 레이어마다 포함된 완전 연결 전방향 신경망(Fully Connected Feed-Forward Network, FFN)을 거치게 된다.

"Position-wise"라는 의미는 문장을 구성하는 개별 단어 위치(Position)마다 동일한 Neural Network가 각각 독립적으로 적용된다는 뜻이다.

FFN(x) = \max(0, xW_1 + b_1)W_2 + b_2

$x$ : Attention 층을 통과하여 들어온 입력 벡터이다. 차원은 $d_{model} = 512$ 이다.
$W_1, b_1$ : 첫 번째 선형 변환을 위한 weight(Weight) Matrix과 편향(Bias) 벡터이다.
$\max(0, ...)$ : ReLU(Rectified Linear Unit) 활성화 함수이다. 괄호 안의 계산 결과가 0보다 작으면 0으로 만들고, 0보다 크면 그 값을 그대로 유지한다. 비선형성을 부여하는 핵심 요소이다.
$W_2, b_2$ : 두 번째 선형 변환을 위한 weight Matrix과 편향 벡터이다.

이 신경망은 샌드위치 구조를 가진다.

차원 확장: 입력 벡터 $x$ (512차원)에 weight $W_1$ 을 곱하여 차원을 $d_{ff} = 2048$ 차원으로 크게 확장시킨다.
활성화: 확장된 공간에서 ReLU 함수를 거치며 데이터의 비선형적 특징을 추출한다. 이 과정에서 불필요한 정보(음수 값)는 0으로 소거된다.
차원 압축: 다시 weight $W_2$ 를 곱하여 원래의 차원인 $d_{model} = 512$ 차원으로 압축하여 출력한다.

Attention 이 단어들 사이의 '관계'를 수집하는 과정이라면, FFN 층은 수집된 정보를 바탕으로 각 단어 자체가 가진 '의미'를 더욱 복잡하고 풍부하게 가공하여 기억하는 역할을 담당한다. 모델 전체의 학습 파라미터(weight) 대부분이 바로 이 FFN의 $W_1, W_2$ Matrix에 집중되어 있다.

5. Positional Encoding

Transformer는 RNN 구조를 버리고 Matrix 곱셈을 통한 parallel 처리를 택했다. 그러나 이로 인해 치명적인 단점이 생긴다. Attention 연산은 단어 집합을 마치 순서가 없는 '가방(Bag of words)'처럼 취급하기 때문에, "나는 밥을 먹는다"와 "밥을 나는 먹는다"를 수학적으로 동일하게 인식할 수 있다.

이를 해결하기 위해 모델이 Sequence 내 단어의 상대적 또는 절대적 '위치(순서)' 정보를 알 수 있도록, 입력 단어의 Embedding 벡터에 위치 정보를 담은 벡터를 더해주는 과정을 Positional Encoding이라고 한다.

논문에서는 위치 정보를 생성하기 위해 다양한 주파수를 가진 사인(Sine) 및 코사인(Cosine) 함수를 사용한다.

PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{model}})

PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{model}})

$pos$ : 문장 내에서 해당 단어의 위치(Position) 인덱스이다. (예: 첫 번째 단어는 0, 두 번째 단어는 1)
$i$ : 차원(Dimension)의 인덱스이다. Embedding 벡터 내의 몇 번째 값인지를 나타낸다.
$i$ 의 범위는 $0$ 부터 $d_{model}/2 - 1$ 까지이며, 이를 통해 벡터의 짝수 인덱스( $2i$ )와 홀수 인덱스( $2i+1$ )에 각각 다른 삼각함수를 짝지어 적용한다
$2_{i}, 2_{i+1}$ : 벡터의 인덱스가 짝수(2i)일 때는 사인(sin) 함수를, 홀수(2i+1)일 때는 코사인(cos) 함수를 사용한다는 의미이다.
$d_{model}$ : Embedding 벡터의 총 차원 수 (512)이다.
$10000^{2i/d_{model}}$ : 주파수를 결정하는 분모 항목이다. 인덱스 $i$ 가 커질수록 분모가 커져 주파수가 매우 느리게 변하게 된다.

이 공식을 사용하면 문장 내의 각 위치(pos)마다, 그리고 벡터의 각 차원(i)마다 고유한 패턴을 가지는 연속적인 실수 값이 생성된다. 삼각함수를 사용했기 때문에 위치 Vector의 값들은 -1에서 1 사이의 값으로 일정하게 파동을 그린다.

이렇게 수학적 규칙으로 생성된 512 dimension의 '위치 벡터'를, 데이터가 Encoder나 Decoder의 첫 번째 레이어에 들어가기 직전에 원래 단어의 'Embedding 벡터'에 단순 덧셈(+)해 준다. 결과적으로 모델은 학습을 진행하면서 단어의 고유한 의미뿐만 아니라, 이 삼각함수 파동 패턴을 역추적해서 "아, 이 단어는 문장의 앞부분에 있구나" 혹은 "저 단어는 바로 다음 위치에 있구나"라는 상대적인 순서(relative position)를 파악할 수 있게 된다.

[논문] GPT-1 핵심 정리

Fri, 17 Apr 2026 00:00:00 GMT

이 문서는 GPT-1 논문의 architecture와 학습 과정을 수학적/정의와 직관적인 해설을 결합하여 정리한 노트이다.

1. 언어 모델의 핵심 기초 개념

1) Context Window

정의: 모델이 한 번에 처리할 수 있는 단어(token)의 최대 개수, 즉 sequence의 길이 $k$ 를 의미한다. 트랜스포머의 Self-Attention 연산 복잡도는 $O(k^2)$ 이다.
직관적 해설:
- 장점: Context Window( $k$ 값)가 커질수록 모델은 더 먼 과거의 단어들까지 기억할 수 있다. 힌트가 많아지니 문맥을 정교하게 파악하고 다음 단어를 예측하는 정확도가 상승한다.
- 단점: 트랜스포머는 단어들끼리의 관계(Attention)를 모두 짝지어 계산해야 한다. 따라서 문맥 창이 10배 길어지면 연산량은 제곱인 100배로 폭증한다. 즉, $k$ 의 증가는 하드웨어 메모리와 학습 비용의 한계와 직결되는 현실적인 장벽이다.

2) Maximize Likelihood (최대 우도 추정)

정의: 주어진 문맥 뒤에 등장할 실제 정답 단어가 나올 조건부 확률(Likelihood)을 극대화(Maximize)하도록 모델의 내부 parameter $\Theta$ 를 최적화하는 수학적 목적 함수다.
직관적 해설: 쉽게 말해 언어 모델이 학습하는 가장 근본적인 '목표'다. 모델이 수많은 텍스트 데이터를 읽으면서 자기가 예측한 단어가 실제 텍스트에 적힌 단어와 일치하도록 끊임없이 내부 회로(parameter)를 조절하는 과정이다.

2. GPT의 뼈대: 트랜스포머 디코더 (Transformer Decoder)

원래 구글이 발표한 트랜스포머는 기계 번역을 위해 인코더(입력 파악)와 디코더(출력 생성)로 구성되었다. 하지만 GPT는 여기서 인코더를 과감히 버리고 디코더만을 12층으로 쌓아 올린 구조를 채택했다.

왜 디코더만 썼을까? GPT의 본질은 다음 단어 예측(Auto-regressive) 이기 때문이다. 디코더 내부에는 Masked Self-Attention 이라는 핵심 기능이 있다. 이는 모델이 현재 단어를 처리할 때 미래에 나올 단어들을 보지 못하게 Masking(가림 처리)하여 '커닝'을 막는다. 오직 과거부터 현재까지의 문맥만 보고 다음을 유추해야 하는 GPT의 철학과 완벽하게 맞아떨어지는 구조다.

3. GPT-1의 2단계 학습 파이프라인

1단계: Unsupervised Pre-training (비지도 사전 학습)

labeling되지 않은 대규모 텍스트 데이터를 통해 언어의 전반적인 패턴을 스스로 깨우치는 단계다.

정의 (Objective Function): labeling되지 않은 대규모 Corpus(말뭉치) $\mathcal{U} = \{u_1, \dots, u_n\}$ 가 주어졌을 때, 다음의 Log-Likelihood를 최대화하도록 학습된다.

L_1(\mathcal{U}) = \sum_i \log P(u_i | u_{i-k}, \dots, u_{i-1}; \Theta)

모델( $Θ$ )에게 이전 단어들( $u_{i-k} ,…,u_{i−1}$ )을 보여주었을 때, 그 다음에 올 진짜 정답 단어( $u_i$ )를 맞출 확률 $P(⋯)$ 을 계산하고, 이를 모든 텍스트 데이터에 대해 다 더한 $∑_i$ 값 $L_1(\mathcal{U})$

$L_1(\mathcal{U})$ :
- 목적 함수(Objective Function)를 의미합니다.
  여기서 $\mathcal{U}$ 는 학습 데이터로 사용되는 라벨링되지 않은 거대한 텍스트 Corpus(말뭉치)입니다.
  즉, "데이터 $\mathcal{U}$ 를 모델이 얼마나 잘 이해(예측)하고 있는가"를 점수로 나타낸 것입니다.
$∑_i$ :
- 문장(데이터) 속에 있는 모든 단어(토큰)들의 순서 ii에 대해 아래의 확률 값을 전부 더하라는 뜻입니다.
$log$ :
- 로그 함수입니다. 확률값은 0과 1 사이의 소수인데, 여러 단어의 확률을 계속 곱하면 숫자가 0에 수렴해버리는 문제(언더플로우)가 생깁니다. 로그를 씌우면 곱셈이 덧셈(∑∑)으로 바뀌어 컴퓨터가 계산하기 매우 좋아집니다.
$P(⋯)$ :
- 확률(Probability)입니다.( $P$ =parameter $\Theta$ 를 가진 Transformer Decoder에 의해 계산된 조건부 확률)
$u_i$ :
- 모델이 맞춰야 할 '현재(다음) 단어'
$u_{i-k} ,…,u_{i−1}$ :
- $u_i$ 이전에 등장한 단어들입니다. $k$ 는 모델이 한 번에 볼 수 있는 문맥의 길이(Context Window Size)를 뜻합니다. 즉, **'이전까지의 문맥'**입니다.
$Θ$ (세타):
- 우리가 학습시키고자 하는 **인공지능 모델의 파라미터(가중치)**입니다.

직관적 해설:
- 방식: 인터넷에 널려 있는 거대한 텍스트(뉴스, 책, 위키 등)를 순서대로 읽으며 빈칸(다음 단어)을 맞추게 한다.
  ( * 실제로 GPT-1 모델이 학습한 메인 말뭉치는 7,000여 권의 미출판 도서 데이터인 'BooksCorpus' 입니다. 책 데이터 특성상 긴 문맥(Long-range dependency)을 학습하는 데 큰 도움이 되었다함)
- 비지도 학습인 이유: 사람이 일일이 정답표(labeling)를 달아줄 필요가 없다. "대한민국의 수도는 [서울]이다"라는 문장 자체가 문제이자 정답이기 때문이다.
- 결과: 이 거대하고 단순한 '다음 단어 맞추기 게임'을 통해, 모델은 스스로 문법, 세상의 상식, 문맥의 논리를 통째로 학습하게 된다.

2단계: Supervised Fine-tuning (지도 미세 조정)

사전 학습이 완료된 후, 우리가 진짜 풀고 싶은 특정 문제(감정 분석, 객관식 등)에 맞춰 모델을 튜닝하는 단계다. 정답이 있는 데이터를 사용하므로 지도 학습이 된다.

정의 (Objective Function): labeling된 dataset $\mathcal{C}$ 의 입력 sequence $x^1, \dots, x^m$ 과 라벨 $y$ 가 주어질 때의 예측 확률과 목적 함수는 다음과 같다.

label(정답) 예측 확률

P(y | x^1, \dots, x^m) = \text{softmax}(h_l^m W_y)

$x^1, \dots, x^m$ :
- 입력된 문장(데이터)입니다. $m$ 개의 단어(토큰)로 이루어져 있습니다. (예: "이 영화 너무 재밌다")
$y$ :
- 우리가 예측해야 할 정답 라벨입니다. (예: 긍정(Positive) 또는 부정(Negative))
$h^m$ :
- 사전 학습된 트랜스포머(Transformer) 모델의 제일 마지막 레이어( $l$ )에서, 맨 마지막 단어( $m$ )를 처리하고 나온 **최종 출력값(Hidden state)**입니다. 모델이 문장 전체를 처음부터 끝까지 읽고 요약해 낸 **'문장의 핵심 의미'**라고 보시면 됩니다.
$W_y$ :
- 특정 임무(분류)를 수행하기 위해 새로 추가한 선형 계층(Linear Layer)의 가중치입니다. 모델의 요약본 $(h_{l}^m)$ 을 받아서 정답 라벨의 개수만큼 점수를 변환해 줍니다.
$softmax$ :
- 소프트맥스 함수입니다. $Wy$ 를 통해 나온 단순한 점수들을 총합이 1(100%)이 되는 확률값으로 예쁘게 바꿔줍니다. (예: 긍정일 확률 0.9, 부정일 확률 0.1)

미세 조정(Fine-Tuning) 목적 함수

L_2(\mathcal{C}) = \sum_{(x,y)} \log P(y | x^1, \dots, x^m)

$L_2(\mathcal{C})$ $L_{2} (C)$
- 두 번째 학습 단계(미세 조정)의 목적 함수입니다. $\mathcal{C}$ 는 사람이 직접 정답( $y$ )을 달아놓은 라벨링 데이터셋(예: 리뷰-별점 데이터)을 의미합니다.
$∑_(x,y)$ $\sum_{(} x, y)$ :
- 데이터셋 CC에 있는 모든 (입력 문장 xx, 정답 yy) 쌍에 대해서 아래의 확률을 전부 더하라는 뜻입니다.
$logP(…)$ $l o g P (\dots)$ :
- 모델이 진짜 정답 $y$ 를 맞출 확률에 로그를 씌운 값입니다.

( $h_l^m$ 은 Transformer 마지막 블록의 최종 활성화 벡터, $W_y$ 는 출력층의 가중치 행렬이다.)

Auxiliary Objective (보조 목적 함수)의 활용: GPT-1은 지도 학습 단계에서도 학습의 안정성과 수렴 속도를 높이기 위해, 1단계의 언어 모델링(다음 단어 예측) 목적 함수를 보조적으로 함께 사용한다.

L_3(\mathcal{C}) = L_2(\mathcal{C}) + \lambda \cdot L_1(\mathcal{C})

$L_3(\mathcal{C})$ $L_{3} (C)$ :
- 미세 조정(Fine-Tuning) 단계에서 모델이 최종적으로 최대화해야 하는 종합 목표 점수입니다.
$L_2(\mathcal{C})$ $L_{2} (C)$ :
- 이전에 설명해 드린 '정답(라벨) 맞추기' 점수입니다. (지도 학습)
$L_1{\mathcal{C}}$ $L_{1} C$ :
- 맨 처음에 설명해 드린 '다음 단어 맞추기' 점수입니다. (사전 학습 때 썼던 방식) 단, 여기서는 거대한 인터넷 데이터( ${\mathcal{U}}$ )가 아니라, 현재 훈련 중인 라벨링 데이터셋( ${\mathcal{C}}$ )의 텍스트를 가지고 다음 단어를 맞춥니다.
$\lambda$ $λ$ (lamda):
- 가중치(Weight)를 조절하는 숫자입니다. "정답 맞추기( $L_2$ )가 메인 임무이긴 한데, 다음 단어 맞추기( $L_1$ )를 얼만큼의 비율로 섞어서 학습시킬까?"를 결정하는 조절 다이얼입니다. (보통 0.5 같은 값을 줍니다.)

왜 굳이 끝난 $L_1$ 을 다시 가져와서 더했을까?

일반화 성능 향상 (과적합 방지):
정답(라벨) 맞추기에만 몰두하면, 모델이 텍스트의 진짜 의미는 잊어버리고 얄팍한 꼼수(특정 단어가 나오면 무조건 '긍정'으로 찍기 등)만 배울 수 있습니다(과적합). 다음 단어를 계속 예측하게 만들면, 문맥을 깊이 이해하는 능력을 유지하게 됩니다.

학습 속도 상승 (빠른 수렴):
언어의 구조를 계속 인지하면서 학습하기 때문에, 모델이 정답을 찾아가는 속도가 훨씬 빨라집니다.

사전 학습된 지식 유지:
인터넷 전체를 읽으며 고생해서 쌓아놓은 똑똑한 뇌(가중치)가, 특정 임무 하나만 배우다가 망가지는 현상(Catastrophic Forgetting)을 막아줍니다.

4. Task-aware input transformations (작업 인식 입력 변환)

이 기법의 핵심은 잘 만들어진 12층짜리 디코더 구조를 뜯어고치지 않는다는 것이다. architecture 변경 없이, 텍스트 입력의 형태만 특수 token을 활용해 조작함으로써 다양한 태스크를 수행한다.

~~Premise$Option 1Transformer+ Linear~~Premise$Option 2Transformer+ LinearSoftmaxOutputProbabilities~~~~

1) 특수 token의 역할

(Start) ~~token~~~~: sequence 맨 앞에 붙어 새로운 작업의 시작을 알리는 닻(Anchor) 역할.~~

Positional Encoding과의 차이: 포지셔널 인코딩이 단어의 '물리적 위치'를 알려준다면, (Start) token은 이전 문맥과 단절된 새로운 독립적 문제임을 알리는 '구조적 초기화 신호'다. 이 token이 없다면 첫 단어가 의미적 역할과 구조적 역할을 동시에 수행해야 해 어텐션 연산에 과부하가 온다.

$ (Delim) token: 제시문과 보기 등 서로 다른 성격의 글을 분리해주는 구분자 역할.

(Extract) token: sequence 맨 마지막에 붙는 token. 디코더가 이 token에 도달했을 때는 앞선 모든 문맥 정보가 계산된 상태다. 즉, 문장 전체의 의미를 꾹꾹 눌러 담은 하나의 요약 벡터(Vector)를 뽑아내는 방아쇠 역할을 한다.

2) 객관식 문제 (Multiple Choice) 처리 메커니즘

수능 국어 객관식(제시문 1개, 보기 4개)을 푼다고 가정할 때의 처리 과정이다.

배치(Batch) 구성: 보기 4개를 하나의 긴 글로 묶지 않는다. 보기 개수만큼 다음과 같이 독립된 sequence로 구성한다.

(Start) ~~+ 제시문 + $ (Delim) + 보기1 + (Extract)~~

~~(Start) ~~+ 제시문 + $ (Delim) + 보기2 + (Extract) (이하 동일)~~~~

병렬 연산: 위 4개의 독립된 sequence를 배치로 묶어 모델에 한 번에 통과시킨다.

점수 도출: 각각의 끝에 있는 (Extract) token이 출력한 4개의 벡터를 동일한 선형 분류기(Linear Classifier)에 통과시켜 각 보기당 1개씩, 총 4개의 임의의 점수(Logit)를 얻어낸 뒤, 이 점수들을 모아 Softmax 함수를 통과시켜 정답 확률을 도출한다.

5. 수학적 처리와 오차 계산 (학습의 완성)

모델이 뱉어낸 임의의 점수를 실제 정답과 비교하여 parameter를 업데이트(학습)하기 위한 필수 수학적 과정이다.

1) Softmax (소프트맥스 함수)

정의: 선형 분류기를 거쳐 나온 각 클래스의 임의의 점수 $z_i$ 를 확률 값으로 변환한다.

$\sigma(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}$

직관적 해설: 선형 분류기에서 나온 4개의 점수(예: 10, 5, 1, -2)는 크기가 제각각이다. 이를 단순 비교하지 않고 Softmax를 쓰는 이유는 두 가지다.

확률 분포 변환: 점수들을 다 합쳐서 정확히 1(100%)이 되도록(각 값은 $0 < \sigma < 1$ )록 비율을 맞춘다 (예: 70%, 20%, 8%, 2%). 지수 함수( $e$ )를 쓰기 때문에 큰 값은 더 확실하게, 작은 값은 더 작게 만들어 모델이 확신을 갖도록 유도한다.

미분 가능성: 딥러닝 역전파 학습을 위해선 그래프가 미분 가능해야 하는데, Softmax는 이 수학적 조건을 완벽하게 충족한다.

2) One-hot Encoding (원-핫 인코딩)

정의: 정답이 $c$ 번 클래스일 때의 목표 확률 분포 $p$ 는 다음과 같다.

$p(i) = \begin{cases} 1 & \text{if } i = c \\ 0 & \text{if } i \neq c \end{cases}$

직관적 해설: 컴퓨터가 자기가 예측한 확률(70%, 20%, 8%, 2%)과 진짜 정답을 비교하려면, 정답도 '확률 모양'이어야 한다. 정답이 2번이라면, 2번 자리에만 100%(1.0)를 주고 나머지는 0%(0.0)를 주어 [0.0, 1.0, 0.0, 0.0] 형태로 만들어주는 작업이다.

3) Cross-Entropy Loss (크로스 엔트로피 오차)

정의: 모델의 예측 확률 분포 $q$ 와 실제 정답 분포 $p$ 사이의 차이(Loss)를 측정한다.

$H(p, q) = -\sum_{x} p(x) \log q(x)$
정답이 One-hot Encoding된 경우, 실제 정답 클래스 $c$ 에 대해서만 확률을 계산하게 된다. 모델이 정답 클래스에 할당한 확률 $q(c)$ 가 1에 가까울수록 오차(Loss)는 0에 수렴하고, 확률이 낮을수록 오차는 무한대로 발산한다.

직관적 해설: MSE(평균 제곱 오차)는 집값 예측 같은 연속된 숫자(회귀)에 쓴다. 반면, 객관식이나 분류 문제에서는 두 확률 분포(예측값 vs 정답) 간의 거리를 재는 Cross-Entropy가 훨씬 적합하다. 모델은 예측값(예: [0.1, 0.7, 0.05, 0.15])과 정답([0, 1, 0, 0]) 사이의 오차값을 계산한 뒤, 이 오차를 줄이는 방향으로 내부 parameter를 수정하며 점차 정답률을 높인다.

[일상] 봄, 그리고 새 시작

Tue, 14 Apr 2026 00:00:00 GMT

벚꽃이 피기 시작하는 계절에 개인 홈페이지도 새로 시작합니다.

요즘 연구실에서 GPU 프로그래밍 프로젝트를 진행 중인데, 코드를 짜다 보면 시간 가는 줄 모릅니다.
CUDA 커널이 처음 예상대로 동작할 때의 그 쾌감이... 아직도 짜릿해요 😄

블로그를 꾸준히 쓰는 게 목표인데, 공부 기록뿐 아니라 이런 가벼운 일상 이야기도 남겨두려 합니다.

오늘은 커피 한 잔 하면서 사이트 세팅을 마무리했습니다.
봄처럼 좋은 하루였어요.

[잡도리] 개인 홈페이지를 Docusaurus로 새로 만들었습니다

Tue, 14 Apr 2026 00:00:00 GMT

드디어 개인 홈페이지를 제대로 꾸렸습니다. 그동안 GitHub Profile README로만 유지하던 걸, Docusaurus 기반의 정적 사이트로 이전했어요.

왜 Docusaurus인가

Markdown 우선: 블로그 글을 .md 파일로 관리하면 충분합니다.

React 확장: 논문, 프로젝트, 챗봇 같은 커스텀 페이지는 React 컴포넌트로 자유롭게 만들 수 있어요.

GitHub Pages 배포: gh-pages 브랜치 push 한 번으로 배포가 완료됩니다.

다크모드 기본 지원: 따로 구현 안 해도 됩니다 😄

이 사이트의 구성

섹션 내용
홈 소개, 기술 스택, 연락처
블로그 공부 / 잡도리 / 일상 / 리뷰 / 뉴스
논문 작성한 논문 아카이브
프로젝트 GitHub 저장소 & 릴리즈 쇼케이스
챗봇 나에 대한 AI Q&A 챗봇 (예정)

앞으로 할 것들

챗봇 실제 배포 & 연결

논문/프로젝트 데이터 채우기

블로그 꾸준히 쓰기 (가장 어려운 부분...)

부담 없이 기록하는 공간으로 쓰려고 합니다. 자주 들러주세요!

[뉴스] AI/HPC 주간 클리핑 — 2026.04.14

Tue, 14 Apr 2026 00:00:00 GMT

관심 분야(딥러닝 추론, GPU 아키텍처, HPC)에서 이번 주 눈에 띄는 소식들을 정리합니다.

이번 주 주요 소식

1. NVIDIA Blackwell 2세대 추론 벤치마크 공개

차세대 Blackwell 아키텍처의 FP8 추론 처리량이 H100 대비 최대 4× 향상됐다는 벤치마크 결과가 공개됐습니다.
특히 LLM 디코딩 단계에서의 메모리 대역폭 효율이 크게 개선된 것이 주목됩니다.

2. FlashAttention-3 논문 arXiv 공개

Flash Attention 시리즈의 세 번째 논문이 공개됐습니다.
Hopper 아키텍처(H100)의 **Tensor Memory Accelerator(TMA)**와 비동기 파이프라인을 활용해 Attention 커널 효율을 높였습니다.

3. PyTorch 2.7 릴리즈

torch.compile의 안정성 개선과 함께 CUDA Graph 자동화 기능이 강화됐습니다.

개인적으로 정리한 내용이라 오류가 있을 수 있습니다. 원본 소스를 꼭 확인하세요!

[리뷰] 책 『CUDA by Example』 — GPU 입문에 가장 좋은 책

Tue, 14 Apr 2026 00:00:00 GMT

CUDA 프로그래밍을 처음 배울 때 가장 많은 도움을 받은 책을 소개합니다.

책 정보

제목: CUDA by Example: An Introduction to General-Purpose GPU Programming

저자: Jason Sanders, Edward Kandrot

출판: Addison-Wesley Professional (2010)

난이도: ⭐⭐☆☆☆ (입문)

왜 좋은가

예제 중심 구성

이론 설명보다 실제 동작하는 코드를 먼저 보여주고 설명하는 방식이라 직관적입니다.
커널 작성 → 메모리 관리 → 텍스처/상수 메모리 → 스트리밍 순으로 자연스럽게 발전합니다.

다루는 핵심 개념

챕터 주제
3 기본 커널 작성 & 실행
4 병렬 Reduction
5 스레드 협력 & Shared Memory
9 원자적 연산(Atomics)
10 CUDA 스트림

아쉬운 점

2010년 책이라 최신 아키텍처(Volta/Ampere/Hopper) 내용이 없습니다.

Warp-level 프리미티브(__shfl_sync 등)는 NVIDIA 공식 Programming Guide를 별도로 봐야 합니다.

추천 대상

C를 알고 CUDA를 처음 시작하는 분에게 강력히 추천합니다.
진지한 최적화는 이후 Programming Guide와 GTC 발표 자료를 참고하면 됩니다.

총점: 4 / 5 ⭐⭐⭐⭐☆

[공부] CUDA 커널 최적화 — 메모리 접근 패턴 정리

Tue, 14 Apr 2026 00:00:00 GMT

딥러닝 추론 최적화를 공부하면서 CUDA 커널 작성 시 메모리 접근 패턴이 성능에 얼마나 영향을 주는지 정리해봤습니다.

핵심 개념

Coalesced Memory Access

GPU 글로벌 메모리는 워프(warp) 내 스레드들이 연속된 주소에 접근할 때 하나의 트랜잭션으로 묶어 처리합니다.
비연속 접근(Strided Access)은 트랜잭션 수가 늘어나 대역폭 효율이 급격히 떨어집니다.

Shared Memory 활용

L1 캐시와 물리적으로 같은 온칩 SRAM인 Shared Memory를 타일(tile) 단위로 미리 적재하면 글로벌 메모리 접근 횟수를 대폭 줄일 수 있습니다.

__global__ void matmul_tiled(float *A, float *B, float *C, int N) { __shared__ float sA[TILE][TILE]; __shared__ float sB[TILE][TILE]; // ... }

오늘의 실험 결과

구현 방식 처리량 (GFLOPS)
Naive (글로벌) 42
Coalesced 198
+ Shared Memory 573

Shared Memory 타일링만 적용해도 약 13.6× 성능 향상을 확인했습니다.

다음 목표

Bank conflict 분석 및 패딩 전략

__ldg() read-only cache 활용

Warp divergence 최소화 패턴

섹션	내용
홈	소개, 기술 스택, 연락처
블로그	공부 / 잡도리 / 일상 / 리뷰 / 뉴스
논문	작성한 논문 아카이브
프로젝트	GitHub 저장소 & 릴리즈 쇼케이스
챗봇	나에 대한 AI Q&A 챗봇 (예정)

챕터	주제
3	기본 커널 작성 & 실행
4	병렬 Reduction
5	스레드 협력 & Shared Memory
9	원자적 연산(Atomics)
10	CUDA 스트림

hkimw Blog

[논문] Attention Is All You Need

1. Transformer의 등장 배경​

2. Model Architecture​

2.1 Encoder​

2.2 Decoder​

3. Attention 메커니즘​

3.1 Scaled Dot-Product Attention​

3.2 Multi-Head Attention​

4. Position-wise Feed-Forward Network​

5. Positional Encoding​

[논문] GPT-1 핵심 정리

1. 언어 모델의 핵심 기초 개념​

1) Context Window​

2) Maximize Likelihood (최대 우도 추정)​

2. GPT의 뼈대: 트랜스포머 디코더 (Transformer Decoder)​

3. GPT-1의 2단계 학습 파이프라인​

1단계: Unsupervised Pre-training (비지도 사전 학습)​

2단계: Supervised Fine-tuning (지도 미세 조정)​

label(정답) 예측 확률

미세 조정(Fine-Tuning) 목적 함수

왜 굳이 끝난 L1L_1L1​ 을 다시 가져와서 더했을까?

4. Task-aware input transformations (작업 인식 입력 변환)​

1) 특수 token의 역할​

2) 객관식 문제 (Multiple Choice) 처리 메커니즘​

5. 수학적 처리와 오차 계산 (학습의 완성)​

1) Softmax (소프트맥스 함수)​

2) One-hot Encoding (원-핫 인코딩)​

3) Cross-Entropy Loss (크로스 엔트로피 오차)​

[일상] 봄, 그리고 새 시작

[잡도리] 개인 홈페이지를 Docusaurus로 새로 만들었습니다

왜 Docusaurus인가​

이 사이트의 구성​

앞으로 할 것들​

[뉴스] AI/HPC 주간 클리핑 — 2026.04.14

이번 주 주요 소식​

1. NVIDIA Blackwell 2세대 추론 벤치마크 공개​

2. FlashAttention-3 논문 arXiv 공개​

3. PyTorch 2.7 릴리즈​

[리뷰] 책 『CUDA by Example』 — GPU 입문에 가장 좋은 책

책 정보​

왜 좋은가​

예제 중심 구성​

다루는 핵심 개념​

아쉬운 점​

추천 대상​

[공부] CUDA 커널 최적화 — 메모리 접근 패턴 정리

핵심 개념​

Coalesced Memory Access​

Shared Memory 활용​

오늘의 실험 결과​

다음 목표​

1. Transformer의 등장 배경

2. Model Architecture

2.1 Encoder

2.2 Decoder

3. Attention 메커니즘

3.1 Scaled Dot-Product Attention

3.2 Multi-Head Attention

4. Position-wise Feed-Forward Network

5. Positional Encoding

1. 언어 모델의 핵심 기초 개념

1) Context Window

2) Maximize Likelihood (최대 우도 추정)

2. GPT의 뼈대: 트랜스포머 디코더 (Transformer Decoder)

3. GPT-1의 2단계 학습 파이프라인

1단계: Unsupervised Pre-training (비지도 사전 학습)

2단계: Supervised Fine-tuning (지도 미세 조정)

왜 굳이 끝난 $L_1$ 을 다시 가져와서 더했을까?

4. Task-aware input transformations (작업 인식 입력 변환)

1) 특수 token의 역할

2) 객관식 문제 (Multiple Choice) 처리 메커니즘

5. 수학적 처리와 오차 계산 (학습의 완성)

1) Softmax (소프트맥스 함수)

2) One-hot Encoding (원-핫 인코딩)

3) Cross-Entropy Loss (크로스 엔트로피 오차)

왜 Docusaurus인가

이 사이트의 구성

앞으로 할 것들

이번 주 주요 소식

1. NVIDIA Blackwell 2세대 추론 벤치마크 공개

2. FlashAttention-3 논문 arXiv 공개

3. PyTorch 2.7 릴리즈

책 정보

왜 좋은가

예제 중심 구성

다루는 핵심 개념

아쉬운 점

추천 대상

핵심 개념

Coalesced Memory Access

Shared Memory 활용

오늘의 실험 결과

다음 목표