[논문] Attention Is All You Need
· 약 11분
Transformer 모델 구조의 핵심 개념과 수학적 원리를 담은 글이다.
Transformer 모델 구조의 핵심 개념과 수학적 원리를 담은 글이다.
이 문서는 GPT-1 논문의 architecture와 학습 과정을 수학적/정의와 직관적인 해설을 결합하여 정리한 노트이다.
벚꽃이 피기 시작하는 계절에 개인 홈페이지도 새로 시작합니다.
드디어 개인 홈페이지를 제대로 꾸렸습니다. 그동안 GitHub Profile README로만 유지하던 걸, Docusaurus 기반의 정적 사이트로 이전했어요.
관심 분야(딥러닝 추론, GPU 아키텍처, HPC)에서 이번 주 눈에 띄는 소식들을 정리합니다.
CUDA 프로그래밍을 처음 배울 때 가장 많은 도움을 받은 책을 소개합니다.
딥러닝 추론 최적화를 공부하면서 CUDA 커널 작성 시 메모리 접근 패턴이 성능에 얼마나 영향을 주는지 정리해봤습니다.