Hyunwoo KIM김현우
AI 시스템 · FPGA 가속 · LLM 추론 · 서울
AI 시스템의 하드웨어/소프트웨어 경계에서 작업합니다: FPGA 기반 NPU, LLM 추론 커널, 메모리 바운드 워크로드, 그리고 모델을 실리콘에 연결하는 런타임.
주요 프로젝트인 pccx는 커스텀 64비트 ISA, INT8 시스톨릭 어레이, 런타임 큐, Python 드라이버 스택으로 구성된 엣지 FPGA 추론 연구 스택입니다. 모델 그래프가 메모리 대역폭, 큐, 하드웨어 한계와 만나는 마지막 구간을 연구합니다.
지능형반도체학과 학부생으로, FPGA 기반 NPU와 LLM 추론 최적화를 하드웨어부터 런타임까지 연결해 공부하고 있습니다.
tech stackNETWORK
Loading network...
01threads
연구 주제
논문을 읽거나 시스템을 만들 때 계속 돌아오게 되는 주제들.
- memory-bound inference대역폭이 모델의 실질 배치 크기가 될 때
디코드 단계 LLM 추론은 "더 많은 MAC"보다는 신중하게 설계된 데이터 이동에 가깝습니다.
- gemm / gemv커널의 형태가 연산 이름보다 중요하다
GEMV는 단순히
N = 1인 GEMM이 아닙니다. 메모리 접근 패턴이 최적화 목표 전체를 바꿉니다. - runtime드라이버도 가속기의 일부
큐, 동기화, 스크래치패드, 전송 오버랩이 하드웨어를 빠르게 느끼게 할지, 고장난 것처럼 느끼게 할지를 결정합니다.
- low-bit systems양자화는 시스템 설계 문제
가중치 정밀도, 활성화 정밀도, 패킹, 하드웨어 데이터패스를 함께 고려해야 합니다.
02toolbox
기술 스택
간략한 스냅샷입니다.
- hardwareSystemVerilog, Vitis HLS, FPGA bring-up, systolic-array datapaths
- systemsC/C++, Python runtimes, queues, memory layout, profiling, small kernels
- ai inferenceTransformer inference, KV-cache, GEMM/GEMV, quantization, roofline-style analysis
- writingpaper notes, architecture diagrams, reproducible experiment logs