시간 | 강좌명 | 강사명 |
09:30~12:30 | 비전 파운데이션 모델 연구 동향 및 활용 방법 | 임성훈 (DGIST) |
이미지 분류나 객체 탐지 등 시각적 이해는 컴퓨터 비전에서 오랜 도전 주제 중 하나이다. 지금까지 대부분의 연구는 각 문제에 특화된 모델을 사용하여 수행되었고, 이러한 접근법은 다양한 작업 간의 잠재적 시너지를 완전히 활용하는 데 제한되어 있다. 그러나 최근 대규모 시각-언어 사전 훈련의 성공을 기반으로 ‘비전 파운데이션(Vision foundation)’ 모델에 대한 관심이 증가하고 있다. 이 모델은 이미지 수준, 픽셀 수준에서 비디오 수준까지 다양한 작업에 적용할 수 있어서 다양한 산업군에 활용되고 있다. 이번 세미나에서는 이러한 ‘비전 파운데이션(Vision foundation)’ 모델에 대한 최신 연구 추세와 활용 방법을 소개하려고 한다. |
12:30~14:00 | 중식 |
14:00~17:00 | Vision Transformer 원리 및 활용 | 김성국 (연세대) |
NLP 혁명을 이끌고 있는 transformer의 핵심 구성 블럭인 MHSA (multi-head self-attention)가 vision task에 활용되어
우수한 성능을 보이고 있다. Vision transformer의 작동 원리, 전통적인 convolution 블록과의 차이점 및 다양한 분야에서
활용 방법을 소개한다 |