1월 25일(월)

Session 1 좌장 : 주창희 (고려대)
09:30~11:30 강연1 강화학습 기초(1) 주창희 (고려대)
본 강연에서 강화학습의 개념과 관련된 기초 개념을 소개하고자 한다. 가장 기본이 되는 모델인 Multi-Armed Bandit와 Markov Decision Process을 중심으로 그 수학적인 정의와, 강화학습의 실제응용에서는 모델이 어떻게 구성되는지 그 원리를 설명하고자한다. 더불어 강화학습의 기본이 되는 알고리즘과 작동원리를 설명하고, 이 과정에서 exploration과 exploitation 사이의 최적균형과 같은 원론적인 수학개념들을 다양한 예제와 함께 풀어보고자 한다.
11:30~12:00 휴식
12:00~13:00 강연2 MAB and non-stationary environments 이주현 (한양대)
다중 슬롯 머신 (Multi-Armed Bandits)은 강화학습 문제의 가장 간단한 형태 중에 하나로, 간단한 형태 덕분에 다양한 수학적인 분석이 이루어져왔으며 통신 시스템을 포함한 많은 응용에 쓰이고 있다. 대표적인 다중 슬롯 머신 알고리즘으로 epsilon-greedy, UCB, EXP3, Thompson sampling을 설명하고 특히 비정상 변화 환경 (Non-stationary Environments)에 특화된 Discounting-UCB, Switching-UCB 알고리즘과 최근 연구된 변화 감지 (Change Detection) 기반의 MAB 기법에 대해 소개한다
13:00~14:30 휴식
Session 2 좌장 : 이주현 (한양대)
14:30~16:30 강연3 강화학습 기초(2) 주창희 (고려대)
본 강연에서 강화학습의 개념과 관련된 기초 개념을 소개하고자 한다. 가장 기본이 되는 모델인 Multi-Armed Bandit와 Markov Decision Process을 중심으로 그 수학적인 정의와, 강화학습의 실제응용에서는 모델이 어떻게 구성되는지 그 원리를 설명하고자한다. 더불어 강화학습의 기본이 되는 알고리즘과 작동원리를 설명하고, 이 과정에서 exploration과 exploitation 사이의 최적균형과 같은 원론적인 수학개념들을 다양한 예제와 함께 풀어보고자 한다.
16:30~17:00 휴식
17:00~18:00 강연4 5G/B5G 시스템 강화 학습 응용 전상운 (한양대)
최근 기계 학습을 활용하여 5G/B5G 통신 시스템의 성능을 개선하려는 다양한 시도들이 수행되고 있다. 특히 강화 학습은 네트워크 환경을 실시간으로 관찰하여 적응적으로 대응 가능하다는 장점으로 인하여 PHY/MAC 계층에서 이를 활용한 연구가 활발히 진행중이다. 본 강연은 심층 강화 학습을 적용한 적응적 무선 자원 할당, 빔성형 기술 등에 대한 최신 응용 사례를 소개하고 또한 이러한 기술들의 장점과 한계 및 개선점에 대해 논의하고자 한다.

1월 26일(화)

Session 3 좌장 : 옥정슬 (포항공대)
09:30~10:30 강연1 뉴로모픽 연합학습 장혜령 (King’s College London)
기존의 학습 방법들은 데이터를 한 곳에 모아 모델을 학습한다. 하지만 이를 모바일 또는 엣지컴퓨팅 환경에 적용하는 것은 비용, 처리시간, 보안 측면에서 많은 어려움을 초래한다. 본 발표에서는 여러 단말에 데이터가 분산된 환경에서 스스로 모델을 학습하고, 그 결과를 중앙 클라우드에서 취합하여 모델을 개선하는 연합학습(federated learning)의 이론과 응용사례를 다룬다. 특히 낮은 에너지로 학습을 수행하는 인간의 뇌를 모방하는 뉴로모픽(neuromorphic) 기술을 단말에 적용하는 연합학습 활용사례를 구체적으로 살펴본다.
10:30~11:00 휴식
11:00~13:00 강연2 심층강화학습 이론 및 활용 곽정호 (DGIST)
일반 강화학습은 계산복잡도와 차원의 저주에 관한 한계를 가지고 있다. 심층강화학습은 GPU의 발전과 더불어 심층신경망을 강화학습에 도입하여 이러한 문제들을 해결하여 학습성능을 크게 향상시켰다. 본 강연에서는 심층강화학습의 기본적인 이론에 대해 설명하고, 심층강화학습을 적용한 알고리즘들과 네트워크 분야의 응용사례들을 살펴본다.
13:00~14:30 휴식
Session 4 좌장 : 주창희 (고려대)
14:30~16:30 강연3 Learning to learn (AutoML) 윤세영 (KAIST)
최근 딥러닝의 발전과 함께 기계학습 분야의 발전은 눈부시다. 하지만 많은 경우 데이터마다 최적의 딥러닝 구조 및 각종 hyper parameter들을 잘 결정해줘야 좋은 성능을 기대할 수 있다. 이러한 학습 구조 및 hyper parameter들을 찾는 과정을 자동화하여 어떤 데이터를 줘도 좋은 성능을 기대할 수 있는 방법으로서 최근 AutoML이 주목받고 있다. 본 세미나에서는 유전 알고리즘, 베이지안 최적화 등의 다양한 AutoML 방법론과 실제 AutoML이 적용되어 좋은 성과를 보였던 사례들을 소개하며 AutoML의 이해를 돕고자 한다.
16:30~17:00 휴식
17:00~18:00 강연4 Moving objective problem and solutions in deep reinforcement learning 옥정슬 (포항공대)
강화학습은 늘 자신보다 나은 자신을 향해 정책을 강화시켜나가는 것을 목적으로 한다. 즉 일반적인 딥러닝과는 다르게 목적함수가 학습진행에 따라 변한다. 본 강의에서 강화학습의 움직이는 목적함수(moving objective)를 위해 심층신경망을 학습시키는 경우 발생하는 문제에 대해서 소개하고, 이를 해결하고자 제안되었던 다양한 연구들에 대해 논의하고자 한다.

1월 27일(수)

Session 5 좌장 : 이경한 (서울대)
09:30~10:30 강연1 Hierarchical RL for hierarchical task planning and task generalization 손성렬(University of Michigan)
본 강연에서는 계층적 강화학습 모델과 논리 추론 모델을 이용하여 다양하고 복잡한 업무를 효율적으로 학습하고, 새로운 임무를 수행할 수 있는 강화학습 알고리즘의 수학적 정의, 학습 체계 및 응용사례를 소개한다.
10:30~11:00 휴식
11:00~13:00 강연2 메타강화학습 및 모방학습 이론 김중헌 (고려대)
본 강의에서는 심층강화학습의 고질적인 약점인 sparse reward 환경에서의 최적화를 해결하기 위한 심층강화학습에서의 이종의 두 가지 접근 방법인 meta RL과 imitation learning에 대하여 소개한다. Meta RL은 효율적인 학습을 위한 Model-Agnostic Meta-Learning (MAML)의 개념을 강화학습에 적용시킨 것으로, sparse reward 환경에서 문제를 해결하는 방법이다. meta RL의 기본적인 개념부터 발전된 No-Reward Meta Learning (NoRML)을 다루면서 보상이 없는 환경에서 학습을 하는 방법에 대해 소개한다. Imitation Learning은 전문가의 데이터를 활용하여 이를 모방하여 행동을 내리는 방법이다. Imitation Learning에서는 작동 원리에 대하여 소개하고 Behavior Cloning (BC), Generative Adversarial Imitation Learning (GAIL), Randomized Imitation Learning (RAIL)의 딥러닝 아키텍쳐에 대해 다루고자 한다. 더 나아가 연구적인 관점에서 실제로 어떻게 활용이 되는지에 대해 개괄적으로 확인한다.
13:00~14:30 휴식
Session 6 좌장 : 김중헌 (고려대)
14:30~16:30 강연3 Incremental few-shot learning 윤성환 (UNIST)
본 강의에서는 새로운 임무에 대해 강한 일반화 성능을 목표로 하는 메타학습(Meta-learning) 기술과 이를 바탕으로 한 소수샷 학습(Few-shot learning) 기술에 대해 설명하고 나아가 연속적인 학습을 위한 점진적 소수샷 학습(Incremental few-shot learning) 알고리즘에 대해 소개한다. 또한 이러한 기술들을 차세대 통신 시스템에 적용할 수 있는 가능성에 대해 논의하고자 한다.
16:30~17:00 휴식
17:00~18:00 강연4 Reinforcement learning for language-based agents 김기응 (KAIST)
챗봇 등으로 대표되는 자연어로 대화를 주고 받는 대화형 에이전트는 인간 수준의 자연스러운 발화를 생성해내는 것 뿐 아니라 주어진 목적이 달성되도록 상황에 맞추어 단계적으로 대화를 이끌어가야 하는 두가지 과업을 달성해야 한다. 이를 위해 본 연구실에서는 강화학습을 적용하여 대화형 에이전트를 훈련하는 연구를 진행해왔고, 이에 대한 소개를 하고자 한다.