AlphaGo와 이세돌 9단의 세기의 바둑 대결
2016년 3월, 전 세계의 이목이 대한민국 서울 포시즌스 호텔의 한 바둑판으로 집중되었다. 구글 딥마인드社의 인공지능 ‘AlphaGo’ 와 세계 최정상급 바둑기사인 이세돌 9단의 바둑 대결. 바둑계에서는 대부분 이세돌의 승리를 예상했지만, 결과는 충격적이게도 4:1 AlphaGo의 승리였다. 이세돌이 ‘신의 한수’를 통해 이긴 4국은 현재까지 AlphaGo의 유일한 패배(알파고 통산전적 69전 68승 1패)로 남아있다.
이러한 AlphaGo의 계속된 승리는 과학계에서는 어느정도 예견되었던, 하지만 여전히 인공지능 연구에 있어서도 획기적인 이정표가 된 사건이었다. 이후 AlphGo는 중국의 커제 9단을 비롯한 세계 최정상급 바둑기사들과의 경기에서 모두 승리하고, 2017년 5월 바둑계에서 은퇴를 하였으며, 딥마인드는 계속해서 ‘스타크래프트2’ 게임 영역에 인공지능을 도입한 ‘AlphaStar’, 단백질 구조를 예측하는 ‘AlphaFold’, 그리고 보다 최근에는 로봇에게 다양한 작업 수행을 학습시킬 수 있는 RT-X 등 다양한 연구를 진행하고 있다. 이러한 구글 딥마인드 연구의 중심에는 강화학습(Reinforcement Learning, RL)이 있다.
강화학습(Reinforcement Learning)이란
강화학습은 학습 전 데이터 수집이나, 전 처리, 또는 데이터의 레이블을 지정하는 등의 작업이 필요하지 않고, 주어진 문제에 대해 정보 없이도, 단순히 적절한 보상함수를 정의하면, 주어진 시스템에 대한 완전한 이해 없이도 학습을 시작할 수 있다는 장점을 가지고 있다. 그렇기 때문에, 차량 및 로봇과 같은 복잡한 비선형 시스템의 제어, 스케줄링과 같은 기존에 해결하기 어려운 분야의 문제에 잘 적용될 수 있다. 사람으로 치면, 자전거를 처음 타는 아이가 자전거의 다이나믹스에 대한 이해 없이도, 넘어지기도 하면서 실패를 겪을 수 있지만 천천히 시행착오를 통해 자전거를 타는 방법을 익히는 것과 같다. 구글 딥마인드 연구진은 강화학습이 향후 범용인공지능(Artificial General Intelligence) 수준으로 발전하여, 더욱 다양한 분야에 폭넓게 활용될 것으로 예상하고 있다.
강화학습과 최적제어의 역사
이러한 강화학습은 사실 최근에 연구가 시작된 분야가 아니라 오랜 시간을 두고 발전해온 긴 역사를 가지고 있다. 첫번째는 시행착오 학습과정에서 강화(Reinforcement) 라는 개념이 유래된 행동 심리학이며, 다른 하나는 최적제어(Optimal Control)이다.
프레드릭 스키너(Frederic Skinner, 1904~1990)는 미국의 행동주의 심리학자로, 스키너 상자(Skinner Box)를 고안하였다. 스키너는 상자 속 쥐가 우연히 레버를 누른 결과 먹이가 나오자 이러한 행동을 계속해서 반복하고, 이 과정에서 먹이가 쥐의 행동을 ‘강화(Reinforcement)’한다는 조작적 조건형성이론을 고안해냈으며, 이러한 이론은 오늘날 강화학습 기초 개념의 영감이 되었다. 최근 화제가 된 ChatGPT와 같은 생성형 AI 기반의 거대 언어모델(Large Language Model, LLM) 또한 인간의 피드백을 보상함수로 활용하여, 언어모델을 개선해 나가는 인간 피드백형 강화학습(Reinforcement Learning from Human Feedback, RLHF)으로 생각할 수 있다.
또 다른 분야는 최적제어(Optimal Control) 이다. 최적제어는 시스템의 여러가지 물리적 제약조건을 만족하면서 성능지표를 최대화, 또는 최소화하도록 제어입력을 찾아 나가는 제어방법으로 1950년대 미국의 응용수학자인 리처드 벨만(Richard E. Bellman, 1920~1984)을 비롯한 학자들이 19세기 Hamilton-Jacobi 방정식으로 표현되는 고전역학의 개념을 확장하면서 많은 연구가 진행되었다. 이러한 최적제어는 가치 함수(Value function, 또는 Optimal Cost-to-go)라고 불리우는 다이나믹 시스템의 상태 가치와 이를 표현하는 벨만 방정식(Bellman Equation)으로 대표되는 다이나믹 프로그래밍(Dynamic Programming)을 통해 오랜 기간 많은 연구가 진행되었다.
다이나믹 프로그래밍은 일반적인 확률론적 최적 제어문제(Stochastic Optimal Control)를 해결할 수 있는 현실적인 방안으로 널리 알려져 왔으나, 상태변수의 수가 늘어날수록, 계산 량이 기하급수적으로 급격하게 증가하는 차원의 저주(The Curse of Dimensionality)와 같은 현실적인 문제들로, 단순한 수학적 문제 외에 현실 세계의 공학 문제 해결에는 확장의 어려움을 겪어왔다. 그러나 1980년대부터 1990년대 리처드 서튼(Richard S. Sutton)의 시간차 학습(Temporal Difference Learning), 크리스 왓킨스(Chris Watkins)의 Q러닝(Q-Learning)과 같은 새로운 개념들이 나오고, 2000년대에서 2010년대, 심층 신경망 모델, 딥 러닝, 빅데이터 처리 속도 증가 등의 기술 발전과 융합되면서 최적제어 이론들은 AlphaGo와 같은 획기적이고 강력한 인공지능 솔루션으로 거듭나기 시작하였다. 지금 이 순간에도 최적제어의 이론들은 강화학습이라는 새로운 모습으로 매우 빠르게 발전하고 있다.
강화학습과 차량시스템 최적제어
오늘날 이러한 강화학습은 다양한 엔지니어링 분야에 적용되고 있으며, 자동차 분야에도 많은 연구가 시작되고 있다. 특히 다양한 부품들이 복잡한 구조를 가지고 연결되어 있는 차량 시스템의 경우 주어진 시스템의 정확한 수학적 모델을 얻거나, 전체 시스템의 작동을 최적화하는 것이 쉽지 않으므로, 강화학습의 적용이 기대되는 분야이다. 차량의 연비 또는 운전성과 같이 시스템의 성능을 평가하는 지표를 보상함수를 정의하고, 상태변수에 따른 제어 규칙(Policy)을 학습하도록 강화학습 알고리즘을 구성하면, 차량 시스템의 최적 성능을 도출하는 것이 가능하다.
하이브리드 자동차(Hybrid Electric Vehicles)의 에너지 관리 전략(Energy Management Strategy), 또는 자율주행자동차의 에너지 최적화 주행 제어(Eco-driving)와 같은 연구분야가 강화학습을 적용하여 연구가 진행되고 있는 대표적인 예이다. 하이브리드 차량의 경우 엔진과 전기모터의 두가지 구동원을 사용하기 때문에, 다양한 주행 상황에서 차량의 연비성능을 향상시키기 위해서는 두개의 구동원에 적절히 동력을 분배하는 에너지 관리 전략이 필요하다. 그러나 이러한 하이브리드 차량의 에너지 관리 전략의 경우, 차량 시스템의 특성과, 운전자의 운전습관 등 예측하기 어려운 다양한 주행환경을 모두 고려해야 하므로 최적의 성능을 얻는 것이 쉽지 않다.
강화학습을 적용하면, 여러가지 주행 상황에 따른 확률적 최적화를 통해 다양한 주행환경에서 최적화된 에너지 관리전략을 학습하는 것이 가능하다. 자율주행자동차의 에너지 최적 주행제어와 같은 연구에서도 도로 구배와 같은 주행환경, 신호등 및 다른 차량과의 안전거리 등을 고려하여 인간이 운전하지 않는 자율주행 차량의 속도를 가변적으로 조정하는 최적의 주행 제어 전략을 찾는 데에 강화학습을 활용한 연구가 국내외에서 활발히 진행되고 있다. 이외에도 전기자동차의 배터리 관리 전략(Battery Management System, BMS)이나 공조시스템 제어, 자율주행 자동차의 경로 생성, 횡 방향 주행 제어, 교차로 주행전략 등 자율주행 알고리즘 개발, 차량
ECU(Electric Control Unit)의 파라미터 캘리브레이션과 같은 분야도 강화학습을 활용한 연구들이 진행되고 있다.
강화학습 최신 연구동향
그러나 이러한 강화학습에 대한 회의론도 제기되고 있다. 시행착오를 통해 학습할 수 있는 게임이나 시뮬레이션 세계와는 달리 실제 환경에서는(특히 안전이 중시되는 차량 시스템에서는), 강화학습 알고리즘의 제어 실패는 안전에 돌이킬 수 없는 큰 문제가 될 수 있다. 또한 강화학습이 게임과 같은 특정 환경에 특화되어 있으며, 강화학습을 통해 일반적인 제어 규칙을 얻기 위해선 막대한 규모의 데이터가 필요하다는 점도 강화학습을 차량 제어와 같은 실제 현실 세계의 문제에 적용하는 데에 걸림돌로 작용하고 있다. 이에 따라 최근에는 이러한 강화학습의 학습 효율성을 향상시키고 강화학습을 적용할 수 있는 범위를 확장시키고자 다양한 연구가 진행되고 있다.
강화학습 알고리즘의 안전성 측면에서 탐색과 활용의 딜레마(Explore-Exploitation)를 고려한 안전 강화학습(Safe RL), 기존의 도메인 지식을 활용하여 샘플링 효율을 높인 모델 기반 강화학습(Model-based RL), 보상 함수 추정을 통해 보상의 희소성 문제를 해결하는 역강화학습(Inverse RL)과 같은 모방 강화학습(Imitation RL), 및 다수의 객체를 제어하는 멀티 에이전트(Multi-agent RL) 등 다양한 형태로 강화학습 분야는 발전을 거듭하고 있다.
실패와 도전을 통한 미래 모빌리티의 혁신
자동차의 역사도 사실 시행착오를 통해 최적화된 제어규칙을 찾아 나가는 강화학습과 유사하다. 자동차 기술은 끊임없는 실패와 도전을 통한 시행착오를 통해 발전해왔다. 1769년 인류 최초의 자동차로 일컬어지는 니콜라 조제프 퀴뇨의 증기엔진 자동차도 시험 운전 중에 전복사고로 시험운전이 실패로 돌아갔고, 이는 인류 최초의 자동차 사고임이 잘 알려져 있다. 자율주행자동차의 시초로 언급되는 1925년 미국 프랜시스 후디나의 라디오 컨트롤을 이용한 무선 제어 자율주행자동차의 경우도 출동사고를 면하지 못했다. 하지만 이러한 자동차들은 오늘날의 새로운 자동차 산업 시대의 개막을 알리는 서곡이 되었다.
강화학습 또한 끊임없는 실패와 도전을 통해 계속해서 빠르게 발전해 나가고 있다. 언젠가는 AlphaGo와 같이 바둑뿐만이 아니라 자동차 산업 분야에도 강화학습이 적용된 인류를 깜짝 놀라게 할 미래 모빌리티가 탄생하지 않을까. 끊임없는 실패와 도전을 통한 미래 모빌리티의 혁신, 강화학습과 최적제어 그리고 미래 모빌리티의 발전을 기다리며 이 글을 마친다.
글 / 이희윤 (단국대학교)
출처 / 오토저널 2024년 5월호
댓글0