인공 지능(Artificial Intelligence) 관련된 글을 읽으면 이 곳에 꾸준히 올려야겠다. 작은 지식이 계속 쌓이다보면 각 지식들이 서로 상호작용 하여 더 큰 효과를 가져오는 시너지 효과(synergy effect)를 기대할 수 있을지도 모르니까.
오늘은 아래 내용을 읽었다.
- 머신 러닝(Machine Learning)의 세 가지 종류
- 강화 학습(Reinforcement Learning)
1. 들어가기 전에
들어가기 전에 용어를 정리하자. 인공지능은 뭐고 머신 러닝은 무엇인가? 인공지능은 크게 강 인공지능과 약 인공지능으로 나뉜다. 터미네이터 같은 로봇에 적용되 인공지능이 강 인공지능이라고 보면 되는데, 특정 영역이 아닌 모든 상황에서 똑똑하게 행동하는, 인간과 차이가 없거나 더 똑똑한 인공지능을 의미한다. 줄여서 Artificial Generalized Intelligence(AGI) 라고 부른다. 현재 우리가 언급하는 모든 인공지능은 약 인공지능이라고 생각하면 된다.
- [AI기획①] AI vs. AGI, 인공지능 개념과 미래 (링크)
이러한 인공지능을 구현하는 이론 중 하나로 머신 러닝이 존재하는 것이다. 즉 관계를 그려보면 아래와 같다.
- 인공지능(강 + 약) > 머신 러닝 > 지도 학습, 비지도 학습, 강화 학습, …
2. 머신 러닝(Machine Learning)의 세 가지 종류
머신 러닝에는 아래와 같이 크게 세 가지 종류가 존재한다.
- 지도 학습
- 비지도 학습
- 강화 학습
지도 학습(Supervised Learning)은 데이터에 대해 명시적인 정답인 레이블(Label)을 제공하여 컴퓨터를 학습시키는 방법으로 분류(Classfication)에 해당한다. Convolutional Neural Network(CNNs), Recurrent Neural Networks(RNNs)이 이 모델에 해당한다.
비지도 학습(Unsupervised Learning)은 데이터의 상관 관계를 학습하는 방법으로 데이터에 대한 명시적인 정답인 레이블(Label)을 제공하지 않고 컴퓨터를 학습시키는 방법이다. 군집화(Clustering), 오토인코더가 이 모델에 해당한다.
강화 학습(Reinforcement Learning)은 에이전트가 주어진 환경(state)에 대해 어떤 행동(action)을 취하고 이로부터 어떤 보상(reward)을 얻으면서 학습을 진행한다
3. 강화 학습(Reinforcement Learning)
강화 학습(Reinforcement Learning)은 기계 학습의 한 영역으로 행동심리학에서 영감을 받았다. 어떤 환경(environment)안에서 정의된 에이전트(agent)가 현재의 상태(state)를 인식하여, 선택 가능한 행동(action) 중 보상(reward)을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다. 강화 학습은 지도 학습(Supervised Learning)과 아래 두 가지 측면에서 다르다.
- 입출력 쌍으로 이루어진 훈련 집합이 제시되지 않음
- 잘못된 행동에 대해서 명시적으로 정정이 일어나지 않음
강화 학습은 가장 큰 보상(Q-value)을 얻기 위해 정책(policy)이라고 부르는 최상의 전략을 스스로 학습며 자신의 행동을 결정한다.
아래 영상은 Reinforcement Learning을 쉽게 설명한 영상이다.
우리 나라에 본격적으로 인공지능 붐을 일으킨 알파고(AlphaGo)는 영국의 DeepMind가 개발했다. DeepMind는 2013년 12월 Atari의 벽돌 깨기 게임에 Deep Q-Network(DQN)이라는 강화 학습(Reinforcement Leraning) 알고리즘을 소개했다. 이후 Google이 인수했다.
- Playing Atari with Deep Reinforcement Learning (링크)
아래는 DEVIEW 2017에서 강화학습을 나름대로 쉽게 설명한 영상이다.
4. 참고자료
- 강화 학습 – 위키피디아 (링크)
- 머신 러닝(Machine Learning) 알고리즘 분류 – 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning), 강화 학습(Reinforcement Learning) (링크)
- [AI] Machine Learning(지도학습, 비지도학습, 강화학습) (링크)
- 딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 – DEVIEW 2016 (발표자료) (발표영상)
- 보상을 통해 학습하는 머신러닝 기술 1편 – LG CNS 블로그 (링크)
- 보상을 통해 학습하는 머신러닝 기술 2편 – LG CNS 블로그 (링크)
- 자율주행: 강화 학습 & 모방 학습 (인공지능 / 인공 신경망 / 에이전트 / 보상 / 시뮬레이션 / 지도 학습 / 데이터 / 웨이모 / 테슬라 / Open AI) (링크)
- 석학에게 10분 만에 배우는 인공지능의 ‘현재 (링크)
- 김태훈 개인 블로그 (링크)
- [머신러닝] 컴퓨터가 학습을 하는 원리 (링크)
Hits: 341