exploitation 2

[RL] 2-2. Exploration과 Exploitation: Greedy Method vs. Epsilon-greedy Method

앞의 포스팅에서는 강화학습의 개념을 이해하고, 강화학습을 구성하는 필수 요소들에 대해 알아봤습니다. 이번 포스팅에서는 강화학습 분야에서 오랜 기간동안 연구되어 온 Multi-armed Bandit 문제를 기반으로 Exploration과 Exploitation에 대해 살펴보려고 합니다. Multi-armed Bandit 문제에 대해 설명하고 이 문제를 구현하여 Exploration과 Exploitation 에 대해 설명드리겠습니다. 본 포스팅에서 다루는 설명은 Sutton의 강화학습 책을 많이 참고하였습니다. 관련 코드는 Github 에서 확인할 수 있습니다. Greedy Method Exploitation을 하기 위해서 우리는 행동에 대한 평가가 필요합니다. 이 평가는 이전 포스팅에서 배운 Value라는..

[RL] 2-1. Exploration과 Exploitation: Multi-armed Bandit Problem

2022.04.26 - [[스터디] 강화학습] - [RL] 1-1. 강화학습이란? [RL] 1-1. 강화학습이란? 안녕하세요. 마인즈앤컴퍼니 (이하 MNC) 입니다. :-) MNC의 새로운 'RL' 시리즈를 소개드립니다. 테크리더 명대우 파트너님의 지도 아래, MNC 의 Data scientist 인 최창윤 매니저가 뜻을 모아 강화학습에 blog.mnc.ai 2022.04.28 - [[스터디] 강화학습] - [RL] 1-2. 강화학습의 구성 요소 [RL] 1-2. 강화학습의 구성 요소 이전 포스팅에서 Agent가 Action을 수행했을 때 Environment와의 상호작용을 통해 Agent가 학습한다고 배웠습니다. Agent와 Environment, Action 에 대해 구체적이지는 않지만 간단한 개념을..