AI Study/강화학습 4

[RL] 2-2. Exploration과 Exploitation: Greedy Method vs. Epsilon-greedy Method

앞의 포스팅에서는 강화학습의 개념을 이해하고, 강화학습을 구성하는 필수 요소들에 대해 알아봤습니다. 이번 포스팅에서는 강화학습 분야에서 오랜 기간동안 연구되어 온 Multi-armed Bandit 문제를 기반으로 Exploration과 Exploitation에 대해 살펴보려고 합니다. Multi-armed Bandit 문제에 대해 설명하고 이 문제를 구현하여 Exploration과 Exploitation 에 대해 설명드리겠습니다. 본 포스팅에서 다루는 설명은 Sutton의 강화학습 책을 많이 참고하였습니다. 관련 코드는 Github 에서 확인할 수 있습니다. Greedy Method Exploitation을 하기 위해서 우리는 행동에 대한 평가가 필요합니다. 이 평가는 이전 포스팅에서 배운 Value라는..

[RL] 2-1. Exploration과 Exploitation: Multi-armed Bandit Problem

2022.04.26 - [[스터디] 강화학습] - [RL] 1-1. 강화학습이란? [RL] 1-1. 강화학습이란? 안녕하세요. 마인즈앤컴퍼니 (이하 MNC) 입니다. :-) MNC의 새로운 'RL' 시리즈를 소개드립니다. 테크리더 명대우 파트너님의 지도 아래, MNC 의 Data scientist 인 최창윤 매니저가 뜻을 모아 강화학습에 blog.mnc.ai 2022.04.28 - [[스터디] 강화학습] - [RL] 1-2. 강화학습의 구성 요소 [RL] 1-2. 강화학습의 구성 요소 이전 포스팅에서 Agent가 Action을 수행했을 때 Environment와의 상호작용을 통해 Agent가 학습한다고 배웠습니다. Agent와 Environment, Action 에 대해 구체적이지는 않지만 간단한 개념을..

[RL] 1-2. 강화학습의 구성 요소

이전 포스팅에서 Agent가 Action을 수행했을 때 Environment와의 상호작용을 통해 Agent가 학습한다고 배웠습니다. Agent와 Environment, Action 에 대해 구체적이지는 않지만 간단한 개념을 이해하고 계실텐데요. 본 포스팅에서는 강화학습을 이해하기 위해 필요한 추가적인 개념들을 간단히 살펴보고 Atari 게임에 그 개념을 도입해볼 것입니다. 이 포스팅은 각 개념들을 자세히 이해하기 위한 것이 아닙니다. 각 개념들은 이후의 포스팅에서 더 자세히 설명할 것입니다. 강화학습의 구성요소 Sutton의 책에서는 RL System을 구성하는 4가지 주요한 Subelements를 다음과 같이 소개합니다. Policy Reward Signal Value Function Model of ..

[RL] 1-1. 강화학습이란?

안녕하세요. 마인즈앤컴퍼니 (이하 MNC) 입니다. :-) MNC의 새로운 'RL' 시리즈를 소개드립니다. 테크리더 명대우 파트너님의 지도 아래, MNC 의 Data scientist 인 최창윤 매니저가 뜻을 모아 강화학습에 대해 연구를 진행하고 있습니다. 몇년 전부터 강화학습에 대한 공부를 해왔지만 내용을 정리하지 않아 다시 공부하는 경우가 많았는데요! 이번 연구를 진행하면서 정리할 필요성을 느꼈고, 해당 내용들을 블로그에 공유드리기로 하였습니다. 연구 배경 해당 연구는 딥러닝 비전 검사 기술을 로봇 팔과 접목하여 실제 산업에 적용하기 위해 진행하게 되었습니다. 바닥과 닿아있는 부분이나 복잡한 물체는 카메라로 촬영할 수 없는 영역이 존재하고 이러한 상황에서도 제품을 효과적으로 검사하기 위해 그리퍼가 달..