AI Study/ML101 10

[ML101]#9. 차원 축소(1)

이번 글에서 다룰 주제는 지금까지 공부했던 방법론들과는 조금 다른 목적을 가진 방법론을 다루고자 합니다. 그 주인공은 바로 "차원 축소(Dimesionality Reduction)"입니다. 차원 축소란 쉽게 이야기하면 중요한 변수들을 취하여 우리가 다루는 변수의 수를 줄이는 프로세스입니다. [ML101-#1. Machine Learning?] 을 통해 차원 축소에 대해서 개괄적으로 소개를 해드렸는데요, 조금 더 자세히 살펴보도록 하겠습니다. 차원이란 무엇일까요? 이미 앞선 글들을 통해 계속 공부해오셨다면 쉽게 받아들이시고 있으실 거라고 생각됩니다. 차원이란 변수, 피처(feature), 열(column)과 같은 의미로 이해하시면 됩니다. 그렇다면 이 차원을 왜 축소시켜야 하는 것일까요? 반대로, 차원이 ..

AI Study/ML101 2022.04.26

[ML101]#8.Clustering (2)

지난글에서는 대표적인 Unsupervised learning 모델의 하나인 clustering의 개요, 유형에 대해 알아봤습니다. 이번 글에서는 clustering의 대표적인 모델인 K-means clustering / Mean-shift clustering / DBSCAN (Density-based spatial clustering of applications with noise) / EM clustering using Gaussian mixture 에 대해서 좀 더 자세히 알아보고자 합니다. 1. K-means clustering K-means clustering은 대표적인 분할 군집 기법입니다. 군집 별로 centroid (중심)을 가지고 있으며, centroid에 가까운 data들 끼리 묶어 군집..

AI Study/ML101 2022.04.26

[ML101] #7. Clustering (1)

지난 글까지 Regression에 대해 공부했습니다. Regression의 개념과 유형, Regression 모델의 성능을 높이는 데 사용되는 방법, 성능을 측정하는 방식들을 말이죠. 이번 시간부터는 Clustering에 대해 배워볼 예정입니다. [ML101] #1. Machine Learning? 에서 Machine Learning을 크게 Supervised Learning, Unsupervised Learning, Reinforcement Learning 으로 구분할 수 있다는 내용 기억하시나요? 지난 글까지 살펴본 Regression이 Supervised Learning의 대표적인 모델이었다면 오늘부터 살펴볼 Clustering은 Unsupervised Learning의 대표적인 모델입니다. 말 그..

AI Study/ML101 2022.04.26

[ML101] #6. Overfitting

앞의 과정들을 통해 머신러닝이 어떻게 작동하는지 살펴보았습니다. 머신러닝 모델이란 실제 데이터를 대체할 수 있는 모형이고 이러한 모델을 통해 실제 데이터 없이도 현실 세계에서 활용할 수 있습니다. 그런데 이 모델은 정교해지기 위해 복잡하게 만들면 학습한 데이터와 조금만 다른 데이터가 들어와도 큰 오차를 만들 수 있고, 반대의 경우는 변수들과의 관계를 충분히 설명할 수 없게 되는 Trade-off 문제가 발생하게 됩니다. 이러한 문제를 수학적으로 표현한 것이 Bias-Variance(편향-분산) Trade-off 입니다. 조금 더 자세히 알아보겠습니다. Bias-Variance Trade-off 를 설명하는 유명한 그림 중 하나 입니다. 사격 게임을 할 때 가장 높은 점수를 받는 방법은 나에게 주어진 총알..

AI Study/ML101 2022.04.26

[ML101] #5. Confusion matrix

최근 인공지능에 대한 뜨거운 관심을 뒷받침하듯 기업, 나라에서 앞다투어 인공지능 해커톤, 경진대회, AI Challenge를 주체하고 있습니다. 대회에선 우수한 문제 해결 알고리즘을 개발한 팀에게 상금/보상을 부여하죠. 그렇다면 "우수한 알고리즘" 은 어떻게 선정되는 걸까요? 보통 인공지능 경진대회에선 문제별 평가지표를 함께 공개하며, 평가지표에 따라 높은 예측도를 가진 모델을 우수한 알고리즘으로 선정합니다. 인공지능을 활용하여 해결할 수 있는 문제가 무궁무진하듯 성능 역시 다양한 척도로 평가되어야 합니다. 그렇다면 평가 척도는 어떤 유형이 있으며, 어떻게 계산되는 걸까요? 모델을 평가하기 위한 평가 척도 (Evaluation Metric)에는 크게 분류(Classification) 척도와 예측(Regr..

AI Study/ML101 2022.04.26

[ML101] #4. Gradient descent

[ML101] 시리즈의 세 번째 주제는 경사 하강법(gradient descent)입니다. 지난 시리즈에서 손실 함수(loss function)를 통해 모델의 예측값이 실제값과 차이가 나는 정도, 즉 오차값을 측정하는 방법들을 알아보았습니다. 우리가 가지고 있는 데이터들을 잘 설명할 수 있도록 손실 함수, 비용 함수(loss function, cost function), 또는 목적 함수(objective function)를 이용하여 가장 최적의 모델을 만듭니다. 이 과정은 최적화(optimization)라고도 하는데, 여기에서 사용되는 방법이 경사 하강법입니다. 경사 하강법은 손실함수의 결과값(오차값, 그림의 y축)이 최소값이 되는 최적인 모델의 파라미터 θ(x축)를 찾는 과정입니다. 그림에서 볼 수 있..

AI Study/ML101 2022.04.26

[ML101] #3. Loss Function

[ML101] 시리즈의 두 번째 주제는 손실 함수(Loss Function)입니다. 손실 함수는 다른 명칭으로 비용 함수(Cost Function)이라고 불립니다. 손실 함수는 고등학교 수학 교과과정에 신설되는 '인공지능(AI) 수학' 과목에 포함되는 기계학습(머신러닝) 최적화의 기본 원리이며 기초적인 개념입니다. 이번 시리즈에는 이 "손실 함수"의 개념과 종류에 대해 알아보도록 하겠습니다. 위의 그림은 일반적인 통계학적 모델의 형태로 입력 값(Input x)이 들어오면 모델을 통해 예측 값(Output y)이 산출되는 방식입니다. 그러면 이 예측 값이 실제 값과 얼마나 유사한지 판단하는 기준이 필요한데 그게 바로 손실 함수(Loss function)입니다. 예측 값과 실제 값의 차이를 loss라고 하며..

AI Study/ML101 2022.04.26

r[ML101] #2. Regression

[ML101] 시리즈의 첫 번째 주제는 회귀(Regression)입니다. 회귀분석은 너무나도 유명한 통계 기법이죠. 대학에서는 전공을 불문하고 다양한 사례로 언급되기도 하고, 업무에서도 수요나 가격을 예측하고 전망할 때 회귀분석을 접해 보셨을 겁니다. "회귀분석(回歸分析, regression analysis)이란 관찰된 여러 변수들에 대해 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법"이라고 Wikipedia에 소개가 나옵니다. 독립적인 변수(Independent variable)를 활용해 목푯값인 종속변수(Dependent variable)를 예측하는 모델링 기법이죠. 변수 간의 인과관계(Cause-effect relationship)를 예측하는 데 주로 사용됩니다. 독립변수의 개수, 독..

AI Study/ML101 2022.04.26

[ML101] #1. Machine Learning?

"AI 어떤 게 있지?"라고 물었을 때 '알파고'를 떠올린다면 언제 적 알파고냐고 할 만큼 AI는 우리 생활 속에 넓고 깊숙이, 또 빠르게 자리를 잡았습니다. 빅스비에게 음성으로 맞춘 알람에 일어나 카카오 미니가 틀어주는 내 취향의 음악을 들으며 하루를 시작합니다. AI 아나운서가 전해주는 뉴스를 보며 출근하고, 퇴근 후엔 유튜브와 넷플릭스 알고리즘의 무한 굴레에 빠져 영상을 시청하다가 잠에 드는 모습, 새삼스럽지 않을 것입니다. AI가 익숙해진 것은 일상생활뿐만이 아니라 업무환경에서도 마찬가지입니다. AI를 기반으로 매번 바뀌는 대출 규제의 일부 내용과 담당 부서를 고객에 따라 정확히 안내해주는 행내 검색 기능으로 은행원들의 대출고객 상담 시간이 감소하였으며, 제조업 공장에서는 AI 모델을 통해 최적의..

AI Study/ML101 2022.04.26

[ML101] #0. Foreword

Machine Learning, Deep Learning 등 최신 AI 기술을 이해하기 위해서는 기본적인 이론 학습이 필요합니다. [ML101] 시리즈에서는 입문자를 위해 AI와 관련된 주요 이론을 챕터별로 소개합니다. 본 내용은 AI의 거장 Andrew Ng 교수의 강의 syllabus를 참고하여 주요 개념들을 정리한 내용입니다. 세부 이론을 살펴보기에 앞서 Machine Learning 프로젝트를 설계하는 일반적인 방법을 생각해 보겠습니다. 다소 진부한 내용이긴 합니다만 프로젝트를 실행할 때 결과 도출까지의 전체 과정을 머릿속으로 그려보고 시작하는 것은 효율과 성과를 높이는 중요한 방법이라고 생각됩니다. 자, 그럼 Machine Learning 프로젝트는 어디서부터 어떻게 시작해야 할까요? 1. 문제..

AI Study/ML101 2022.04.25