[머신러닝 순한맛] 비지도 학습(Unsupervised Learning)이란? : Clustering
어제보다 나은 사람이 되기

걱정보단 실행을, 그러나 계획적으로

Box World 자세히보기

AI/Coursera ( Machine Learning )

[머신러닝 순한맛] 비지도 학습(Unsupervised Learning)이란? : Clustering

Box형 2020. 5. 15. 11:05
반응형

시작하며

우리가 그동안 이전 포스팅에서 배웠던 Linear Regression, Logistic Regression, Neural Network, SVM은 모두 지도학습(Supervised Learning) 즉 레이블(Label)이 있는 데이터에 대한 학습이었습니다.

이번 포스팅부터는 비지도학습(Unsupervised Learning)에 대해 알아보겠습니다.


Unsupervised Learning

 Unsupervised Learning이란 결과가 주어지지 않은 데이터(Unlabeled Data)에 대해 학습하는 것을 의미합니다. 이 학습의 핵심은 군집화(Clustering)입니다. 다음 예시를 통해 구체적으로 설명드리겠습니다.

Supervised Learning

 우리가 그동안 배웠던 Supervised Learning은 위와 같이 x 혹은 o로 Label이 존재하는 데이터를 가지고, 새로운 데이터가 들어왔을 때 그에 따른 결과값을 예측하기 위해 위해 적당한 Decision Boundary를 찾는 것이 핵심이었습니다.

Unsupervised Learning

 하지만 Decision Boundary는 Unsupervised Learning에선 의미가 없습니다. 왜냐하면 'Label이 없는 데이터' 다시 말해서 y값이 존재하지 않고 x만 존재하는 데이터는 모두 같은 값이기 때문에 true / false같은 것을 이용하여 데이터를 판단할 수 없기 때문입니다.

 따라서 Unsupervised Learning에서 핵심이 되는 것이 비슷한 연관성을 가진 데이터들을 묶어서 하나의 그룹으로 묶어보자는 것입니다. 이를 통해 데이터의 숨겨진(Hidden) 특징(Feature)이나 구조를 발견하는데도 큰 도움이 됩니다. 그리고 Unsupervised Learning에서 데이터 군집화를 위해 이용되는 알고리즘을 Clustering Algorithm이라고 합니다.

 그렇다면 이러한 Unsupervised Learning은 어떤 분야에 활용될까요? 대표적인 것이 SNS입니다.

 예를 들어 SNS 이용자들에 대한 데이터를 모아놓고 비슷한 연관성을 가진 사용자들끼리 묶으면 어떤 사용자들이 서로 친밀하고 연결성이 강한지 성향은 어떠한지 분석할 수 있을 것입니다. 이 밖에도 Computer를 Clustering하거나 우주에 있는 행성에 대해 분석할 때 사용기도 합니다.

반응형