Clustering

 

구분하려고 하는 각 class에 대한 아무런 지식이 없는 상태에서 분류 (classify) 하는 것이므로 자율학습 (Unsupervised Learning) 에 해당한다. 즉 sample 들에 대한 지식없이 similarity (유사도) 에 근거하여 cluster 들을 구분한다. 패턴 공간에 주어진 유한 개의 패턴들이 서로 가깝게 모여서 무리를 이루고 있는 패턴 집합을 cluster (군집) 이라하고 무리지워 나가는 처리 과정을 clustering 이라 한다. cluster 간의 유사도를 평가하기 위해 여러 가지의 거리 측정 함수를 사용하는데 예를들면 Euclidean distance, Mahalanobis distance, Lance-Williams distance, Hamming distance 등이 사용된다.

paper

데이터 클러스터링은 기계학습 (Machine Learning), 데이타마이닝 (Data Mining), 패턴인식 (Pattern Recognition), 영상분석 (image analysis) and 생물정보학 (Bioinformatics) 를 비롯한 많은 분야에서 사용되는 데이터 분석을 위해 흔히 사용하는 기술이다. 클러스터링은 하나의 데이터를 여러개의 부분집합 (clusters) 으로 분할하는 것을 의미하며, 그때 각 부분집합에 있는 데이터는 몇가지의 공통된 특징 (trait)을 공유하는데, 그것은 몇가지 거리 측정법을 사용하여 유사도 (similarity or proximity)를 계산함으로써 이루어진다. 데이터 클러스터링은 크게 두가지, 즉 hierarchical clustering 과 partitional clustering 으로 나눌 수 있다.

hierarchical clustering 은 agglomerative (bottom-up) 또는 divisive (top-down) 일 수 있다. 각 요소들로부터 시작한 클러스터들이 계층구조를 이루는 것이며, tree 구조를 이루며 한쪽 끝에는 각각의 요소가 있고 다른쪽 끝에는 모든 요소를 가지를 단 하나의 클러스터가 있다.

partitional clustering 은 cluster  의 계층을 고려하지 않고 평면적으로 clustering 하는 방법으로 일반적으로 미리 몇 개의 cluster 로 나누어 질 것이라고 예상하고 cluster 의 개수를 정하는 것이다 ............ (Wikipedia : Data Clustering)

Source

term :

자율학습 (Unsupervised Learning)   K-평균 알고리즘 (K-means Algorithm)   신경망 (Neural Network)   자기조직화 지도 (Self-Organizing Map)   기계학습 (Machine Learning)   데이타마이닝 (Data Mining)    패턴인식 (Pattern Recognition)   생물정보학 (Bioinformatics)

site :

A Tutorial on Clustering Algorithms : K-means | Fuzzy C-means | Hierarchical | Mixture of Gaussians | Links (★★★)