Data Mining

[Data Mining] DBSCAN Clustering

빛나유 2015. 12. 27. 21:25

드디어 마지막이다. DBSCAN Clustering이다. 이것도 굉장히 간단한 clustering이므로 이번 포스팅도 그리 길지는 않을 것 같다. DBSCAN은 epsilon과 data 개수로 clustering을 한다.

위의 그림이 DBSCAN에서의 가장 기본적인 element이다. 저것을 parameter라고도 한다. 저것을 가지고 각각의 data에 대해서 density reachable/density connected/not reachable 을 판단한다.

하나의 Cluster는 모든 data가 서로 density connected한 것들인 묶음이다. 아래의 data를 통해 clustering을 해보자.

위의 data는 epsilon 1.72cm에 number of data는 4로 놓은 것이다. 이해를 위해서 p1, p2, p3, p4를 각각 다른 색으로 표시를 해놨다. 각 색깔의 data를 중심으로 epsilon길이의 반지름으로 원을 그려보면 그 원 안에는 적어도 4개 이상의 data가 들어가 있는 것을 알 수 있다. p1과 p2는 density reachable, p2와 p3도 density reachable, p3와 p4도 density reachable. 따라서 p1과 p4는 density connected이다.


자 이런식으로 구분을 하면 많은 data들을 통해 DBSCAN을 돌렸을 때는 결과가 어떤 식으로 나누어질까? 그렇다. sparse한 영역의 기준으로 나누어진다. 데이터가 별로 없는 부분을 기준으로 나누어진다는 말이다.

출처 : https://en.wikipedia.org/wiki/DBSCAN


후 그래도 몇 일 동안 계속 포스팅하면서 다행히 하고자 한 포스팅들은 다 끝냈다. 이번 학기 때 배운 것들이다.(semantic web은 포스팅 안할래) 힘들고 힘든 한 학기였지만 보람있었고 재밌었다. 다음 학기가 배우는 학기로는 마지막 학기인데, 딱 두달 뒤에 다시 컴백해서 포스팅하려고 한다. (음 중간중간에 보안쪽 관련된, 탐지규칙 관련된 포스팅이 올라올 수도 있다.)