[Data Mining] Basic of Data
우선 시작부터 Data Mining을 본격적으로 후벼파면 안된다. 몸살난다. 워밍업으로 가장 기본적으로 Data에 대해서 이야기해보려고 한다. 어찌 보면 이정도는 안 하고 넘어가도 되지 않아? 라고 생각될 정도로 기본적인 내용이지만, 그래도 한다.
우선 Data를 말할 때 사용하는 용어들부터 정리하고 넘어가자. 보통 data는 아래와 같이 나타난다.
39, State-gov, 77516, Bachelors, 13, Never-married, Adm-clerical, Not-in-family, White, Male, 2174, 0, 40, United-States, <=50K
Data Mining 쪽에서 공부용으로 많이 쓰이는 data으로 adult.data로 구글 검색하면 아주 쉽게 구할 수 있는 data이다. 그 data의 가장 첫 줄을 위에 예시로 보여준 것이다. 이런 data는 보통 한 줄이 아니겠지? 여러 줄이다. 여러 개가 있으니까 여러 개가 하나로 묶여있는 집합이다. 집합은 영어로 set이다. 그래서 보통 이러한 한 묶음의 data를 dataset이라고 한다. 위의 data 예시처럼, 한 줄을 우리는 row, tuple, record 라고 부른다. 보통 record보다는 row, tuple을 더욱 더 자주 쓴다. 그럼 하나의 row에서 각각의 데이터. 즉, 39!! State-gov!!! 77516!! 등등은 무엇이라고 부를까? column, attribute, feature라고 부른다. 보통 column이나 attribute이라고 더욱 더 자주 쓰인다. 그렇다면 이제 우리는 하나의 dataset에서 모든 data를 접근할 수 있게 된다. 몇 번째 tuple의 몇 번째 attribute 이런 식으로 접근 가능하다.
자 이제부터 이야기할 내용은 data type이다.
기본적으로 숫자로 된 data들이 있다. numeric data라고 한다. 아주 쉬운 이야기이다. 길이, 무게, 좌표, 등등의 data들은 숫자로 표현하면 되겠지? 그렇다 그런 걸 numeric data라고 한다.
data들을 보면, 가끔은 단어로 된 data들도 있다. 이런 것은 보통 이름이 명시되어 있다고 하여 nominal data라고 한다. 예를 들어, 스마트폰 dataset에서 제조사를 명시하는 attribute이 있다고 하자. 그 attribute에는 어떤 data들이 들어있을까? Samsung, LG, Apple, Sony 등등의 회사명이 적혀있을 것이다. 그런 것들 모두 nominal data이다. 그런데 nominal data라고 해서 전부다 같은 종류의 nominal data는 아니다. 위에서 예를 든 Samsung, LG, Apple, Sony들은 따지고 보면, categoric data이다. 회사명별로 분류가 되어있으니까. 그리고 이런 경우도 있다. Yes or No. Large or Small. data가 둘 중에 하나인 경우이다. 이런 경우에는 binary data라고 한다. 0 아니면 1이다. 이거 아니면 저거다. 그 말이다. 그리고 어떤 경우에는 nominal data이기는 한데, numeric data처럼 data를 비교할 수 있는 경우가 있다. 예를 들어, 성적 data의 경우, 평점이 B, B+, A, A+ 이런 식으로 주어진다. 분명히 nominal data이지만 순서가 존재한다. B가 젤 못한 거고, A+가 젤 잘한 거다. 이런 data를 순서가 정해졌다고 하여 ordered data라고 한다.
우와 거의 3년간 블로깅을 하면서 이렇게 없어보이는 포스팅은 진짜 처음인 것 같다. 그래도 이번 그리고 다음 포스팅까지만 그럴 것 같다. 다음 포스팅은 가장 기본적인 통계 data들에 대해서 이야기해보려고 한다. 다음 포스팅도 그렇게 어렵지는 않을 듯 싶다.