[Data Mining] Basic of Statistical data
이번 포스팅은 말 그대로 통계에 대한 가장 기본적인 부분을 살짝, 아주 살짝 집고 넘어갈 것이다. 그 중에는 중학교, 아니 초등학교때 배운 내용들도 있을 것이고, 배우진 않았지만 너무나도 당연스러운 내용들도 있을 것이고, 대학교 때도 안 배웠던 내용도 있을 것이다. 그런데 그렇게 긴장하지 말았으면 한다. 대학교 때도 안 배운 내용도 그렇게 어려운 내용은 아니다.
우선 middle value를 구하는 방법이다. middle value를 구하는 방법은 여러가지가 있는데 가장 대표적인 것이 무엇이 있을까? 그렇다. 평균(mean)이다. "너 이번 기말 평균 몇이야?" 고등학교때 중학교때 진짜 많이 물어본 것들이다. 아래와 같이 데이터가 있다고 해보자. mean은 다 더하고 개수(10개)로 나누면 된다.
100 90 80 70 70 80 80 90 95 100
mean은 85.5이다. 그렇다면 mean의 단점은 뭘까? 아주 분명하다. data에 아주 다른 값들을 전혀 고려를 안한다는 것이다. 실제로 미국 어느 고등학교의 특정 년도에 졸업생들 평균 연봉이 아주 어마어마했다고 한다. 정확한 액수는 기억이 안나지만 일 안하고 몇 대대 손손은 먹고 살만한 돈을 1년에 벌드라. 어떻게 그럴 수 있었을까? 거기에 빌게이츠가 있었다. 그래서 그랬다. 그 한 명 때문에 mean값이 그렇게 높아진 것이다. 이 문제를 해결하기 위한 middle value 계산법이 medium이다. 중간값이다. 위의 data를 조금 변형해보자.
10 90 80 70 70 80 80 90 95 100
젤 처음 100점을 10점으로 바꿔봤다. mean값은 76.5로 뚝 떨어진다. 그런데 median은 별로 차이 없다. median을 구하는 방법은 간단하다. sorting을 한 다음에 가장 중간값을 찾으면 된다. 위의 data를 sorting을 하면
10 70 70 80 80 80 90 90 95 100
가장 중간값이 있으면 그것이 median이고, 위와 같이 가장 중간값이 두개가 있으면(80, 80) 그것의 mean값이 median이다. 위의 경우 가장 중간값 두개가 똑같이 80이므로 80이 중간값이다. median은 말도 안되는 하나의 데이터에 의해서 중간값이 변형되는 것을 막아줄 수 있다. 만일 빌게이츠의 고등학교 같은 년도 졸업생들의 연봉은 median으로 계산되어야 더욱 더 정확한 값을 가질 수 있다.
또 다른 중간값 구하는 방법은 mode가 있다. 이 방법은 개인적으로는 별로 그렇게 효과적인 방법은 아니라고 생각하나 아무튼 소개한다. 가장 많이 발생한 값이 mode이다.
10 70 70 80 80 80 90 90 95 100
여기에서는 80이 3번 등장해서 젤 많이 등장했는데, 따라서 mode는 80이다. 아주 간단하다. 개인적으로는 mean이나 median 값을 더 선호한다. 자 이제 middle value이야기는 그만하고 분산과 표준편차 이야기를 해보도록 하자.
분산을 구하려면 우선 평균을 구해야 한다. 위의 data들을 아래의 표로 바꿔놨다.
분산은 위의 표에서 x - mean값들의 평균이다. 이것을 수식으로 표현하면 아래와 같다. 조금 꺼려지는 수식이 나타나지만 그래도 잘 보면 이해할 수 있을 거다.
위의 식은 앞으로의 포스팅에도 가끔 사용될 예정이니 잘 이해해두기 바란다. 위에서도 설명했듯이, 분산에 루트를 씌운 값이 표준 편차이다. 이 값들이 설명하는 바는 무엇일까? 크면 클 수록 data들이 평균과는 멀리 떨어져있다는 뜻이다. 막 이곳 저곳으로 분산되어있다는거다.
여기서 이제 Quantile plot 이야기를 하려고 한다. quantile plot은 쉽게 말해서 특정 data보다 작거나 같은 확률을 말해준다. 위의 data를 통해 quantile plot을 만들어보도록 해보자.
값이 80보다 같거나 작을 확률은 0.6 이다. 이것을 plot으로 나타내면 아래와 같다.