평균은 데이터의 대표값을 계산하는 가장 일반적인 방법입니다. 중앙값도 만만치 않게 유명한 방법이지만 평균의 명성에는 못 미치죠. 두 방법의 계산상과 의미의 차이점을 알아보겠습니다.
평균의 계산 방법
평균은 여러가지가 있지만 일반적으로는 산술 평균을 뜻하고, 그 중에서도 정말로 보통은 단순 산술 평균을 뜻하는 경우가 대부분입니다.
- 단순 산술 평균 = 데이터 전체의 합 / 데이터 전체의 갯수
- 데이터가 1,3,4,6,7 이 있다면
- 평균 = (1 + 3 + 4 + 6 + 7) / 5 = 4.2
대략 저 데이터들의 중간 정도 되는 값이 4.2다 정도가 되겠죠.
평균은 집단을 잘 대표할까
보통은 그렇습니다. 값이 많아지면 많은 현상들이 가우시안 분포를 따르니까 평균이라는 값이 얼추 집단의 가운데 정도에 위치하는데요. 근데 이게 값이 튀는 게 하나 끼어 있으면 문제가 됩니다.
- 데이터가 1,3,4,6,1000이 있다면
- 평균 = (1 + 3 + 4 + 6 + 1000) / 5 = 202.8
보통 사람들의 수입을 가지고 "평균의 함정" 이라는 얘기를 많이 합니다.
- 우리나라의 평균 월급은 300만원이라고 가정합니다.
- 하지만 대부분의 사람들은 그에 못 미치는 월급을 받으며, 임원을 포함한 소수의 사람들은 거액 연봉을 받습니다.
이런 식으로 평균을 그대로 믿으면 안된다는 얘기를 하는데요, 소수의 값이 데이터 전체를 왜곡하는 것을 방지하기 위해 중앙값을 사용합니다.
중앙값의 계산 방법
중앙값은 데이터의 중앙에 있는 값입니다. 다음과 같습니다.
- 데이터들의 값이 작은 것부터 순서대로 나열합니다.
- 딱 중앙에 있는 값을 취득합니다.
앞의 예시를 통해 보면 다음과 같습니다.
- 1, 3, 4, 6, 7 의 중앙값은 4
- 1, 3, 4, 6, 1000 의 중앙값은 4
둘 다 데이터는 5개이고, 그러면 작은 것부터 시작해서 3번째에 있는 값이 중앙값이 됩니다. 여기에서는 데이터가 5개밖에 없지만, 예를 들어 0~20 정도의 범위에 고만고만한 값들이 많이 있는데 갑자기 1000 같은 값이 들어가면 그 값은 적어도 그 집단에서 일반적인 값이라고 말하기는 힘듭니다.
그럴 때 그런 값에 신경쓰지 않고 집단의 대표값을 구할 때 중앙값을 많이 씁니다. 엉뚱한 값 하나를 아웃라이어라고 하고, 중앙값을 아웃라이어를 제외하고 보는 효과가 있다고 얘기합니다.
평균과 중앙값의 특성
어느 데이터나 아웃라이어가 있으니 중앙값이 무조건 더 좋은 거 아닌가 싶지만 사실 그렇지는 않은 게 중앙값은 "거친" 대표값이고 평균은 좀 더 "섬세한" 대표값입니다. 평균과 중앙값은 이런 특성을 가집니다.
- 중앙값 : 난 데이터는 모르겠고 딱 절반 순위인 값을 줄게. - 최소값 및 최대값과 같은 극단값이 중요하지 않게 취급되고, 값의 해상도가 데이터의 해상도와 동일함. 아웃라이어에 강함
- 평균 : 데이터를 고려해서 중간 정도 값을 내줄게. - 데이터의 값 자체가 일종의 가중치로 작용하며 값의 해상도를 정할 수 있음. 아웃라이어에 약함
대표값의 "해상도" 라는 것은, 단위의 정밀도라는 뜻입니다. 예를 들어 정수 단위의 값들을 중앙값을 낸다면 결과는 무조건 정수가 나오겠지만, 정수들의 평균을 낸다고 평균이 정수가 나오는 건 아니죠. 의미 있다고 생각되는 자릿수까지 내가 정해서 잘라 쓸 수 있게 됩니다.
평균과 중앙값의 활용
이런 특성을 통해 평균과 중앙값은 다음 정도로 활용하면 되는 거 같습니다.
전처리가 안된 데이터의 대표값 확인 : 중앙값
데이터에는 보통은 전부 아웃라이어가 있기 마련인데, 일단 그런 것들을 제거하기 전에 대충 어떻게 생겼는지 보고 싶으면 중앙값을 보면 됩니다. 유사한 이유로 boxplot을 가장 먼저 확인합니다.
좀 더 차이를 두드러지게 보고 싶으면 중앙값 확인
예를 들어 지역별 1인당 수입을 비교할 경우, 중앙값과 평균으로 봤을 때 중앙값이 좀 더 차이를 선명하게 보여줍니다. 평균은 데이터 자체를 고려하기 때문에 값이 좀 더 뭉개지는 경향이 있습니다. (1, 3, 7)과 (1, 5, 7)을 비교해 볼까요?
- (1, 3, 7)의 평균 = 3.6667 / (1, 5, 7)의 평균 = 4.3333
- (1, 3, 7)의 중앙값 = 3 / (1, 5, 7)의 중앙값 = 5
중앙값이 더 선명하게 차이가 나죠? 대체로 이런 경향을 보입니다.
최소값과 최대값을 알 수 있고, 아웃라이어의 판단이 쉬우면 평균을 확인
데이터를 눈으로 일일이 확인이 힘들고 최소나 최대가 어디까지 갈 수 없다면 중앙값을 보는 게 낫습니다. 아니면 아웃라이어가 너무 영향을 크게 미치니까요. 그런데 아웃라이어가 있음에도 불구하고 뭐가 아웃라이어인지 알기 쉬워서 소위 "전처리" 가 가능하다면 평균을 써도 좋습니다.
댓글