변동계수(coefficient of variation)는 데이터를 표준화하는 방법 중 하나입니다. 계수라고 이름붙이고 표준화하는 방법이라고 하니까 말이 안 맞는 거 같은데, 한번 살펴볼께요.
변동계수가 필요한 때
어떤 데이터든 그것들의 평균이 있고, 데이터가 퍼진 정도를 나타내는 표준편차가 있습니다. 그런데 보통 평균이 크면 표준편차도 커집니다. 예를 들어 전국 서울지역 아파트 전세 보증금과, 서울지역 원룸 보증금이라는 두가지 데이터가 있다고 하죠. 당연히 아파트 전세 보증금 쪽이 비쌀 거고, 액수 차이도 확확 바뀔 겁니다. 5억짜리 전세도 있고 15억짜리 전세도 있는 반면, 원룸 보증금은 상대적으로 훨씬 작을 테니, 아파트 전세 보증금 쪽이 당연히 훨씬 많이 퍼져 있는 것처럼 보이겠죠.
하지만 아파트 전세 보증금과, 원룸 보증금이라는 건 데이터의 성격이 다릅니다. 그래서 서로 다른 데이터 간에 일괄적으로 표준편차를 계산해서 이 데이터가 훨씬 많이 퍼져있다고 하면 레벨이 안 맞는 느낌이 듭니다. 똑같이 비교한 거 맞나? 그래서 동등한 레벨로 두 데이터를 맞추고 보는 게 어떨까? 라는 아이디어에서 나온 게 변동계수입니다.
변동계수의 계산 방법
앞서서 "평균이 커지면 표준편차도 커진다" 라고 이야기했습니다. 아 그러면 평균을 똑같이 맞추면 되겠네?
맞습니다. 변동계수는 그게 다예요. "변동계수 = 표준편차 / 평균" 으로 계산합니다. 근데 이렇게 표준편차를 평균으로만 나눴다고 하면 감이 잘 오질 않습니다. 뭐 어쩌라고? 그러면 이제 이 계수의 의미를 한번 볼께요.
변동계수의 의미
표준편차를 평균으로 나눴다. 이 말은 모든 데이터를 평균값으로 나눈 다음, 평균으로 나눈 데이터들의 표준편차를 구했다는 거랑 똑같은 뜻입니다. 아래의 예시를 볼께요.
- 오른쪽과 같이 데이터가 있다고 합시다 : 1, 2, 3
- 이 데이터의 평균은 2, 표준편차는 약 0.816 입니다.
- 이 데이터의 변동계수 = 0.816/2 = 0.408 입니다.
여기까지 계산하면, 뭐 어쩌라는 건가 싶습니다. 그러면 아래와 같이 조금 변형해서 설명해볼께요.
- 같은 데이터가 있다고 합니다 : 1, 2, 3
- 이 데이터의 평균은 2, 표준편차는 약 0.816 입니다.
- 각 데이터를 평균으로 나눕니다 : 0.5, 1, 1.5
- 새로운 데이터의 평균은 1, 표준편차는 약 0.408 입니다.
위의 두가지 설명하는 방식을 비교해 보면, 변동계수라고 하는 건 결국 원래 데이터의 평균을 1로 만들었을 때의 표준편차를 의미한다는 걸 알 수가 있습니다. 그래서 맨 위에서 변동계수란 데이터를 표준화하는 방법 중 하나라고 말씀드린 거예요. 결국 평균을 1로 표준화했다고 이야기할 수가 있으니까요.
변동계수의 활용
글 앞에서 든 아파트 전세 보증금과 원룸 전세 보증금의 예시로 다시 가보겠습니다.
- 서울지역 아파트 전세 매물이 3개가 있습니다 : 5억, 10억, 15억
- 원룸 전세 매물도 3개가 있습니다 : 1억, 3억, 5억
- 아파트 전세 보증금의 평균은 10억, 표준편차는 4.08억 입니다.
- 원룸 전세 보증금의 평균은 3억, 표준편차는 1.63억 입니다.
여기까지만 보면 아파트 전세 보증금이 훨씬 퍼져 있는 것으로 보입니다. 변동계수를 활용해서 표준화해 보면 다음과 같습니다.
- 아파트 전세 보증금을 평균으로 나눕니다 : 0.5, 1, 1.5
- 원룸 전세 보증금을 평균으로 나눕니다 : 0.333, 1, 1.667
- 아파트 전세 보증금의 변동계수 (상대적인 표준편차) 는 0.408 입니다.
- 원룸 전세 보증금의 변동계수 (상대적인 표준편차) 는 0.544 입니다.
표준화를 해놓고 보면 상대적으로 원룸 전세 매물이 아파트보다 더 들쭉날쭉한다고 표현할 수 있습니다.
댓글