본문 바로가기

분류 전체보기38

K-means clustering 이해하기 클러스터링은 데이터를 분류한다는 뜻입니다. 쉽게 말하자면 비슷한 녀석들끼리 너네는 1번 그룹, 너네는 2번 그룹 이런 식으로 나누어 주는 거예요. 여러가지 방법이 많은데, 그 중 가장 기초가 되는 K-means clustering (K-평균 알고리즘) 에 대해 알아보겠습니다. 용어 설명 가장 먼저 이 글에 나올 용어 몇개를 설명하겠습니다. 클러스터 : 데이터 그룹이라는 뜻입니다. 데이터 1~10까지는 A 그룹, 데이터 11~16까지는 B 그룹, ... 이라는 식으로 클러스터를 나누게 됩니다. 중심점 : 클러스터의 중심이 되는 지점입니다. 이 알고리즘에서 클러스터의 중심은, 클러스터에 속하는 데이터들의 평균입니다. 용어는 이거 딱 두개만 알고 계시면 됩니다. 어려운 말은 다 없애고 갑니다. 알고리즘 동작 .. 2022. 11. 19.
평균과 중앙값의 차이와 각각의 의미 평균은 데이터의 대표값을 계산하는 가장 일반적인 방법입니다. 중앙값도 만만치 않게 유명한 방법이지만 평균의 명성에는 못 미치죠. 두 방법의 계산상과 의미의 차이점을 알아보겠습니다. 평균의 계산 방법 평균은 여러가지가 있지만 일반적으로는 산술 평균을 뜻하고, 그 중에서도 정말로 보통은 단순 산술 평균을 뜻하는 경우가 대부분입니다. 단순 산술 평균 = 데이터 전체의 합 / 데이터 전체의 갯수 데이터가 1,3,4,6,7 이 있다면 평균 = (1 + 3 + 4 + 6 + 7) / 5 = 4.2 대략 저 데이터들의 중간 정도 되는 값이 4.2다 정도가 되겠죠. 평균은 집단을 잘 대표할까 보통은 그렇습니다. 값이 많아지면 많은 현상들이 가우시안 분포를 따르니까 평균이라는 값이 얼추 집단의 가운데 정도에 위치하는데요.. 2022. 11. 19.
변동계수(CV)의 의미와 계산 방법 변동계수(coefficient of variation)는 데이터를 표준화하는 방법 중 하나입니다. 계수라고 이름붙이고 표준화하는 방법이라고 하니까 말이 안 맞는 거 같은데, 한번 살펴볼께요. 변동계수가 필요한 때 어떤 데이터든 그것들의 평균이 있고, 데이터가 퍼진 정도를 나타내는 표준편차가 있습니다. 그런데 보통 평균이 크면 표준편차도 커집니다. 예를 들어 전국 서울지역 아파트 전세 보증금과, 서울지역 원룸 보증금이라는 두가지 데이터가 있다고 하죠. 당연히 아파트 전세 보증금 쪽이 비쌀 거고, 액수 차이도 확확 바뀔 겁니다. 5억짜리 전세도 있고 15억짜리 전세도 있는 반면, 원룸 보증금은 상대적으로 훨씬 작을 테니, 아파트 전세 보증금 쪽이 당연히 훨씬 많이 퍼져 있는 것처럼 보이겠죠. 하지만 아파트 .. 2022. 11. 19.
VSCode 주석 색깔 변경하기 VSCode 주석 색깔은 변경하는 방법은 settings.json 파일을 편집하는 겁니다. settings.json 을 편집할 수 있는 방법은 다음과 같습니다. 주석 색깔 변경 순서 "설정"으로 들어갑니다. 설정 페이지 상단의 "설정 검색" 에 "json"이라고 적습니다. 아래에 검색된 관련 항목을 보다 보면 "settings.json에서 편집" 이라는 항목을 클릭 json 중간에 아래의 내용을 추가합니다. "editor.tokenColorCustomizations": { "comments": "#1d9762" }, 색깔 코드는 원하시는 대로 변경하면 됩니다. 그림으로 보면 아래와 같습니다. 그림으로 알아보기 2022. 11. 19.