[삼성 SDS Brightics] 개인 분석 과제 - 3. 군집 분석 (1) K-means 군집분석 / Brightics로 군집 분석 해 보기!

카테고리 없음

[삼성 SDS Brightics] 개인 분석 과제 - 3. 군집 분석 (1) K-means 군집분석 / Brightics로 군집 분석 해 보기!

은서냠냠 2021. 9. 30. 22:49

안녕하세요, 은서예요 !_!

이번 주는 드디어 군집 분석에 들어갑니닷

하지만 저는 군집 분석을 해 보는 것이 처음이기도 하고, 제대로 공부해 본 적이 없어서

이번 기회를 통해 군집 분석을 자세히 공부해 보도록 하겠습니다 !

오늘은 proDS 시험을 보고 왔는데,, 눈물이 도르륵 나네요,, ㅜ

제발 결과가 잘 나오기를

피드백 받은 사항 수정하기

저번 포스팅을 보시고 멘토님께서 정말 감사하게도 피드백을 남겨 주셨습니다 ㅎ.ㅎ

그래서 피드백 받은 부분을 먼저 수정하겠습니다

멘토님께서 말씀해 주신 부분은 두 가지였습니다!

첫 번째, <Income 변수에 로그 취하기>

멘토님께서 조언해 주시기를, 보통 수입 변수에는 로그값을 취한다고 합니다

그래서 이유가 무엇인지, 제 데이터셋에도 로그 변환을 해 줄 필요가 있는지 알아봤어요

보통 Income 변수에 로그 변환을 해 주는 이유는 데이터 편차를 줄이기 위함입니다

소득, 재산과 같은 변수는 매우 편차가 큰 데이터에 속하죠!

오른쪽으로 꼬리가 긴 분포를 가지며 정규분포를 갖기 어렵기 때문에 로그함수를 취함으로써 원활한 해석에 도움을 줄 수 있습니다

그렇다면 제 데이터셋의 Income 변수는 어떤 분포를 가지고 있는지 확인해 보겠습니다 !_!

Income 변수의 히스토그램을 보았더니 생각보다 왼쪽으로 치우쳐져 있지 않았어요!

제가 전처리 단계에서 이상치를 제거해 준 것도 도움이 되지 않았나 싶기도 합니다 ㅎ ㅎ

혹시 몰라서 log를 취한 뒤 비교해 봤더니

로그 변환을 했을 때에는 이렇게 오른쪽으로 치우쳐져 나타나더라구요

로그 변환은 패스해도 되겠다는 결론을 얻었습니다~!

두 번째, <막대그래프 Y축 sum에서 average(평균 소비량)으로 바꿔 보기>

두 번째는 제가 이전 포스팅에서 시각화를 했을 때

이렇게 막대 그래프를 그렸었는데요!

세로축이 Sum으로 설정되어 있어서 혹시 Married 변수의 데이터량 자체가 많아

총합이 항상 크게 나오는 게 아닐까 하는 멘토님의 말씀을 받았습니다

그래서 세로축을 Sum이 아닌 average로 놓고 다시 돌려 보기로 했어용

그랬더니 결과가 이렇게 나왔습니다 ! ! ! (컬럼명이 몇 개가 안 보이는데 커서를 올리면 상세한 수치와 함께 뜹니다)

전과 다르게 차이가 줄어들었네요?? 유의미한 차이가 있는지는 차차 살펴보도록 하겠습니다 ㅎ ㅎ

멘토님 감사드려요~!

군집 분석이란?

자, 이제 드디어 <군집 분석>을 본격적으로 시작해 보겠슴닷

시작하기 전에 개념 정리부터 해야겠죠?!

군집 분석 (Cluster analysis)

간의 유사도를 정의하고 그 유사도에 가까운 것부터 순서대로 합쳐 가는 방법으로, 유사도의 정의에는 거리나 상관계수 등 여러 가지가 있다. 군집 분석에는 차례대로 합쳐 가는 계층적 방법 이외에, 요인 분석 등으로 미리 군집을 예상하여 합쳐 가는 비계층적 방법도 있다.

[네이버 지식백과] 군집 분석 [cluster analysis] (실험심리학용어사전, 2008., 곽호완, 박창호, 이태연, 김문수, 진영선)

쉽게 말해서 유사한 정도에 따라 그룹을 나눈다!고 할 수 있는 데이터 분석 기법입니다

그리고 군집 분석 기법 중 저는 K-means 군집 분석을 사용해 보려고 해요 ㅎㅎ