본문 바로가기

삼성 SDS Brightics

[삼성 SDS Brightics] 개인 분석 과제 - 3. 군집 분석 (5) 제품 소비량 및 소비자 정보를 기준으로 군집 분석하기! ✧٩(ˊωˋ*)و✧

안녕하세요, 은서예요!

이번 주는 군집 분석의 결과를 해석하는 포스팅을 들고 왔습니다 ㅎ.ㅎ

지금까지는 여러 군집 분석 기법들을 이용하여 결과를 도출해 봤다면,

이번에는 그 과정을 토대로 도출된 결과를 해석해서 군집을 나누어 보겠습니다

그럼 바로 가 볼77ㅏ용 ? (⑅´•⌔•`)*✲゚*。

군집 분석 결과 해석 방법

군집 분석의 결과를 해석하기 전에!

군집 분석 결과를 해석하는 방법에 대해서 먼저 알아보고 넘어가겠습니닷

저는 최종적으로 군집 분석 방법으로 K-means clustering을 선택했죠?

K-means clustering의 군집을 나누는 기준은 바로 center points였는데요

군집 분석의 결과를 해석할 때에도 center point를 활용한다고 합니다

즉, 각 군집 별로 군집화에 사용했던 변수들의 중심 좌표를 활용하는 것이죠

그런데 K-means clustering의 결과로 도출된 중심 좌표는 제가 표준화된 변수를 사용했기 때문에

표준화 후 데이터에 대한 변수 별 평균입니다

그래서 원래 데이터의 변수 별 중심 좌표를 알고 싶다면 clustering을 마친 후 추가되는 prediction column을 기준으로

각 군집 별로 group by 하여 변수 별 평균을 구해 주면 됩니다 !!

하지만 저는 변수 별 평균을 따로 구해서 해석하기보단 평균을 이용한 그래프로 각 군집의 특성을 확인해 보도록 하겠습니다

와인 소비자 군집 분석하기

저번 포스팅부터 계속 와인의 소비량을 중점적으로 군집 분석을 진행했었죠?!

가정 내 아동 유무, 가정 내 청소년 유무 등의 변수까지 넣고 돌려 봤으나 Silhoutte 계수는 잘 나와도

이 변수들로는 군집 내 데이터들의 공통점을 발견하기가 매우 매우 힘들었습니다 ㅠ.ㅠ

그래서 이번에는 와인 소비량, 연령대, 수입 변수만 넣고 실행해 보았습니다

 

이번엔 이런 결과가 나왔는데요 !!

가장 작은 숫자인 3이 best K로 나온 적은 처음이었어요

전에 봤던 결과들과는 달리 꽤 깔끔하게 나눠진 모습 !_! 저만 그렇게 느끼나요?

바로 여러 그래프를 만들어서 살펴보았습니닷

먼저 각 군집의 데이터 수를 확인해 봤어욧

0 군집은 334개, 1 군집은 596개, 2 군집은 613개입니다

다음은 연령대로 stacked column 차트를 그려 보았습니다

x축인 prediction이 군집 분석을 실행한 결과인데요!

연령대에 따라 색깔이 다르게 쌓이는 모습을 볼 수 있는데

0 집단은 30-40대가 주를 이루고 있고,

1 집단은 모든 연령대가 분포해 있으며 2 집단은 50-60대가 주를 이루고 있습니다

0 집단과 2 집단이 크게 대조되는 모습을 확인할 수 있었어요

 

곧바로 와인 소비량으로 파이차트를 그려 봤더니,

집단 0과 2는 평균 소비량이 비슷한 반면 집단 1은 현저하게 낮은 모양을 확인할 수 있었습니다

수입 변수도 box plot을 그려 확인해 보았습니다

그런데 특이한 점이 1 집단이 0 집단보다 훨씬 수가 적은데도 평균 수입이 가장 높더라고요

주 연령대가 20-30대인데도요!

그래서 이를 자세히 살펴보기 위해 filter 함수로 0 집단만 걸러 주었습니다

Income 변수로 히스토그램을 그려 보았더니 박스플롯에서도 알 수 있다시피 이상치가 있어 평균이 높게 나오는 것이 아니라

종 모양을 띄고 있는 것이 0 집단 자체의 평균 수입이 꽤 높은 걸로 판단되었습니다

신기한데요...?!

그럼 지금까지의 분석 결과를 정리해 보면

집단 0: 연령대가 낮고 (20-40대) 수입이 높으며 와인 소비량이 높은 집단

집단 1: 수입이 낮으며 와인 소비량이 낮은 집단

집단 2: 연령대가 높고 (50-70대) 수입이 높으며 와인 소비량이 높은 집단

이렇게 정리할 수 있겠습니다!

분석에 들어가기 전에 막연하게 수입이 높으면 와인 소비량이 높지 않을까 추측했었는데

평균 수입에 따라 군집이 달라진 결과가 나오니 정말 신기하네요!!!

이게 다- Brightics 덕분 ^_____^


오늘은 드디어 수많은 고민 끝에 군집 분석을 마무리하고 있습니다 . . . !

하지만 아직 마지막 포스팅이 남았다는 점 !!

오늘의 결과를 바탕으로 조금 더 다양한 해석을 해 볼 예정이니까

마지막 포스팅까지 쭈욱 지켜봐 주세용

그럼 안농~!

본 포스팅은 삼성 SDS Brightics 서포터즈 활동의 일환으로 작성되었습니다.

#삼성SDS #Brightics #BrighticsAI #브라이틱스 #데이터분석 #데이터사이언스 #인공지능 #브라이틱스서포터 #EDA #군집분석 #서포터즈#대외활동#분석프로그램 #meanshift #Clustering #Silhouette계수 #Kaggle #KaggleCompetition #K-means #Normalization #데이터시각화 #R#Rstudio#Python#SamsungSDS#삼성서포터즈#코딩#통계#iris#삼성#분석플랫폼#모델링#머신러닝#데이터분석툴#빅데이터#브라이틱스서포터즈2기#서포터즈2기#삼성SDSBrightics #BrighticsStudio #브라이틱스 #모델링 #데이터분석 #데이터 #브라이틱스서포터즈 #Brightics서포터즈 #브라이틱스다운 #모델링 #데이터시각화 #프로그램설치

#Brightics설치방법 #파이썬 #python #R #Rstudio #코딩 #코딩없이분석 #삼성SDS #삼성서포터즈 #데이터분석대외활동 #대외활동 #코딩하는법