안녕하세요, 은서예요 !_!
이번에는 EDA 마지막 시간!
Brightics의 최대 장점 중 하나인 시각화를 보여 드릴 수 있는 시간이 왔습니다 ㅎ.ㅎ
그리고 시각화를 하기 전에 이론 정리를 해 봄으로써 분석 방향을 설정해 보려고 합니닷
그럼 긴 말 필요없이 바로 가 보겠슴니ㄷㅏ

데이터 시각화 개요
데이터 시각화를 이용하면
자료의 유형에 맞는 그래프로 한눈에 알아볼 수 있게 자료를 시각화할 수 있습니다
그렇다면 자료의 유형은 어떤 것이 있을까요 ?
먼저 질적 자료와 양적 자료로 구분할 수 있겠습니다
이건 다들 익숙하시죠?
질적 자료는 성이나 혈액형처럼 자료의 측정이 어떤 특성의 유무에 따라 측정되는 것을 말합니다
제가 분석할 데이터셋을 예로 들면 교육 수준, 혼인 여부 등이 해당되겠죠?
양적 자료는 키, 체중 등과 같이 숫자로 측정되는 데이터를 말합니다
구매량 변수, 나이 변수 등이 해당되죠!
질적 자료는 명목형, 순서형으로 나뉘고 범주형 자료라고 부르기도 합니다
양적 자료는 이산형, 연속형 자료로 나뉘구요
이 두 가지 유형에 자료들에는 각각 적합한 시각화 방법이 있는데요!
질적 자료인 경우 1개의 변수로 나타낼 때에는 바차트, 파이차트를 주로 사용해 어떤 값들로 구성되어 있는지 살펴보고,
2개의 변수로 나타낼 때에는 히트맵, 스택드컬럼차트 등을 주로 사용해 두 변수 간에 연관성이 있는지 살펴볼 수 있습니다
반면 양적 자료인 경우 1개의 변수일 때에는 히스토그램, 박스플롯, 라인차트, QQ플롯 등을 사용해 값들의 분포를 살펴보고
2개의 변수일 경우 산점도를 많이 사용해 값들의 연관성을 살펴볼 수 있겠습니다
그럼 실제 데이터셋에 적용해 볼까요 ?!
데이터 시각화 실습
이제 제가 가진 데이터셋으로 시각화를 해 보겠습니다!
먼저 Brightics로 제 프로젝트를 불러와 줄게욧
오잉...?
제 모델을 열었더니 대부분의 박스가 빨간색 x 박스로 떠 있더라고요 ㅜ ㅜ
이게 뭔가 싶어서 검색해 보니 뭔가 오류가 있는 게 분명,,
해결 방법은 박스에 커서를 올렸을 때 뜨는 원 중 노트에 필기를 하고 있는 듯한 버튼을 누르고 함수를 바꾸는 수밖엔 없더라고요 . . .
다시 바꿔 주었습니다 (근데 빨간색 박스로 떠 있어도 Run은 잘만 돌아가더라고요???)
아무튼 ! ! 데이터 시각화를 해 보겠습니닷
먼저 가장 중요하다고 생각하는 나이 변수를 살펴볼게요
나이 변수는 연속형 자료기 때문에 히스토그램을 이용해 보겠습니다
저번 포스팅에서 Bucketizer를 진행했었던 데이터로 시각화를 진행하기 때문에 Data Source에는 함수 이름인 Bucketizer가 들어갔고,
나머지 세팅도 살피고자 하는 설정으로 맞춰 줬어요
히스토그램을 돌려 봤더니 120대에 3개의 이상치가 있더라고요...?
filter 함수를 이용해 Age가 120이 넘는 행을 추려 봤더니 이렇게 세 개의 데이터가 나왔습니다
하지만 제 판단으로 나이가 120이 넘는 경우는 매우 드문 경우기도 하고 결과에 좋지 못한 영향을 줄 것 같아
배제하기로 했어욧
이렇게 다시 filter 함수로 3개의 데이터를 걸러냈습니다
다음은 Income 변수입니다!
소득 또한 구매에 큰 영향을 미칠 거라고 생각해요
그런데 변수를 살펴보면
이런 숫자로 나와 있어서, 단위가 뭘까 생각하다가 무작위 행을 뽑아 달러로 계산해 보았더니
연봉이라는 결과를 얻었습니닷
연봉도 마찬가지로 연속형 변수기 때문에 히스토그램을 이용해 볼게요
히스토그램을 돌려 봤더니, 여기에도 이상치가 4개 존재했습니다
하지만 제 데이터셋에서 고려하는 구매 품목은
MntWines 와인
MntFruits 과일
MntMeatProducts 고기류
MntFishProducts 어류
MntSweetProducts 간식류
MntGoldProds 금품
이렇게 총 6가지인데 금품을 제외하고는 고소득자를 주 마케팅 대상으로 삼을 만한 품목이 없더라고요!
그래서 이 이상치들도 제거해 주기로 했습니다
연속형 변수들을 살펴봤으니 이번에는 명목형 변수를 살펴보도록 할게요
Marital_Status (혼인 여부) 변수입니다
명목형 변수는 파이차트를 이용해 볼게요!
이렇게 너무 예쁘게,, 차트가 나왔습니닷
이걸 보니 문득 궁금해지는 게
저는 동거인의 수가 많을수록 전체적인 소비량이 높을 것이라고 예상하고 있거든요 ! !
한번 연관성이 있는지 알아볼까요?
위 차트는 순서대로 와인, 과일, 고기, 어류의 소비량을 혼인 여부에 따라 나타낸 것입니다!
재미있는 건 모든 차트에서 Married가 가장 큰 소비량을 보였어요 결혼했을 경우 아이가 있을 확률이 높기 때문이 아닐까 싶습니다 ㅎㅎ
이번 포스팅은 여기까지입니다!
이것저것 시각화를 해 봄으로써 제가 세운 나름의 가설과 맞아떨어지는지 확인해 보는 시간이었어요 ㅎ.ㅎ
생각보다 저 혼자 하는 게 재미있네요...?
Brightics 덕분에 이렇게 또 재미를 붙여 가는... ^_^
다음 포스팅에서는 EDA를 마무리짓도록 하겠습니닷
그 뒤로도 이어질 모델링까지 기대해 주세요~!
그럼 안농

본 포스팅은 삼성 SDS Brightics 서포터즈 활동의 일환으로 작성되었습니다.
#삼성SDS #Brightics #BrighticsA#브라이틱스 #데이터분석 #데이터사이언스 #인공지능 #브라이틱스서포터즈 #EDA #데이터전처리 #서포터즈#대외활동#분석프로그램 #Xgboost #Regression #선형회귀 #Kaggle #KaggleCompetition #HousePrice #데이터시각화 #R#Rstudio#Python#SamsungSDS#삼성서포터즈#코딩#통계#iris#삼성#분석플랫폼#모델링#머신러닝#데이터분석툴#빅데이터#브라이틱스서포터즈2기#서포터즈2기#삼성SDSBrightics #BrighticsStudio #브라이틱스 #모델링 #데이터분석 #데이터 #브라이틱스서포터즈 #Brightics서포터즈 #브라이틱스다운 #모델링 #데이터시각화 #프로그램설치
#Brightics설치방법 #파이썬 #python #R #Rstudio #코딩 #코딩없이분석 #삼성SDS #삼성서포터즈 #데이터분석대외활동 #대외활동 #코딩하는법