안녕하세요, 은서입니다!
저는 드디어 종강을 했슴니다 짝짝 ! ! ! !
비록 시험을 잘 보지는 못했지만,, 과제도 얼레벌레 냈지만,, 학점 받기가 무섭지만,, ( -̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥᷄ ω -̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥̥᷅ )
다 그런 거겠찌...
아무튼 이번 포스팅에서는 본격적인 데이터 분석에 들어가 볼 건데요!
Brightics Studio & AI 이용 꿀팁까지 준비했으니 끝까지 주목해 주세욥
그럼 시작 !_!
1. Brightics Tutorial 이용하기
저번에도 말씀드렸지만 저는 혼자 하는 데이터 분석이 처음인 왕왕데린이였기 때문에 ,,
전처리까지 마친 후에도 어떻게 분석을 해나가야 하나 정말 고민이 많았습니다
그래서 바로! 든든한 저희 베키 멘토님께 메일을 보냈고 장문의 답변을 받았답니다 눈물조ㅑㄹ조ㅑㄹ,,
멘토님 ㅅrㄹ6ㅎhYo
멘토님께서 Brightics AI 공식 홈페이지 튜토리얼을 참고해 보라는 엄청난 꿀팁을 주셨기에! 여러분께 공개하려 합니다 ㅎ.ㅎ (생색)
먼저 공식 홈페이지에 들어가 줍니다!
Brightics Studio
www.brightics.ai
공식 홈페이지에서 Documentation에 커서를 올리면 튜토리얼 메뉴가 있어요
튜토리얼 말고도 차트나 함수에 대한 설명이 자세히 나와 있으니 참고하시면 좋을 것 같습니당
튜토리얼을 누르면 오른쪽 상단에 프로그램 버전을 설정할 수 있는 창이 있어요
저는 Studio 1.1 버전을 사용하고 있으니 설정해 줍니닷
그리고 정-말 다양한 튜토리얼이 있는데요! 여기에서 본인이 하고자 하는 분석 과정을 골라 참고하시면 되는데,
두둥
공교롭게도 설문 통계 분석이 있더라구요 !
저는 요 튜토리얼을 참고해 보도록 하겠슴미다
2. 변수의 기초통계량 파악하기
먼저 변수의 기초 통계량을 파악해 볼 건데요!
이 기초 통계량을 이용하여 성별과 연령대를 기준으로 마스크 5부제에 대한 전체적인 만족도를 살펴 보겠습니다 ㅎ.ㅎ
저번에 데이터 전처리에서도 사용했던 Statistic Summary 함수를 다시 사용해 볼게요
숫자형 변수의 기초 통계값을 확인할 수 있는 함수였죠?
오늘은 이 Group by를 이용해 볼 거예요
먼저 성별을 기준으로 파악해 보기 위해 Sex 컬럼을 선택해 줬습니당
input 컬럼에는
- 5부제 시행 이전보다 마스크 구매가 쉽다
- 공평한 마스크 수급에 필요한 제도이다
- 전반적으로 만족한다
이 세 가지의 문항에 대한 답변을 추가했어요!
모든 답변은 1. 매우 그렇다 부터 5. 전혀 그렇지 않다 로 이루어져 있습니다
성별을 기준으로 평균 만족도와 분산을 살펴 볼게요
˚✧₊⁎짠⁎⁺˳✧༚
성별은 1번이 남자, 2번이 여자입니다!
먼저 easybuy ( 5부제 시행 이전보다 마스크 구매가 쉽다) 항목의 만족도 평균은
남자가 2.28, 여자가 1.94로 여자가 더 마스크 구매가 쉽다고 생각하는 경향을 보이네요!
마찬가지로 여성이 마스크 5부제를 모든 항목에서 남성보다 더 긍정적으로 평가하고 있어요 분산도 더 작고요!
같은 방법으로 연령대 별 만족도를 살펴 보겠습니다
음... 연령대 데이터는 항목이 5개로 나뉘어서 육안으로 판별하기 어려움이 있네요 ㅜ.ㅜ
그럼 세 가지 만족도 조사 항목 평균을 컬럼으로 추가해 보겠습니다!
더욱 간편해지겠죠 ?!
컬럼을 추가하는 함수로 Add Function Column을 사용했습니당
Expression Type을 SQL과 python 중 고를 수 있는데, 저는 SQL로 골랐어요!
(해 보다가 계속 안 돼서 기절할 뻔했는데 satisfied 컬럼을 satistfied로 오타를 냈더라고요...? 컬럼 이름 입력 꼭 잘 하시길,, ^_^)
이렇게 satis_mean이 추가가 되었고요
다시 Statistic Summary를 돌렸더니 아주 깔끔해졌죠?
만족도를 비교해 보니
2(30대)가 가장 높고, 5(60대 이상)이 가장 낮은 것을 확인할 수 있었습니다 XD
결과 테이블은 다양한 그래프로도 나타낼 수 있는데요
저는 PIE 그래프를 그려 보겠습니다
파이 그래프의 기준이 될 컬럼과 파이를 결정할 컬럼을 정한 뒤 돌리면
파이 그래프가 뚝딱 만들어집니다!
색깔도 손쉽게 바꿀 수 있다구욧 Brightics 체고야

이렇게 성별과 연령대를 기준으로 만족도 차이를 살펴보았습니다
그런데 이 결과들이 유의한 차이를 만들어 내고 있을까요?
3. Two-Sample T Test
먼저 easybuy, equal, satisfied 세 가지 항목이 성별이 다를 때 유의한 차이가 있는지 확인해 볼 겁니다
T-검정을 이용하려 하는데, T-검정이란 무엇일까요?
T-검정
t-검정은 두 집단 간 평균을 비교하는 통계분석 기법이다. 다시 말해 t-검정은 두 집단 간 평균 차이에 대한 통계적 유의성을 검증하는 방법이다. t-검정은 두 집단의 데이터 존재유무나 두 집단의 동일성에 따라 크게 세 가지 t-검정 기법, 즉 일표본, 독립표본, 그리고 대응표본 t-검정으로 구분할 수 있다
출처: 네이버 지식백과
쉽게 말해서 집단 간 평균에 차이가 있는지를 비교해서 검증하는 방법입니다 ㅎ.ㅎ
성별은 남성과 여성 두 집단으로 나뉘기 때문에 두 집단 간의 평균 차이를 검증하는 "독립표본 T-검정 (two sample t-test)을 진행할 거예요
t-test를 시행하기 전 귀무가설을 수립해 주겠습니다
일반적으로 t 검정의 귀무가설은 "두 집단의 평균은 차이가 없다"로 설정하는데요! 그렇다면,
"남성과 여성의 마스크 5부제에 대한 만족도는 차이가 없다"
이렇게 가설을 설정해 준 뒤 t-검정을 진행해 보겠습니닷
그런데 잠깐!
t-검정을 진행하기 전 등분산 검정을 먼저 해 주어야 합니다
분산의 동질성, 즉 등분산이 가정되어 있느냐를 먼저 파악해 줘야 하는데요!
등분산 검정은 F-검정을 이용하며, 귀무가설을 "두 집단의 분산은 같다"로 설정한 뒤 진행합니다
Brightics에서는 등분산 검정을 위해 F Test For Stacked Data 함수를 제공하고 있습니다!
하지만 번거롭게 등분산 검정을 하고 싶지 않으시다면?
바로 독립표본 T-검정 함수를 실행시켜 주셔도 되는데요!
t-test 함수 옵션에 등분산을 체크하는 메뉴가 있는데,
Auto를 선택하면 Brightics가 알아서 F-검정을 통해 적절한 t-검정 결과를 도출해 주기 때문입니다!
너무 간단해졌죠 ?!

주요 옵션은 이렇게 네 가지로 나눌 수 있겠습니다
1. Response Columns (반응 변수): 평균값을 계산해 줄 연속형 변수 -> 만족도 조사 문항의 평균인 satis_mean 컬럼을 설정했어요
2. Factor Column: 검정을 진행할 두 집단을 담은 변수 -> 성별이 기준이니 저는 sex 컬럼을 설정했어요
3. Alternatives: 가설 검증의 방법입니다! two-sided는 두 집단의 평균은 다르다(!=)를 의미해요
4. Confidence Level (신뢰수준): 기본값은 0.95로 유의수준 0.05에서 검증하게 됩니다
˚✧₊⁎짠⁎⁺˳✧༚
결과가 나왔습니다!
p-value가 유의수준인 0.05보다 매우 매우 작은 것을 보니 귀무가설을 기각할 수 있겠네요!
그렇다면 대립가설인
"남성과 여성의 마스크 5부제에 대한 만족도는 유의미한 차이가 있다"
를 채택하도록 하겠습니다 ㅎ.ㅎ
이렇게 확인된 설문 변수의 성별에 따른 차이를 바로 왼쪽! 입력 데이터에서 Box plot을 그려 확인해 볼 수도 있는데요
Box plot을 선택해 주고,
x축과 y축도 설정해 주었어요
확실히 시각화를 해 보니 차이가 있죠?
위에서 검증된 유의한 차이가 있는 만족도 평균 (satis_mean) 항목에 대해서 Box plot을 그려본 결과
남자와 여자의 median과 q1 ~ q3의 범위가 남성 쪽이 확연하게 큰 것을 확인할 수 있었습니다.
여기까지 개인미션 part.02 데이터 분석 단계였습니닷
혼자서 이것저것 서칭해 가며 분석을 하는 게 어렵긴 했지만 분석 방법이나 과정을 알아 가는 게 점점 재미있어집니다 !_!
다음 포스팅에서는 값이 여러 개인 변수를 기준으로 집단 간 유의한 차이를 도출해 보고, 상관 분석을 통해 선형적 관계까지 확인해 볼 거예요!
기대되시나요 ?

몇 주나 했다고 벌써 티스토리 포스팅이 익숙해지네욥
다른 포스팅도 올려 봐야지 *^^* (안 올림)
그럼 안농~!
본 포스팅은 삼성 SDS Brightics 서포터즈 활동의 일환으로 작성되었습니다.